m2m100_418M_it_informal

This model is a fine-tuned version of facebook/m2m100_418M on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 2e-05
train_batch_size: 32
eval_batch_size: 8
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 3.0

Training Loss	Epoch	Step	Validation Loss	Bleu
4.1233	0.3663	500	0.4201	35.4888
0.3905	0.7326	1000	0.3485	40.6806
0.3507	1.0989	1500	0.3352	42.5255
0.3211	1.4652	2000	0.3289	43.5631
0.3107	1.8315	2500	0.3235	44.3379
0.2941	2.1978	3000	0.3211	44.7250
0.2802	2.5641	3500	0.3187	44.9884
0.2815	2.9304	4000	0.3171	45.2089