mms-1b-swagen-combined-15hrs-model / trainer_state.json

End of training

c990fe5 verified about 2 months ago

6.89 kB

	{
	"best_metric": 0.2293323278427124,
	"best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-swagen-combined-15hrs-model/checkpoint-900",
	"epoch": 1.035870864886409,
	"eval_steps": 100,
	"global_step": 1300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07971303308090873,
	"grad_norm": 4.197810173034668,
	"learning_rate": 0.000279,
	"loss": 14.8801,
	"step": 100
	},
	{
	"epoch": 0.07971303308090873,
	"eval_loss": 0.7376943230628967,
	"eval_runtime": 64.6778,
	"eval_samples_per_second": 17.502,
	"eval_steps_per_second": 4.376,
	"eval_wer": 0.44259038537941997,
	"step": 100
	},
	{
	"epoch": 0.15942606616181745,
	"grad_norm": 4.988656997680664,
	"learning_rate": 0.0002992563965884861,
	"loss": 0.6766,
	"step": 200
	},
	{
	"epoch": 0.15942606616181745,
	"eval_loss": 0.2687693238258362,
	"eval_runtime": 64.5932,
	"eval_samples_per_second": 17.525,
	"eval_steps_per_second": 4.381,
	"eval_wer": 0.20063567739372268,
	"step": 200
	},
	{
	"epoch": 0.2391390992427262,
	"grad_norm": 3.365363836288452,
	"learning_rate": 0.0002984568230277185,
	"loss": 0.5153,
	"step": 300
	},
	{
	"epoch": 0.2391390992427262,
	"eval_loss": 0.24840499460697174,
	"eval_runtime": 64.6789,
	"eval_samples_per_second": 17.502,
	"eval_steps_per_second": 4.375,
	"eval_wer": 0.19745729042510926,
	"step": 300
	},
	{
	"epoch": 0.3188521323236349,
	"grad_norm": 2.4677116870880127,
	"learning_rate": 0.00029765724946695095,
	"loss": 0.526,
	"step": 400
	},
	{
	"epoch": 0.3188521323236349,
	"eval_loss": 0.23976168036460876,
	"eval_runtime": 64.8543,
	"eval_samples_per_second": 17.455,
	"eval_steps_per_second": 4.364,
	"eval_wer": 0.19487485101311083,
	"step": 400
	},
	{
	"epoch": 0.3985651654045436,
	"grad_norm": 3.4616479873657227,
	"learning_rate": 0.0002968576759061834,
	"loss": 0.4874,
	"step": 500
	},
	{
	"epoch": 0.3985651654045436,
	"eval_loss": 0.23978756368160248,
	"eval_runtime": 65.3676,
	"eval_samples_per_second": 17.317,
	"eval_steps_per_second": 4.329,
	"eval_wer": 0.19576877234803336,
	"step": 500
	},
	{
	"epoch": 0.4782781984854524,
	"grad_norm": 1.9864723682403564,
	"learning_rate": 0.00029605810234541576,
	"loss": 0.4666,
	"step": 600
	},
	{
	"epoch": 0.4782781984854524,
	"eval_loss": 0.2357860654592514,
	"eval_runtime": 64.7957,
	"eval_samples_per_second": 17.47,
	"eval_steps_per_second": 4.368,
	"eval_wer": 0.19090186730234407,
	"step": 600
	},
	{
	"epoch": 0.5579912315663611,
	"grad_norm": 2.5512609481811523,
	"learning_rate": 0.00029525852878464813,
	"loss": 0.4406,
	"step": 700
	},
	{
	"epoch": 0.5579912315663611,
	"eval_loss": 0.2390868365764618,
	"eval_runtime": 64.7802,
	"eval_samples_per_second": 17.474,
	"eval_steps_per_second": 4.369,
	"eval_wer": 0.194378228049265,
	"step": 700
	},
	{
	"epoch": 0.6377042646472698,
	"grad_norm": 6.3221330642700195,
	"learning_rate": 0.00029445895522388056,
	"loss": 0.4689,
	"step": 800
	},
	{
	"epoch": 0.6377042646472698,
	"eval_loss": 0.23335325717926025,
	"eval_runtime": 64.7754,
	"eval_samples_per_second": 17.476,
	"eval_steps_per_second": 4.369,
	"eval_wer": 0.19259038537941994,
	"step": 800
	},
	{
	"epoch": 0.7174172977281785,
	"grad_norm": 2.1293585300445557,
	"learning_rate": 0.000293659381663113,
	"loss": 0.462,
	"step": 900
	},
	{
	"epoch": 0.7174172977281785,
	"eval_loss": 0.2293323278427124,
	"eval_runtime": 65.6055,
	"eval_samples_per_second": 17.255,
	"eval_steps_per_second": 4.314,
	"eval_wer": 0.19268970997218912,
	"step": 900
	},
	{
	"epoch": 0.7971303308090872,
	"grad_norm": 6.672135353088379,
	"learning_rate": 0.00029285980810234537,
	"loss": 0.4407,
	"step": 1000
	},
	{
	"epoch": 0.7971303308090872,
	"eval_loss": 0.22934316098690033,
	"eval_runtime": 65.0636,
	"eval_samples_per_second": 17.398,
	"eval_steps_per_second": 4.35,
	"eval_wer": 0.19308700834326578,
	"step": 1000
	},
	{
	"epoch": 0.8768433638899961,
	"grad_norm": 7.573569297790527,
	"learning_rate": 0.0002920602345415778,
	"loss": 0.4567,
	"step": 1100
	},
	{
	"epoch": 0.8768433638899961,
	"eval_loss": 0.22979336977005005,
	"eval_runtime": 65.234,
	"eval_samples_per_second": 17.353,
	"eval_steps_per_second": 4.338,
	"eval_wer": 0.19278903456495827,
	"step": 1100
	},
	{
	"epoch": 0.9565563969709048,
	"grad_norm": 2.2756216526031494,
	"learning_rate": 0.00029126066098081023,
	"loss": 0.4711,
	"step": 1200
	},
	{
	"epoch": 0.9565563969709048,
	"eval_loss": 0.23050223290920258,
	"eval_runtime": 65.3786,
	"eval_samples_per_second": 17.315,
	"eval_steps_per_second": 4.329,
	"eval_wer": 0.19715931664680175,
	"step": 1200
	},
	{
	"epoch": 1.035870864886409,
	"grad_norm": 1.712958574295044,
	"learning_rate": 0.0002904610874200426,
	"loss": 0.4444,
	"step": 1300
	},
	{
	"epoch": 1.035870864886409,
	"eval_loss": 0.23069703578948975,
	"eval_runtime": 66.0724,
	"eval_samples_per_second": 17.133,
	"eval_steps_per_second": 4.283,
	"eval_wer": 0.19288835915772745,
	"step": 1300
	},
	{
	"epoch": 1.035870864886409,
	"step": 1300,
	"total_flos": 5.341353862310001e+18,
	"train_loss": 1.5951181411743165,
	"train_runtime": 2475.2222,
	"train_samples_per_second": 121.638,
	"train_steps_per_second": 15.199
	}
	],
	"logging_steps": 100,
	"max_steps": 37620,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 30,
	"save_steps": 400,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 4,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 3
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.341353862310001e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}