tiny-bert-sst2-distilled / run-8 /checkpoint-642 /trainer_state.json

xuancoblab2023

Training in progress, epoch 1

4ba36ab verified 10 months ago

2.34 kB

	{
	"best_metric": 0.7094317516110135,
	"best_model_checkpoint": "tiny-bert-sst2-distilled/run-8/checkpoint-642",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 642,
	"is_hyper_param_search": true,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 3.8868563175201416,
	"learning_rate": 0.00018706603069859162,
	"loss": 0.3842,
	"step": 214
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.6848271821909784,
	"eval_f1": 0.1487341772151899,
	"eval_loss": 0.3658275604248047,
	"eval_mcc": 0.17137932324690125,
	"eval_precision": 0.746031746031746,
	"eval_recall": 0.08260105448154657,
	"eval_runtime": 3.1455,
	"eval_samples_per_second": 542.68,
	"eval_steps_per_second": 17.167,
	"step": 214
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.3482353687286377,
	"learning_rate": 0.0001247106871323944,
	"loss": 0.3585,
	"step": 428
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.6877562975981254,
	"eval_f1": 0.14446227929373995,
	"eval_loss": 0.35682281851768494,
	"eval_mcc": 0.19170644527903724,
	"eval_precision": 0.8333333333333334,
	"eval_recall": 0.07908611599297012,
	"eval_runtime": 3.1465,
	"eval_samples_per_second": 542.514,
	"eval_steps_per_second": 17.162,
	"step": 428
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.6936368942260742,
	"learning_rate": 6.23553435661972e-05,
	"loss": 0.3507,
	"step": 642
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.7094317516110135,
	"eval_f1": 0.2811594202898551,
	"eval_loss": 0.3534710705280304,
	"eval_mcc": 0.27440350027007715,
	"eval_precision": 0.8016528925619835,
	"eval_recall": 0.1704745166959578,
	"eval_runtime": 3.1505,
	"eval_samples_per_second": 541.819,
	"eval_steps_per_second": 17.14,
	"step": 642
	}
	],
	"logging_steps": 500,
	"max_steps": 856,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"total_flos": 1574326993320.0,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": {
	"alpha": 0.6014075049725551,
	"learning_rate": 0.0002494213742647888,
	"num_train_epochs": 4,
	"temperature": 26
	}
	}