gokuls
/

mobilebert_add_GLUE_Experiment_logit_kd_sst2_256

Text Classification

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

mobilebert_add_GLUE_Experiment_logit_kd_sst2_256 / trainer_state.json

gokuls's picture

End of training

3fa246b about 2 years ago

history blame contribute delete

4.49 kB

	{
	"best_metric": 1.2641148567199707,
	"best_model_checkpoint": "mobilebert_add_GLUE_Experiment_logit_kd_sst2_256/checkpoint-3162",
	"epoch": 11.0,
	"global_step": 5797,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"learning_rate": 4.9e-05,
	"loss": 1.5438,
	"step": 527
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.5814220183486238,
	"eval_loss": 1.4011807441711426,
	"eval_runtime": 1.9244,
	"eval_samples_per_second": 453.117,
	"eval_steps_per_second": 3.637,
	"step": 527
	},
	{
	"epoch": 2.0,
	"learning_rate": 4.8e-05,
	"loss": 1.364,
	"step": 1054
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.5412844036697247,
	"eval_loss": 1.5474371910095215,
	"eval_runtime": 1.9252,
	"eval_samples_per_second": 452.943,
	"eval_steps_per_second": 3.636,
	"step": 1054
	},
	{
	"epoch": 3.0,
	"learning_rate": 4.7e-05,
	"loss": 1.2907,
	"step": 1581
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.5642201834862385,
	"eval_loss": 1.5137693881988525,
	"eval_runtime": 1.9325,
	"eval_samples_per_second": 451.237,
	"eval_steps_per_second": 3.622,
	"step": 1581
	},
	{
	"epoch": 4.0,
	"learning_rate": 4.600000000000001e-05,
	"loss": 1.257,
	"step": 2108
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.5665137614678899,
	"eval_loss": 1.4408754110336304,
	"eval_runtime": 1.9137,
	"eval_samples_per_second": 455.672,
	"eval_steps_per_second": 3.658,
	"step": 2108
	},
	{
	"epoch": 5.0,
	"learning_rate": 4.5e-05,
	"loss": 1.2417,
	"step": 2635
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.5928899082568807,
	"eval_loss": 1.4473283290863037,
	"eval_runtime": 1.9221,
	"eval_samples_per_second": 453.677,
	"eval_steps_per_second": 3.642,
	"step": 2635
	},
	{
	"epoch": 6.0,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 1.2056,
	"step": 3162
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.7075688073394495,
	"eval_loss": 1.2641148567199707,
	"eval_runtime": 2.067,
	"eval_samples_per_second": 421.868,
	"eval_steps_per_second": 3.387,
	"step": 3162
	},
	{
	"epoch": 7.0,
	"learning_rate": 4.3e-05,
	"loss": 0.6274,
	"step": 3689
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.4908256880733945,
	"eval_loss": NaN,
	"eval_runtime": 1.9207,
	"eval_samples_per_second": 453.996,
	"eval_steps_per_second": 3.644,
	"step": 3689
	},
	{
	"epoch": 8.0,
	"learning_rate": 4.2e-05,
	"loss": 0.0,
	"step": 4216
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.4908256880733945,
	"eval_loss": NaN,
	"eval_runtime": 1.9183,
	"eval_samples_per_second": 454.57,
	"eval_steps_per_second": 3.649,
	"step": 4216
	},
	{
	"epoch": 9.0,
	"learning_rate": 4.1e-05,
	"loss": 0.0,
	"step": 4743
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.4908256880733945,
	"eval_loss": NaN,
	"eval_runtime": 1.917,
	"eval_samples_per_second": 454.883,
	"eval_steps_per_second": 3.652,
	"step": 4743
	},
	{
	"epoch": 10.0,
	"learning_rate": 4e-05,
	"loss": 0.0,
	"step": 5270
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.4908256880733945,
	"eval_loss": NaN,
	"eval_runtime": 1.9509,
	"eval_samples_per_second": 446.978,
	"eval_steps_per_second": 3.588,
	"step": 5270
	},
	{
	"epoch": 11.0,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 0.0,
	"step": 5797
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.4908256880733945,
	"eval_loss": NaN,
	"eval_runtime": 1.9254,
	"eval_samples_per_second": 452.883,
	"eval_steps_per_second": 3.636,
	"step": 5797
	},
	{
	"epoch": 11.0,
	"step": 5797,
	"total_flos": 1.9095284072054784e+16,
	"train_loss": 0.7754758815426487,
	"train_runtime": 4341.2127,
	"train_samples_per_second": 775.693,
	"train_steps_per_second": 6.07
	}
	],
	"max_steps": 26350,
	"num_train_epochs": 50,
	"total_flos": 1.9095284072054784e+16,
	"trial_name": null,
	"trial_params": null
	}