xuancoblab2023
/

tiny-bert-sst2-distilled

Text Classification

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

tiny-bert-sst2-distilled / run-27 /checkpoint-156 /trainer_state.json

xuancoblab2023's picture

Training in progress, epoch 1

33b4607 verified 12 months ago

2.25 kB

	{
	"best_metric": 0.7778864970645792,
	"best_model_checkpoint": "tiny-bert-sst2-distilled/run-27/checkpoint-156",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 156,
	"is_hyper_param_search": true,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 3.795090675354004,
	"learning_rate": 0.0004299539034695828,
	"loss": 0.5539,
	"step": 52
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7397260273972602,
	"eval_f1": 0.7779632721202002,
	"eval_loss": 0.49282991886138916,
	"eval_precision": 0.6783114992721979,
	"eval_recall": 0.9119373776908023,
	"eval_runtime": 28.2474,
	"eval_samples_per_second": 36.18,
	"eval_steps_per_second": 1.133,
	"step": 52
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.3241050243377686,
	"learning_rate": 0.0003582949195579857,
	"loss": 0.4958,
	"step": 104
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.776908023483366,
	"eval_f1": 0.8074324324324325,
	"eval_loss": 0.4643081724643707,
	"eval_precision": 0.7102526002971769,
	"eval_recall": 0.9354207436399217,
	"eval_runtime": 28.4313,
	"eval_samples_per_second": 35.946,
	"eval_steps_per_second": 1.126,
	"step": 104
	},
	{
	"epoch": 3.0,
	"grad_norm": 2.4190268516540527,
	"learning_rate": 0.00028663593564638853,
	"loss": 0.4714,
	"step": 156
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.7778864970645792,
	"eval_f1": 0.8090832632464255,
	"eval_loss": 0.4609759449958801,
	"eval_precision": 0.7094395280235988,
	"eval_recall": 0.9412915851272016,
	"eval_runtime": 28.809,
	"eval_samples_per_second": 35.475,
	"eval_steps_per_second": 1.111,
	"step": 156
	}
	],
	"logging_steps": 500,
	"max_steps": 364,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 7,
	"save_steps": 500,
	"total_flos": 707085591840.0,
	"train_batch_size": 59,
	"trial_name": null,
	"trial_params": {
	"alpha": 0.845201757467621,
	"learning_rate": 0.00050161288738118,
	"num_train_epochs": 7,
	"per_device_train_batch_size": 59,
	"temperature": 21
	}
	}