videomae-base-finetuned-elderf1 / trainer_state.json

End of training

cec16d1 verified 10 months ago

15.1 kB

	{
	"best_metric": 0.34081346423562414,
	"best_model_checkpoint": "videomae-base-finetuned-elderf1/checkpoint-73",
	"epoch": 9.0875,
	"eval_steps": 500,
	"global_step": 720,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 4.3531270027160645,
	"learning_rate": 0.0001388888888888889,
	"loss": 1.7775,
	"step": 10
	},
	{
	"epoch": 0.03,
	"grad_norm": 5.537198543548584,
	"learning_rate": 0.0002777777777777778,
	"loss": 1.6877,
	"step": 20
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.151556968688965,
	"learning_rate": 0.0004166666666666667,
	"loss": 1.7997,
	"step": 30
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.214244365692139,
	"learning_rate": 0.0005555555555555556,
	"loss": 1.8051,
	"step": 40
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.6136474609375,
	"learning_rate": 0.0006944444444444445,
	"loss": 1.7065,
	"step": 50
	},
	{
	"epoch": 0.08,
	"grad_norm": 5.423031330108643,
	"learning_rate": 0.0008333333333333334,
	"loss": 1.7922,
	"step": 60
	},
	{
	"epoch": 0.1,
	"grad_norm": 3.5037877559661865,
	"learning_rate": 0.0009722222222222222,
	"loss": 1.7358,
	"step": 70
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 0.34081346423562414,
	"eval_loss": 1.692335844039917,
	"eval_runtime": 379.7283,
	"eval_samples_per_second": 3.755,
	"eval_steps_per_second": 0.237,
	"step": 73
	},
	{
	"epoch": 1.01,
	"grad_norm": 3.8850014209747314,
	"learning_rate": 0.0009876543209876543,
	"loss": 1.7738,
	"step": 80
	},
	{
	"epoch": 1.02,
	"grad_norm": 6.418526649475098,
	"learning_rate": 0.0009722222222222222,
	"loss": 1.8192,
	"step": 90
	},
	{
	"epoch": 1.04,
	"grad_norm": 6.298271179199219,
	"learning_rate": 0.0009567901234567902,
	"loss": 1.7833,
	"step": 100
	},
	{
	"epoch": 1.05,
	"grad_norm": 4.652337551116943,
	"learning_rate": 0.000941358024691358,
	"loss": 1.7534,
	"step": 110
	},
	{
	"epoch": 1.07,
	"grad_norm": 3.369626522064209,
	"learning_rate": 0.000925925925925926,
	"loss": 1.7376,
	"step": 120
	},
	{
	"epoch": 1.08,
	"grad_norm": 2.182107448577881,
	"learning_rate": 0.0009104938271604939,
	"loss": 1.6406,
	"step": 130
	},
	{
	"epoch": 1.09,
	"grad_norm": 3.763148069381714,
	"learning_rate": 0.0008950617283950618,
	"loss": 1.7163,
	"step": 140
	},
	{
	"epoch": 1.1,
	"eval_accuracy": 0.3373071528751753,
	"eval_loss": 1.66623854637146,
	"eval_runtime": 421.0248,
	"eval_samples_per_second": 3.387,
	"eval_steps_per_second": 0.214,
	"step": 146
	},
	{
	"epoch": 2.01,
	"grad_norm": 4.109099864959717,
	"learning_rate": 0.0008796296296296296,
	"loss": 1.6734,
	"step": 150
	},
	{
	"epoch": 2.02,
	"grad_norm": 3.7187507152557373,
	"learning_rate": 0.0008641975308641975,
	"loss": 1.7535,
	"step": 160
	},
	{
	"epoch": 2.03,
	"grad_norm": 2.9596164226531982,
	"learning_rate": 0.0008487654320987654,
	"loss": 1.7282,
	"step": 170
	},
	{
	"epoch": 2.05,
	"grad_norm": 5.126859188079834,
	"learning_rate": 0.0008333333333333334,
	"loss": 1.7021,
	"step": 180
	},
	{
	"epoch": 2.06,
	"grad_norm": 2.36877703666687,
	"learning_rate": 0.0008179012345679012,
	"loss": 1.6977,
	"step": 190
	},
	{
	"epoch": 2.08,
	"grad_norm": 4.42868185043335,
	"learning_rate": 0.0008024691358024692,
	"loss": 1.6882,
	"step": 200
	},
	{
	"epoch": 2.09,
	"grad_norm": 3.4869942665100098,
	"learning_rate": 0.0007870370370370372,
	"loss": 1.7018,
	"step": 210
	},
	{
	"epoch": 2.1,
	"eval_accuracy": 0.34081346423562414,
	"eval_loss": 1.6378456354141235,
	"eval_runtime": 423.5487,
	"eval_samples_per_second": 3.367,
	"eval_steps_per_second": 0.212,
	"step": 219
	},
	{
	"epoch": 3.0,
	"grad_norm": 3.7394754886627197,
	"learning_rate": 0.0007716049382716049,
	"loss": 1.7356,
	"step": 220
	},
	{
	"epoch": 3.02,
	"grad_norm": 1.3488916158676147,
	"learning_rate": 0.0007561728395061729,
	"loss": 1.7024,
	"step": 230
	},
	{
	"epoch": 3.03,
	"grad_norm": 3.196521282196045,
	"learning_rate": 0.0007407407407407407,
	"loss": 1.7094,
	"step": 240
	},
	{
	"epoch": 3.04,
	"grad_norm": 3.9984352588653564,
	"learning_rate": 0.0007253086419753087,
	"loss": 1.6481,
	"step": 250
	},
	{
	"epoch": 3.06,
	"grad_norm": 3.6886866092681885,
	"learning_rate": 0.0007098765432098766,
	"loss": 1.652,
	"step": 260
	},
	{
	"epoch": 3.07,
	"grad_norm": 2.245149850845337,
	"learning_rate": 0.0006944444444444445,
	"loss": 1.7479,
	"step": 270
	},
	{
	"epoch": 3.08,
	"grad_norm": 4.62326192855835,
	"learning_rate": 0.0006790123456790124,
	"loss": 1.7129,
	"step": 280
	},
	{
	"epoch": 3.1,
	"grad_norm": 4.474867343902588,
	"learning_rate": 0.0006635802469135802,
	"loss": 1.7334,
	"step": 290
	},
	{
	"epoch": 3.1,
	"eval_accuracy": 0.34011220196353437,
	"eval_loss": 1.6562532186508179,
	"eval_runtime": 383.4418,
	"eval_samples_per_second": 3.719,
	"eval_steps_per_second": 0.235,
	"step": 292
	},
	{
	"epoch": 4.01,
	"grad_norm": 1.4795947074890137,
	"learning_rate": 0.0006481481481481481,
	"loss": 1.7427,
	"step": 300
	},
	{
	"epoch": 4.03,
	"grad_norm": 2.173116683959961,
	"learning_rate": 0.0006327160493827161,
	"loss": 1.6894,
	"step": 310
	},
	{
	"epoch": 4.04,
	"grad_norm": 2.731816291809082,
	"learning_rate": 0.0006172839506172839,
	"loss": 1.6818,
	"step": 320
	},
	{
	"epoch": 4.05,
	"grad_norm": 2.120103120803833,
	"learning_rate": 0.0006018518518518519,
	"loss": 1.6782,
	"step": 330
	},
	{
	"epoch": 4.07,
	"grad_norm": 3.7916502952575684,
	"learning_rate": 0.0005864197530864199,
	"loss": 1.7388,
	"step": 340
	},
	{
	"epoch": 4.08,
	"grad_norm": 2.852003812789917,
	"learning_rate": 0.0005709876543209876,
	"loss": 1.7422,
	"step": 350
	},
	{
	"epoch": 4.09,
	"grad_norm": 6.300606727600098,
	"learning_rate": 0.0005555555555555556,
	"loss": 1.672,
	"step": 360
	},
	{
	"epoch": 4.1,
	"eval_accuracy": 0.23983169705469845,
	"eval_loss": 1.6567574739456177,
	"eval_runtime": 310.9306,
	"eval_samples_per_second": 4.586,
	"eval_steps_per_second": 0.289,
	"step": 365
	},
	{
	"epoch": 5.01,
	"grad_norm": 5.469892501831055,
	"learning_rate": 0.0005401234567901234,
	"loss": 1.6958,
	"step": 370
	},
	{
	"epoch": 5.02,
	"grad_norm": 3.4026269912719727,
	"learning_rate": 0.0005246913580246914,
	"loss": 1.7383,
	"step": 380
	},
	{
	"epoch": 5.03,
	"grad_norm": 2.7335870265960693,
	"learning_rate": 0.0005092592592592593,
	"loss": 1.6763,
	"step": 390
	},
	{
	"epoch": 5.05,
	"grad_norm": 4.079995155334473,
	"learning_rate": 0.0004938271604938272,
	"loss": 1.693,
	"step": 400
	},
	{
	"epoch": 5.06,
	"grad_norm": 2.8691930770874023,
	"learning_rate": 0.0004783950617283951,
	"loss": 1.7293,
	"step": 410
	},
	{
	"epoch": 5.08,
	"grad_norm": 2.4010772705078125,
	"learning_rate": 0.000462962962962963,
	"loss": 1.6812,
	"step": 420
	},
	{
	"epoch": 5.09,
	"grad_norm": 4.233634948730469,
	"learning_rate": 0.0004475308641975309,
	"loss": 1.7095,
	"step": 430
	},
	{
	"epoch": 5.1,
	"eval_accuracy": 0.3387096774193548,
	"eval_loss": 1.6313395500183105,
	"eval_runtime": 306.7441,
	"eval_samples_per_second": 4.649,
	"eval_steps_per_second": 0.293,
	"step": 438
	},
	{
	"epoch": 6.0,
	"grad_norm": 2.844386100769043,
	"learning_rate": 0.00043209876543209873,
	"loss": 1.6502,
	"step": 440
	},
	{
	"epoch": 6.02,
	"grad_norm": 3.7761685848236084,
	"learning_rate": 0.0004166666666666667,
	"loss": 1.6892,
	"step": 450
	},
	{
	"epoch": 6.03,
	"grad_norm": 2.8903658390045166,
	"learning_rate": 0.0004012345679012346,
	"loss": 1.6006,
	"step": 460
	},
	{
	"epoch": 6.04,
	"grad_norm": 2.548739194869995,
	"learning_rate": 0.00038580246913580245,
	"loss": 1.7113,
	"step": 470
	},
	{
	"epoch": 6.06,
	"grad_norm": 3.1980948448181152,
	"learning_rate": 0.00037037037037037035,
	"loss": 1.7259,
	"step": 480
	},
	{
	"epoch": 6.07,
	"grad_norm": 3.119049549102783,
	"learning_rate": 0.0003549382716049383,
	"loss": 1.6634,
	"step": 490
	},
	{
	"epoch": 6.09,
	"grad_norm": 3.465067148208618,
	"learning_rate": 0.0003395061728395062,
	"loss": 1.71,
	"step": 500
	},
	{
	"epoch": 6.1,
	"grad_norm": 1.507797122001648,
	"learning_rate": 0.00032407407407407406,
	"loss": 1.7119,
	"step": 510
	},
	{
	"epoch": 6.1,
	"eval_accuracy": 0.34081346423562414,
	"eval_loss": 1.6309115886688232,
	"eval_runtime": 295.3653,
	"eval_samples_per_second": 4.828,
	"eval_steps_per_second": 0.305,
	"step": 511
	},
	{
	"epoch": 7.01,
	"grad_norm": 1.939512848854065,
	"learning_rate": 0.00030864197530864197,
	"loss": 1.6486,
	"step": 520
	},
	{
	"epoch": 7.03,
	"grad_norm": 2.4698586463928223,
	"learning_rate": 0.00029320987654320993,
	"loss": 1.6754,
	"step": 530
	},
	{
	"epoch": 7.04,
	"grad_norm": 1.9678858518600464,
	"learning_rate": 0.0002777777777777778,
	"loss": 1.6025,
	"step": 540
	},
	{
	"epoch": 7.05,
	"grad_norm": 3.6356217861175537,
	"learning_rate": 0.0002623456790123457,
	"loss": 1.6792,
	"step": 550
	},
	{
	"epoch": 7.07,
	"grad_norm": 2.781039237976074,
	"learning_rate": 0.0002469135802469136,
	"loss": 1.7165,
	"step": 560
	},
	{
	"epoch": 7.08,
	"grad_norm": 4.021714687347412,
	"learning_rate": 0.0002314814814814815,
	"loss": 1.6836,
	"step": 570
	},
	{
	"epoch": 7.1,
	"grad_norm": 4.392849922180176,
	"learning_rate": 0.00021604938271604937,
	"loss": 1.6981,
	"step": 580
	},
	{
	"epoch": 7.1,
	"eval_accuracy": 0.3288920056100982,
	"eval_loss": 1.6518133878707886,
	"eval_runtime": 319.5699,
	"eval_samples_per_second": 4.462,
	"eval_steps_per_second": 0.282,
	"step": 584
	},
	{
	"epoch": 8.01,
	"grad_norm": 2.291691303253174,
	"learning_rate": 0.0002006172839506173,
	"loss": 1.6548,
	"step": 590
	},
	{
	"epoch": 8.02,
	"grad_norm": 4.06191873550415,
	"learning_rate": 0.00018518518518518518,
	"loss": 1.5957,
	"step": 600
	},
	{
	"epoch": 8.04,
	"grad_norm": 3.735381603240967,
	"learning_rate": 0.0001697530864197531,
	"loss": 1.6757,
	"step": 610
	},
	{
	"epoch": 8.05,
	"grad_norm": 3.7696151733398438,
	"learning_rate": 0.00015432098765432098,
	"loss": 1.6349,
	"step": 620
	},
	{
	"epoch": 8.06,
	"grad_norm": 2.210860013961792,
	"learning_rate": 0.0001388888888888889,
	"loss": 1.7561,
	"step": 630
	},
	{
	"epoch": 8.08,
	"grad_norm": 2.812994956970215,
	"learning_rate": 0.0001234567901234568,
	"loss": 1.6331,
	"step": 640
	},
	{
	"epoch": 8.09,
	"grad_norm": 3.606325626373291,
	"learning_rate": 0.00010802469135802468,
	"loss": 1.7066,
	"step": 650
	},
	{
	"epoch": 8.1,
	"eval_accuracy": 0.33099579242636745,
	"eval_loss": 1.6313475370407104,
	"eval_runtime": 304.3275,
	"eval_samples_per_second": 4.686,
	"eval_steps_per_second": 0.296,
	"step": 657
	},
	{
	"epoch": 9.0,
	"grad_norm": 2.993828296661377,
	"learning_rate": 9.259259259259259e-05,
	"loss": 1.6485,
	"step": 660
	},
	{
	"epoch": 9.02,
	"grad_norm": 1.9592925310134888,
	"learning_rate": 7.716049382716049e-05,
	"loss": 1.6776,
	"step": 670
	},
	{
	"epoch": 9.03,
	"grad_norm": 3.105025291442871,
	"learning_rate": 6.17283950617284e-05,
	"loss": 1.6466,
	"step": 680
	},
	{
	"epoch": 9.05,
	"grad_norm": 3.643643856048584,
	"learning_rate": 4.6296296296296294e-05,
	"loss": 1.6544,
	"step": 690
	},
	{
	"epoch": 9.06,
	"grad_norm": 2.5237057209014893,
	"learning_rate": 3.08641975308642e-05,
	"loss": 1.6616,
	"step": 700
	},
	{
	"epoch": 9.07,
	"grad_norm": 3.834527015686035,
	"learning_rate": 1.54320987654321e-05,
	"loss": 1.6271,
	"step": 710
	},
	{
	"epoch": 9.09,
	"grad_norm": 1.777999997138977,
	"learning_rate": 0.0,
	"loss": 1.6476,
	"step": 720
	},
	{
	"epoch": 9.09,
	"eval_accuracy": 0.3288920056100982,
	"eval_loss": 1.6337770223617554,
	"eval_runtime": 340.2408,
	"eval_samples_per_second": 4.191,
	"eval_steps_per_second": 0.265,
	"step": 720
	},
	{
	"epoch": 9.09,
	"step": 720,
	"total_flos": 1.4231811343419113e+19,
	"train_loss": 1.6995894723468357,
	"train_runtime": 6776.3985,
	"train_samples_per_second": 1.7,
	"train_steps_per_second": 0.106
	},
	{
	"epoch": 9.09,
	"eval_accuracy": 0.34811715481171546,
	"eval_loss": 1.703281283378601,
	"eval_runtime": 256.932,
	"eval_samples_per_second": 4.651,
	"eval_steps_per_second": 0.292,
	"step": 720
	},
	{
	"epoch": 9.09,
	"eval_accuracy": 0.34811715481171546,
	"eval_loss": 1.7031110525131226,
	"eval_runtime": 266.484,
	"eval_samples_per_second": 4.484,
	"eval_steps_per_second": 0.281,
	"step": 720
	}
	],
	"logging_steps": 10,
	"max_steps": 720,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"total_flos": 1.4231811343419113e+19,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}