OH_DCFT_V3_wo_platypus / trainer_state.json

End of training

4f4e7b0 verified 5 months ago

20.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9963459196102313,
	"eval_steps": 500,
	"global_step": 1230,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.024360535931790498,
	"grad_norm": 11.305159308546282,
	"learning_rate": 5e-06,
	"loss": 0.8887,
	"step": 10
	},
	{
	"epoch": 0.048721071863580996,
	"grad_norm": 4.407971880258946,
	"learning_rate": 5e-06,
	"loss": 0.7976,
	"step": 20
	},
	{
	"epoch": 0.0730816077953715,
	"grad_norm": 1.3980174472682592,
	"learning_rate": 5e-06,
	"loss": 0.767,
	"step": 30
	},
	{
	"epoch": 0.09744214372716199,
	"grad_norm": 4.101997301199602,
	"learning_rate": 5e-06,
	"loss": 0.7475,
	"step": 40
	},
	{
	"epoch": 0.1218026796589525,
	"grad_norm": 3.8298876079533914,
	"learning_rate": 5e-06,
	"loss": 0.7403,
	"step": 50
	},
	{
	"epoch": 0.146163215590743,
	"grad_norm": 1.120036674314868,
	"learning_rate": 5e-06,
	"loss": 0.7256,
	"step": 60
	},
	{
	"epoch": 0.1705237515225335,
	"grad_norm": 0.7504651491119281,
	"learning_rate": 5e-06,
	"loss": 0.7212,
	"step": 70
	},
	{
	"epoch": 0.19488428745432398,
	"grad_norm": 0.8705482174733401,
	"learning_rate": 5e-06,
	"loss": 0.6967,
	"step": 80
	},
	{
	"epoch": 0.2192448233861145,
	"grad_norm": 0.8066011359814329,
	"learning_rate": 5e-06,
	"loss": 0.6944,
	"step": 90
	},
	{
	"epoch": 0.243605359317905,
	"grad_norm": 0.7143294307124043,
	"learning_rate": 5e-06,
	"loss": 0.6991,
	"step": 100
	},
	{
	"epoch": 0.2679658952496955,
	"grad_norm": 0.5219278289863366,
	"learning_rate": 5e-06,
	"loss": 0.6904,
	"step": 110
	},
	{
	"epoch": 0.292326431181486,
	"grad_norm": 0.49976792832548467,
	"learning_rate": 5e-06,
	"loss": 0.6917,
	"step": 120
	},
	{
	"epoch": 0.3166869671132765,
	"grad_norm": 0.8671962194472669,
	"learning_rate": 5e-06,
	"loss": 0.6923,
	"step": 130
	},
	{
	"epoch": 0.341047503045067,
	"grad_norm": 0.4958220955019927,
	"learning_rate": 5e-06,
	"loss": 0.6886,
	"step": 140
	},
	{
	"epoch": 0.3654080389768575,
	"grad_norm": 0.5491440067010557,
	"learning_rate": 5e-06,
	"loss": 0.6844,
	"step": 150
	},
	{
	"epoch": 0.38976857490864797,
	"grad_norm": 0.5764231325699036,
	"learning_rate": 5e-06,
	"loss": 0.6873,
	"step": 160
	},
	{
	"epoch": 0.41412911084043846,
	"grad_norm": 0.4866036070242275,
	"learning_rate": 5e-06,
	"loss": 0.6773,
	"step": 170
	},
	{
	"epoch": 0.438489646772229,
	"grad_norm": 0.7229793933095654,
	"learning_rate": 5e-06,
	"loss": 0.6801,
	"step": 180
	},
	{
	"epoch": 0.4628501827040195,
	"grad_norm": 0.5825475907586349,
	"learning_rate": 5e-06,
	"loss": 0.6806,
	"step": 190
	},
	{
	"epoch": 0.48721071863581,
	"grad_norm": 0.641550842935756,
	"learning_rate": 5e-06,
	"loss": 0.677,
	"step": 200
	},
	{
	"epoch": 0.5115712545676004,
	"grad_norm": 0.555875854836963,
	"learning_rate": 5e-06,
	"loss": 0.669,
	"step": 210
	},
	{
	"epoch": 0.535931790499391,
	"grad_norm": 0.4380177981926619,
	"learning_rate": 5e-06,
	"loss": 0.6672,
	"step": 220
	},
	{
	"epoch": 0.5602923264311814,
	"grad_norm": 0.5586357299552903,
	"learning_rate": 5e-06,
	"loss": 0.6696,
	"step": 230
	},
	{
	"epoch": 0.584652862362972,
	"grad_norm": 0.5268423895517483,
	"learning_rate": 5e-06,
	"loss": 0.6761,
	"step": 240
	},
	{
	"epoch": 0.6090133982947625,
	"grad_norm": 0.5068291541548725,
	"learning_rate": 5e-06,
	"loss": 0.6672,
	"step": 250
	},
	{
	"epoch": 0.633373934226553,
	"grad_norm": 0.7203145859800878,
	"learning_rate": 5e-06,
	"loss": 0.6758,
	"step": 260
	},
	{
	"epoch": 0.6577344701583435,
	"grad_norm": 0.4843027545014372,
	"learning_rate": 5e-06,
	"loss": 0.6684,
	"step": 270
	},
	{
	"epoch": 0.682095006090134,
	"grad_norm": 0.4654716032330135,
	"learning_rate": 5e-06,
	"loss": 0.6674,
	"step": 280
	},
	{
	"epoch": 0.7064555420219245,
	"grad_norm": 0.48677469218469316,
	"learning_rate": 5e-06,
	"loss": 0.657,
	"step": 290
	},
	{
	"epoch": 0.730816077953715,
	"grad_norm": 0.501936617406133,
	"learning_rate": 5e-06,
	"loss": 0.666,
	"step": 300
	},
	{
	"epoch": 0.7551766138855055,
	"grad_norm": 0.4189199112711787,
	"learning_rate": 5e-06,
	"loss": 0.6672,
	"step": 310
	},
	{
	"epoch": 0.7795371498172959,
	"grad_norm": 0.525860628294632,
	"learning_rate": 5e-06,
	"loss": 0.6625,
	"step": 320
	},
	{
	"epoch": 0.8038976857490865,
	"grad_norm": 0.5055516889416151,
	"learning_rate": 5e-06,
	"loss": 0.6687,
	"step": 330
	},
	{
	"epoch": 0.8282582216808769,
	"grad_norm": 0.5030088195887705,
	"learning_rate": 5e-06,
	"loss": 0.6622,
	"step": 340
	},
	{
	"epoch": 0.8526187576126675,
	"grad_norm": 0.4409999841350699,
	"learning_rate": 5e-06,
	"loss": 0.659,
	"step": 350
	},
	{
	"epoch": 0.876979293544458,
	"grad_norm": 0.49889143289837934,
	"learning_rate": 5e-06,
	"loss": 0.664,
	"step": 360
	},
	{
	"epoch": 0.9013398294762485,
	"grad_norm": 0.46333426563091684,
	"learning_rate": 5e-06,
	"loss": 0.6647,
	"step": 370
	},
	{
	"epoch": 0.925700365408039,
	"grad_norm": 0.4132898286035426,
	"learning_rate": 5e-06,
	"loss": 0.6604,
	"step": 380
	},
	{
	"epoch": 0.9500609013398295,
	"grad_norm": 0.4602502572358803,
	"learning_rate": 5e-06,
	"loss": 0.663,
	"step": 390
	},
	{
	"epoch": 0.97442143727162,
	"grad_norm": 0.586425378319964,
	"learning_rate": 5e-06,
	"loss": 0.6588,
	"step": 400
	},
	{
	"epoch": 0.9987819732034104,
	"grad_norm": 0.4637558734433708,
	"learning_rate": 5e-06,
	"loss": 0.6557,
	"step": 410
	},
	{
	"epoch": 0.9987819732034104,
	"eval_loss": 0.6518880128860474,
	"eval_runtime": 221.2706,
	"eval_samples_per_second": 49.966,
	"eval_steps_per_second": 0.393,
	"step": 410
	},
	{
	"epoch": 1.0231425091352009,
	"grad_norm": 0.6010683259164777,
	"learning_rate": 5e-06,
	"loss": 0.6207,
	"step": 420
	},
	{
	"epoch": 1.0475030450669915,
	"grad_norm": 0.6050810738565418,
	"learning_rate": 5e-06,
	"loss": 0.61,
	"step": 430
	},
	{
	"epoch": 1.071863580998782,
	"grad_norm": 0.4799441913834175,
	"learning_rate": 5e-06,
	"loss": 0.617,
	"step": 440
	},
	{
	"epoch": 1.0962241169305724,
	"grad_norm": 0.41533745441354586,
	"learning_rate": 5e-06,
	"loss": 0.6233,
	"step": 450
	},
	{
	"epoch": 1.1205846528623629,
	"grad_norm": 0.42865808124947796,
	"learning_rate": 5e-06,
	"loss": 0.616,
	"step": 460
	},
	{
	"epoch": 1.1449451887941535,
	"grad_norm": 0.5620085827072487,
	"learning_rate": 5e-06,
	"loss": 0.6226,
	"step": 470
	},
	{
	"epoch": 1.169305724725944,
	"grad_norm": 0.47328106114801194,
	"learning_rate": 5e-06,
	"loss": 0.609,
	"step": 480
	},
	{
	"epoch": 1.1936662606577344,
	"grad_norm": 0.4720567281560868,
	"learning_rate": 5e-06,
	"loss": 0.6143,
	"step": 490
	},
	{
	"epoch": 1.218026796589525,
	"grad_norm": 0.44112203366329256,
	"learning_rate": 5e-06,
	"loss": 0.614,
	"step": 500
	},
	{
	"epoch": 1.2423873325213155,
	"grad_norm": 0.5187652730488376,
	"learning_rate": 5e-06,
	"loss": 0.6199,
	"step": 510
	},
	{
	"epoch": 1.266747868453106,
	"grad_norm": 0.5638861172624315,
	"learning_rate": 5e-06,
	"loss": 0.619,
	"step": 520
	},
	{
	"epoch": 1.2911084043848966,
	"grad_norm": 0.5972907620170446,
	"learning_rate": 5e-06,
	"loss": 0.6182,
	"step": 530
	},
	{
	"epoch": 1.315468940316687,
	"grad_norm": 0.5314321040836214,
	"learning_rate": 5e-06,
	"loss": 0.619,
	"step": 540
	},
	{
	"epoch": 1.3398294762484775,
	"grad_norm": 0.5459662859735409,
	"learning_rate": 5e-06,
	"loss": 0.6183,
	"step": 550
	},
	{
	"epoch": 1.364190012180268,
	"grad_norm": 0.5202733547748785,
	"learning_rate": 5e-06,
	"loss": 0.618,
	"step": 560
	},
	{
	"epoch": 1.3885505481120584,
	"grad_norm": 0.4161689870213624,
	"learning_rate": 5e-06,
	"loss": 0.6101,
	"step": 570
	},
	{
	"epoch": 1.412911084043849,
	"grad_norm": 0.46394109509695763,
	"learning_rate": 5e-06,
	"loss": 0.6274,
	"step": 580
	},
	{
	"epoch": 1.4372716199756395,
	"grad_norm": 0.4808851283054136,
	"learning_rate": 5e-06,
	"loss": 0.6087,
	"step": 590
	},
	{
	"epoch": 1.46163215590743,
	"grad_norm": 0.5411540324211217,
	"learning_rate": 5e-06,
	"loss": 0.6215,
	"step": 600
	},
	{
	"epoch": 1.4859926918392206,
	"grad_norm": 0.5416915020329361,
	"learning_rate": 5e-06,
	"loss": 0.6167,
	"step": 610
	},
	{
	"epoch": 1.510353227771011,
	"grad_norm": 0.527607596364707,
	"learning_rate": 5e-06,
	"loss": 0.6128,
	"step": 620
	},
	{
	"epoch": 1.5347137637028014,
	"grad_norm": 0.520963657326471,
	"learning_rate": 5e-06,
	"loss": 0.6137,
	"step": 630
	},
	{
	"epoch": 1.559074299634592,
	"grad_norm": 0.4366228046959017,
	"learning_rate": 5e-06,
	"loss": 0.6171,
	"step": 640
	},
	{
	"epoch": 1.5834348355663823,
	"grad_norm": 0.5504251670894937,
	"learning_rate": 5e-06,
	"loss": 0.6143,
	"step": 650
	},
	{
	"epoch": 1.607795371498173,
	"grad_norm": 0.4715628019229569,
	"learning_rate": 5e-06,
	"loss": 0.6202,
	"step": 660
	},
	{
	"epoch": 1.6321559074299634,
	"grad_norm": 0.5291464708625646,
	"learning_rate": 5e-06,
	"loss": 0.6155,
	"step": 670
	},
	{
	"epoch": 1.6565164433617539,
	"grad_norm": 0.4355159440359265,
	"learning_rate": 5e-06,
	"loss": 0.6162,
	"step": 680
	},
	{
	"epoch": 1.6808769792935445,
	"grad_norm": 0.5112620919843524,
	"learning_rate": 5e-06,
	"loss": 0.6279,
	"step": 690
	},
	{
	"epoch": 1.705237515225335,
	"grad_norm": 0.57875404757705,
	"learning_rate": 5e-06,
	"loss": 0.6176,
	"step": 700
	},
	{
	"epoch": 1.7295980511571254,
	"grad_norm": 0.4410704500201331,
	"learning_rate": 5e-06,
	"loss": 0.6195,
	"step": 710
	},
	{
	"epoch": 1.753958587088916,
	"grad_norm": 0.5587895103691882,
	"learning_rate": 5e-06,
	"loss": 0.6194,
	"step": 720
	},
	{
	"epoch": 1.7783191230207065,
	"grad_norm": 0.4941053548445359,
	"learning_rate": 5e-06,
	"loss": 0.6096,
	"step": 730
	},
	{
	"epoch": 1.802679658952497,
	"grad_norm": 0.5227563230610854,
	"learning_rate": 5e-06,
	"loss": 0.6102,
	"step": 740
	},
	{
	"epoch": 1.8270401948842876,
	"grad_norm": 0.4591897668705156,
	"learning_rate": 5e-06,
	"loss": 0.6117,
	"step": 750
	},
	{
	"epoch": 1.8514007308160778,
	"grad_norm": 0.5103376738813472,
	"learning_rate": 5e-06,
	"loss": 0.6134,
	"step": 760
	},
	{
	"epoch": 1.8757612667478685,
	"grad_norm": 0.532214266722337,
	"learning_rate": 5e-06,
	"loss": 0.6102,
	"step": 770
	},
	{
	"epoch": 1.900121802679659,
	"grad_norm": 0.4632257568024349,
	"learning_rate": 5e-06,
	"loss": 0.6218,
	"step": 780
	},
	{
	"epoch": 1.9244823386114494,
	"grad_norm": 0.5412849420492728,
	"learning_rate": 5e-06,
	"loss": 0.6109,
	"step": 790
	},
	{
	"epoch": 1.94884287454324,
	"grad_norm": 0.48808240750337195,
	"learning_rate": 5e-06,
	"loss": 0.6176,
	"step": 800
	},
	{
	"epoch": 1.9732034104750305,
	"grad_norm": 0.4761455418357999,
	"learning_rate": 5e-06,
	"loss": 0.6098,
	"step": 810
	},
	{
	"epoch": 1.997563946406821,
	"grad_norm": 0.4534197510006015,
	"learning_rate": 5e-06,
	"loss": 0.6082,
	"step": 820
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6419612765312195,
	"eval_runtime": 221.435,
	"eval_samples_per_second": 49.929,
	"eval_steps_per_second": 0.393,
	"step": 821
	},
	{
	"epoch": 2.0219244823386116,
	"grad_norm": 0.6074772099873261,
	"learning_rate": 5e-06,
	"loss": 0.5769,
	"step": 830
	},
	{
	"epoch": 2.0462850182704018,
	"grad_norm": 0.5110291152400608,
	"learning_rate": 5e-06,
	"loss": 0.564,
	"step": 840
	},
	{
	"epoch": 2.0706455542021924,
	"grad_norm": 0.740312554525951,
	"learning_rate": 5e-06,
	"loss": 0.5717,
	"step": 850
	},
	{
	"epoch": 2.095006090133983,
	"grad_norm": 0.5821754748157193,
	"learning_rate": 5e-06,
	"loss": 0.5726,
	"step": 860
	},
	{
	"epoch": 2.1193666260657733,
	"grad_norm": 0.53860209415622,
	"learning_rate": 5e-06,
	"loss": 0.5742,
	"step": 870
	},
	{
	"epoch": 2.143727161997564,
	"grad_norm": 0.5215524148222913,
	"learning_rate": 5e-06,
	"loss": 0.564,
	"step": 880
	},
	{
	"epoch": 2.1680876979293546,
	"grad_norm": 0.6458934700822203,
	"learning_rate": 5e-06,
	"loss": 0.5724,
	"step": 890
	},
	{
	"epoch": 2.192448233861145,
	"grad_norm": 0.4435184357785445,
	"learning_rate": 5e-06,
	"loss": 0.5684,
	"step": 900
	},
	{
	"epoch": 2.2168087697929355,
	"grad_norm": 0.5416262844784988,
	"learning_rate": 5e-06,
	"loss": 0.5718,
	"step": 910
	},
	{
	"epoch": 2.2411693057247257,
	"grad_norm": 0.4739984176413269,
	"learning_rate": 5e-06,
	"loss": 0.5756,
	"step": 920
	},
	{
	"epoch": 2.2655298416565164,
	"grad_norm": 0.47994087642094213,
	"learning_rate": 5e-06,
	"loss": 0.5742,
	"step": 930
	},
	{
	"epoch": 2.289890377588307,
	"grad_norm": 0.4742359512444407,
	"learning_rate": 5e-06,
	"loss": 0.5731,
	"step": 940
	},
	{
	"epoch": 2.3142509135200973,
	"grad_norm": 0.5586334439764152,
	"learning_rate": 5e-06,
	"loss": 0.576,
	"step": 950
	},
	{
	"epoch": 2.338611449451888,
	"grad_norm": 0.49880213092932163,
	"learning_rate": 5e-06,
	"loss": 0.5799,
	"step": 960
	},
	{
	"epoch": 2.3629719853836786,
	"grad_norm": 0.49935902866105975,
	"learning_rate": 5e-06,
	"loss": 0.5762,
	"step": 970
	},
	{
	"epoch": 2.387332521315469,
	"grad_norm": 0.5465185670805549,
	"learning_rate": 5e-06,
	"loss": 0.5717,
	"step": 980
	},
	{
	"epoch": 2.4116930572472595,
	"grad_norm": 0.4986248004640357,
	"learning_rate": 5e-06,
	"loss": 0.5772,
	"step": 990
	},
	{
	"epoch": 2.43605359317905,
	"grad_norm": 0.5423471098966955,
	"learning_rate": 5e-06,
	"loss": 0.5804,
	"step": 1000
	},
	{
	"epoch": 2.4604141291108403,
	"grad_norm": 0.5193096800667882,
	"learning_rate": 5e-06,
	"loss": 0.5691,
	"step": 1010
	},
	{
	"epoch": 2.484774665042631,
	"grad_norm": 0.4590023482690989,
	"learning_rate": 5e-06,
	"loss": 0.5741,
	"step": 1020
	},
	{
	"epoch": 2.5091352009744217,
	"grad_norm": 0.4671536002975626,
	"learning_rate": 5e-06,
	"loss": 0.5714,
	"step": 1030
	},
	{
	"epoch": 2.533495736906212,
	"grad_norm": 0.5523685876104364,
	"learning_rate": 5e-06,
	"loss": 0.5734,
	"step": 1040
	},
	{
	"epoch": 2.5578562728380025,
	"grad_norm": 0.6868866709072206,
	"learning_rate": 5e-06,
	"loss": 0.5728,
	"step": 1050
	},
	{
	"epoch": 2.582216808769793,
	"grad_norm": 0.5582819992545279,
	"learning_rate": 5e-06,
	"loss": 0.5737,
	"step": 1060
	},
	{
	"epoch": 2.6065773447015834,
	"grad_norm": 0.4702857244191192,
	"learning_rate": 5e-06,
	"loss": 0.566,
	"step": 1070
	},
	{
	"epoch": 2.630937880633374,
	"grad_norm": 0.6487634608204832,
	"learning_rate": 5e-06,
	"loss": 0.5818,
	"step": 1080
	},
	{
	"epoch": 2.6552984165651643,
	"grad_norm": 0.4736967537062896,
	"learning_rate": 5e-06,
	"loss": 0.5753,
	"step": 1090
	},
	{
	"epoch": 2.679658952496955,
	"grad_norm": 0.5348827813693043,
	"learning_rate": 5e-06,
	"loss": 0.5771,
	"step": 1100
	},
	{
	"epoch": 2.704019488428745,
	"grad_norm": 0.5028960700092897,
	"learning_rate": 5e-06,
	"loss": 0.5713,
	"step": 1110
	},
	{
	"epoch": 2.728380024360536,
	"grad_norm": 0.4780698681645441,
	"learning_rate": 5e-06,
	"loss": 0.5746,
	"step": 1120
	},
	{
	"epoch": 2.7527405602923265,
	"grad_norm": 0.4864478553500122,
	"learning_rate": 5e-06,
	"loss": 0.5752,
	"step": 1130
	},
	{
	"epoch": 2.7771010962241167,
	"grad_norm": 0.4667264912708201,
	"learning_rate": 5e-06,
	"loss": 0.5772,
	"step": 1140
	},
	{
	"epoch": 2.8014616321559074,
	"grad_norm": 0.45394076375291925,
	"learning_rate": 5e-06,
	"loss": 0.5823,
	"step": 1150
	},
	{
	"epoch": 2.825822168087698,
	"grad_norm": 0.5161201565392174,
	"learning_rate": 5e-06,
	"loss": 0.5815,
	"step": 1160
	},
	{
	"epoch": 2.8501827040194883,
	"grad_norm": 0.5076152963599294,
	"learning_rate": 5e-06,
	"loss": 0.5784,
	"step": 1170
	},
	{
	"epoch": 2.874543239951279,
	"grad_norm": 0.4752319372351976,
	"learning_rate": 5e-06,
	"loss": 0.5791,
	"step": 1180
	},
	{
	"epoch": 2.8989037758830696,
	"grad_norm": 0.533679377576446,
	"learning_rate": 5e-06,
	"loss": 0.5796,
	"step": 1190
	},
	{
	"epoch": 2.92326431181486,
	"grad_norm": 0.4952941664544987,
	"learning_rate": 5e-06,
	"loss": 0.5735,
	"step": 1200
	},
	{
	"epoch": 2.9476248477466505,
	"grad_norm": 0.4611730832059269,
	"learning_rate": 5e-06,
	"loss": 0.5748,
	"step": 1210
	},
	{
	"epoch": 2.971985383678441,
	"grad_norm": 0.5882799223730999,
	"learning_rate": 5e-06,
	"loss": 0.5781,
	"step": 1220
	},
	{
	"epoch": 2.9963459196102313,
	"grad_norm": 0.4979608878944041,
	"learning_rate": 5e-06,
	"loss": 0.5706,
	"step": 1230
	},
	{
	"epoch": 2.9963459196102313,
	"eval_loss": 0.6427608132362366,
	"eval_runtime": 221.8996,
	"eval_samples_per_second": 49.824,
	"eval_steps_per_second": 0.392,
	"step": 1230
	},
	{
	"epoch": 2.9963459196102313,
	"step": 1230,
	"total_flos": 2059877052579840.0,
	"train_loss": 0.6269122554034722,
	"train_runtime": 37089.6991,
	"train_samples_per_second": 16.991,
	"train_steps_per_second": 0.033
	}
	],
	"logging_steps": 10,
	"max_steps": 1230,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2059877052579840.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}