Training in progress, step 120, checkpoint

224bb2a verified 11 days ago

21.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.25157232704402516,
	"eval_steps": 120,
	"global_step": 120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0020964360587002098,
	"grad_norm": 0.6940059065818787,
	"learning_rate": 2e-05,
	"loss": 1.5374,
	"step": 1
	},
	{
	"epoch": 0.0041928721174004195,
	"grad_norm": 0.7119749188423157,
	"learning_rate": 4e-05,
	"loss": 1.4412,
	"step": 2
	},
	{
	"epoch": 0.006289308176100629,
	"grad_norm": 0.6409623026847839,
	"learning_rate": 6e-05,
	"loss": 1.3945,
	"step": 3
	},
	{
	"epoch": 0.008385744234800839,
	"grad_norm": 0.7138105630874634,
	"learning_rate": 8e-05,
	"loss": 1.4504,
	"step": 4
	},
	{
	"epoch": 0.010482180293501049,
	"grad_norm": 0.8199965357780457,
	"learning_rate": 0.0001,
	"loss": 1.6434,
	"step": 5
	},
	{
	"epoch": 0.012578616352201259,
	"grad_norm": 0.7341210842132568,
	"learning_rate": 0.00012,
	"loss": 1.3584,
	"step": 6
	},
	{
	"epoch": 0.014675052410901468,
	"grad_norm": 0.8366342782974243,
	"learning_rate": 0.00014,
	"loss": 1.6133,
	"step": 7
	},
	{
	"epoch": 0.016771488469601678,
	"grad_norm": 0.45160987973213196,
	"learning_rate": 0.00016,
	"loss": 1.5444,
	"step": 8
	},
	{
	"epoch": 0.018867924528301886,
	"grad_norm": 0.564163863658905,
	"learning_rate": 0.00018,
	"loss": 1.4406,
	"step": 9
	},
	{
	"epoch": 0.020964360587002098,
	"grad_norm": 1.0345866680145264,
	"learning_rate": 0.0002,
	"loss": 1.4192,
	"step": 10
	},
	{
	"epoch": 0.023060796645702306,
	"grad_norm": 0.7354846596717834,
	"learning_rate": 0.0001999977372615812,
	"loss": 1.386,
	"step": 11
	},
	{
	"epoch": 0.025157232704402517,
	"grad_norm": 0.5225378274917603,
	"learning_rate": 0.00019999094914872442,
	"loss": 1.272,
	"step": 12
	},
	{
	"epoch": 0.027253668763102725,
	"grad_norm": 0.3142692446708679,
	"learning_rate": 0.0001999796359686242,
	"loss": 1.3781,
	"step": 13
	},
	{
	"epoch": 0.029350104821802937,
	"grad_norm": 0.33122241497039795,
	"learning_rate": 0.00019996379823325583,
	"loss": 1.5188,
	"step": 14
	},
	{
	"epoch": 0.031446540880503145,
	"grad_norm": 0.2958654761314392,
	"learning_rate": 0.0001999434366593524,
	"loss": 0.999,
	"step": 15
	},
	{
	"epoch": 0.033542976939203356,
	"grad_norm": 0.4279610812664032,
	"learning_rate": 0.00019991855216837224,
	"loss": 1.5178,
	"step": 16
	},
	{
	"epoch": 0.03563941299790356,
	"grad_norm": 0.36770907044410706,
	"learning_rate": 0.00019988914588645715,
	"loss": 1.2745,
	"step": 17
	},
	{
	"epoch": 0.03773584905660377,
	"grad_norm": 0.3166482150554657,
	"learning_rate": 0.00019985521914438165,
	"loss": 1.5023,
	"step": 18
	},
	{
	"epoch": 0.039832285115303984,
	"grad_norm": 0.42765095829963684,
	"learning_rate": 0.0001998167734774926,
	"loss": 1.2504,
	"step": 19
	},
	{
	"epoch": 0.041928721174004195,
	"grad_norm": 0.392689973115921,
	"learning_rate": 0.00019977381062563976,
	"loss": 1.2228,
	"step": 20
	},
	{
	"epoch": 0.0440251572327044,
	"grad_norm": 0.358163982629776,
	"learning_rate": 0.000199726332533097,
	"loss": 1.2634,
	"step": 21
	},
	{
	"epoch": 0.04612159329140461,
	"grad_norm": 0.3274112939834595,
	"learning_rate": 0.00019967434134847442,
	"loss": 1.4746,
	"step": 22
	},
	{
	"epoch": 0.04821802935010482,
	"grad_norm": 0.3587968945503235,
	"learning_rate": 0.00019961783942462104,
	"loss": 1.3947,
	"step": 23
	},
	{
	"epoch": 0.050314465408805034,
	"grad_norm": 0.30727654695510864,
	"learning_rate": 0.00019955682931851833,
	"loss": 1.4815,
	"step": 24
	},
	{
	"epoch": 0.05241090146750524,
	"grad_norm": 0.4096279442310333,
	"learning_rate": 0.00019949131379116454,
	"loss": 1.3225,
	"step": 25
	},
	{
	"epoch": 0.05450733752620545,
	"grad_norm": 0.36623865365982056,
	"learning_rate": 0.00019942129580744966,
	"loss": 1.3904,
	"step": 26
	},
	{
	"epoch": 0.05660377358490566,
	"grad_norm": 0.3568407893180847,
	"learning_rate": 0.00019934677853602133,
	"loss": 1.463,
	"step": 27
	},
	{
	"epoch": 0.05870020964360587,
	"grad_norm": 0.4338196814060211,
	"learning_rate": 0.0001992677653491414,
	"loss": 1.4359,
	"step": 28
	},
	{
	"epoch": 0.06079664570230608,
	"grad_norm": 0.4408683180809021,
	"learning_rate": 0.00019918425982253334,
	"loss": 1.8015,
	"step": 29
	},
	{
	"epoch": 0.06289308176100629,
	"grad_norm": 0.3609876036643982,
	"learning_rate": 0.00019909626573522043,
	"loss": 1.3589,
	"step": 30
	},
	{
	"epoch": 0.0649895178197065,
	"grad_norm": 0.43560177087783813,
	"learning_rate": 0.0001990037870693547,
	"loss": 1.734,
	"step": 31
	},
	{
	"epoch": 0.06708595387840671,
	"grad_norm": 0.37430861592292786,
	"learning_rate": 0.00019890682801003675,
	"loss": 1.3517,
	"step": 32
	},
	{
	"epoch": 0.06918238993710692,
	"grad_norm": 0.4608246386051178,
	"learning_rate": 0.00019880539294512637,
	"loss": 1.4881,
	"step": 33
	},
	{
	"epoch": 0.07127882599580712,
	"grad_norm": 0.41597816348075867,
	"learning_rate": 0.0001986994864650439,
	"loss": 1.2676,
	"step": 34
	},
	{
	"epoch": 0.07337526205450734,
	"grad_norm": 0.561418354511261,
	"learning_rate": 0.00019858911336256257,
	"loss": 1.4233,
	"step": 35
	},
	{
	"epoch": 0.07547169811320754,
	"grad_norm": 0.9351180195808411,
	"learning_rate": 0.00019847427863259163,
	"loss": 1.2086,
	"step": 36
	},
	{
	"epoch": 0.07756813417190776,
	"grad_norm": 0.6147457957267761,
	"learning_rate": 0.00019835498747195008,
	"loss": 1.4909,
	"step": 37
	},
	{
	"epoch": 0.07966457023060797,
	"grad_norm": 0.4514181315898895,
	"learning_rate": 0.00019823124527913185,
	"loss": 1.2649,
	"step": 38
	},
	{
	"epoch": 0.08176100628930817,
	"grad_norm": 0.49401888251304626,
	"learning_rate": 0.0001981030576540612,
	"loss": 1.5149,
	"step": 39
	},
	{
	"epoch": 0.08385744234800839,
	"grad_norm": 0.6095734238624573,
	"learning_rate": 0.00019797043039783936,
	"loss": 1.4917,
	"step": 40
	},
	{
	"epoch": 0.0859538784067086,
	"grad_norm": 0.42444926500320435,
	"learning_rate": 0.0001978333695124821,
	"loss": 1.3691,
	"step": 41
	},
	{
	"epoch": 0.0880503144654088,
	"grad_norm": 0.47243213653564453,
	"learning_rate": 0.00019769188120064812,
	"loss": 1.7828,
	"step": 42
	},
	{
	"epoch": 0.09014675052410902,
	"grad_norm": 0.4187338650226593,
	"learning_rate": 0.00019754597186535814,
	"loss": 1.2147,
	"step": 43
	},
	{
	"epoch": 0.09224318658280922,
	"grad_norm": 0.4433446228504181,
	"learning_rate": 0.0001973956481097053,
	"loss": 1.1449,
	"step": 44
	},
	{
	"epoch": 0.09433962264150944,
	"grad_norm": 0.5269142389297485,
	"learning_rate": 0.0001972409167365564,
	"loss": 1.4682,
	"step": 45
	},
	{
	"epoch": 0.09643605870020965,
	"grad_norm": 0.4906723201274872,
	"learning_rate": 0.0001970817847482439,
	"loss": 1.3701,
	"step": 46
	},
	{
	"epoch": 0.09853249475890985,
	"grad_norm": 0.5275290608406067,
	"learning_rate": 0.000196918259346249,
	"loss": 1.3704,
	"step": 47
	},
	{
	"epoch": 0.10062893081761007,
	"grad_norm": 0.5568628907203674,
	"learning_rate": 0.00019675034793087596,
	"loss": 1.068,
	"step": 48
	},
	{
	"epoch": 0.10272536687631027,
	"grad_norm": 0.6039868593215942,
	"learning_rate": 0.000196578058100917,
	"loss": 1.2204,
	"step": 49
	},
	{
	"epoch": 0.10482180293501048,
	"grad_norm": 0.9857679605484009,
	"learning_rate": 0.0001964013976533084,
	"loss": 1.0091,
	"step": 50
	},
	{
	"epoch": 0.1069182389937107,
	"grad_norm": 0.3437671959400177,
	"learning_rate": 0.00019622037458277784,
	"loss": 1.2225,
	"step": 51
	},
	{
	"epoch": 0.1090146750524109,
	"grad_norm": 0.3308734893798828,
	"learning_rate": 0.00019603499708148244,
	"loss": 1.2099,
	"step": 52
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 0.353939026594162,
	"learning_rate": 0.0001958452735386381,
	"loss": 1.2554,
	"step": 53
	},
	{
	"epoch": 0.11320754716981132,
	"grad_norm": 0.3151988089084625,
	"learning_rate": 0.00019565121254013979,
	"loss": 1.252,
	"step": 54
	},
	{
	"epoch": 0.11530398322851153,
	"grad_norm": 0.32421159744262695,
	"learning_rate": 0.00019545282286817303,
	"loss": 0.9776,
	"step": 55
	},
	{
	"epoch": 0.11740041928721175,
	"grad_norm": 0.3662404417991638,
	"learning_rate": 0.0001952501135008165,
	"loss": 1.3977,
	"step": 56
	},
	{
	"epoch": 0.11949685534591195,
	"grad_norm": 0.3840480148792267,
	"learning_rate": 0.00019504309361163566,
	"loss": 1.2663,
	"step": 57
	},
	{
	"epoch": 0.12159329140461216,
	"grad_norm": 0.37903356552124023,
	"learning_rate": 0.00019483177256926767,
	"loss": 1.5308,
	"step": 58
	},
	{
	"epoch": 0.12368972746331237,
	"grad_norm": 0.346229612827301,
	"learning_rate": 0.0001946161599369973,
	"loss": 1.4319,
	"step": 59
	},
	{
	"epoch": 0.12578616352201258,
	"grad_norm": 0.34781116247177124,
	"learning_rate": 0.00019439626547232433,
	"loss": 1.1933,
	"step": 60
	},
	{
	"epoch": 0.1278825995807128,
	"grad_norm": 0.3286825716495514,
	"learning_rate": 0.0001941720991265218,
	"loss": 1.1038,
	"step": 61
	},
	{
	"epoch": 0.129979035639413,
	"grad_norm": 0.39212745428085327,
	"learning_rate": 0.00019394367104418576,
	"loss": 1.2789,
	"step": 62
	},
	{
	"epoch": 0.1320754716981132,
	"grad_norm": 0.3172178566455841,
	"learning_rate": 0.0001937109915627762,
	"loss": 1.1614,
	"step": 63
	},
	{
	"epoch": 0.13417190775681342,
	"grad_norm": 0.371159166097641,
	"learning_rate": 0.00019347407121214914,
	"loss": 1.3819,
	"step": 64
	},
	{
	"epoch": 0.13626834381551362,
	"grad_norm": 0.36089271306991577,
	"learning_rate": 0.00019323292071408017,
	"loss": 1.4392,
	"step": 65
	},
	{
	"epoch": 0.13836477987421383,
	"grad_norm": 0.42245927453041077,
	"learning_rate": 0.00019298755098177926,
	"loss": 1.2518,
	"step": 66
	},
	{
	"epoch": 0.14046121593291405,
	"grad_norm": 0.3602246642112732,
	"learning_rate": 0.00019273797311939673,
	"loss": 1.3146,
	"step": 67
	},
	{
	"epoch": 0.14255765199161424,
	"grad_norm": 0.3581138253211975,
	"learning_rate": 0.00019248419842152098,
	"loss": 1.2622,
	"step": 68
	},
	{
	"epoch": 0.14465408805031446,
	"grad_norm": 0.391454815864563,
	"learning_rate": 0.0001922262383726672,
	"loss": 1.4421,
	"step": 69
	},
	{
	"epoch": 0.14675052410901468,
	"grad_norm": 0.4634746313095093,
	"learning_rate": 0.00019196410464675766,
	"loss": 1.3862,
	"step": 70
	},
	{
	"epoch": 0.1488469601677149,
	"grad_norm": 0.35802096128463745,
	"learning_rate": 0.00019169780910659333,
	"loss": 1.4004,
	"step": 71
	},
	{
	"epoch": 0.1509433962264151,
	"grad_norm": 0.34099411964416504,
	"learning_rate": 0.00019142736380331726,
	"loss": 1.2887,
	"step": 72
	},
	{
	"epoch": 0.1530398322851153,
	"grad_norm": 0.37205106019973755,
	"learning_rate": 0.00019115278097586903,
	"loss": 1.518,
	"step": 73
	},
	{
	"epoch": 0.15513626834381553,
	"grad_norm": 0.3985058665275574,
	"learning_rate": 0.00019087407305043086,
	"loss": 1.3483,
	"step": 74
	},
	{
	"epoch": 0.15723270440251572,
	"grad_norm": 0.3541426956653595,
	"learning_rate": 0.0001905912526398654,
	"loss": 1.3036,
	"step": 75
	},
	{
	"epoch": 0.15932914046121593,
	"grad_norm": 0.44033437967300415,
	"learning_rate": 0.00019030433254314474,
	"loss": 1.3732,
	"step": 76
	},
	{
	"epoch": 0.16142557651991615,
	"grad_norm": 0.40152212977409363,
	"learning_rate": 0.00019001332574477146,
	"loss": 1.479,
	"step": 77
	},
	{
	"epoch": 0.16352201257861634,
	"grad_norm": 0.46172958612442017,
	"learning_rate": 0.00018971824541419083,
	"loss": 1.381,
	"step": 78
	},
	{
	"epoch": 0.16561844863731656,
	"grad_norm": 0.40097662806510925,
	"learning_rate": 0.0001894191049051948,
	"loss": 1.1499,
	"step": 79
	},
	{
	"epoch": 0.16771488469601678,
	"grad_norm": 0.49080637097358704,
	"learning_rate": 0.0001891159177553179,
	"loss": 1.664,
	"step": 80
	},
	{
	"epoch": 0.16981132075471697,
	"grad_norm": 0.45318862795829773,
	"learning_rate": 0.00018880869768522432,
	"loss": 1.3287,
	"step": 81
	},
	{
	"epoch": 0.1719077568134172,
	"grad_norm": 0.4062664210796356,
	"learning_rate": 0.00018849745859808717,
	"loss": 1.2012,
	"step": 82
	},
	{
	"epoch": 0.1740041928721174,
	"grad_norm": 0.4371073246002197,
	"learning_rate": 0.00018818221457895926,
	"loss": 1.4706,
	"step": 83
	},
	{
	"epoch": 0.1761006289308176,
	"grad_norm": 0.41299256682395935,
	"learning_rate": 0.00018786297989413568,
	"loss": 1.2486,
	"step": 84
	},
	{
	"epoch": 0.17819706498951782,
	"grad_norm": 0.44734108448028564,
	"learning_rate": 0.00018753976899050812,
	"loss": 1.1505,
	"step": 85
	},
	{
	"epoch": 0.18029350104821804,
	"grad_norm": 0.552854597568512,
	"learning_rate": 0.00018721259649491113,
	"loss": 1.5622,
	"step": 86
	},
	{
	"epoch": 0.18238993710691823,
	"grad_norm": 0.541213870048523,
	"learning_rate": 0.0001868814772134603,
	"loss": 1.5055,
	"step": 87
	},
	{
	"epoch": 0.18448637316561844,
	"grad_norm": 0.48175540566444397,
	"learning_rate": 0.00018654642613088194,
	"loss": 1.2456,
	"step": 88
	},
	{
	"epoch": 0.18658280922431866,
	"grad_norm": 0.5197116732597351,
	"learning_rate": 0.0001862074584098352,
	"loss": 1.4801,
	"step": 89
	},
	{
	"epoch": 0.18867924528301888,
	"grad_norm": 0.46993735432624817,
	"learning_rate": 0.00018586458939022586,
	"loss": 1.5128,
	"step": 90
	},
	{
	"epoch": 0.19077568134171907,
	"grad_norm": 0.5093168616294861,
	"learning_rate": 0.00018551783458851189,
	"loss": 1.521,
	"step": 91
	},
	{
	"epoch": 0.1928721174004193,
	"grad_norm": 0.4279519021511078,
	"learning_rate": 0.0001851672096970016,
	"loss": 1.0692,
	"step": 92
	},
	{
	"epoch": 0.1949685534591195,
	"grad_norm": 0.48902031779289246,
	"learning_rate": 0.00018481273058314316,
	"loss": 1.3202,
	"step": 93
	},
	{
	"epoch": 0.1970649895178197,
	"grad_norm": 0.5409737229347229,
	"learning_rate": 0.00018445441328880682,
	"loss": 1.6125,
	"step": 94
	},
	{
	"epoch": 0.19916142557651992,
	"grad_norm": 0.5205714702606201,
	"learning_rate": 0.00018409227402955871,
	"loss": 1.1616,
	"step": 95
	},
	{
	"epoch": 0.20125786163522014,
	"grad_norm": 0.5157482624053955,
	"learning_rate": 0.00018372632919392716,
	"loss": 1.3375,
	"step": 96
	},
	{
	"epoch": 0.20335429769392033,
	"grad_norm": 0.5590908527374268,
	"learning_rate": 0.00018335659534266094,
	"loss": 1.6429,
	"step": 97
	},
	{
	"epoch": 0.20545073375262055,
	"grad_norm": 0.5677520036697388,
	"learning_rate": 0.00018298308920797985,
	"loss": 1.1629,
	"step": 98
	},
	{
	"epoch": 0.20754716981132076,
	"grad_norm": 0.6165626645088196,
	"learning_rate": 0.00018260582769281743,
	"loss": 1.0469,
	"step": 99
	},
	{
	"epoch": 0.20964360587002095,
	"grad_norm": 0.7722473740577698,
	"learning_rate": 0.0001822248278700563,
	"loss": 1.7717,
	"step": 100
	},
	{
	"epoch": 0.21174004192872117,
	"grad_norm": 0.34500235319137573,
	"learning_rate": 0.00018184010698175506,
	"loss": 1.0338,
	"step": 101
	},
	{
	"epoch": 0.2138364779874214,
	"grad_norm": 0.4223347008228302,
	"learning_rate": 0.0001814516824383685,
	"loss": 1.384,
	"step": 102
	},
	{
	"epoch": 0.21593291404612158,
	"grad_norm": 0.3532989025115967,
	"learning_rate": 0.0001810595718179593,
	"loss": 1.1763,
	"step": 103
	},
	{
	"epoch": 0.2180293501048218,
	"grad_norm": 0.31655967235565186,
	"learning_rate": 0.00018066379286540277,
	"loss": 1.4366,
	"step": 104
	},
	{
	"epoch": 0.22012578616352202,
	"grad_norm": 0.580037534236908,
	"learning_rate": 0.00018026436349158378,
	"loss": 1.4038,
	"step": 105
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 0.3317371606826782,
	"learning_rate": 0.00017986130177258608,
	"loss": 1.2701,
	"step": 106
	},
	{
	"epoch": 0.22431865828092243,
	"grad_norm": 0.34435999393463135,
	"learning_rate": 0.00017945462594887445,
	"loss": 1.2306,
	"step": 107
	},
	{
	"epoch": 0.22641509433962265,
	"grad_norm": 0.30907875299453735,
	"learning_rate": 0.000179044354424469,
	"loss": 1.0864,
	"step": 108
	},
	{
	"epoch": 0.22851153039832284,
	"grad_norm": 0.3259734511375427,
	"learning_rate": 0.00017863050576611265,
	"loss": 1.1871,
	"step": 109
	},
	{
	"epoch": 0.23060796645702306,
	"grad_norm": 0.3698357939720154,
	"learning_rate": 0.00017821309870243054,
	"loss": 1.2336,
	"step": 110
	},
	{
	"epoch": 0.23270440251572327,
	"grad_norm": 0.3339691162109375,
	"learning_rate": 0.00017779215212308265,
	"loss": 1.1696,
	"step": 111
	},
	{
	"epoch": 0.2348008385744235,
	"grad_norm": 0.333344429731369,
	"learning_rate": 0.0001773676850779089,
	"loss": 1.3809,
	"step": 112
	},
	{
	"epoch": 0.23689727463312368,
	"grad_norm": 0.35278016328811646,
	"learning_rate": 0.00017693971677606714,
	"loss": 1.3156,
	"step": 113
	},
	{
	"epoch": 0.2389937106918239,
	"grad_norm": 0.3800717890262604,
	"learning_rate": 0.00017650826658516375,
	"loss": 1.1809,
	"step": 114
	},
	{
	"epoch": 0.24109014675052412,
	"grad_norm": 0.353089302778244,
	"learning_rate": 0.00017607335403037712,
	"loss": 1.5121,
	"step": 115
	},
	{
	"epoch": 0.2431865828092243,
	"grad_norm": 0.3874945044517517,
	"learning_rate": 0.00017563499879357425,
	"loss": 1.5124,
	"step": 116
	},
	{
	"epoch": 0.24528301886792453,
	"grad_norm": 0.3635624945163727,
	"learning_rate": 0.00017519322071241983,
	"loss": 1.1454,
	"step": 117
	},
	{
	"epoch": 0.24737945492662475,
	"grad_norm": 0.39976125955581665,
	"learning_rate": 0.0001747480397794786,
	"loss": 1.4797,
	"step": 118
	},
	{
	"epoch": 0.24947589098532494,
	"grad_norm": 0.3654632866382599,
	"learning_rate": 0.0001742994761413105,
	"loss": 1.2913,
	"step": 119
	},
	{
	"epoch": 0.25157232704402516,
	"grad_norm": 0.4034808874130249,
	"learning_rate": 0.0001738475500975592,
	"loss": 1.4904,
	"step": 120
	},
	{
	"epoch": 0.25157232704402516,
	"eval_loss": 1.3252530097961426,
	"eval_runtime": 13.8389,
	"eval_samples_per_second": 14.524,
	"eval_steps_per_second": 7.298,
	"step": 120
	}
	],
	"logging_steps": 1,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 120,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.141788609845658e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}