Model save

3cefa9e verified 7 days ago

137 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9991386735572783,
	"eval_steps": 100,
	"global_step": 3045,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004921865386981666,
	"grad_norm": 10.908417701721191,
	"learning_rate": 3.278688524590164e-07,
	"loss": 2.6851,
	"mean_token_accuracy": 0.490550322830677,
	"step": 5
	},
	{
	"epoch": 0.009843730773963333,
	"grad_norm": 10.821477890014648,
	"learning_rate": 6.557377049180328e-07,
	"loss": 2.6916,
	"mean_token_accuracy": 0.4892874449491501,
	"step": 10
	},
	{
	"epoch": 0.014765596160944998,
	"grad_norm": 9.100831031799316,
	"learning_rate": 9.836065573770493e-07,
	"loss": 2.6563,
	"mean_token_accuracy": 0.49268135130405427,
	"step": 15
	},
	{
	"epoch": 0.019687461547926666,
	"grad_norm": 6.744043827056885,
	"learning_rate": 1.3114754098360657e-06,
	"loss": 2.4838,
	"mean_token_accuracy": 0.503991749882698,
	"step": 20
	},
	{
	"epoch": 0.02460932693490833,
	"grad_norm": 4.111428737640381,
	"learning_rate": 1.6393442622950819e-06,
	"loss": 2.3481,
	"mean_token_accuracy": 0.5121142826974392,
	"step": 25
	},
	{
	"epoch": 0.029531192321889995,
	"grad_norm": 3.504826068878174,
	"learning_rate": 1.9672131147540985e-06,
	"loss": 2.1834,
	"mean_token_accuracy": 0.525759468972683,
	"step": 30
	},
	{
	"epoch": 0.034453057708871665,
	"grad_norm": 2.371668577194214,
	"learning_rate": 2.295081967213115e-06,
	"loss": 1.9992,
	"mean_token_accuracy": 0.5471328645944595,
	"step": 35
	},
	{
	"epoch": 0.03937492309585333,
	"grad_norm": 1.910736083984375,
	"learning_rate": 2.6229508196721314e-06,
	"loss": 1.8619,
	"mean_token_accuracy": 0.5657269343733787,
	"step": 40
	},
	{
	"epoch": 0.044296788482835,
	"grad_norm": 1.6694586277008057,
	"learning_rate": 2.9508196721311478e-06,
	"loss": 1.7324,
	"mean_token_accuracy": 0.582801228761673,
	"step": 45
	},
	{
	"epoch": 0.04921865386981666,
	"grad_norm": 1.3371120691299438,
	"learning_rate": 3.2786885245901638e-06,
	"loss": 1.5922,
	"mean_token_accuracy": 0.6066210582852364,
	"step": 50
	},
	{
	"epoch": 0.054140519256798324,
	"grad_norm": 1.153715968132019,
	"learning_rate": 3.6065573770491806e-06,
	"loss": 1.4607,
	"mean_token_accuracy": 0.629358272254467,
	"step": 55
	},
	{
	"epoch": 0.05906238464377999,
	"grad_norm": 1.011682391166687,
	"learning_rate": 3.934426229508197e-06,
	"loss": 1.3312,
	"mean_token_accuracy": 0.6534152328968048,
	"step": 60
	},
	{
	"epoch": 0.06398425003076166,
	"grad_norm": 0.8580278158187866,
	"learning_rate": 4.2622950819672135e-06,
	"loss": 1.2163,
	"mean_token_accuracy": 0.676006656885147,
	"step": 65
	},
	{
	"epoch": 0.06890611541774333,
	"grad_norm": 0.7737818360328674,
	"learning_rate": 4.59016393442623e-06,
	"loss": 1.1256,
	"mean_token_accuracy": 0.695121419429779,
	"step": 70
	},
	{
	"epoch": 0.073827980804725,
	"grad_norm": 0.6026164889335632,
	"learning_rate": 4.918032786885246e-06,
	"loss": 1.0456,
	"mean_token_accuracy": 0.7120692700147628,
	"step": 75
	},
	{
	"epoch": 0.07874984619170666,
	"grad_norm": 20.797266006469727,
	"learning_rate": 5.245901639344263e-06,
	"loss": 0.9884,
	"mean_token_accuracy": 0.7246918171644211,
	"step": 80
	},
	{
	"epoch": 0.08367171157868833,
	"grad_norm": 24.53761100769043,
	"learning_rate": 5.573770491803278e-06,
	"loss": 0.9471,
	"mean_token_accuracy": 0.7344574183225632,
	"step": 85
	},
	{
	"epoch": 0.08859357696567,
	"grad_norm": 7.69836950302124,
	"learning_rate": 5.9016393442622956e-06,
	"loss": 0.9291,
	"mean_token_accuracy": 0.7384938269853591,
	"step": 90
	},
	{
	"epoch": 0.09351544235265165,
	"grad_norm": 0.42971891164779663,
	"learning_rate": 6.229508196721312e-06,
	"loss": 0.9071,
	"mean_token_accuracy": 0.743149445950985,
	"step": 95
	},
	{
	"epoch": 0.09843730773963331,
	"grad_norm": 0.4011496901512146,
	"learning_rate": 6.5573770491803276e-06,
	"loss": 0.8839,
	"mean_token_accuracy": 0.7489838138222694,
	"step": 100
	},
	{
	"epoch": 0.10335917312661498,
	"grad_norm": 0.4182426631450653,
	"learning_rate": 6.885245901639345e-06,
	"loss": 0.864,
	"mean_token_accuracy": 0.7533508613705635,
	"step": 105
	},
	{
	"epoch": 0.10828103851359665,
	"grad_norm": 0.4418739080429077,
	"learning_rate": 7.213114754098361e-06,
	"loss": 0.8461,
	"mean_token_accuracy": 0.7571793958544731,
	"step": 110
	},
	{
	"epoch": 0.11320290390057831,
	"grad_norm": 4.76384973526001,
	"learning_rate": 7.540983606557377e-06,
	"loss": 0.8478,
	"mean_token_accuracy": 0.7560782924294471,
	"step": 115
	},
	{
	"epoch": 0.11812476928755998,
	"grad_norm": 0.426782488822937,
	"learning_rate": 7.868852459016394e-06,
	"loss": 0.8262,
	"mean_token_accuracy": 0.7621309965848923,
	"step": 120
	},
	{
	"epoch": 0.12304663467454165,
	"grad_norm": 3.5404343605041504,
	"learning_rate": 8.19672131147541e-06,
	"loss": 0.8239,
	"mean_token_accuracy": 0.7624999329447746,
	"step": 125
	},
	{
	"epoch": 0.12796850006152333,
	"grad_norm": 0.6128109097480774,
	"learning_rate": 8.524590163934427e-06,
	"loss": 0.8125,
	"mean_token_accuracy": 0.7650709196925163,
	"step": 130
	},
	{
	"epoch": 0.132890365448505,
	"grad_norm": 0.4441392719745636,
	"learning_rate": 8.852459016393443e-06,
	"loss": 0.8178,
	"mean_token_accuracy": 0.7635303542017937,
	"step": 135
	},
	{
	"epoch": 0.13781223083548666,
	"grad_norm": 0.6959536075592041,
	"learning_rate": 9.18032786885246e-06,
	"loss": 0.797,
	"mean_token_accuracy": 0.7682553365826607,
	"step": 140
	},
	{
	"epoch": 0.14273409622246833,
	"grad_norm": 0.4633159935474396,
	"learning_rate": 9.508196721311476e-06,
	"loss": 0.7972,
	"mean_token_accuracy": 0.7677757993340493,
	"step": 145
	},
	{
	"epoch": 0.14765596160945,
	"grad_norm": 0.3808494806289673,
	"learning_rate": 9.836065573770493e-06,
	"loss": 0.7956,
	"mean_token_accuracy": 0.7682796508073807,
	"step": 150
	},
	{
	"epoch": 0.15257782699643166,
	"grad_norm": 1.2230223417282104,
	"learning_rate": 1.0163934426229509e-05,
	"loss": 0.7714,
	"mean_token_accuracy": 0.7741705477237701,
	"step": 155
	},
	{
	"epoch": 0.15749969238341333,
	"grad_norm": 1.2708261013031006,
	"learning_rate": 1.0491803278688525e-05,
	"loss": 0.7671,
	"mean_token_accuracy": 0.7750522747635842,
	"step": 160
	},
	{
	"epoch": 0.162421557770395,
	"grad_norm": 0.4153311252593994,
	"learning_rate": 1.0819672131147544e-05,
	"loss": 0.762,
	"mean_token_accuracy": 0.776003035902977,
	"step": 165
	},
	{
	"epoch": 0.16734342315737666,
	"grad_norm": 0.48690149188041687,
	"learning_rate": 1.1147540983606557e-05,
	"loss": 0.7611,
	"mean_token_accuracy": 0.776053948700428,
	"step": 170
	},
	{
	"epoch": 0.17226528854435832,
	"grad_norm": 0.3839600682258606,
	"learning_rate": 1.1475409836065575e-05,
	"loss": 0.7518,
	"mean_token_accuracy": 0.7784286484122276,
	"step": 175
	},
	{
	"epoch": 0.17718715393134,
	"grad_norm": 0.33650702238082886,
	"learning_rate": 1.1803278688524591e-05,
	"loss": 0.7425,
	"mean_token_accuracy": 0.7807790979743003,
	"step": 180
	},
	{
	"epoch": 0.18210901931832166,
	"grad_norm": 0.34878674149513245,
	"learning_rate": 1.2131147540983608e-05,
	"loss": 0.7469,
	"mean_token_accuracy": 0.779270826280117,
	"step": 185
	},
	{
	"epoch": 0.1870308847053033,
	"grad_norm": 0.4435058534145355,
	"learning_rate": 1.2459016393442624e-05,
	"loss": 0.7414,
	"mean_token_accuracy": 0.7804962411522866,
	"step": 190
	},
	{
	"epoch": 0.19195275009228496,
	"grad_norm": 0.34793269634246826,
	"learning_rate": 1.2786885245901642e-05,
	"loss": 0.7368,
	"mean_token_accuracy": 0.7817707493901253,
	"step": 195
	},
	{
	"epoch": 0.19687461547926663,
	"grad_norm": 0.32821062207221985,
	"learning_rate": 1.3114754098360655e-05,
	"loss": 0.7309,
	"mean_token_accuracy": 0.7830819576978684,
	"step": 200
	},
	{
	"epoch": 0.2017964808662483,
	"grad_norm": 0.3908160626888275,
	"learning_rate": 1.3442622950819673e-05,
	"loss": 0.7349,
	"mean_token_accuracy": 0.7820746794342994,
	"step": 205
	},
	{
	"epoch": 0.20671834625322996,
	"grad_norm": 1.239039659500122,
	"learning_rate": 1.377049180327869e-05,
	"loss": 0.7315,
	"mean_token_accuracy": 0.7830250725150109,
	"step": 210
	},
	{
	"epoch": 0.21164021164021163,
	"grad_norm": 0.437558650970459,
	"learning_rate": 1.4098360655737706e-05,
	"loss": 0.7213,
	"mean_token_accuracy": 0.785545514523983,
	"step": 215
	},
	{
	"epoch": 0.2165620770271933,
	"grad_norm": 0.3581276535987854,
	"learning_rate": 1.4426229508196722e-05,
	"loss": 0.7156,
	"mean_token_accuracy": 0.7868386089801789,
	"step": 220
	},
	{
	"epoch": 0.22148394241417496,
	"grad_norm": 0.393839031457901,
	"learning_rate": 1.4754098360655739e-05,
	"loss": 0.7108,
	"mean_token_accuracy": 0.7875275865197182,
	"step": 225
	},
	{
	"epoch": 0.22640580780115663,
	"grad_norm": 0.4203226566314697,
	"learning_rate": 1.5081967213114754e-05,
	"loss": 0.7115,
	"mean_token_accuracy": 0.7875282734632492,
	"step": 230
	},
	{
	"epoch": 0.2313276731881383,
	"grad_norm": 0.4379311501979828,
	"learning_rate": 1.5409836065573772e-05,
	"loss": 0.7176,
	"mean_token_accuracy": 0.7859495177865028,
	"step": 235
	},
	{
	"epoch": 0.23624953857511996,
	"grad_norm": 0.5987364053726196,
	"learning_rate": 1.5737704918032788e-05,
	"loss": 0.7047,
	"mean_token_accuracy": 0.7892461016774177,
	"step": 240
	},
	{
	"epoch": 0.24117140396210163,
	"grad_norm": 0.39721059799194336,
	"learning_rate": 1.6065573770491805e-05,
	"loss": 0.7082,
	"mean_token_accuracy": 0.7879156336188317,
	"step": 245
	},
	{
	"epoch": 0.2460932693490833,
	"grad_norm": 0.35150638222694397,
	"learning_rate": 1.639344262295082e-05,
	"loss": 0.7015,
	"mean_token_accuracy": 0.7899731829762459,
	"step": 250
	},
	{
	"epoch": 0.25101513473606496,
	"grad_norm": 0.37812677025794983,
	"learning_rate": 1.6721311475409837e-05,
	"loss": 0.7112,
	"mean_token_accuracy": 0.7869908154010773,
	"step": 255
	},
	{
	"epoch": 0.25593700012304665,
	"grad_norm": 0.37921008467674255,
	"learning_rate": 1.7049180327868854e-05,
	"loss": 0.695,
	"mean_token_accuracy": 0.7912393018603325,
	"step": 260
	},
	{
	"epoch": 0.2608588655100283,
	"grad_norm": 0.3776193857192993,
	"learning_rate": 1.737704918032787e-05,
	"loss": 0.6975,
	"mean_token_accuracy": 0.7903847828507423,
	"step": 265
	},
	{
	"epoch": 0.26578073089701,
	"grad_norm": 0.34160885214805603,
	"learning_rate": 1.7704918032786887e-05,
	"loss": 0.7005,
	"mean_token_accuracy": 0.7901133581995964,
	"step": 270
	},
	{
	"epoch": 0.2707025962839916,
	"grad_norm": 0.3151760399341583,
	"learning_rate": 1.8032786885245903e-05,
	"loss": 0.6838,
	"mean_token_accuracy": 0.7940751999616623,
	"step": 275
	},
	{
	"epoch": 0.2756244616709733,
	"grad_norm": 0.3251655101776123,
	"learning_rate": 1.836065573770492e-05,
	"loss": 0.683,
	"mean_token_accuracy": 0.7942519947886467,
	"step": 280
	},
	{
	"epoch": 0.28054632705795496,
	"grad_norm": 0.392980694770813,
	"learning_rate": 1.8688524590163936e-05,
	"loss": 0.6779,
	"mean_token_accuracy": 0.7953907087445259,
	"step": 285
	},
	{
	"epoch": 0.28546819244493665,
	"grad_norm": 0.42777085304260254,
	"learning_rate": 1.9016393442622952e-05,
	"loss": 0.696,
	"mean_token_accuracy": 0.7913835749030114,
	"step": 290
	},
	{
	"epoch": 0.2903900578319183,
	"grad_norm": 0.38064613938331604,
	"learning_rate": 1.934426229508197e-05,
	"loss": 0.6777,
	"mean_token_accuracy": 0.79527537971735,
	"step": 295
	},
	{
	"epoch": 0.2953119232189,
	"grad_norm": 0.35906219482421875,
	"learning_rate": 1.9672131147540985e-05,
	"loss": 0.6772,
	"mean_token_accuracy": 0.7954441845417023,
	"step": 300
	},
	{
	"epoch": 0.3002337886058816,
	"grad_norm": 0.4336443543434143,
	"learning_rate": 2e-05,
	"loss": 0.6672,
	"mean_token_accuracy": 0.7982369065284729,
	"step": 305
	},
	{
	"epoch": 0.3051556539928633,
	"grad_norm": 0.35013464093208313,
	"learning_rate": 1.9999835673561284e-05,
	"loss": 0.6823,
	"mean_token_accuracy": 0.7940784975886345,
	"step": 310
	},
	{
	"epoch": 0.31007751937984496,
	"grad_norm": 0.4209573566913605,
	"learning_rate": 1.9999342699645774e-05,
	"loss": 0.6705,
	"mean_token_accuracy": 0.7970875754952431,
	"step": 315
	},
	{
	"epoch": 0.31499938476682665,
	"grad_norm": 0.3402932584285736,
	"learning_rate": 1.9998521094455198e-05,
	"loss": 0.6733,
	"mean_token_accuracy": 0.7962517961859703,
	"step": 320
	},
	{
	"epoch": 0.3199212501538083,
	"grad_norm": 0.3613898456096649,
	"learning_rate": 1.9997370884991842e-05,
	"loss": 0.6659,
	"mean_token_accuracy": 0.7986094921827316,
	"step": 325
	},
	{
	"epoch": 0.32484311554079,
	"grad_norm": 0.8141839504241943,
	"learning_rate": 1.9995892109057675e-05,
	"loss": 0.6682,
	"mean_token_accuracy": 0.7979325890541077,
	"step": 330
	},
	{
	"epoch": 0.3297649809277716,
	"grad_norm": 0.32822492718696594,
	"learning_rate": 1.99940848152531e-05,
	"loss": 0.6592,
	"mean_token_accuracy": 0.799762362241745,
	"step": 335
	},
	{
	"epoch": 0.3346868463147533,
	"grad_norm": 0.32193639874458313,
	"learning_rate": 1.9991949062975336e-05,
	"loss": 0.6669,
	"mean_token_accuracy": 0.7977916583418846,
	"step": 340
	},
	{
	"epoch": 0.33960871170173496,
	"grad_norm": 0.6516172885894775,
	"learning_rate": 1.9989484922416503e-05,
	"loss": 0.6636,
	"mean_token_accuracy": 0.7989253982901573,
	"step": 345
	},
	{
	"epoch": 0.34453057708871665,
	"grad_norm": 0.6252678036689758,
	"learning_rate": 1.9986692474561292e-05,
	"loss": 0.6549,
	"mean_token_accuracy": 0.8010424450039864,
	"step": 350
	},
	{
	"epoch": 0.3494524424756983,
	"grad_norm": 0.39426907896995544,
	"learning_rate": 1.9983571811184297e-05,
	"loss": 0.6583,
	"mean_token_accuracy": 0.8001298069953918,
	"step": 355
	},
	{
	"epoch": 0.35437430786268,
	"grad_norm": 0.4398311972618103,
	"learning_rate": 1.9980123034847025e-05,
	"loss": 0.6569,
	"mean_token_accuracy": 0.8002386093139648,
	"step": 360
	},
	{
	"epoch": 0.3592961732496616,
	"grad_norm": 0.36181896924972534,
	"learning_rate": 1.9976346258894502e-05,
	"loss": 0.6572,
	"mean_token_accuracy": 0.7999640181660652,
	"step": 365
	},
	{
	"epoch": 0.3642180386366433,
	"grad_norm": 0.33937492966651917,
	"learning_rate": 1.9972241607451552e-05,
	"loss": 0.6534,
	"mean_token_accuracy": 0.8008638471364975,
	"step": 370
	},
	{
	"epoch": 0.36913990402362495,
	"grad_norm": 0.3220241665840149,
	"learning_rate": 1.996780921541873e-05,
	"loss": 0.6491,
	"mean_token_accuracy": 0.8024497851729393,
	"step": 375
	},
	{
	"epoch": 0.3740617694106066,
	"grad_norm": 0.3588990867137909,
	"learning_rate": 1.9963049228467875e-05,
	"loss": 0.6519,
	"mean_token_accuracy": 0.8013440445065498,
	"step": 380
	},
	{
	"epoch": 0.3789836347975883,
	"grad_norm": 0.3850741982460022,
	"learning_rate": 1.9957961803037325e-05,
	"loss": 0.6539,
	"mean_token_accuracy": 0.8007026329636574,
	"step": 385
	},
	{
	"epoch": 0.3839055001845699,
	"grad_norm": 0.39418673515319824,
	"learning_rate": 1.9952547106326787e-05,
	"loss": 0.6511,
	"mean_token_accuracy": 0.8013290241360664,
	"step": 390
	},
	{
	"epoch": 0.3888273655715516,
	"grad_norm": 0.33889254927635193,
	"learning_rate": 1.9946805316291817e-05,
	"loss": 0.6523,
	"mean_token_accuracy": 0.8005807921290398,
	"step": 395
	},
	{
	"epoch": 0.39374923095853326,
	"grad_norm": 0.7381798624992371,
	"learning_rate": 1.9940736621638e-05,
	"loss": 0.649,
	"mean_token_accuracy": 0.8016207367181778,
	"step": 400
	},
	{
	"epoch": 0.39867109634551495,
	"grad_norm": 0.3772973120212555,
	"learning_rate": 1.993434122181474e-05,
	"loss": 0.6458,
	"mean_token_accuracy": 0.802768674492836,
	"step": 405
	},
	{
	"epoch": 0.4035929617324966,
	"grad_norm": 0.33333730697631836,
	"learning_rate": 1.992761932700868e-05,
	"loss": 0.6444,
	"mean_token_accuracy": 0.8025879472494125,
	"step": 410
	},
	{
	"epoch": 0.4085148271194783,
	"grad_norm": 0.3165677785873413,
	"learning_rate": 1.9920571158136837e-05,
	"loss": 0.639,
	"mean_token_accuracy": 0.8042329683899879,
	"step": 415
	},
	{
	"epoch": 0.4134366925064599,
	"grad_norm": 0.3313787579536438,
	"learning_rate": 1.9913196946839304e-05,
	"loss": 0.6422,
	"mean_token_accuracy": 0.803669148683548,
	"step": 420
	},
	{
	"epoch": 0.4183585578934416,
	"grad_norm": 0.2832159101963043,
	"learning_rate": 1.990549693547166e-05,
	"loss": 0.6378,
	"mean_token_accuracy": 0.8049987867474556,
	"step": 425
	},
	{
	"epoch": 0.42328042328042326,
	"grad_norm": 0.3278089463710785,
	"learning_rate": 1.9897471377096992e-05,
	"loss": 0.638,
	"mean_token_accuracy": 0.8043939173221588,
	"step": 430
	},
	{
	"epoch": 0.42820228866740495,
	"grad_norm": 0.33513346314430237,
	"learning_rate": 1.9889120535477584e-05,
	"loss": 0.6366,
	"mean_token_accuracy": 0.80514996945858,
	"step": 435
	},
	{
	"epoch": 0.4331241540543866,
	"grad_norm": 0.36697131395339966,
	"learning_rate": 1.9880444685066252e-05,
	"loss": 0.6322,
	"mean_token_accuracy": 0.8064638406038285,
	"step": 440
	},
	{
	"epoch": 0.4380460194413683,
	"grad_norm": 0.34239935874938965,
	"learning_rate": 1.987144411099731e-05,
	"loss": 0.6328,
	"mean_token_accuracy": 0.8058159291744232,
	"step": 445
	},
	{
	"epoch": 0.4429678848283499,
	"grad_norm": 0.29778754711151123,
	"learning_rate": 1.9862119109077226e-05,
	"loss": 0.6442,
	"mean_token_accuracy": 0.8030599504709244,
	"step": 450
	},
	{
	"epoch": 0.4478897502153316,
	"grad_norm": 0.31139907240867615,
	"learning_rate": 1.985246998577486e-05,
	"loss": 0.6507,
	"mean_token_accuracy": 0.8007849171757698,
	"step": 455
	},
	{
	"epoch": 0.45281161560231326,
	"grad_norm": 0.32070034742355347,
	"learning_rate": 1.984249705821143e-05,
	"loss": 0.6405,
	"mean_token_accuracy": 0.8038340613245964,
	"step": 460
	},
	{
	"epoch": 0.45773348098929495,
	"grad_norm": 0.3086022734642029,
	"learning_rate": 1.9832200654150077e-05,
	"loss": 0.6316,
	"mean_token_accuracy": 0.8058078184723854,
	"step": 465
	},
	{
	"epoch": 0.4626553463762766,
	"grad_norm": 0.30972251296043396,
	"learning_rate": 1.9821581111985072e-05,
	"loss": 0.6343,
	"mean_token_accuracy": 0.8051379904150963,
	"step": 470
	},
	{
	"epoch": 0.4675772117632583,
	"grad_norm": 0.2832852005958557,
	"learning_rate": 1.981063878073073e-05,
	"loss": 0.6324,
	"mean_token_accuracy": 0.8058837354183197,
	"step": 475
	},
	{
	"epoch": 0.4724990771502399,
	"grad_norm": 0.909318208694458,
	"learning_rate": 1.979937402000991e-05,
	"loss": 0.6319,
	"mean_token_accuracy": 0.8056973502039909,
	"step": 480
	},
	{
	"epoch": 0.4774209425372216,
	"grad_norm": 0.31788304448127747,
	"learning_rate": 1.9787787200042224e-05,
	"loss": 0.6354,
	"mean_token_accuracy": 0.8051144614815712,
	"step": 485
	},
	{
	"epoch": 0.48234280792420325,
	"grad_norm": 0.2922450602054596,
	"learning_rate": 1.977587870163184e-05,
	"loss": 0.6278,
	"mean_token_accuracy": 0.8066384568810463,
	"step": 490
	},
	{
	"epoch": 0.48726467331118495,
	"grad_norm": 0.287406325340271,
	"learning_rate": 1.9763648916154982e-05,
	"loss": 0.6271,
	"mean_token_accuracy": 0.8069956362247467,
	"step": 495
	},
	{
	"epoch": 0.4921865386981666,
	"grad_norm": 0.34040403366088867,
	"learning_rate": 1.975109824554707e-05,
	"loss": 0.6288,
	"mean_token_accuracy": 0.806525257229805,
	"step": 500
	},
	{
	"epoch": 0.4971084040851483,
	"grad_norm": 0.3302447199821472,
	"learning_rate": 1.973822710228951e-05,
	"loss": 0.6257,
	"mean_token_accuracy": 0.8072399228811264,
	"step": 505
	},
	{
	"epoch": 0.5020302694721299,
	"grad_norm": 0.288161963224411,
	"learning_rate": 1.972503590939612e-05,
	"loss": 0.6234,
	"mean_token_accuracy": 0.8078823387622833,
	"step": 510
	},
	{
	"epoch": 0.5069521348591116,
	"grad_norm": 0.3387835919857025,
	"learning_rate": 1.971152510039926e-05,
	"loss": 0.6269,
	"mean_token_accuracy": 0.8067226454615593,
	"step": 515
	},
	{
	"epoch": 0.5118740002460933,
	"grad_norm": 0.290519118309021,
	"learning_rate": 1.9697695119335547e-05,
	"loss": 0.6213,
	"mean_token_accuracy": 0.8083379164338111,
	"step": 520
	},
	{
	"epoch": 0.5167958656330749,
	"grad_norm": 0.3701138496398926,
	"learning_rate": 1.9683546420731292e-05,
	"loss": 0.6246,
	"mean_token_accuracy": 0.8079604268074035,
	"step": 525
	},
	{
	"epoch": 0.5217177310200566,
	"grad_norm": 0.39614954590797424,
	"learning_rate": 1.9669079469587548e-05,
	"loss": 0.6287,
	"mean_token_accuracy": 0.8067878499627114,
	"step": 530
	},
	{
	"epoch": 0.5266395964070383,
	"grad_norm": 0.32784542441368103,
	"learning_rate": 1.965429474136482e-05,
	"loss": 0.6156,
	"mean_token_accuracy": 0.8098407059907913,
	"step": 535
	},
	{
	"epoch": 0.53156146179402,
	"grad_norm": 0.30213144421577454,
	"learning_rate": 1.963919272196746e-05,
	"loss": 0.6207,
	"mean_token_accuracy": 0.8086924180388451,
	"step": 540
	},
	{
	"epoch": 0.5364833271810016,
	"grad_norm": 0.32220178842544556,
	"learning_rate": 1.9623773907727682e-05,
	"loss": 0.6157,
	"mean_token_accuracy": 0.8098208606243134,
	"step": 545
	},
	{
	"epoch": 0.5414051925679833,
	"grad_norm": 0.3250666856765747,
	"learning_rate": 1.9608038805389253e-05,
	"loss": 0.6195,
	"mean_token_accuracy": 0.8085113659501075,
	"step": 550
	},
	{
	"epoch": 0.546327057954965,
	"grad_norm": 0.36724722385406494,
	"learning_rate": 1.9591987932090836e-05,
	"loss": 0.6115,
	"mean_token_accuracy": 0.8109661117196083,
	"step": 555
	},
	{
	"epoch": 0.5512489233419466,
	"grad_norm": 0.30343472957611084,
	"learning_rate": 1.9575621815349e-05,
	"loss": 0.6204,
	"mean_token_accuracy": 0.8083494484424592,
	"step": 560
	},
	{
	"epoch": 0.5561707887289282,
	"grad_norm": 0.3323419988155365,
	"learning_rate": 1.9558940993040885e-05,
	"loss": 0.6232,
	"mean_token_accuracy": 0.8077159106731415,
	"step": 565
	},
	{
	"epoch": 0.5610926541159099,
	"grad_norm": 0.31035885214805603,
	"learning_rate": 1.954194601338651e-05,
	"loss": 0.6157,
	"mean_token_accuracy": 0.8096732005476952,
	"step": 570
	},
	{
	"epoch": 0.5660145195028916,
	"grad_norm": 0.2931119501590729,
	"learning_rate": 1.952463743493078e-05,
	"loss": 0.6199,
	"mean_token_accuracy": 0.808499938249588,
	"step": 575
	},
	{
	"epoch": 0.5709363848898733,
	"grad_norm": 0.27563023567199707,
	"learning_rate": 1.9507015826525096e-05,
	"loss": 0.6046,
	"mean_token_accuracy": 0.8128907606005669,
	"step": 580
	},
	{
	"epoch": 0.5758582502768549,
	"grad_norm": 0.28453299403190613,
	"learning_rate": 1.9489081767308696e-05,
	"loss": 0.6105,
	"mean_token_accuracy": 0.8113355338573456,
	"step": 585
	},
	{
	"epoch": 0.5807801156638366,
	"grad_norm": 0.37042465806007385,
	"learning_rate": 1.9470835846689596e-05,
	"loss": 0.6127,
	"mean_token_accuracy": 0.8106034889817237,
	"step": 590
	},
	{
	"epoch": 0.5857019810508183,
	"grad_norm": 0.2963549792766571,
	"learning_rate": 1.9452278664325227e-05,
	"loss": 0.6194,
	"mean_token_accuracy": 0.8086869075894356,
	"step": 595
	},
	{
	"epoch": 0.5906238464378,
	"grad_norm": 0.2905316948890686,
	"learning_rate": 1.9433410830102724e-05,
	"loss": 0.61,
	"mean_token_accuracy": 0.811042046546936,
	"step": 600
	},
	{
	"epoch": 0.5955457118247816,
	"grad_norm": 0.2674277424812317,
	"learning_rate": 1.9414232964118893e-05,
	"loss": 0.6119,
	"mean_token_accuracy": 0.8104571312665939,
	"step": 605
	},
	{
	"epoch": 0.6004675772117632,
	"grad_norm": 0.28245261311531067,
	"learning_rate": 1.939474569665981e-05,
	"loss": 0.6115,
	"mean_token_accuracy": 0.8106845885515213,
	"step": 610
	},
	{
	"epoch": 0.6053894425987449,
	"grad_norm": 0.2713403105735779,
	"learning_rate": 1.937494966818014e-05,
	"loss": 0.6096,
	"mean_token_accuracy": 0.8106750875711441,
	"step": 615
	},
	{
	"epoch": 0.6103113079857266,
	"grad_norm": 0.31770050525665283,
	"learning_rate": 1.9354845529282042e-05,
	"loss": 0.6142,
	"mean_token_accuracy": 0.8098479628562927,
	"step": 620
	},
	{
	"epoch": 0.6152331733727082,
	"grad_norm": 0.28526055812835693,
	"learning_rate": 1.933443394069383e-05,
	"loss": 0.6062,
	"mean_token_accuracy": 0.8120482847094536,
	"step": 625
	},
	{
	"epoch": 0.6201550387596899,
	"grad_norm": 0.5695453882217407,
	"learning_rate": 1.9313715573248238e-05,
	"loss": 0.6122,
	"mean_token_accuracy": 0.8099897101521492,
	"step": 630
	},
	{
	"epoch": 0.6250769041466716,
	"grad_norm": 0.2738396227359772,
	"learning_rate": 1.9292691107860374e-05,
	"loss": 0.6031,
	"mean_token_accuracy": 0.8127053424715995,
	"step": 635
	},
	{
	"epoch": 0.6299987695336533,
	"grad_norm": 0.28948965668678284,
	"learning_rate": 1.927136123550534e-05,
	"loss": 0.6115,
	"mean_token_accuracy": 0.8103477448225022,
	"step": 640
	},
	{
	"epoch": 0.6349206349206349,
	"grad_norm": 0.27830740809440613,
	"learning_rate": 1.9249726657195534e-05,
	"loss": 0.608,
	"mean_token_accuracy": 0.8116561621427536,
	"step": 645
	},
	{
	"epoch": 0.6398425003076166,
	"grad_norm": 0.2712289094924927,
	"learning_rate": 1.922778808395759e-05,
	"loss": 0.6054,
	"mean_token_accuracy": 0.8125208973884582,
	"step": 650
	},
	{
	"epoch": 0.6447643656945983,
	"grad_norm": 0.29063907265663147,
	"learning_rate": 1.9205546236809037e-05,
	"loss": 0.6047,
	"mean_token_accuracy": 0.8123130992054939,
	"step": 655
	},
	{
	"epoch": 0.64968623108158,
	"grad_norm": 0.293261855840683,
	"learning_rate": 1.9183001846734573e-05,
	"loss": 0.603,
	"mean_token_accuracy": 0.8129645109176635,
	"step": 660
	},
	{
	"epoch": 0.6546080964685616,
	"grad_norm": 0.2849041223526001,
	"learning_rate": 1.9160155654662075e-05,
	"loss": 0.5926,
	"mean_token_accuracy": 0.8157610684633255,
	"step": 665
	},
	{
	"epoch": 0.6595299618555432,
	"grad_norm": 0.2975578010082245,
	"learning_rate": 1.9137008411438213e-05,
	"loss": 0.6034,
	"mean_token_accuracy": 0.8125734269618988,
	"step": 670
	},
	{
	"epoch": 0.6644518272425249,
	"grad_norm": 0.286842405796051,
	"learning_rate": 1.9113560877803798e-05,
	"loss": 0.6045,
	"mean_token_accuracy": 0.8125320598483086,
	"step": 675
	},
	{
	"epoch": 0.6693736926295066,
	"grad_norm": 0.33480602502822876,
	"learning_rate": 1.9089813824368765e-05,
	"loss": 0.5975,
	"mean_token_accuracy": 0.8142675384879112,
	"step": 680
	},
	{
	"epoch": 0.6742955580164882,
	"grad_norm": 0.29252228140830994,
	"learning_rate": 1.9065768031586864e-05,
	"loss": 0.6056,
	"mean_token_accuracy": 0.8120014935731887,
	"step": 685
	},
	{
	"epoch": 0.6792174234034699,
	"grad_norm": 0.2882521450519562,
	"learning_rate": 1.9041424289729994e-05,
	"loss": 0.595,
	"mean_token_accuracy": 0.8150214269757271,
	"step": 690
	},
	{
	"epoch": 0.6841392887904516,
	"grad_norm": 0.29731523990631104,
	"learning_rate": 1.901678339886223e-05,
	"loss": 0.6013,
	"mean_token_accuracy": 0.8131750777363778,
	"step": 695
	},
	{
	"epoch": 0.6890611541774333,
	"grad_norm": 0.26834896206855774,
	"learning_rate": 1.8991846168813547e-05,
	"loss": 0.5918,
	"mean_token_accuracy": 0.8156168267130852,
	"step": 700
	},
	{
	"epoch": 0.6939830195644149,
	"grad_norm": 0.29199543595314026,
	"learning_rate": 1.896661341915318e-05,
	"loss": 0.6033,
	"mean_token_accuracy": 0.8124941572546959,
	"step": 705
	},
	{
	"epoch": 0.6989048849513966,
	"grad_norm": 0.28719085454940796,
	"learning_rate": 1.8941085979162714e-05,
	"loss": 0.5992,
	"mean_token_accuracy": 0.8138533607125282,
	"step": 710
	},
	{
	"epoch": 0.7038267503383783,
	"grad_norm": 0.28042468428611755,
	"learning_rate": 1.891526468780881e-05,
	"loss": 0.605,
	"mean_token_accuracy": 0.8121193930506706,
	"step": 715
	},
	{
	"epoch": 0.70874861572536,
	"grad_norm": 0.272483766078949,
	"learning_rate": 1.8889150393715627e-05,
	"loss": 0.5943,
	"mean_token_accuracy": 0.8147971466183662,
	"step": 720
	},
	{
	"epoch": 0.7136704811123415,
	"grad_norm": 0.24886226654052734,
	"learning_rate": 1.8862743955136966e-05,
	"loss": 0.5957,
	"mean_token_accuracy": 0.8145680665969849,
	"step": 725
	},
	{
	"epoch": 0.7185923464993232,
	"grad_norm": 0.26445212960243225,
	"learning_rate": 1.8836046239928025e-05,
	"loss": 0.5948,
	"mean_token_accuracy": 0.8148575246334075,
	"step": 730
	},
	{
	"epoch": 0.7235142118863049,
	"grad_norm": 0.2891506850719452,
	"learning_rate": 1.8809058125516894e-05,
	"loss": 0.5968,
	"mean_token_accuracy": 0.8141703933477402,
	"step": 735
	},
	{
	"epoch": 0.7284360772732866,
	"grad_norm": 0.28364264965057373,
	"learning_rate": 1.8781780498875727e-05,
	"loss": 0.6035,
	"mean_token_accuracy": 0.8124788105487823,
	"step": 740
	},
	{
	"epoch": 0.7333579426602682,
	"grad_norm": 0.2917366921901703,
	"learning_rate": 1.8754214256491564e-05,
	"loss": 0.5928,
	"mean_token_accuracy": 0.8153851807117463,
	"step": 745
	},
	{
	"epoch": 0.7382798080472499,
	"grad_norm": 0.2714190185070038,
	"learning_rate": 1.8726360304336896e-05,
	"loss": 0.601,
	"mean_token_accuracy": 0.8129221558570862,
	"step": 750
	},
	{
	"epoch": 0.7432016734342316,
	"grad_norm": 0.29474568367004395,
	"learning_rate": 1.8698219557839875e-05,
	"loss": 0.5963,
	"mean_token_accuracy": 0.8142225205898285,
	"step": 755
	},
	{
	"epoch": 0.7481235388212132,
	"grad_norm": 0.2684454619884491,
	"learning_rate": 1.866979294185423e-05,
	"loss": 0.5933,
	"mean_token_accuracy": 0.8149216592311859,
	"step": 760
	},
	{
	"epoch": 0.7530454042081949,
	"grad_norm": 0.26693102717399597,
	"learning_rate": 1.864108139062888e-05,
	"loss": 0.5908,
	"mean_token_accuracy": 0.8157912597060204,
	"step": 765
	},
	{
	"epoch": 0.7579672695951766,
	"grad_norm": 0.27418771386146545,
	"learning_rate": 1.8612085847777215e-05,
	"loss": 0.5913,
	"mean_token_accuracy": 0.8156127855181694,
	"step": 770
	},
	{
	"epoch": 0.7628891349821583,
	"grad_norm": 0.30855274200439453,
	"learning_rate": 1.858280726624609e-05,
	"loss": 0.5922,
	"mean_token_accuracy": 0.81515374481678,
	"step": 775
	},
	{
	"epoch": 0.7678110003691399,
	"grad_norm": 0.2978297472000122,
	"learning_rate": 1.855324660828452e-05,
	"loss": 0.5999,
	"mean_token_accuracy": 0.8132428601384163,
	"step": 780
	},
	{
	"epoch": 0.7727328657561215,
	"grad_norm": 0.30609989166259766,
	"learning_rate": 1.8523404845412028e-05,
	"loss": 0.5931,
	"mean_token_accuracy": 0.8152095600962639,
	"step": 785
	},
	{
	"epoch": 0.7776547311431032,
	"grad_norm": 0.28423747420310974,
	"learning_rate": 1.849328295838674e-05,
	"loss": 0.5939,
	"mean_token_accuracy": 0.8150446817278862,
	"step": 790
	},
	{
	"epoch": 0.7825765965300849,
	"grad_norm": 0.39114367961883545,
	"learning_rate": 1.8462881937173144e-05,
	"loss": 0.5886,
	"mean_token_accuracy": 0.8164272159337997,
	"step": 795
	},
	{
	"epoch": 0.7874984619170665,
	"grad_norm": 0.2761843502521515,
	"learning_rate": 1.8432202780909542e-05,
	"loss": 0.594,
	"mean_token_accuracy": 0.8146432772278785,
	"step": 800
	},
	{
	"epoch": 0.7924203273040482,
	"grad_norm": 0.26402318477630615,
	"learning_rate": 1.8401246497875238e-05,
	"loss": 0.5892,
	"mean_token_accuracy": 0.8162309199571609,
	"step": 805
	},
	{
	"epoch": 0.7973421926910299,
	"grad_norm": 0.26799553632736206,
	"learning_rate": 1.8370014105457378e-05,
	"loss": 0.5901,
	"mean_token_accuracy": 0.8156055212020874,
	"step": 810
	},
	{
	"epoch": 0.8022640580780116,
	"grad_norm": 0.3189884126186371,
	"learning_rate": 1.8338506630117527e-05,
	"loss": 0.5821,
	"mean_token_accuracy": 0.8177683308720589,
	"step": 815
	},
	{
	"epoch": 0.8071859234649932,
	"grad_norm": 0.26993831992149353,
	"learning_rate": 1.8306725107357933e-05,
	"loss": 0.5887,
	"mean_token_accuracy": 0.8162371620535851,
	"step": 820
	},
	{
	"epoch": 0.8121077888519749,
	"grad_norm": 0.33908817172050476,
	"learning_rate": 1.827467058168748e-05,
	"loss": 0.5932,
	"mean_token_accuracy": 0.8148850262165069,
	"step": 825
	},
	{
	"epoch": 0.8170296542389566,
	"grad_norm": 0.2749953866004944,
	"learning_rate": 1.824234410658738e-05,
	"loss": 0.5807,
	"mean_token_accuracy": 0.8185225054621696,
	"step": 830
	},
	{
	"epoch": 0.8219515196259383,
	"grad_norm": 0.28679126501083374,
	"learning_rate": 1.8209746744476538e-05,
	"loss": 0.5844,
	"mean_token_accuracy": 0.81742594987154,
	"step": 835
	},
	{
	"epoch": 0.8268733850129198,
	"grad_norm": 0.29817092418670654,
	"learning_rate": 1.817687956667664e-05,
	"loss": 0.584,
	"mean_token_accuracy": 0.8173492252826691,
	"step": 840
	},
	{
	"epoch": 0.8317952503999015,
	"grad_norm": 0.2705828547477722,
	"learning_rate": 1.8143743653376944e-05,
	"loss": 0.5955,
	"mean_token_accuracy": 0.8145547702908515,
	"step": 845
	},
	{
	"epoch": 0.8367171157868832,
	"grad_norm": 0.28381243348121643,
	"learning_rate": 1.811034009359877e-05,
	"loss": 0.5833,
	"mean_token_accuracy": 0.8177738025784492,
	"step": 850
	},
	{
	"epoch": 0.8416389811738649,
	"grad_norm": 0.2846708595752716,
	"learning_rate": 1.8076669985159726e-05,
	"loss": 0.5817,
	"mean_token_accuracy": 0.8179952159523964,
	"step": 855
	},
	{
	"epoch": 0.8465608465608465,
	"grad_norm": 0.2997231185436249,
	"learning_rate": 1.8042734434637615e-05,
	"loss": 0.5934,
	"mean_token_accuracy": 0.8149283960461616,
	"step": 860
	},
	{
	"epoch": 0.8514827119478282,
	"grad_norm": 0.29204457998275757,
	"learning_rate": 1.8008534557334064e-05,
	"loss": 0.5795,
	"mean_token_accuracy": 0.8184737205505371,
	"step": 865
	},
	{
	"epoch": 0.8564045773348099,
	"grad_norm": 0.30441614985466003,
	"learning_rate": 1.7974071477237887e-05,
	"loss": 0.585,
	"mean_token_accuracy": 0.8171376779675483,
	"step": 870
	},
	{
	"epoch": 0.8613264427217916,
	"grad_norm": 0.2779221832752228,
	"learning_rate": 1.7939346326988127e-05,
	"loss": 0.5889,
	"mean_token_accuracy": 0.8160797134041786,
	"step": 875
	},
	{
	"epoch": 0.8662483081087732,
	"grad_norm": 0.250242680311203,
	"learning_rate": 1.7904360247836838e-05,
	"loss": 0.5894,
	"mean_token_accuracy": 0.81572295576334,
	"step": 880
	},
	{
	"epoch": 0.8711701734957549,
	"grad_norm": 0.26801884174346924,
	"learning_rate": 1.7869114389611574e-05,
	"loss": 0.5853,
	"mean_token_accuracy": 0.8168028473854065,
	"step": 885
	},
	{
	"epoch": 0.8760920388827366,
	"grad_norm": 0.33699533343315125,
	"learning_rate": 1.7833609910677613e-05,
	"loss": 0.5804,
	"mean_token_accuracy": 0.8181165441870689,
	"step": 890
	},
	{
	"epoch": 0.8810139042697183,
	"grad_norm": 0.28362491726875305,
	"learning_rate": 1.7797847977899873e-05,
	"loss": 0.5823,
	"mean_token_accuracy": 0.8177706867456436,
	"step": 895
	},
	{
	"epoch": 0.8859357696566998,
	"grad_norm": 0.2863147556781769,
	"learning_rate": 1.7761829766604556e-05,
	"loss": 0.5797,
	"mean_token_accuracy": 0.8185298308730126,
	"step": 900
	},
	{
	"epoch": 0.8908576350436815,
	"grad_norm": 0.27263742685317993,
	"learning_rate": 1.7725556460540553e-05,
	"loss": 0.5825,
	"mean_token_accuracy": 0.8175166144967079,
	"step": 905
	},
	{
	"epoch": 0.8957795004306632,
	"grad_norm": 0.28120777010917664,
	"learning_rate": 1.7689029251840492e-05,
	"loss": 0.5788,
	"mean_token_accuracy": 0.8185988172888756,
	"step": 910
	},
	{
	"epoch": 0.9007013658176449,
	"grad_norm": 0.3469211459159851,
	"learning_rate": 1.7652249340981608e-05,
	"loss": 0.5877,
	"mean_token_accuracy": 0.8159551978111267,
	"step": 915
	},
	{
	"epoch": 0.9056232312046265,
	"grad_norm": 0.3101508617401123,
	"learning_rate": 1.7615217936746246e-05,
	"loss": 0.5819,
	"mean_token_accuracy": 0.8174650520086288,
	"step": 920
	},
	{
	"epoch": 0.9105450965916082,
	"grad_norm": 0.38838618993759155,
	"learning_rate": 1.757793625618217e-05,
	"loss": 0.5755,
	"mean_token_accuracy": 0.8196040257811547,
	"step": 925
	},
	{
	"epoch": 0.9154669619785899,
	"grad_norm": 0.3253493309020996,
	"learning_rate": 1.7540405524562533e-05,
	"loss": 0.5777,
	"mean_token_accuracy": 0.8182825416326522,
	"step": 930
	},
	{
	"epoch": 0.9203888273655716,
	"grad_norm": 0.2917826175689697,
	"learning_rate": 1.750262697534563e-05,
	"loss": 0.5809,
	"mean_token_accuracy": 0.8180661648511887,
	"step": 935
	},
	{
	"epoch": 0.9253106927525532,
	"grad_norm": 0.25714483857154846,
	"learning_rate": 1.7464601850134353e-05,
	"loss": 0.5752,
	"mean_token_accuracy": 0.8194984391331672,
	"step": 940
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 0.28597357869148254,
	"learning_rate": 1.742633139863538e-05,
	"loss": 0.579,
	"mean_token_accuracy": 0.8184013769030571,
	"step": 945
	},
	{
	"epoch": 0.9351544235265166,
	"grad_norm": 0.9777734875679016,
	"learning_rate": 1.738781687861812e-05,
	"loss": 0.5789,
	"mean_token_accuracy": 0.8188063263893127,
	"step": 950
	},
	{
	"epoch": 0.9400762889134983,
	"grad_norm": 0.26717498898506165,
	"learning_rate": 1.7349059555873348e-05,
	"loss": 0.5754,
	"mean_token_accuracy": 0.8191799059510231,
	"step": 955
	},
	{
	"epoch": 0.9449981543004798,
	"grad_norm": 0.29053807258605957,
	"learning_rate": 1.731006070417163e-05,
	"loss": 0.5726,
	"mean_token_accuracy": 0.8204409092664718,
	"step": 960
	},
	{
	"epoch": 0.9499200196874615,
	"grad_norm": 0.3052172362804413,
	"learning_rate": 1.7270821605221448e-05,
	"loss": 0.5764,
	"mean_token_accuracy": 0.819102555513382,
	"step": 965
	},
	{
	"epoch": 0.9548418850744432,
	"grad_norm": 0.33640167117118835,
	"learning_rate": 1.7231343548627085e-05,
	"loss": 0.5789,
	"mean_token_accuracy": 0.8184890508651733,
	"step": 970
	},
	{
	"epoch": 0.9597637504614249,
	"grad_norm": 0.2829669415950775,
	"learning_rate": 1.7191627831846226e-05,
	"loss": 0.5803,
	"mean_token_accuracy": 0.8179109930992127,
	"step": 975
	},
	{
	"epoch": 0.9646856158484065,
	"grad_norm": 0.2560986280441284,
	"learning_rate": 1.7151675760147325e-05,
	"loss": 0.5721,
	"mean_token_accuracy": 0.8198479250073433,
	"step": 980
	},
	{
	"epoch": 0.9696074812353882,
	"grad_norm": 0.27663761377334595,
	"learning_rate": 1.7111488646566728e-05,
	"loss": 0.5851,
	"mean_token_accuracy": 0.8171452388167382,
	"step": 985
	},
	{
	"epoch": 0.9745293466223699,
	"grad_norm": 0.2673356235027313,
	"learning_rate": 1.7071067811865477e-05,
	"loss": 0.5751,
	"mean_token_accuracy": 0.8194502517580986,
	"step": 990
	},
	{
	"epoch": 0.9794512120093516,
	"grad_norm": 0.2639131546020508,
	"learning_rate": 1.7030414584485938e-05,
	"loss": 0.5757,
	"mean_token_accuracy": 0.8192202031612397,
	"step": 995
	},
	{
	"epoch": 0.9843730773963332,
	"grad_norm": 0.2639618515968323,
	"learning_rate": 1.6989530300508126e-05,
	"loss": 0.576,
	"mean_token_accuracy": 0.8191347226500512,
	"step": 1000
	},
	{
	"epoch": 0.9892949427833149,
	"grad_norm": 0.2554817199707031,
	"learning_rate": 1.6948416303605796e-05,
	"loss": 0.5778,
	"mean_token_accuracy": 0.8186899140477181,
	"step": 1005
	},
	{
	"epoch": 0.9942168081702966,
	"grad_norm": 0.25301820039749146,
	"learning_rate": 1.690707394500229e-05,
	"loss": 0.576,
	"mean_token_accuracy": 0.8191317170858383,
	"step": 1010
	},
	{
	"epoch": 0.9991386735572783,
	"grad_norm": 0.2470293790102005,
	"learning_rate": 1.6865504583426117e-05,
	"loss": 0.5707,
	"mean_token_accuracy": 0.8204790607094765,
	"step": 1015
	},
	{
	"epoch": 1.0049218653869816,
	"grad_norm": 0.3501671254634857,
	"learning_rate": 1.6823709585066308e-05,
	"loss": 0.6648,
	"mean_token_accuracy": 0.824617318990754,
	"step": 1020
	},
	{
	"epoch": 1.0098437307739634,
	"grad_norm": 0.30985623598098755,
	"learning_rate": 1.6781690323527512e-05,
	"loss": 0.5503,
	"mean_token_accuracy": 0.8255873426795006,
	"step": 1025
	},
	{
	"epoch": 1.014765596160945,
	"grad_norm": 0.2879364788532257,
	"learning_rate": 1.6739448179784846e-05,
	"loss": 0.5529,
	"mean_token_accuracy": 0.8247572600841522,
	"step": 1030
	},
	{
	"epoch": 1.0196874615479268,
	"grad_norm": 0.27657514810562134,
	"learning_rate": 1.669698454213852e-05,
	"loss": 0.55,
	"mean_token_accuracy": 0.8258542969822884,
	"step": 1035
	},
	{
	"epoch": 1.0246093269349084,
	"grad_norm": 0.259316623210907,
	"learning_rate": 1.665430080616821e-05,
	"loss": 0.5435,
	"mean_token_accuracy": 0.8273309215903282,
	"step": 1040
	},
	{
	"epoch": 1.02953119232189,
	"grad_norm": 0.27227073907852173,
	"learning_rate": 1.6611398374687172e-05,
	"loss": 0.5494,
	"mean_token_accuracy": 0.8259153485298156,
	"step": 1045
	},
	{
	"epoch": 1.0344530577088717,
	"grad_norm": 0.2718289792537689,
	"learning_rate": 1.6568278657696166e-05,
	"loss": 0.5445,
	"mean_token_accuracy": 0.827112241089344,
	"step": 1050
	},
	{
	"epoch": 1.0393749230958533,
	"grad_norm": 0.28744345903396606,
	"learning_rate": 1.6524943072337094e-05,
	"loss": 0.5501,
	"mean_token_accuracy": 0.8256638810038567,
	"step": 1055
	},
	{
	"epoch": 1.044296788482835,
	"grad_norm": 0.26266416907310486,
	"learning_rate": 1.6481393042846442e-05,
	"loss": 0.5467,
	"mean_token_accuracy": 0.8264568135142326,
	"step": 1060
	},
	{
	"epoch": 1.0492186538698167,
	"grad_norm": 0.25888925790786743,
	"learning_rate": 1.6437630000508466e-05,
	"loss": 0.5522,
	"mean_token_accuracy": 0.8247309610247612,
	"step": 1065
	},
	{
	"epoch": 1.0541405192567983,
	"grad_norm": 0.25061705708503723,
	"learning_rate": 1.6393655383608132e-05,
	"loss": 0.5459,
	"mean_token_accuracy": 0.8267670929431915,
	"step": 1070
	},
	{
	"epoch": 1.0590623846437799,
	"grad_norm": 0.25011131167411804,
	"learning_rate": 1.634947063738389e-05,
	"loss": 0.5483,
	"mean_token_accuracy": 0.8261876925826073,
	"step": 1075
	},
	{
	"epoch": 1.0639842500307617,
	"grad_norm": 0.26051655411720276,
	"learning_rate": 1.630507721398013e-05,
	"loss": 0.5452,
	"mean_token_accuracy": 0.82709851115942,
	"step": 1080
	},
	{
	"epoch": 1.0689061154177433,
	"grad_norm": 0.2643815279006958,
	"learning_rate": 1.6260476572399494e-05,
	"loss": 0.5497,
	"mean_token_accuracy": 0.825461483001709,
	"step": 1085
	},
	{
	"epoch": 1.073827980804725,
	"grad_norm": 0.3040525019168854,
	"learning_rate": 1.6215670178454893e-05,
	"loss": 0.5478,
	"mean_token_accuracy": 0.8264098614454269,
	"step": 1090
	},
	{
	"epoch": 1.0787498461917067,
	"grad_norm": 0.28461357951164246,
	"learning_rate": 1.6170659504721365e-05,
	"loss": 0.5474,
	"mean_token_accuracy": 0.8261038646101951,
	"step": 1095
	},
	{
	"epoch": 1.0836717115786882,
	"grad_norm": 0.24723611772060394,
	"learning_rate": 1.6125446030487642e-05,
	"loss": 0.542,
	"mean_token_accuracy": 0.8277976959943771,
	"step": 1100
	},
	{
	"epoch": 1.08859357696567,
	"grad_norm": 0.4478602707386017,
	"learning_rate": 1.608003124170758e-05,
	"loss": 0.5435,
	"mean_token_accuracy": 0.8271990329027176,
	"step": 1105
	},
	{
	"epoch": 1.0935154423526516,
	"grad_norm": 0.2758786082267761,
	"learning_rate": 1.6034416630951265e-05,
	"loss": 0.5546,
	"mean_token_accuracy": 0.8245001256465911,
	"step": 1110
	},
	{
	"epoch": 1.0984373077396332,
	"grad_norm": 0.8616223335266113,
	"learning_rate": 1.598860369735601e-05,
	"loss": 0.5419,
	"mean_token_accuracy": 0.827488873898983,
	"step": 1115
	},
	{
	"epoch": 1.103359173126615,
	"grad_norm": 0.24690531194210052,
	"learning_rate": 1.594259394657707e-05,
	"loss": 0.5493,
	"mean_token_accuracy": 0.8259517803788186,
	"step": 1120
	},
	{
	"epoch": 1.1082810385135966,
	"grad_norm": 0.24601490795612335,
	"learning_rate": 1.589638889073813e-05,
	"loss": 0.5563,
	"mean_token_accuracy": 0.8240275859832764,
	"step": 1125
	},
	{
	"epoch": 1.1132029039005784,
	"grad_norm": 0.32801708579063416,
	"learning_rate": 1.584999004838165e-05,
	"loss": 0.5474,
	"mean_token_accuracy": 0.8265691444277763,
	"step": 1130
	},
	{
	"epoch": 1.11812476928756,
	"grad_norm": 0.25093355774879456,
	"learning_rate": 1.5803398944418934e-05,
	"loss": 0.5426,
	"mean_token_accuracy": 0.8273544386029243,
	"step": 1135
	},
	{
	"epoch": 1.1230466346745416,
	"grad_norm": 0.2600312829017639,
	"learning_rate": 1.5756617110080023e-05,
	"loss": 0.5522,
	"mean_token_accuracy": 0.8249027922749519,
	"step": 1140
	},
	{
	"epoch": 1.1279685000615234,
	"grad_norm": 0.26066142320632935,
	"learning_rate": 1.570964608286336e-05,
	"loss": 0.5442,
	"mean_token_accuracy": 0.8270187392830849,
	"step": 1145
	},
	{
	"epoch": 1.132890365448505,
	"grad_norm": 0.27738282084465027,
	"learning_rate": 1.5662487406485273e-05,
	"loss": 0.5361,
	"mean_token_accuracy": 0.8295004799962044,
	"step": 1150
	},
	{
	"epoch": 1.1378122308354865,
	"grad_norm": 0.3502300977706909,
	"learning_rate": 1.561514263082923e-05,
	"loss": 0.5482,
	"mean_token_accuracy": 0.8256632193922997,
	"step": 1155
	},
	{
	"epoch": 1.1427340962224684,
	"grad_norm": 0.5840310454368591,
	"learning_rate": 1.5567613311894908e-05,
	"loss": 0.5337,
	"mean_token_accuracy": 0.8303180441260338,
	"step": 1160
	},
	{
	"epoch": 1.14765596160945,
	"grad_norm": 0.2714439034461975,
	"learning_rate": 1.5519901011747046e-05,
	"loss": 0.5479,
	"mean_token_accuracy": 0.8258592769503593,
	"step": 1165
	},
	{
	"epoch": 1.1525778269964317,
	"grad_norm": 0.2692211866378784,
	"learning_rate": 1.5472007298464117e-05,
	"loss": 0.5439,
	"mean_token_accuracy": 0.8271799921989441,
	"step": 1170
	},
	{
	"epoch": 1.1574996923834133,
	"grad_norm": 0.2637535631656647,
	"learning_rate": 1.5423933746086793e-05,
	"loss": 0.5382,
	"mean_token_accuracy": 0.8288466781377792,
	"step": 1175
	},
	{
	"epoch": 1.162421557770395,
	"grad_norm": 0.25311315059661865,
	"learning_rate": 1.5375681934566203e-05,
	"loss": 0.5399,
	"mean_token_accuracy": 0.8281501397490502,
	"step": 1180
	},
	{
	"epoch": 1.1673434231573767,
	"grad_norm": 0.25321346521377563,
	"learning_rate": 1.532725344971202e-05,
	"loss": 0.5482,
	"mean_token_accuracy": 0.8261646762490272,
	"step": 1185
	},
	{
	"epoch": 1.1722652885443583,
	"grad_norm": 0.25499051809310913,
	"learning_rate": 1.527864988314033e-05,
	"loss": 0.5425,
	"mean_token_accuracy": 0.8275581628084183,
	"step": 1190
	},
	{
	"epoch": 1.17718715393134,
	"grad_norm": 0.2546637952327728,
	"learning_rate": 1.5229872832221336e-05,
	"loss": 0.5397,
	"mean_token_accuracy": 0.8283757612109184,
	"step": 1195
	},
	{
	"epoch": 1.1821090193183217,
	"grad_norm": 0.2738707363605499,
	"learning_rate": 1.5180923900026847e-05,
	"loss": 0.5386,
	"mean_token_accuracy": 0.8282813474535942,
	"step": 1200
	},
	{
	"epoch": 1.1870308847053033,
	"grad_norm": 0.2539266347885132,
	"learning_rate": 1.5131804695277612e-05,
	"loss": 0.5462,
	"mean_token_accuracy": 0.826425202190876,
	"step": 1205
	},
	{
	"epoch": 1.1919527500922849,
	"grad_norm": 0.2745126187801361,
	"learning_rate": 1.5082516832290424e-05,
	"loss": 0.5404,
	"mean_token_accuracy": 0.8284027636051178,
	"step": 1210
	},
	{
	"epoch": 1.1968746154792667,
	"grad_norm": 0.2544495165348053,
	"learning_rate": 1.5033061930925081e-05,
	"loss": 0.532,
	"mean_token_accuracy": 0.8300672218203544,
	"step": 1215
	},
	{
	"epoch": 1.2017964808662482,
	"grad_norm": 0.27299556136131287,
	"learning_rate": 1.4983441616531152e-05,
	"loss": 0.5396,
	"mean_token_accuracy": 0.8280036672949791,
	"step": 1220
	},
	{
	"epoch": 1.20671834625323,
	"grad_norm": 0.28981074690818787,
	"learning_rate": 1.4933657519894542e-05,
	"loss": 0.5524,
	"mean_token_accuracy": 0.8247063636779786,
	"step": 1225
	},
	{
	"epoch": 1.2116402116402116,
	"grad_norm": 0.30510908365249634,
	"learning_rate": 1.4883711277183917e-05,
	"loss": 0.5379,
	"mean_token_accuracy": 0.8288484767079354,
	"step": 1230
	},
	{
	"epoch": 1.2165620770271932,
	"grad_norm": 0.2616790533065796,
	"learning_rate": 1.483360452989691e-05,
	"loss": 0.5415,
	"mean_token_accuracy": 0.8275775909423828,
	"step": 1235
	},
	{
	"epoch": 1.221483942414175,
	"grad_norm": 0.2551945745944977,
	"learning_rate": 1.4783338924806191e-05,
	"loss": 0.5347,
	"mean_token_accuracy": 0.8295770674943924,
	"step": 1240
	},
	{
	"epoch": 1.2264058078011566,
	"grad_norm": 0.28227224946022034,
	"learning_rate": 1.4732916113905336e-05,
	"loss": 0.5425,
	"mean_token_accuracy": 0.8273839592933655,
	"step": 1245
	},
	{
	"epoch": 1.2313276731881384,
	"grad_norm": 0.260978102684021,
	"learning_rate": 1.4682337754354534e-05,
	"loss": 0.5431,
	"mean_token_accuracy": 0.8270445480942726,
	"step": 1250
	},
	{
	"epoch": 1.23624953857512,
	"grad_norm": 0.279462605714798,
	"learning_rate": 1.4631605508426124e-05,
	"loss": 0.5379,
	"mean_token_accuracy": 0.828822860121727,
	"step": 1255
	},
	{
	"epoch": 1.2411714039621016,
	"grad_norm": 0.2665978670120239,
	"learning_rate": 1.4580721043449968e-05,
	"loss": 0.5403,
	"mean_token_accuracy": 0.8279185205698013,
	"step": 1260
	},
	{
	"epoch": 1.2460932693490834,
	"grad_norm": 0.24216796457767487,
	"learning_rate": 1.4529686031758642e-05,
	"loss": 0.5409,
	"mean_token_accuracy": 0.8280630350112915,
	"step": 1265
	},
	{
	"epoch": 1.251015134736065,
	"grad_norm": 0.2504848837852478,
	"learning_rate": 1.4478502150632503e-05,
	"loss": 0.5389,
	"mean_token_accuracy": 0.8282234400510788,
	"step": 1270
	},
	{
	"epoch": 1.2559370001230468,
	"grad_norm": 0.25835323333740234,
	"learning_rate": 1.4427171082244523e-05,
	"loss": 0.5471,
	"mean_token_accuracy": 0.8258385419845581,
	"step": 1275
	},
	{
	"epoch": 1.2608588655100283,
	"grad_norm": 0.26074373722076416,
	"learning_rate": 1.4375694513605037e-05,
	"loss": 0.5413,
	"mean_token_accuracy": 0.8273946106433868,
	"step": 1280
	},
	{
	"epoch": 1.26578073089701,
	"grad_norm": 0.2714027762413025,
	"learning_rate": 1.4324074136506283e-05,
	"loss": 0.5399,
	"mean_token_accuracy": 0.8278847292065621,
	"step": 1285
	},
	{
	"epoch": 1.2707025962839915,
	"grad_norm": 0.24950872361660004,
	"learning_rate": 1.427231164746681e-05,
	"loss": 0.5429,
	"mean_token_accuracy": 0.827368488907814,
	"step": 1290
	},
	{
	"epoch": 1.2756244616709733,
	"grad_norm": 0.2415134608745575,
	"learning_rate": 1.4220408747675714e-05,
	"loss": 0.5417,
	"mean_token_accuracy": 0.8275652229785919,
	"step": 1295
	},
	{
	"epoch": 1.280546327057955,
	"grad_norm": 0.23719871044158936,
	"learning_rate": 1.4168367142936736e-05,
	"loss": 0.5442,
	"mean_token_accuracy": 0.8268394738435745,
	"step": 1300
	},
	{
	"epoch": 1.2854681924449367,
	"grad_norm": 0.2537670135498047,
	"learning_rate": 1.4116188543612182e-05,
	"loss": 0.5329,
	"mean_token_accuracy": 0.8299818679690361,
	"step": 1305
	},
	{
	"epoch": 1.2903900578319183,
	"grad_norm": 0.2709537446498871,
	"learning_rate": 1.4063874664566734e-05,
	"loss": 0.5419,
	"mean_token_accuracy": 0.8275921046733856,
	"step": 1310
	},
	{
	"epoch": 1.2953119232188999,
	"grad_norm": 0.26924365758895874,
	"learning_rate": 1.4011427225111091e-05,
	"loss": 0.5321,
	"mean_token_accuracy": 0.8305203005671501,
	"step": 1315
	},
	{
	"epoch": 1.3002337886058817,
	"grad_norm": 0.2832610607147217,
	"learning_rate": 1.3958847948945428e-05,
	"loss": 0.5391,
	"mean_token_accuracy": 0.8282249644398689,
	"step": 1320
	},
	{
	"epoch": 1.3051556539928633,
	"grad_norm": 0.2596539258956909,
	"learning_rate": 1.3906138564102794e-05,
	"loss": 0.5356,
	"mean_token_accuracy": 0.829230573773384,
	"step": 1325
	},
	{
	"epoch": 1.310077519379845,
	"grad_norm": 0.2699119448661804,
	"learning_rate": 1.3853300802892285e-05,
	"loss": 0.5417,
	"mean_token_accuracy": 0.8279038980603218,
	"step": 1330
	},
	{
	"epoch": 1.3149993847668267,
	"grad_norm": 0.2658538520336151,
	"learning_rate": 1.380033640184213e-05,
	"loss": 0.5462,
	"mean_token_accuracy": 0.8260830625891685,
	"step": 1335
	},
	{
	"epoch": 1.3199212501538082,
	"grad_norm": 0.25977060198783875,
	"learning_rate": 1.3747247101642605e-05,
	"loss": 0.5347,
	"mean_token_accuracy": 0.8293716937303544,
	"step": 1340
	},
	{
	"epoch": 1.32484311554079,
	"grad_norm": 0.24537616968154907,
	"learning_rate": 1.369403464708884e-05,
	"loss": 0.5367,
	"mean_token_accuracy": 0.8292932540178299,
	"step": 1345
	},
	{
	"epoch": 1.3297649809277716,
	"grad_norm": 0.2559899091720581,
	"learning_rate": 1.3640700787023465e-05,
	"loss": 0.5398,
	"mean_token_accuracy": 0.8283236369490623,
	"step": 1350
	},
	{
	"epoch": 1.3346868463147534,
	"grad_norm": 0.274198979139328,
	"learning_rate": 1.358724727427914e-05,
	"loss": 0.5376,
	"mean_token_accuracy": 0.8286082163453102,
	"step": 1355
	},
	{
	"epoch": 1.339608711701735,
	"grad_norm": 0.22712701559066772,
	"learning_rate": 1.3533675865620937e-05,
	"loss": 0.5336,
	"mean_token_accuracy": 0.8294816762208939,
	"step": 1360
	},
	{
	"epoch": 1.3445305770887166,
	"grad_norm": 0.24095574021339417,
	"learning_rate": 1.3479988321688619e-05,
	"loss": 0.536,
	"mean_token_accuracy": 0.829172083735466,
	"step": 1365
	},
	{
	"epoch": 1.3494524424756982,
	"grad_norm": 0.2448059618473053,
	"learning_rate": 1.3426186406938769e-05,
	"loss": 0.5337,
	"mean_token_accuracy": 0.8295143947005272,
	"step": 1370
	},
	{
	"epoch": 1.35437430786268,
	"grad_norm": 0.2575864791870117,
	"learning_rate": 1.337227188958679e-05,
	"loss": 0.5456,
	"mean_token_accuracy": 0.8261685460805893,
	"step": 1375
	},
	{
	"epoch": 1.3592961732496616,
	"grad_norm": 0.25145259499549866,
	"learning_rate": 1.3318246541548812e-05,
	"loss": 0.5319,
	"mean_token_accuracy": 0.8304190933704376,
	"step": 1380
	},
	{
	"epoch": 1.3642180386366434,
	"grad_norm": 0.2565249502658844,
	"learning_rate": 1.3264112138383445e-05,
	"loss": 0.5358,
	"mean_token_accuracy": 0.8293601229786873,
	"step": 1385
	},
	{
	"epoch": 1.369139904023625,
	"grad_norm": 0.8961818814277649,
	"learning_rate": 1.3209870459233422e-05,
	"loss": 0.528,
	"mean_token_accuracy": 0.8313272252678872,
	"step": 1390
	},
	{
	"epoch": 1.3740617694106065,
	"grad_norm": 0.26537856459617615,
	"learning_rate": 1.315552328676714e-05,
	"loss": 0.531,
	"mean_token_accuracy": 0.8308784514665604,
	"step": 1395
	},
	{
	"epoch": 1.3789836347975883,
	"grad_norm": 0.28985780477523804,
	"learning_rate": 1.3101072407120056e-05,
	"loss": 0.5406,
	"mean_token_accuracy": 0.8277209624648094,
	"step": 1400
	},
	{
	"epoch": 1.38390550018457,
	"grad_norm": 0.2510998249053955,
	"learning_rate": 1.3046519609836002e-05,
	"loss": 0.5406,
	"mean_token_accuracy": 0.827545890212059,
	"step": 1405
	},
	{
	"epoch": 1.3888273655715517,
	"grad_norm": 0.2563679814338684,
	"learning_rate": 1.2991866687808355e-05,
	"loss": 0.5394,
	"mean_token_accuracy": 0.8279638543725014,
	"step": 1410
	},
	{
	"epoch": 1.3937492309585333,
	"grad_norm": 0.2674863338470459,
	"learning_rate": 1.2937115437221119e-05,
	"loss": 0.547,
	"mean_token_accuracy": 0.8261717170476913,
	"step": 1415
	},
	{
	"epoch": 1.398671096345515,
	"grad_norm": 0.24103465676307678,
	"learning_rate": 1.2882267657489908e-05,
	"loss": 0.5428,
	"mean_token_accuracy": 0.8272509336471557,
	"step": 1420
	},
	{
	"epoch": 1.4035929617324965,
	"grad_norm": 0.22528545558452606,
	"learning_rate": 1.2827325151202783e-05,
	"loss": 0.5368,
	"mean_token_accuracy": 0.8288370996713639,
	"step": 1425
	},
	{
	"epoch": 1.4085148271194783,
	"grad_norm": 0.23950906097888947,
	"learning_rate": 1.2772289724061015e-05,
	"loss": 0.5309,
	"mean_token_accuracy": 0.8302434518933296,
	"step": 1430
	},
	{
	"epoch": 1.4134366925064599,
	"grad_norm": 0.22913850843906403,
	"learning_rate": 1.2717163184819761e-05,
	"loss": 0.5397,
	"mean_token_accuracy": 0.8278713747859001,
	"step": 1435
	},
	{
	"epoch": 1.4183585578934417,
	"grad_norm": 0.22565315663814545,
	"learning_rate": 1.2661947345228593e-05,
	"loss": 0.546,
	"mean_token_accuracy": 0.826079449057579,
	"step": 1440
	},
	{
	"epoch": 1.4232804232804233,
	"grad_norm": 0.2397647351026535,
	"learning_rate": 1.2606644019971967e-05,
	"loss": 0.5396,
	"mean_token_accuracy": 0.8280595645308495,
	"step": 1445
	},
	{
	"epoch": 1.4282022886674048,
	"grad_norm": 0.23136766254901886,
	"learning_rate": 1.255125502660958e-05,
	"loss": 0.5288,
	"mean_token_accuracy": 0.8313645005226136,
	"step": 1450
	},
	{
	"epoch": 1.4331241540543866,
	"grad_norm": 0.2330116331577301,
	"learning_rate": 1.2495782185516638e-05,
	"loss": 0.5364,
	"mean_token_accuracy": 0.828608725965023,
	"step": 1455
	},
	{
	"epoch": 1.4380460194413682,
	"grad_norm": 0.23435364663600922,
	"learning_rate": 1.2440227319824024e-05,
	"loss": 0.5323,
	"mean_token_accuracy": 0.8299019247293472,
	"step": 1460
	},
	{
	"epoch": 1.44296788482835,
	"grad_norm": 0.2517502009868622,
	"learning_rate": 1.2384592255358385e-05,
	"loss": 0.537,
	"mean_token_accuracy": 0.8284672737121582,
	"step": 1465
	},
	{
	"epoch": 1.4478897502153316,
	"grad_norm": 0.2454364001750946,
	"learning_rate": 1.2328878820582122e-05,
	"loss": 0.5282,
	"mean_token_accuracy": 0.8314993128180503,
	"step": 1470
	},
	{
	"epoch": 1.4528116156023132,
	"grad_norm": 0.2604913115501404,
	"learning_rate": 1.2273088846533303e-05,
	"loss": 0.5404,
	"mean_token_accuracy": 0.8278495371341705,
	"step": 1475
	},
	{
	"epoch": 1.457733480989295,
	"grad_norm": 0.277908593416214,
	"learning_rate": 1.2217224166765478e-05,
	"loss": 0.5285,
	"mean_token_accuracy": 0.8310411602258683,
	"step": 1480
	},
	{
	"epoch": 1.4626553463762766,
	"grad_norm": 0.23699437081813812,
	"learning_rate": 1.216128661728742e-05,
	"loss": 0.5359,
	"mean_token_accuracy": 0.8288247928023338,
	"step": 1485
	},
	{
	"epoch": 1.4675772117632584,
	"grad_norm": 0.2528901994228363,
	"learning_rate": 1.2105278036502787e-05,
	"loss": 0.543,
	"mean_token_accuracy": 0.8267820864915848,
	"step": 1490
	},
	{
	"epoch": 1.47249907715024,
	"grad_norm": 0.25504714250564575,
	"learning_rate": 1.204920026514971e-05,
	"loss": 0.5391,
	"mean_token_accuracy": 0.8281295597553253,
	"step": 1495
	},
	{
	"epoch": 1.4774209425372216,
	"grad_norm": 0.26783859729766846,
	"learning_rate": 1.1993055146240273e-05,
	"loss": 0.5325,
	"mean_token_accuracy": 0.8299062862992287,
	"step": 1500
	},
	{
	"epoch": 1.4823428079242031,
	"grad_norm": 0.25482243299484253,
	"learning_rate": 1.1936844524999966e-05,
	"loss": 0.5271,
	"mean_token_accuracy": 0.8315476939082146,
	"step": 1505
	},
	{
	"epoch": 1.487264673311185,
	"grad_norm": 0.2603563964366913,
	"learning_rate": 1.1880570248807033e-05,
	"loss": 0.5299,
	"mean_token_accuracy": 0.8303808271884918,
	"step": 1510
	},
	{
	"epoch": 1.4921865386981665,
	"grad_norm": 0.2345011830329895,
	"learning_rate": 1.1824234167131748e-05,
	"loss": 0.5274,
	"mean_token_accuracy": 0.8310874328017235,
	"step": 1515
	},
	{
	"epoch": 1.4971084040851483,
	"grad_norm": 0.3448658883571625,
	"learning_rate": 1.1767838131475654e-05,
	"loss": 0.5318,
	"mean_token_accuracy": 0.8301808550953865,
	"step": 1520
	},
	{
	"epoch": 1.50203026947213,
	"grad_norm": 0.26358914375305176,
	"learning_rate": 1.171138399531068e-05,
	"loss": 0.5341,
	"mean_token_accuracy": 0.8296466439962387,
	"step": 1525
	},
	{
	"epoch": 1.5069521348591115,
	"grad_norm": 0.23463788628578186,
	"learning_rate": 1.1654873614018266e-05,
	"loss": 0.5337,
	"mean_token_accuracy": 0.8297147572040557,
	"step": 1530
	},
	{
	"epoch": 1.5118740002460933,
	"grad_norm": 0.37559443712234497,
	"learning_rate": 1.1598308844828348e-05,
	"loss": 0.5281,
	"mean_token_accuracy": 0.8311620846390724,
	"step": 1535
	},
	{
	"epoch": 1.516795865633075,
	"grad_norm": 0.24298147857189178,
	"learning_rate": 1.1541691546758343e-05,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8288328930735588,
	"step": 1540
	},
	{
	"epoch": 1.5217177310200567,
	"grad_norm": 0.2316361665725708,
	"learning_rate": 1.1485023580552039e-05,
	"loss": 0.5217,
	"mean_token_accuracy": 0.8330785930156708,
	"step": 1545
	},
	{
	"epoch": 1.5266395964070383,
	"grad_norm": 0.22819174826145172,
	"learning_rate": 1.1428306808618456e-05,
	"loss": 0.53,
	"mean_token_accuracy": 0.8303656697273254,
	"step": 1550
	},
	{
	"epoch": 1.5315614617940199,
	"grad_norm": 0.22326573729515076,
	"learning_rate": 1.1371543094970624e-05,
	"loss": 0.53,
	"mean_token_accuracy": 0.8304451867938042,
	"step": 1555
	},
	{
	"epoch": 1.5364833271810014,
	"grad_norm": 0.23267020285129547,
	"learning_rate": 1.131473430516432e-05,
	"loss": 0.5284,
	"mean_token_accuracy": 0.8309284761548043,
	"step": 1560
	},
	{
	"epoch": 1.5414051925679833,
	"grad_norm": 0.3377299904823303,
	"learning_rate": 1.1257882306236776e-05,
	"loss": 0.5336,
	"mean_token_accuracy": 0.8295429393649101,
	"step": 1565
	},
	{
	"epoch": 1.546327057954965,
	"grad_norm": 0.24768434464931488,
	"learning_rate": 1.1200988966645286e-05,
	"loss": 0.5326,
	"mean_token_accuracy": 0.8297705203294754,
	"step": 1570
	},
	{
	"epoch": 1.5512489233419466,
	"grad_norm": 0.22998486459255219,
	"learning_rate": 1.1144056156205834e-05,
	"loss": 0.5298,
	"mean_token_accuracy": 0.8307420760393143,
	"step": 1575
	},
	{
	"epoch": 1.5561707887289282,
	"grad_norm": 0.22251376509666443,
	"learning_rate": 1.1087085746031612e-05,
	"loss": 0.528,
	"mean_token_accuracy": 0.8313020512461662,
	"step": 1580
	},
	{
	"epoch": 1.5610926541159098,
	"grad_norm": 0.2297334372997284,
	"learning_rate": 1.1030079608471544e-05,
	"loss": 0.5335,
	"mean_token_accuracy": 0.8294809475541115,
	"step": 1585
	},
	{
	"epoch": 1.5660145195028916,
	"grad_norm": 0.23138615489006042,
	"learning_rate": 1.0973039617048748e-05,
	"loss": 0.5333,
	"mean_token_accuracy": 0.829520358145237,
	"step": 1590
	},
	{
	"epoch": 1.5709363848898734,
	"grad_norm": 0.23547935485839844,
	"learning_rate": 1.091596764639895e-05,
	"loss": 0.5267,
	"mean_token_accuracy": 0.8314588502049446,
	"step": 1595
	},
	{
	"epoch": 1.575858250276855,
	"grad_norm": 0.2409500926733017,
	"learning_rate": 1.0858865572208892e-05,
	"loss": 0.5346,
	"mean_token_accuracy": 0.8291632473468781,
	"step": 1600
	},
	{
	"epoch": 1.5807801156638366,
	"grad_norm": 0.2276252955198288,
	"learning_rate": 1.080173527115467e-05,
	"loss": 0.5273,
	"mean_token_accuracy": 0.831089685857296,
	"step": 1605
	},
	{
	"epoch": 1.5857019810508182,
	"grad_norm": 0.2589430809020996,
	"learning_rate": 1.0744578620840065e-05,
	"loss": 0.5388,
	"mean_token_accuracy": 0.8279580160975456,
	"step": 1610
	},
	{
	"epoch": 1.5906238464378,
	"grad_norm": 0.2499450445175171,
	"learning_rate": 1.0687397499734842e-05,
	"loss": 0.5268,
	"mean_token_accuracy": 0.8311406090855599,
	"step": 1615
	},
	{
	"epoch": 1.5955457118247816,
	"grad_norm": 0.2377663552761078,
	"learning_rate": 1.0630193787112994e-05,
	"loss": 0.5257,
	"mean_token_accuracy": 0.8319837361574173,
	"step": 1620
	},
	{
	"epoch": 1.6004675772117634,
	"grad_norm": 0.24260112643241882,
	"learning_rate": 1.0572969362991e-05,
	"loss": 0.5316,
	"mean_token_accuracy": 0.8302173331379891,
	"step": 1625
	},
	{
	"epoch": 1.605389442598745,
	"grad_norm": 1.525187611579895,
	"learning_rate": 1.0515726108066025e-05,
	"loss": 0.5315,
	"mean_token_accuracy": 0.8299267381429672,
	"step": 1630
	},
	{
	"epoch": 1.6103113079857265,
	"grad_norm": 0.23062676191329956,
	"learning_rate": 1.0458465903654107e-05,
	"loss": 0.5298,
	"mean_token_accuracy": 0.8305988430976867,
	"step": 1635
	},
	{
	"epoch": 1.615233173372708,
	"grad_norm": 0.23293638229370117,
	"learning_rate": 1.0401190631628348e-05,
	"loss": 0.5304,
	"mean_token_accuracy": 0.8300972327589988,
	"step": 1640
	},
	{
	"epoch": 1.62015503875969,
	"grad_norm": 0.22877627611160278,
	"learning_rate": 1.034390217435704e-05,
	"loss": 0.5287,
	"mean_token_accuracy": 0.8309306666254997,
	"step": 1645
	},
	{
	"epoch": 1.6250769041466717,
	"grad_norm": 0.23190174996852875,
	"learning_rate": 1.0286602414641818e-05,
	"loss": 0.5303,
	"mean_token_accuracy": 0.8306381091475487,
	"step": 1650
	},
	{
	"epoch": 1.6299987695336533,
	"grad_norm": 0.23290394246578217,
	"learning_rate": 1.0229293235655768e-05,
	"loss": 0.5221,
	"mean_token_accuracy": 0.8326445773243905,
	"step": 1655
	},
	{
	"epoch": 1.6349206349206349,
	"grad_norm": 0.22114625573158264,
	"learning_rate": 1.0171976520881552e-05,
	"loss": 0.5263,
	"mean_token_accuracy": 0.8315576672554016,
	"step": 1660
	},
	{
	"epoch": 1.6398425003076165,
	"grad_norm": 0.2297578752040863,
	"learning_rate": 1.011465415404949e-05,
	"loss": 0.5252,
	"mean_token_accuracy": 0.8321317434310913,
	"step": 1665
	},
	{
	"epoch": 1.6447643656945983,
	"grad_norm": 0.23588469624519348,
	"learning_rate": 1.005732801907567e-05,
	"loss": 0.5262,
	"mean_token_accuracy": 0.831513050198555,
	"step": 1670
	},
	{
	"epoch": 1.64968623108158,
	"grad_norm": 0.22704197466373444,
	"learning_rate": 1e-05,
	"loss": 0.5382,
	"mean_token_accuracy": 0.8281245142221451,
	"step": 1675
	},
	{
	"epoch": 1.6546080964685617,
	"grad_norm": 0.22588326036930084,
	"learning_rate": 9.942671980924336e-06,
	"loss": 0.5286,
	"mean_token_accuracy": 0.8307414755225182,
	"step": 1680
	},
	{
	"epoch": 1.6595299618555432,
	"grad_norm": 0.22511065006256104,
	"learning_rate": 9.88534584595051e-06,
	"loss": 0.5279,
	"mean_token_accuracy": 0.83111013174057,
	"step": 1685
	},
	{
	"epoch": 1.6644518272425248,
	"grad_norm": 0.24989110231399536,
	"learning_rate": 9.82802347911845e-06,
	"loss": 0.5257,
	"mean_token_accuracy": 0.8317268043756485,
	"step": 1690
	},
	{
	"epoch": 1.6693736926295066,
	"grad_norm": 0.23859356343746185,
	"learning_rate": 9.770706764344235e-06,
	"loss": 0.534,
	"mean_token_accuracy": 0.8294050306081772,
	"step": 1695
	},
	{
	"epoch": 1.6742955580164882,
	"grad_norm": 0.2304782122373581,
	"learning_rate": 9.713397585358189e-06,
	"loss": 0.528,
	"mean_token_accuracy": 0.8308202102780342,
	"step": 1700
	},
	{
	"epoch": 1.67921742340347,
	"grad_norm": 0.2276812344789505,
	"learning_rate": 9.65609782564296e-06,
	"loss": 0.5267,
	"mean_token_accuracy": 0.8312249034643173,
	"step": 1705
	},
	{
	"epoch": 1.6841392887904516,
	"grad_norm": 0.3979962170124054,
	"learning_rate": 9.598809368371656e-06,
	"loss": 0.5266,
	"mean_token_accuracy": 0.8312003433704376,
	"step": 1710
	},
	{
	"epoch": 1.6890611541774332,
	"grad_norm": 0.25581249594688416,
	"learning_rate": 9.541534096345896e-06,
	"loss": 0.526,
	"mean_token_accuracy": 0.8315127685666084,
	"step": 1715
	},
	{
	"epoch": 1.6939830195644148,
	"grad_norm": 0.2141893208026886,
	"learning_rate": 9.484273891933982e-06,
	"loss": 0.5252,
	"mean_token_accuracy": 0.8317378848791123,
	"step": 1720
	},
	{
	"epoch": 1.6989048849513966,
	"grad_norm": 0.4327445924282074,
	"learning_rate": 9.427030637009002e-06,
	"loss": 0.5361,
	"mean_token_accuracy": 0.828312310576439,
	"step": 1725
	},
	{
	"epoch": 1.7038267503383784,
	"grad_norm": 0.22412188351154327,
	"learning_rate": 9.369806212887008e-06,
	"loss": 0.5299,
	"mean_token_accuracy": 0.830331552028656,
	"step": 1730
	},
	{
	"epoch": 1.70874861572536,
	"grad_norm": 0.22056014835834503,
	"learning_rate": 9.312602500265162e-06,
	"loss": 0.5259,
	"mean_token_accuracy": 0.831749576330185,
	"step": 1735
	},
	{
	"epoch": 1.7136704811123415,
	"grad_norm": 0.23633216321468353,
	"learning_rate": 9.255421379159935e-06,
	"loss": 0.5152,
	"mean_token_accuracy": 0.8346669390797615,
	"step": 1740
	},
	{
	"epoch": 1.7185923464993231,
	"grad_norm": 0.21674410998821259,
	"learning_rate": 9.198264728845332e-06,
	"loss": 0.5188,
	"mean_token_accuracy": 0.8335284858942031,
	"step": 1745
	},
	{
	"epoch": 1.723514211886305,
	"grad_norm": 0.22083686292171478,
	"learning_rate": 9.14113442779111e-06,
	"loss": 0.5283,
	"mean_token_accuracy": 0.8306051269173622,
	"step": 1750
	},
	{
	"epoch": 1.7284360772732867,
	"grad_norm": 0.2326516956090927,
	"learning_rate": 9.084032353601053e-06,
	"loss": 0.5329,
	"mean_token_accuracy": 0.8295654147863388,
	"step": 1755
	},
	{
	"epoch": 1.7333579426602683,
	"grad_norm": 0.23140785098075867,
	"learning_rate": 9.026960382951253e-06,
	"loss": 0.5243,
	"mean_token_accuracy": 0.8315977454185486,
	"step": 1760
	},
	{
	"epoch": 1.73827980804725,
	"grad_norm": 0.24312028288841248,
	"learning_rate": 8.969920391528459e-06,
	"loss": 0.5218,
	"mean_token_accuracy": 0.8328249961137771,
	"step": 1765
	},
	{
	"epoch": 1.7432016734342315,
	"grad_norm": 0.22412382066249847,
	"learning_rate": 8.912914253968391e-06,
	"loss": 0.5312,
	"mean_token_accuracy": 0.8298890963196754,
	"step": 1770
	},
	{
	"epoch": 1.748123538821213,
	"grad_norm": 0.2266296148300171,
	"learning_rate": 8.855943843794171e-06,
	"loss": 0.5234,
	"mean_token_accuracy": 0.8323718756437302,
	"step": 1775
	},
	{
	"epoch": 1.7530454042081949,
	"grad_norm": 0.21898606419563293,
	"learning_rate": 8.799011033354716e-06,
	"loss": 0.5288,
	"mean_token_accuracy": 0.8307971671223641,
	"step": 1780
	},
	{
	"epoch": 1.7579672695951767,
	"grad_norm": 0.2306451052427292,
	"learning_rate": 8.742117693763229e-06,
	"loss": 0.5271,
	"mean_token_accuracy": 0.8316369831562043,
	"step": 1785
	},
	{
	"epoch": 1.7628891349821583,
	"grad_norm": 0.22924001514911652,
	"learning_rate": 8.685265694835681e-06,
	"loss": 0.5272,
	"mean_token_accuracy": 0.8311286598443985,
	"step": 1790
	},
	{
	"epoch": 1.7678110003691399,
	"grad_norm": 0.33131736516952515,
	"learning_rate": 8.628456905029383e-06,
	"loss": 0.5195,
	"mean_token_accuracy": 0.833528995513916,
	"step": 1795
	},
	{
	"epoch": 1.7727328657561214,
	"grad_norm": 0.24447475373744965,
	"learning_rate": 8.571693191381545e-06,
	"loss": 0.5221,
	"mean_token_accuracy": 0.8324113413691521,
	"step": 1800
	},
	{
	"epoch": 1.7776547311431032,
	"grad_norm": 0.23472720384597778,
	"learning_rate": 8.514976419447963e-06,
	"loss": 0.5282,
	"mean_token_accuracy": 0.8306461483240127,
	"step": 1805
	},
	{
	"epoch": 1.782576596530085,
	"grad_norm": 0.25232747197151184,
	"learning_rate": 8.458308453241664e-06,
	"loss": 0.519,
	"mean_token_accuracy": 0.8334705844521523,
	"step": 1810
	},
	{
	"epoch": 1.7874984619170666,
	"grad_norm": 0.22827033698558807,
	"learning_rate": 8.401691155171654e-06,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8289692014455795,
	"step": 1815
	},
	{
	"epoch": 1.7924203273040482,
	"grad_norm": 0.21775387227535248,
	"learning_rate": 8.345126385981737e-06,
	"loss": 0.5217,
	"mean_token_accuracy": 0.8326601728796958,
	"step": 1820
	},
	{
	"epoch": 1.7973421926910298,
	"grad_norm": 0.22691109776496887,
	"learning_rate": 8.288616004689321e-06,
	"loss": 0.5208,
	"mean_token_accuracy": 0.8330274626612664,
	"step": 1825
	},
	{
	"epoch": 1.8022640580780116,
	"grad_norm": 0.23031188547611237,
	"learning_rate": 8.23216186852435e-06,
	"loss": 0.5251,
	"mean_token_accuracy": 0.8317318856716156,
	"step": 1830
	},
	{
	"epoch": 1.8071859234649932,
	"grad_norm": 0.23658455908298492,
	"learning_rate": 8.175765832868252e-06,
	"loss": 0.5263,
	"mean_token_accuracy": 0.8314035385847092,
	"step": 1835
	},
	{
	"epoch": 1.812107788851975,
	"grad_norm": 0.21728812158107758,
	"learning_rate": 8.119429751192972e-06,
	"loss": 0.5283,
	"mean_token_accuracy": 0.830833038687706,
	"step": 1840
	},
	{
	"epoch": 1.8170296542389566,
	"grad_norm": 0.22863180935382843,
	"learning_rate": 8.063155475000037e-06,
	"loss": 0.5231,
	"mean_token_accuracy": 0.8322245612740516,
	"step": 1845
	},
	{
	"epoch": 1.8219515196259382,
	"grad_norm": 0.22922097146511078,
	"learning_rate": 8.006944853759732e-06,
	"loss": 0.5242,
	"mean_token_accuracy": 0.8318595319986344,
	"step": 1850
	},
	{
	"epoch": 1.8268733850129197,
	"grad_norm": 0.209337517619133,
	"learning_rate": 7.950799734850292e-06,
	"loss": 0.5195,
	"mean_token_accuracy": 0.8333837404847145,
	"step": 1855
	},
	{
	"epoch": 1.8317952503999015,
	"grad_norm": 0.22603721916675568,
	"learning_rate": 7.894721963497214e-06,
	"loss": 0.5218,
	"mean_token_accuracy": 0.8325009673833847,
	"step": 1860
	},
	{
	"epoch": 1.8367171157868833,
	"grad_norm": 0.2327803522348404,
	"learning_rate": 7.838713382712583e-06,
	"loss": 0.5111,
	"mean_token_accuracy": 0.8357574358582497,
	"step": 1865
	},
	{
	"epoch": 1.841638981173865,
	"grad_norm": 0.23280593752861023,
	"learning_rate": 7.782775833234522e-06,
	"loss": 0.5333,
	"mean_token_accuracy": 0.8295109212398529,
	"step": 1870
	},
	{
	"epoch": 1.8465608465608465,
	"grad_norm": 0.2219589352607727,
	"learning_rate": 7.726911153466699e-06,
	"loss": 0.5255,
	"mean_token_accuracy": 0.8316129177808762,
	"step": 1875
	},
	{
	"epoch": 1.851482711947828,
	"grad_norm": 0.22274133563041687,
	"learning_rate": 7.67112117941788e-06,
	"loss": 0.5197,
	"mean_token_accuracy": 0.8331713795661926,
	"step": 1880
	},
	{
	"epoch": 1.85640457733481,
	"grad_norm": 0.20765641331672668,
	"learning_rate": 7.615407744641618e-06,
	"loss": 0.5222,
	"mean_token_accuracy": 0.8323680445551872,
	"step": 1885
	},
	{
	"epoch": 1.8613264427217917,
	"grad_norm": 0.22262942790985107,
	"learning_rate": 7.559772680175979e-06,
	"loss": 0.5256,
	"mean_token_accuracy": 0.8315785735845566,
	"step": 1890
	},
	{
	"epoch": 1.8662483081087733,
	"grad_norm": 0.23786763846874237,
	"learning_rate": 7.504217814483364e-06,
	"loss": 0.5225,
	"mean_token_accuracy": 0.8326525434851646,
	"step": 1895
	},
	{
	"epoch": 1.8711701734957549,
	"grad_norm": 0.22120903432369232,
	"learning_rate": 7.448744973390423e-06,
	"loss": 0.5322,
	"mean_token_accuracy": 0.8296578034758568,
	"step": 1900
	},
	{
	"epoch": 1.8760920388827365,
	"grad_norm": 0.22359086573123932,
	"learning_rate": 7.393355980028039e-06,
	"loss": 0.524,
	"mean_token_accuracy": 0.8320103421807289,
	"step": 1905
	},
	{
	"epoch": 1.8810139042697183,
	"grad_norm": 0.21293464303016663,
	"learning_rate": 7.338052654771407e-06,
	"loss": 0.5201,
	"mean_token_accuracy": 0.8330625906586647,
	"step": 1910
	},
	{
	"epoch": 1.8859357696566998,
	"grad_norm": 0.212773397564888,
	"learning_rate": 7.282836815180241e-06,
	"loss": 0.5212,
	"mean_token_accuracy": 0.8328917175531387,
	"step": 1915
	},
	{
	"epoch": 1.8908576350436817,
	"grad_norm": 0.2229495495557785,
	"learning_rate": 7.227710275938987e-06,
	"loss": 0.5177,
	"mean_token_accuracy": 0.8338592052459717,
	"step": 1920
	},
	{
	"epoch": 1.8957795004306632,
	"grad_norm": 0.22714777290821075,
	"learning_rate": 7.172674848797218e-06,
	"loss": 0.5196,
	"mean_token_accuracy": 0.8332103446125985,
	"step": 1925
	},
	{
	"epoch": 1.9007013658176448,
	"grad_norm": 0.5862542986869812,
	"learning_rate": 7.117732342510093e-06,
	"loss": 0.5148,
	"mean_token_accuracy": 0.8348309084773063,
	"step": 1930
	},
	{
	"epoch": 1.9056232312046264,
	"grad_norm": 0.21524302661418915,
	"learning_rate": 7.062884562778883e-06,
	"loss": 0.5225,
	"mean_token_accuracy": 0.8324376299977303,
	"step": 1935
	},
	{
	"epoch": 1.9105450965916082,
	"grad_norm": 0.22445465624332428,
	"learning_rate": 7.008133312191649e-06,
	"loss": 0.5239,
	"mean_token_accuracy": 0.8318991348147392,
	"step": 1940
	},
	{
	"epoch": 1.91546696197859,
	"grad_norm": 0.21925503015518188,
	"learning_rate": 6.953480390164001e-06,
	"loss": 0.5243,
	"mean_token_accuracy": 0.8320589557290077,
	"step": 1945
	},
	{
	"epoch": 1.9203888273655716,
	"grad_norm": 0.21358764171600342,
	"learning_rate": 6.898927592879945e-06,
	"loss": 0.5276,
	"mean_token_accuracy": 0.8309697136282921,
	"step": 1950
	},
	{
	"epoch": 1.9253106927525532,
	"grad_norm": 0.21541139483451843,
	"learning_rate": 6.844476713232863e-06,
	"loss": 0.5183,
	"mean_token_accuracy": 0.8336074352264404,
	"step": 1955
	},
	{
	"epoch": 1.9302325581395348,
	"grad_norm": 0.253334105014801,
	"learning_rate": 6.790129540766581e-06,
	"loss": 0.5217,
	"mean_token_accuracy": 0.8321399599313736,
	"step": 1960
	},
	{
	"epoch": 1.9351544235265166,
	"grad_norm": 0.2311272770166397,
	"learning_rate": 6.735887861616555e-06,
	"loss": 0.5226,
	"mean_token_accuracy": 0.832192762196064,
	"step": 1965
	},
	{
	"epoch": 1.9400762889134984,
	"grad_norm": 0.2155195027589798,
	"learning_rate": 6.68175345845119e-06,
	"loss": 0.5214,
	"mean_token_accuracy": 0.8325791984796524,
	"step": 1970
	},
	{
	"epoch": 1.94499815430048,
	"grad_norm": 0.2229234129190445,
	"learning_rate": 6.627728110413214e-06,
	"loss": 0.5228,
	"mean_token_accuracy": 0.8320748254656791,
	"step": 1975
	},
	{
	"epoch": 1.9499200196874615,
	"grad_norm": 0.2595667839050293,
	"learning_rate": 6.5738135930612355e-06,
	"loss": 0.5257,
	"mean_token_accuracy": 0.831524421274662,
	"step": 1980
	},
	{
	"epoch": 1.9548418850744431,
	"grad_norm": 0.21894799172878265,
	"learning_rate": 6.520011678311382e-06,
	"loss": 0.5135,
	"mean_token_accuracy": 0.8349313631653785,
	"step": 1985
	},
	{
	"epoch": 1.959763750461425,
	"grad_norm": 0.215131938457489,
	"learning_rate": 6.466324134379066e-06,
	"loss": 0.5125,
	"mean_token_accuracy": 0.8354373678565026,
	"step": 1990
	},
	{
	"epoch": 1.9646856158484065,
	"grad_norm": 0.227864071726799,
	"learning_rate": 6.412752725720864e-06,
	"loss": 0.5166,
	"mean_token_accuracy": 0.8339696109294892,
	"step": 1995
	},
	{
	"epoch": 1.9696074812353883,
	"grad_norm": 0.21633465588092804,
	"learning_rate": 6.359299212976535e-06,
	"loss": 0.5236,
	"mean_token_accuracy": 0.8324458003044128,
	"step": 2000
	},
	{
	"epoch": 1.97452934662237,
	"grad_norm": 0.2214214950799942,
	"learning_rate": 6.305965352911162e-06,
	"loss": 0.5186,
	"mean_token_accuracy": 0.8334563329815865,
	"step": 2005
	},
	{
	"epoch": 1.9794512120093515,
	"grad_norm": 0.20772044360637665,
	"learning_rate": 6.252752898357397e-06,
	"loss": 0.5146,
	"mean_token_accuracy": 0.8346970349550247,
	"step": 2010
	},
	{
	"epoch": 1.984373077396333,
	"grad_norm": 0.2208469659090042,
	"learning_rate": 6.1996635981578755e-06,
	"loss": 0.521,
	"mean_token_accuracy": 0.8330862745642662,
	"step": 2015
	},
	{
	"epoch": 1.9892949427833149,
	"grad_norm": 0.21841764450073242,
	"learning_rate": 6.146699197107715e-06,
	"loss": 0.5141,
	"mean_token_accuracy": 0.8346462666988372,
	"step": 2020
	},
	{
	"epoch": 1.9942168081702967,
	"grad_norm": 0.22905802726745605,
	"learning_rate": 6.093861435897208e-06,
	"loss": 0.5161,
	"mean_token_accuracy": 0.8341751024127007,
	"step": 2025
	},
	{
	"epoch": 1.9991386735572783,
	"grad_norm": 0.2205893099308014,
	"learning_rate": 6.041152051054575e-06,
	"loss": 0.5135,
	"mean_token_accuracy": 0.8350084885954857,
	"step": 2030
	},
	{
	"epoch": 2.0049218653869816,
	"grad_norm": 0.27798768877983093,
	"learning_rate": 5.988572774888913e-06,
	"loss": 0.5979,
	"mean_token_accuracy": 0.8386082910909886,
	"step": 2035
	},
	{
	"epoch": 2.009843730773963,
	"grad_norm": 0.24996507167816162,
	"learning_rate": 5.936125335433265e-06,
	"loss": 0.4945,
	"mean_token_accuracy": 0.839720045030117,
	"step": 2040
	},
	{
	"epoch": 2.014765596160945,
	"grad_norm": 0.2548527121543884,
	"learning_rate": 5.883811456387821e-06,
	"loss": 0.4941,
	"mean_token_accuracy": 0.8400543674826622,
	"step": 2045
	},
	{
	"epoch": 2.0196874615479268,
	"grad_norm": 0.2184976190328598,
	"learning_rate": 5.831632857063271e-06,
	"loss": 0.4902,
	"mean_token_accuracy": 0.8409830510616303,
	"step": 2050
	},
	{
	"epoch": 2.0246093269349084,
	"grad_norm": 0.22762830555438995,
	"learning_rate": 5.779591252324286e-06,
	"loss": 0.4904,
	"mean_token_accuracy": 0.8408440828323365,
	"step": 2055
	},
	{
	"epoch": 2.02953119232189,
	"grad_norm": 0.23035886883735657,
	"learning_rate": 5.7276883525331915e-06,
	"loss": 0.4943,
	"mean_token_accuracy": 0.8397367835044861,
	"step": 2060
	},
	{
	"epoch": 2.0344530577088715,
	"grad_norm": 0.22349004447460175,
	"learning_rate": 5.675925863493721e-06,
	"loss": 0.5009,
	"mean_token_accuracy": 0.8379953891038895,
	"step": 2065
	},
	{
	"epoch": 2.0393749230958536,
	"grad_norm": 0.22588923573493958,
	"learning_rate": 5.6243054863949675e-06,
	"loss": 0.494,
	"mean_token_accuracy": 0.8397265374660492,
	"step": 2070
	},
	{
	"epoch": 2.044296788482835,
	"grad_norm": 0.2168150246143341,
	"learning_rate": 5.5728289177554805e-06,
	"loss": 0.4975,
	"mean_token_accuracy": 0.8389487206935883,
	"step": 2075
	},
	{
	"epoch": 2.0492186538698167,
	"grad_norm": 0.22331282496452332,
	"learning_rate": 5.521497849367501e-06,
	"loss": 0.4859,
	"mean_token_accuracy": 0.8422671511769295,
	"step": 2080
	},
	{
	"epoch": 2.0541405192567983,
	"grad_norm": 0.21221551299095154,
	"learning_rate": 5.4703139682413585e-06,
	"loss": 0.4866,
	"mean_token_accuracy": 0.8420242533087731,
	"step": 2085
	},
	{
	"epoch": 2.05906238464378,
	"grad_norm": 0.22058208286762238,
	"learning_rate": 5.419278956550037e-06,
	"loss": 0.4955,
	"mean_token_accuracy": 0.8394055813550949,
	"step": 2090
	},
	{
	"epoch": 2.0639842500307615,
	"grad_norm": 0.22200560569763184,
	"learning_rate": 5.368394491573876e-06,
	"loss": 0.493,
	"mean_token_accuracy": 0.8402127623558044,
	"step": 2095
	},
	{
	"epoch": 2.0689061154177435,
	"grad_norm": 0.2220141738653183,
	"learning_rate": 5.31766224564547e-06,
	"loss": 0.4958,
	"mean_token_accuracy": 0.8393116250634194,
	"step": 2100
	},
	{
	"epoch": 2.073827980804725,
	"grad_norm": 0.21074913442134857,
	"learning_rate": 5.267083886094668e-06,
	"loss": 0.4931,
	"mean_token_accuracy": 0.840206652879715,
	"step": 2105
	},
	{
	"epoch": 2.0787498461917067,
	"grad_norm": 0.2276320606470108,
	"learning_rate": 5.216661075193814e-06,
	"loss": 0.4955,
	"mean_token_accuracy": 0.8393134921789169,
	"step": 2110
	},
	{
	"epoch": 2.0836717115786882,
	"grad_norm": 0.2224099338054657,
	"learning_rate": 5.166395470103092e-06,
	"loss": 0.4937,
	"mean_token_accuracy": 0.8397904768586159,
	"step": 2115
	},
	{
	"epoch": 2.08859357696567,
	"grad_norm": 0.22312206029891968,
	"learning_rate": 5.116288722816087e-06,
	"loss": 0.493,
	"mean_token_accuracy": 0.8403119757771492,
	"step": 2120
	},
	{
	"epoch": 2.093515442352652,
	"grad_norm": 0.2194313257932663,
	"learning_rate": 5.06634248010546e-06,
	"loss": 0.4935,
	"mean_token_accuracy": 0.8400413483381272,
	"step": 2125
	},
	{
	"epoch": 2.0984373077396334,
	"grad_norm": 0.22484691441059113,
	"learning_rate": 5.016558383468851e-06,
	"loss": 0.49,
	"mean_token_accuracy": 0.8409391462802887,
	"step": 2130
	},
	{
	"epoch": 2.103359173126615,
	"grad_norm": 0.22470517456531525,
	"learning_rate": 4.9669380690749215e-06,
	"loss": 0.497,
	"mean_token_accuracy": 0.8389460816979408,
	"step": 2135
	},
	{
	"epoch": 2.1082810385135966,
	"grad_norm": 0.21832752227783203,
	"learning_rate": 4.91748316770958e-06,
	"loss": 0.4926,
	"mean_token_accuracy": 0.8401527449488639,
	"step": 2140
	},
	{
	"epoch": 2.113202903900578,
	"grad_norm": 0.21521726250648499,
	"learning_rate": 4.868195304722391e-06,
	"loss": 0.4979,
	"mean_token_accuracy": 0.8387278065085411,
	"step": 2145
	},
	{
	"epoch": 2.1181247692875598,
	"grad_norm": 0.21682803332805634,
	"learning_rate": 4.819076099973152e-06,
	"loss": 0.5014,
	"mean_token_accuracy": 0.83763497620821,
	"step": 2150
	},
	{
	"epoch": 2.123046634674542,
	"grad_norm": 0.2204725295305252,
	"learning_rate": 4.77012716777867e-06,
	"loss": 0.4989,
	"mean_token_accuracy": 0.8380599915981293,
	"step": 2155
	},
	{
	"epoch": 2.1279685000615234,
	"grad_norm": 0.2179991751909256,
	"learning_rate": 4.721350116859675e-06,
	"loss": 0.4946,
	"mean_token_accuracy": 0.8396460056304932,
	"step": 2160
	},
	{
	"epoch": 2.132890365448505,
	"grad_norm": 0.21851445734500885,
	"learning_rate": 4.672746550287985e-06,
	"loss": 0.4947,
	"mean_token_accuracy": 0.8395410850644112,
	"step": 2165
	},
	{
	"epoch": 2.1378122308354865,
	"grad_norm": 0.21560297906398773,
	"learning_rate": 4.6243180654337975e-06,
	"loss": 0.4857,
	"mean_token_accuracy": 0.8421663656830788,
	"step": 2170
	},
	{
	"epoch": 2.142734096222468,
	"grad_norm": 0.21567942202091217,
	"learning_rate": 4.576066253913209e-06,
	"loss": 0.493,
	"mean_token_accuracy": 0.840301775932312,
	"step": 2175
	},
	{
	"epoch": 2.14765596160945,
	"grad_norm": 0.22145864367485046,
	"learning_rate": 4.527992701535884e-06,
	"loss": 0.4844,
	"mean_token_accuracy": 0.8423144072294235,
	"step": 2180
	},
	{
	"epoch": 2.1525778269964317,
	"grad_norm": 0.217710942029953,
	"learning_rate": 4.480098988252958e-06,
	"loss": 0.4919,
	"mean_token_accuracy": 0.84017314016819,
	"step": 2185
	},
	{
	"epoch": 2.1574996923834133,
	"grad_norm": 0.2169259786605835,
	"learning_rate": 4.432386688105095e-06,
	"loss": 0.4929,
	"mean_token_accuracy": 0.840173925459385,
	"step": 2190
	},
	{
	"epoch": 2.162421557770395,
	"grad_norm": 0.21104402840137482,
	"learning_rate": 4.384857369170772e-06,
	"loss": 0.4875,
	"mean_token_accuracy": 0.8417868033051491,
	"step": 2195
	},
	{
	"epoch": 2.1673434231573765,
	"grad_norm": 0.21658702194690704,
	"learning_rate": 4.337512593514729e-06,
	"loss": 0.4947,
	"mean_token_accuracy": 0.8395476669073105,
	"step": 2200
	},
	{
	"epoch": 2.1722652885443585,
	"grad_norm": 0.22858913242816925,
	"learning_rate": 4.290353917136639e-06,
	"loss": 0.4901,
	"mean_token_accuracy": 0.8408517464995384,
	"step": 2205
	},
	{
	"epoch": 2.17718715393134,
	"grad_norm": 0.4094144105911255,
	"learning_rate": 4.243382889919981e-06,
	"loss": 0.496,
	"mean_token_accuracy": 0.8392629832029342,
	"step": 2210
	},
	{
	"epoch": 2.1821090193183217,
	"grad_norm": 0.21924547851085663,
	"learning_rate": 4.1966010555810696e-06,
	"loss": 0.4899,
	"mean_token_accuracy": 0.841227824985981,
	"step": 2215
	},
	{
	"epoch": 2.1870308847053033,
	"grad_norm": 0.21283064782619476,
	"learning_rate": 4.1500099516183555e-06,
	"loss": 0.4913,
	"mean_token_accuracy": 0.8405321702361107,
	"step": 2220
	},
	{
	"epoch": 2.191952750092285,
	"grad_norm": 0.21150268614292145,
	"learning_rate": 4.1036111092618725e-06,
	"loss": 0.4895,
	"mean_token_accuracy": 0.8410715743899345,
	"step": 2225
	},
	{
	"epoch": 2.1968746154792664,
	"grad_norm": 0.20887652039527893,
	"learning_rate": 4.057406053422933e-06,
	"loss": 0.4935,
	"mean_token_accuracy": 0.8398977249860764,
	"step": 2230
	},
	{
	"epoch": 2.2017964808662485,
	"grad_norm": 0.20756816864013672,
	"learning_rate": 4.011396302643989e-06,
	"loss": 0.4846,
	"mean_token_accuracy": 0.842858923971653,
	"step": 2235
	},
	{
	"epoch": 2.20671834625323,
	"grad_norm": 0.23419924080371857,
	"learning_rate": 3.965583369048737e-06,
	"loss": 0.4963,
	"mean_token_accuracy": 0.8392103880643844,
	"step": 2240
	},
	{
	"epoch": 2.2116402116402116,
	"grad_norm": 0.21532607078552246,
	"learning_rate": 3.919968758292425e-06,
	"loss": 0.4883,
	"mean_token_accuracy": 0.8413224458694458,
	"step": 2245
	},
	{
	"epoch": 2.216562077027193,
	"grad_norm": 0.2164084017276764,
	"learning_rate": 3.874553969512358e-06,
	"loss": 0.4885,
	"mean_token_accuracy": 0.8415488794445991,
	"step": 2250
	},
	{
	"epoch": 2.221483942414175,
	"grad_norm": 0.21010589599609375,
	"learning_rate": 3.82934049527864e-06,
	"loss": 0.4918,
	"mean_token_accuracy": 0.8404750242829323,
	"step": 2255
	},
	{
	"epoch": 2.226405807801157,
	"grad_norm": 0.20962242782115936,
	"learning_rate": 3.784329821545105e-06,
	"loss": 0.4962,
	"mean_token_accuracy": 0.839095975458622,
	"step": 2260
	},
	{
	"epoch": 2.2313276731881384,
	"grad_norm": 0.20551133155822754,
	"learning_rate": 3.739523427600509e-06,
	"loss": 0.4911,
	"mean_token_accuracy": 0.8407798200845719,
	"step": 2265
	},
	{
	"epoch": 2.23624953857512,
	"grad_norm": 0.21332746744155884,
	"learning_rate": 3.6949227860198712e-06,
	"loss": 0.492,
	"mean_token_accuracy": 0.8405194252729415,
	"step": 2270
	},
	{
	"epoch": 2.2411714039621016,
	"grad_norm": 0.26087722182273865,
	"learning_rate": 3.650529362616113e-06,
	"loss": 0.4875,
	"mean_token_accuracy": 0.8417001351714134,
	"step": 2275
	},
	{
	"epoch": 2.246093269349083,
	"grad_norm": 0.20974403619766235,
	"learning_rate": 3.606344616391867e-06,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8395893201231956,
	"step": 2280
	},
	{
	"epoch": 2.2510151347360647,
	"grad_norm": 0.22249352931976318,
	"learning_rate": 3.5623699994915363e-06,
	"loss": 0.4916,
	"mean_token_accuracy": 0.840800578892231,
	"step": 2285
	},
	{
	"epoch": 2.2559370001230468,
	"grad_norm": 0.20673160254955292,
	"learning_rate": 3.5186069571535575e-06,
	"loss": 0.4876,
	"mean_token_accuracy": 0.8417642295360566,
	"step": 2290
	},
	{
	"epoch": 2.2608588655100283,
	"grad_norm": 0.2050849050283432,
	"learning_rate": 3.475056927662912e-06,
	"loss": 0.4922,
	"mean_token_accuracy": 0.8401932448148728,
	"step": 2295
	},
	{
	"epoch": 2.26578073089701,
	"grad_norm": 0.2113514542579651,
	"learning_rate": 3.4317213423038386e-06,
	"loss": 0.4925,
	"mean_token_accuracy": 0.8401719897985458,
	"step": 2300
	},
	{
	"epoch": 2.2707025962839915,
	"grad_norm": 0.21461407840251923,
	"learning_rate": 3.388601625312833e-06,
	"loss": 0.4892,
	"mean_token_accuracy": 0.841229310631752,
	"step": 2305
	},
	{
	"epoch": 2.275624461670973,
	"grad_norm": 0.20549601316452026,
	"learning_rate": 3.345699193831795e-06,
	"loss": 0.4917,
	"mean_token_accuracy": 0.8405207619071007,
	"step": 2310
	},
	{
	"epoch": 2.280546327057955,
	"grad_norm": 0.21262629330158234,
	"learning_rate": 3.3030154578614783e-06,
	"loss": 0.4898,
	"mean_token_accuracy": 0.8410497605800629,
	"step": 2315
	},
	{
	"epoch": 2.2854681924449367,
	"grad_norm": 0.2351827323436737,
	"learning_rate": 3.2605518202151577e-06,
	"loss": 0.4945,
	"mean_token_accuracy": 0.8394208237528801,
	"step": 2320
	},
	{
	"epoch": 2.2903900578319183,
	"grad_norm": 0.21704116463661194,
	"learning_rate": 3.218309676472492e-06,
	"loss": 0.489,
	"mean_token_accuracy": 0.8411409676074981,
	"step": 2325
	},
	{
	"epoch": 2.2953119232189,
	"grad_norm": 0.20750364661216736,
	"learning_rate": 3.1762904149336947e-06,
	"loss": 0.4942,
	"mean_token_accuracy": 0.8396940395236016,
	"step": 2330
	},
	{
	"epoch": 2.3002337886058815,
	"grad_norm": 0.20055250823497772,
	"learning_rate": 3.134495416573884e-06,
	"loss": 0.4871,
	"mean_token_accuracy": 0.8417407006025315,
	"step": 2335
	},
	{
	"epoch": 2.3051556539928635,
	"grad_norm": 0.20621967315673828,
	"learning_rate": 3.0929260549977116e-06,
	"loss": 0.4883,
	"mean_token_accuracy": 0.8415425732731819,
	"step": 2340
	},
	{
	"epoch": 2.310077519379845,
	"grad_norm": 0.210305854678154,
	"learning_rate": 3.0515836963942056e-06,
	"loss": 0.4929,
	"mean_token_accuracy": 0.8403278931975364,
	"step": 2345
	},
	{
	"epoch": 2.3149993847668267,
	"grad_norm": 0.25147390365600586,
	"learning_rate": 3.01046969949188e-06,
	"loss": 0.4909,
	"mean_token_accuracy": 0.8407050803303718,
	"step": 2350
	},
	{
	"epoch": 2.3199212501538082,
	"grad_norm": 0.21020571887493134,
	"learning_rate": 2.9695854155140648e-06,
	"loss": 0.4895,
	"mean_token_accuracy": 0.8410211369395256,
	"step": 2355
	},
	{
	"epoch": 2.32484311554079,
	"grad_norm": 0.21094508469104767,
	"learning_rate": 2.9289321881345257e-06,
	"loss": 0.4889,
	"mean_token_accuracy": 0.841056476533413,
	"step": 2360
	},
	{
	"epoch": 2.329764980927772,
	"grad_norm": 0.21813294291496277,
	"learning_rate": 2.8885113534332742e-06,
	"loss": 0.4928,
	"mean_token_accuracy": 0.8402146637439728,
	"step": 2365
	},
	{
	"epoch": 2.3346868463147534,
	"grad_norm": 0.21038471162319183,
	"learning_rate": 2.8483242398526723e-06,
	"loss": 0.4875,
	"mean_token_accuracy": 0.8416903391480446,
	"step": 2370
	},
	{
	"epoch": 2.339608711701735,
	"grad_norm": 0.21476763486862183,
	"learning_rate": 2.80837216815378e-06,
	"loss": 0.4883,
	"mean_token_accuracy": 0.8410104081034661,
	"step": 2375
	},
	{
	"epoch": 2.3445305770887166,
	"grad_norm": 0.2148827761411667,
	"learning_rate": 2.7686564513729198e-06,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8401752710342407,
	"step": 2380
	},
	{
	"epoch": 2.349452442475698,
	"grad_norm": 0.20347550511360168,
	"learning_rate": 2.7291783947785544e-06,
	"loss": 0.4891,
	"mean_token_accuracy": 0.841368468105793,
	"step": 2385
	},
	{
	"epoch": 2.35437430786268,
	"grad_norm": 0.2156437486410141,
	"learning_rate": 2.689939295828371e-06,
	"loss": 0.4926,
	"mean_token_accuracy": 0.8401880413293839,
	"step": 2390
	},
	{
	"epoch": 2.359296173249662,
	"grad_norm": 0.20905110239982605,
	"learning_rate": 2.650940444126654e-06,
	"loss": 0.4915,
	"mean_token_accuracy": 0.8407162860035896,
	"step": 2395
	},
	{
	"epoch": 2.3642180386366434,
	"grad_norm": 0.20476758480072021,
	"learning_rate": 2.6121831213818825e-06,
	"loss": 0.4932,
	"mean_token_accuracy": 0.840287271142006,
	"step": 2400
	},
	{
	"epoch": 2.369139904023625,
	"grad_norm": 0.1986178457736969,
	"learning_rate": 2.5736686013646226e-06,
	"loss": 0.4857,
	"mean_token_accuracy": 0.8420573100447655,
	"step": 2405
	},
	{
	"epoch": 2.3740617694106065,
	"grad_norm": 0.21784992516040802,
	"learning_rate": 2.535398149865651e-06,
	"loss": 0.4888,
	"mean_token_accuracy": 0.8410965353250504,
	"step": 2410
	},
	{
	"epoch": 2.378983634797588,
	"grad_norm": 0.20018485188484192,
	"learning_rate": 2.4973730246543736e-06,
	"loss": 0.4913,
	"mean_token_accuracy": 0.8406006515026092,
	"step": 2415
	},
	{
	"epoch": 2.3839055001845697,
	"grad_norm": 0.21187762916088104,
	"learning_rate": 2.4595944754374723e-06,
	"loss": 0.4972,
	"mean_token_accuracy": 0.8388384222984314,
	"step": 2420
	},
	{
	"epoch": 2.3888273655715517,
	"grad_norm": 0.2048918604850769,
	"learning_rate": 2.422063743817832e-06,
	"loss": 0.4936,
	"mean_token_accuracy": 0.8397043973207474,
	"step": 2425
	},
	{
	"epoch": 2.3937492309585333,
	"grad_norm": 0.2068692445755005,
	"learning_rate": 2.3847820632537565e-06,
	"loss": 0.4973,
	"mean_token_accuracy": 0.8392092302441597,
	"step": 2430
	},
	{
	"epoch": 2.398671096345515,
	"grad_norm": 0.2050062119960785,
	"learning_rate": 2.347750659018397e-06,
	"loss": 0.4964,
	"mean_token_accuracy": 0.8390960440039634,
	"step": 2435
	},
	{
	"epoch": 2.4035929617324965,
	"grad_norm": 0.20241810381412506,
	"learning_rate": 2.3109707481595113e-06,
	"loss": 0.4826,
	"mean_token_accuracy": 0.8431760326027871,
	"step": 2440
	},
	{
	"epoch": 2.408514827119478,
	"grad_norm": 0.2023165076971054,
	"learning_rate": 2.27444353945945e-06,
	"loss": 0.484,
	"mean_token_accuracy": 0.8427256375551224,
	"step": 2445
	},
	{
	"epoch": 2.41343669250646,
	"grad_norm": 0.2395012527704239,
	"learning_rate": 2.2381702333954436e-06,
	"loss": 0.4843,
	"mean_token_accuracy": 0.8425970792770385,
	"step": 2450
	},
	{
	"epoch": 2.4183585578934417,
	"grad_norm": 0.20210982859134674,
	"learning_rate": 2.2021520221001304e-06,
	"loss": 0.488,
	"mean_token_accuracy": 0.8415813356637954,
	"step": 2455
	},
	{
	"epoch": 2.4232804232804233,
	"grad_norm": 0.2082945853471756,
	"learning_rate": 2.16639008932239e-06,
	"loss": 0.4937,
	"mean_token_accuracy": 0.8398790895938874,
	"step": 2460
	},
	{
	"epoch": 2.428202288667405,
	"grad_norm": 0.20752127468585968,
	"learning_rate": 2.130885610388428e-06,
	"loss": 0.4959,
	"mean_token_accuracy": 0.839399340748787,
	"step": 2465
	},
	{
	"epoch": 2.4331241540543864,
	"grad_norm": 0.20869506895542145,
	"learning_rate": 2.0956397521631666e-06,
	"loss": 0.4868,
	"mean_token_accuracy": 0.8415920332074165,
	"step": 2470
	},
	{
	"epoch": 2.4380460194413685,
	"grad_norm": 0.20477741956710815,
	"learning_rate": 2.0606536730118767e-06,
	"loss": 0.4829,
	"mean_token_accuracy": 0.8429039210081101,
	"step": 2475
	},
	{
	"epoch": 2.44296788482835,
	"grad_norm": 0.20474423468112946,
	"learning_rate": 2.0259285227621152e-06,
	"loss": 0.4981,
	"mean_token_accuracy": 0.8382045805454255,
	"step": 2480
	},
	{
	"epoch": 2.4478897502153316,
	"grad_norm": 0.20369385182857513,
	"learning_rate": 1.9914654426659374e-06,
	"loss": 0.4926,
	"mean_token_accuracy": 0.839960803091526,
	"step": 2485
	},
	{
	"epoch": 2.452811615602313,
	"grad_norm": 0.2068207710981369,
	"learning_rate": 1.9572655653623884e-06,
	"loss": 0.4935,
	"mean_token_accuracy": 0.8397150009870529,
	"step": 2490
	},
	{
	"epoch": 2.457733480989295,
	"grad_norm": 0.20661979913711548,
	"learning_rate": 1.9233300148402767e-06,
	"loss": 0.4924,
	"mean_token_accuracy": 0.8401017665863038,
	"step": 2495
	},
	{
	"epoch": 2.462655346376277,
	"grad_norm": 0.21355277299880981,
	"learning_rate": 1.88965990640123e-06,
	"loss": 0.487,
	"mean_token_accuracy": 0.8420075699687004,
	"step": 2500
	},
	{
	"epoch": 2.4675772117632584,
	"grad_norm": 0.209817573428154,
	"learning_rate": 1.8562563466230577e-06,
	"loss": 0.4924,
	"mean_token_accuracy": 0.8402795165777206,
	"step": 2505
	},
	{
	"epoch": 2.47249907715024,
	"grad_norm": 0.1972341388463974,
	"learning_rate": 1.823120433323361e-06,
	"loss": 0.4912,
	"mean_token_accuracy": 0.8408435776829719,
	"step": 2510
	},
	{
	"epoch": 2.4774209425372216,
	"grad_norm": 0.20761115849018097,
	"learning_rate": 1.7902532555234653e-06,
	"loss": 0.4977,
	"mean_token_accuracy": 0.838873790204525,
	"step": 2515
	},
	{
	"epoch": 2.482342807924203,
	"grad_norm": 0.22367697954177856,
	"learning_rate": 1.757655893412622e-06,
	"loss": 0.4876,
	"mean_token_accuracy": 0.8413331776857376,
	"step": 2520
	},
	{
	"epoch": 2.487264673311185,
	"grad_norm": 0.20876270532608032,
	"learning_rate": 1.7253294183125223e-06,
	"loss": 0.4901,
	"mean_token_accuracy": 0.8411200374364853,
	"step": 2525
	},
	{
	"epoch": 2.4921865386981668,
	"grad_norm": 0.20132075250148773,
	"learning_rate": 1.6932748926420695e-06,
	"loss": 0.4953,
	"mean_token_accuracy": 0.8395631924271584,
	"step": 2530
	},
	{
	"epoch": 2.4971084040851483,
	"grad_norm": 0.1999741941690445,
	"learning_rate": 1.661493369882473e-06,
	"loss": 0.4796,
	"mean_token_accuracy": 0.843748077750206,
	"step": 2535
	},
	{
	"epoch": 2.50203026947213,
	"grad_norm": 0.21044902503490448,
	"learning_rate": 1.6299858945426251e-06,
	"loss": 0.4856,
	"mean_token_accuracy": 0.8423863723874092,
	"step": 2540
	},
	{
	"epoch": 2.5069521348591115,
	"grad_norm": 0.19819578528404236,
	"learning_rate": 1.5987535021247668e-06,
	"loss": 0.4855,
	"mean_token_accuracy": 0.8423318341374397,
	"step": 2545
	},
	{
	"epoch": 2.5118740002460935,
	"grad_norm": 0.2015785425901413,
	"learning_rate": 1.5677972190904623e-06,
	"loss": 0.4873,
	"mean_token_accuracy": 0.8417120486497879,
	"step": 2550
	},
	{
	"epoch": 2.5167958656330747,
	"grad_norm": 0.20403100550174713,
	"learning_rate": 1.537118062826859e-06,
	"loss": 0.4809,
	"mean_token_accuracy": 0.8435953631997108,
	"step": 2555
	},
	{
	"epoch": 2.5217177310200567,
	"grad_norm": 0.2051580399274826,
	"learning_rate": 1.5067170416132603e-06,
	"loss": 0.4841,
	"mean_token_accuracy": 0.842904870212078,
	"step": 2560
	},
	{
	"epoch": 2.5266395964070383,
	"grad_norm": 0.20559805631637573,
	"learning_rate": 1.4765951545879732e-06,
	"loss": 0.4953,
	"mean_token_accuracy": 0.8392938315868378,
	"step": 2565
	},
	{
	"epoch": 2.53156146179402,
	"grad_norm": 0.21315298974514008,
	"learning_rate": 1.4467533917154842e-06,
	"loss": 0.4812,
	"mean_token_accuracy": 0.8433891490101815,
	"step": 2570
	},
	{
	"epoch": 2.5364833271810014,
	"grad_norm": 0.33885088562965393,
	"learning_rate": 1.4171927337539103e-06,
	"loss": 0.4925,
	"mean_token_accuracy": 0.8398235127329826,
	"step": 2575
	},
	{
	"epoch": 2.541405192567983,
	"grad_norm": 0.19653761386871338,
	"learning_rate": 1.3879141522227878e-06,
	"loss": 0.4903,
	"mean_token_accuracy": 0.8408400386571884,
	"step": 2580
	},
	{
	"epoch": 2.546327057954965,
	"grad_norm": 0.19870713353157043,
	"learning_rate": 1.3589186093711227e-06,
	"loss": 0.4811,
	"mean_token_accuracy": 0.8433947190642357,
	"step": 2585
	},
	{
	"epoch": 2.5512489233419466,
	"grad_norm": 0.20051565766334534,
	"learning_rate": 1.3302070581457716e-06,
	"loss": 0.4994,
	"mean_token_accuracy": 0.838576278090477,
	"step": 2590
	},
	{
	"epoch": 2.5561707887289282,
	"grad_norm": 0.2312447875738144,
	"learning_rate": 1.3017804421601298e-06,
	"loss": 0.492,
	"mean_token_accuracy": 0.8404266074299812,
	"step": 2595
	},
	{
	"epoch": 2.56109265411591,
	"grad_norm": 0.21526625752449036,
	"learning_rate": 1.273639695663108e-06,
	"loss": 0.4916,
	"mean_token_accuracy": 0.8403177246451378,
	"step": 2600
	},
	{
	"epoch": 2.5660145195028914,
	"grad_norm": 0.4974516034126282,
	"learning_rate": 1.245785743508441e-06,
	"loss": 0.4887,
	"mean_token_accuracy": 0.8414172142744064,
	"step": 2605
	},
	{
	"epoch": 2.5709363848898734,
	"grad_norm": 0.19956116378307343,
	"learning_rate": 1.2182195011242747e-06,
	"loss": 0.5017,
	"mean_token_accuracy": 0.837465213239193,
	"step": 2610
	},
	{
	"epoch": 2.575858250276855,
	"grad_norm": 0.19986701011657715,
	"learning_rate": 1.1909418744831048e-06,
	"loss": 0.4878,
	"mean_token_accuracy": 0.8414024114608765,
	"step": 2615
	},
	{
	"epoch": 2.5807801156638366,
	"grad_norm": 0.20174540579319,
	"learning_rate": 1.1639537600719764e-06,
	"loss": 0.4858,
	"mean_token_accuracy": 0.8420050874352455,
	"step": 2620
	},
	{
	"epoch": 2.585701981050818,
	"grad_norm": 0.20654183626174927,
	"learning_rate": 1.1372560448630377e-06,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8395126640796662,
	"step": 2625
	},
	{
	"epoch": 2.5906238464377997,
	"grad_norm": 0.19598302245140076,
	"learning_rate": 1.1108496062843743e-06,
	"loss": 0.486,
	"mean_token_accuracy": 0.8420949026942253,
	"step": 2630
	},
	{
	"epoch": 2.5955457118247818,
	"grad_norm": 0.20486712455749512,
	"learning_rate": 1.0847353121911952e-06,
	"loss": 0.4891,
	"mean_token_accuracy": 0.8409939989447593,
	"step": 2635
	},
	{
	"epoch": 2.6004675772117634,
	"grad_norm": 0.2051970511674881,
	"learning_rate": 1.0589140208372872e-06,
	"loss": 0.4871,
	"mean_token_accuracy": 0.8416621774435044,
	"step": 2640
	},
	{
	"epoch": 2.605389442598745,
	"grad_norm": 0.20128969848155975,
	"learning_rate": 1.0333865808468203e-06,
	"loss": 0.4824,
	"mean_token_accuracy": 0.8431450635194778,
	"step": 2645
	},
	{
	"epoch": 2.6103113079857265,
	"grad_norm": 0.2007114738225937,
	"learning_rate": 1.008153831186457e-06,
	"loss": 0.4917,
	"mean_token_accuracy": 0.8406037405133248,
	"step": 2650
	},
	{
	"epoch": 2.615233173372708,
	"grad_norm": 0.19757139682769775,
	"learning_rate": 9.83216601137773e-07,
	"loss": 0.488,
	"mean_token_accuracy": 0.8414921492338181,
	"step": 2655
	},
	{
	"epoch": 2.62015503875969,
	"grad_norm": 0.21764694154262543,
	"learning_rate": 9.58575710270011e-07,
	"loss": 0.4819,
	"mean_token_accuracy": 0.8431682124733925,
	"step": 2660
	},
	{
	"epoch": 2.6250769041466717,
	"grad_norm": 0.20229902863502502,
	"learning_rate": 9.342319684131396e-07,
	"loss": 0.4916,
	"mean_token_accuracy": 0.8404648944735527,
	"step": 2665
	},
	{
	"epoch": 2.6299987695336533,
	"grad_norm": 0.22413024306297302,
	"learning_rate": 9.101861756312369e-07,
	"loss": 0.489,
	"mean_token_accuracy": 0.8410172060132026,
	"step": 2670
	},
	{
	"epoch": 2.634920634920635,
	"grad_norm": 0.1993047147989273,
	"learning_rate": 8.864391221962065e-07,
	"loss": 0.488,
	"mean_token_accuracy": 0.841397476196289,
	"step": 2675
	},
	{
	"epoch": 2.6398425003076165,
	"grad_norm": 0.20383085310459137,
	"learning_rate": 8.629915885617912e-07,
	"loss": 0.4906,
	"mean_token_accuracy": 0.8405807599425316,
	"step": 2680
	},
	{
	"epoch": 2.6447643656945985,
	"grad_norm": 0.19943130016326904,
	"learning_rate": 8.398443453379268e-07,
	"loss": 0.4872,
	"mean_token_accuracy": 0.841593649983406,
	"step": 2685
	},
	{
	"epoch": 2.64968623108158,
	"grad_norm": 0.19960327446460724,
	"learning_rate": 8.169981532654269e-07,
	"loss": 0.4854,
	"mean_token_accuracy": 0.8422250881791115,
	"step": 2690
	},
	{
	"epoch": 2.6546080964685617,
	"grad_norm": 0.20726507902145386,
	"learning_rate": 7.944537631909666e-07,
	"loss": 0.4855,
	"mean_token_accuracy": 0.8422259956598281,
	"step": 2695
	},
	{
	"epoch": 2.6595299618555432,
	"grad_norm": 0.19812346994876862,
	"learning_rate": 7.722119160424113e-07,
	"loss": 0.4867,
	"mean_token_accuracy": 0.842007802426815,
	"step": 2700
	},
	{
	"epoch": 2.664451827242525,
	"grad_norm": 0.19591908156871796,
	"learning_rate": 7.502733428044684e-07,
	"loss": 0.486,
	"mean_token_accuracy": 0.8423181056976319,
	"step": 2705
	},
	{
	"epoch": 2.669373692629507,
	"grad_norm": 0.195572167634964,
	"learning_rate": 7.286387644946602e-07,
	"loss": 0.4965,
	"mean_token_accuracy": 0.8387840166687965,
	"step": 2710
	},
	{
	"epoch": 2.674295558016488,
	"grad_norm": 0.2031807154417038,
	"learning_rate": 7.073088921396287e-07,
	"loss": 0.4907,
	"mean_token_accuracy": 0.840399731695652,
	"step": 2715
	},
	{
	"epoch": 2.67921742340347,
	"grad_norm": 0.2004314363002777,
	"learning_rate": 6.862844267517643e-07,
	"loss": 0.4846,
	"mean_token_accuracy": 0.8423734799027442,
	"step": 2720
	},
	{
	"epoch": 2.6841392887904516,
	"grad_norm": 0.20816642045974731,
	"learning_rate": 6.655660593061719e-07,
	"loss": 0.4982,
	"mean_token_accuracy": 0.8385626211762428,
	"step": 2725
	},
	{
	"epoch": 2.689061154177433,
	"grad_norm": 0.20351089537143707,
	"learning_rate": 6.451544707179635e-07,
	"loss": 0.4948,
	"mean_token_accuracy": 0.8395294427871705,
	"step": 2730
	},
	{
	"epoch": 2.6939830195644148,
	"grad_norm": 0.20076881349086761,
	"learning_rate": 6.250503318198664e-07,
	"loss": 0.4888,
	"mean_token_accuracy": 0.8412301942706109,
	"step": 2735
	},
	{
	"epoch": 2.6989048849513964,
	"grad_norm": 0.25244539976119995,
	"learning_rate": 6.052543033401892e-07,
	"loss": 0.4918,
	"mean_token_accuracy": 0.8402833178639412,
	"step": 2740
	},
	{
	"epoch": 2.7038267503383784,
	"grad_norm": 0.2058088779449463,
	"learning_rate": 5.857670358811096e-07,
	"loss": 0.4914,
	"mean_token_accuracy": 0.8405940279364585,
	"step": 2745
	},
	{
	"epoch": 2.70874861572536,
	"grad_norm": 0.2002749741077423,
	"learning_rate": 5.665891698972769e-07,
	"loss": 0.4956,
	"mean_token_accuracy": 0.8391197189688683,
	"step": 2750
	},
	{
	"epoch": 2.7136704811123415,
	"grad_norm": 0.19865228235721588,
	"learning_rate": 5.477213356747746e-07,
	"loss": 0.4894,
	"mean_token_accuracy": 0.8410469844937325,
	"step": 2755
	},
	{
	"epoch": 2.718592346499323,
	"grad_norm": 0.20059484243392944,
	"learning_rate": 5.291641533104053e-07,
	"loss": 0.4817,
	"mean_token_accuracy": 0.8434463173151017,
	"step": 2760
	},
	{
	"epoch": 2.7235142118863047,
	"grad_norm": 0.19962534308433533,
	"learning_rate": 5.109182326913053e-07,
	"loss": 0.4815,
	"mean_token_accuracy": 0.8433682397007942,
	"step": 2765
	},
	{
	"epoch": 2.7284360772732867,
	"grad_norm": 0.1976374238729477,
	"learning_rate": 4.929841734749063e-07,
	"loss": 0.4824,
	"mean_token_accuracy": 0.8429444268345833,
	"step": 2770
	},
	{
	"epoch": 2.7333579426602683,
	"grad_norm": 0.1919257491827011,
	"learning_rate": 4.7536256506922507e-07,
	"loss": 0.4858,
	"mean_token_accuracy": 0.8420413583517075,
	"step": 2775
	},
	{
	"epoch": 2.73827980804725,
	"grad_norm": 0.21447736024856567,
	"learning_rate": 4.580539866134914e-07,
	"loss": 0.4898,
	"mean_token_accuracy": 0.8408365085721016,
	"step": 2780
	},
	{
	"epoch": 2.7432016734342315,
	"grad_norm": 0.20053516328334808,
	"learning_rate": 4.410590069591192e-07,
	"loss": 0.4918,
	"mean_token_accuracy": 0.8403174698352813,
	"step": 2785
	},
	{
	"epoch": 2.748123538821213,
	"grad_norm": 0.3303152620792389,
	"learning_rate": 4.2437818465100313e-07,
	"loss": 0.4812,
	"mean_token_accuracy": 0.8434215649962425,
	"step": 2790
	},
	{
	"epoch": 2.753045404208195,
	"grad_norm": 0.194558247923851,
	"learning_rate": 4.0801206790916815e-07,
	"loss": 0.4804,
	"mean_token_accuracy": 0.8438364923000335,
	"step": 2795
	},
	{
	"epoch": 2.7579672695951767,
	"grad_norm": 0.19499559700489044,
	"learning_rate": 3.919611946107493e-07,
	"loss": 0.4825,
	"mean_token_accuracy": 0.8429989367723465,
	"step": 2800
	},
	{
	"epoch": 2.7628891349821583,
	"grad_norm": 0.19578364491462708,
	"learning_rate": 3.762260922723182e-07,
	"loss": 0.4866,
	"mean_token_accuracy": 0.8416179150342942,
	"step": 2805
	},
	{
	"epoch": 2.76781100036914,
	"grad_norm": 0.20279313623905182,
	"learning_rate": 3.6080727803254003e-07,
	"loss": 0.4913,
	"mean_token_accuracy": 0.8406556889414787,
	"step": 2810
	},
	{
	"epoch": 2.7727328657561214,
	"grad_norm": 0.20414599776268005,
	"learning_rate": 3.457052586351817e-07,
	"loss": 0.4921,
	"mean_token_accuracy": 0.8403137296438217,
	"step": 2815
	},
	{
	"epoch": 2.7776547311431035,
	"grad_norm": 0.20257827639579773,
	"learning_rate": 3.309205304124552e-07,
	"loss": 0.4888,
	"mean_token_accuracy": 0.841057425737381,
	"step": 2820
	},
	{
	"epoch": 2.782576596530085,
	"grad_norm": 0.19924387335777283,
	"learning_rate": 3.1645357926870957e-07,
	"loss": 0.4966,
	"mean_token_accuracy": 0.8389097020030022,
	"step": 2825
	},
	{
	"epoch": 2.7874984619170666,
	"grad_norm": 0.20351967215538025,
	"learning_rate": 3.0230488066445465e-07,
	"loss": 0.4912,
	"mean_token_accuracy": 0.8404456153512001,
	"step": 2830
	},
	{
	"epoch": 2.792420327304048,
	"grad_norm": 0.199168398976326,
	"learning_rate": 2.8847489960074136e-07,
	"loss": 0.4936,
	"mean_token_accuracy": 0.8398653537034988,
	"step": 2835
	},
	{
	"epoch": 2.79734219269103,
	"grad_norm": 0.19794094562530518,
	"learning_rate": 2.7496409060387973e-07,
	"loss": 0.4962,
	"mean_token_accuracy": 0.8388495057821274,
	"step": 2840
	},
	{
	"epoch": 2.802264058078012,
	"grad_norm": 0.19937507808208466,
	"learning_rate": 2.6177289771049274e-07,
	"loss": 0.4895,
	"mean_token_accuracy": 0.8410208597779274,
	"step": 2845
	},
	{
	"epoch": 2.807185923464993,
	"grad_norm": 0.19925516843795776,
	"learning_rate": 2.489017544529315e-07,
	"loss": 0.4875,
	"mean_token_accuracy": 0.8415358811616898,
	"step": 2850
	},
	{
	"epoch": 2.812107788851975,
	"grad_norm": 0.19592879712581635,
	"learning_rate": 2.3635108384502003e-07,
	"loss": 0.4949,
	"mean_token_accuracy": 0.839320321381092,
	"step": 2855
	},
	{
	"epoch": 2.8170296542389566,
	"grad_norm": 0.19561193883419037,
	"learning_rate": 2.2412129836816287e-07,
	"loss": 0.4913,
	"mean_token_accuracy": 0.840375654399395,
	"step": 2860
	},
	{
	"epoch": 2.821951519625938,
	"grad_norm": 0.1935349404811859,
	"learning_rate": 2.1221279995777833e-07,
	"loss": 0.4859,
	"mean_token_accuracy": 0.8416187852621079,
	"step": 2865
	},
	{
	"epoch": 2.8268733850129197,
	"grad_norm": 0.19886697828769684,
	"learning_rate": 2.0062597999009114e-07,
	"loss": 0.4821,
	"mean_token_accuracy": 0.8432388514280319,
	"step": 2870
	},
	{
	"epoch": 2.8317952503999013,
	"grad_norm": 0.19826510548591614,
	"learning_rate": 1.8936121926927508e-07,
	"loss": 0.49,
	"mean_token_accuracy": 0.8409401133656502,
	"step": 2875
	},
	{
	"epoch": 2.8367171157868833,
	"grad_norm": 0.21422724425792694,
	"learning_rate": 1.7841888801493178e-07,
	"loss": 0.4897,
	"mean_token_accuracy": 0.840906199812889,
	"step": 2880
	},
	{
	"epoch": 2.841638981173865,
	"grad_norm": 0.2021849900484085,
	"learning_rate": 1.677993458499272e-07,
	"loss": 0.4871,
	"mean_token_accuracy": 0.8416887044906616,
	"step": 2885
	},
	{
	"epoch": 2.8465608465608465,
	"grad_norm": 0.19902034103870392,
	"learning_rate": 1.5750294178856872e-07,
	"loss": 0.4884,
	"mean_token_accuracy": 0.8414162322878838,
	"step": 2890
	},
	{
	"epoch": 2.851482711947828,
	"grad_norm": 0.19861221313476562,
	"learning_rate": 1.4753001422514125e-07,
	"loss": 0.4926,
	"mean_token_accuracy": 0.8401012614369392,
	"step": 2895
	},
	{
	"epoch": 2.8564045773348097,
	"grad_norm": 0.19735361635684967,
	"learning_rate": 1.378808909227769e-07,
	"loss": 0.4849,
	"mean_token_accuracy": 0.8422791570425033,
	"step": 2900
	},
	{
	"epoch": 2.8613264427217917,
	"grad_norm": 0.20118270814418793,
	"learning_rate": 1.2855588900269057e-07,
	"loss": 0.4912,
	"mean_token_accuracy": 0.8406861796975136,
	"step": 2905
	},
	{
	"epoch": 2.8662483081087733,
	"grad_norm": 0.19249391555786133,
	"learning_rate": 1.1955531493375137e-07,
	"loss": 0.4795,
	"mean_token_accuracy": 0.8438849881291389,
	"step": 2910
	},
	{
	"epoch": 2.871170173495755,
	"grad_norm": 0.19686251878738403,
	"learning_rate": 1.1087946452241871e-07,
	"loss": 0.4937,
	"mean_token_accuracy": 0.8399393901228904,
	"step": 2915
	},
	{
	"epoch": 2.8760920388827365,
	"grad_norm": 0.1956326812505722,
	"learning_rate": 1.0252862290301092e-07,
	"loss": 0.4887,
	"mean_token_accuracy": 0.841577798128128,
	"step": 2920
	},
	{
	"epoch": 2.881013904269718,
	"grad_norm": 0.2053905874490738,
	"learning_rate": 9.45030645283418e-08,
	"loss": 0.4897,
	"mean_token_accuracy": 0.8410707041621208,
	"step": 2925
	},
	{
	"epoch": 2.8859357696567,
	"grad_norm": 0.19495834410190582,
	"learning_rate": 8.68030531606967e-08,
	"loss": 0.4927,
	"mean_token_accuracy": 0.8402184978127479,
	"step": 2930
	},
	{
	"epoch": 2.8908576350436817,
	"grad_norm": 0.1992396116256714,
	"learning_rate": 7.94288418631639e-08,
	"loss": 0.4857,
	"mean_token_accuracy": 0.842261828482151,
	"step": 2935
	},
	{
	"epoch": 2.8957795004306632,
	"grad_norm": 0.20448440313339233,
	"learning_rate": 7.238067299131901e-08,
	"loss": 0.4907,
	"mean_token_accuracy": 0.841072927415371,
	"step": 2940
	},
	{
	"epoch": 2.900701365817645,
	"grad_norm": 0.19940471649169922,
	"learning_rate": 6.565877818526245e-08,
	"loss": 0.4886,
	"mean_token_accuracy": 0.8412072688341141,
	"step": 2945
	},
	{
	"epoch": 2.9056232312046264,
	"grad_norm": 0.19256047904491425,
	"learning_rate": 5.926337836199891e-08,
	"loss": 0.4867,
	"mean_token_accuracy": 0.8416444838047028,
	"step": 2950
	},
	{
	"epoch": 2.9105450965916084,
	"grad_norm": 0.19797919690608978,
	"learning_rate": 5.319468370818537e-08,
	"loss": 0.4897,
	"mean_token_accuracy": 0.8410748258233071,
	"step": 2955
	},
	{
	"epoch": 2.91546696197859,
	"grad_norm": 0.1998082846403122,
	"learning_rate": 4.7452893673216596e-08,
	"loss": 0.4845,
	"mean_token_accuracy": 0.8427498519420624,
	"step": 2960
	},
	{
	"epoch": 2.9203888273655716,
	"grad_norm": 0.19540701806545258,
	"learning_rate": 4.203819696267486e-08,
	"loss": 0.4907,
	"mean_token_accuracy": 0.8408638656139373,
	"step": 2965
	},
	{
	"epoch": 2.925310692752553,
	"grad_norm": 0.19913552701473236,
	"learning_rate": 3.6950771532126004e-08,
	"loss": 0.4983,
	"mean_token_accuracy": 0.8385754480957985,
	"step": 2970
	},
	{
	"epoch": 2.9302325581395348,
	"grad_norm": 0.19257843494415283,
	"learning_rate": 3.2190784581270786e-08,
	"loss": 0.4878,
	"mean_token_accuracy": 0.841645573079586,
	"step": 2975
	},
	{
	"epoch": 2.935154423526517,
	"grad_norm": 0.19568364322185516,
	"learning_rate": 2.7758392548449253e-08,
	"loss": 0.4891,
	"mean_token_accuracy": 0.8412896126508713,
	"step": 2980
	},
	{
	"epoch": 2.9400762889134984,
	"grad_norm": 0.20067226886749268,
	"learning_rate": 2.3653741105499338e-08,
	"loss": 0.4836,
	"mean_token_accuracy": 0.8427690804004669,
	"step": 2985
	},
	{
	"epoch": 2.94499815430048,
	"grad_norm": 0.19799287617206573,
	"learning_rate": 1.9876965152975102e-08,
	"loss": 0.4895,
	"mean_token_accuracy": 0.8405489608645439,
	"step": 2990
	},
	{
	"epoch": 2.9499200196874615,
	"grad_norm": 1.0325350761413574,
	"learning_rate": 1.6428188815703627e-08,
	"loss": 0.4896,
	"mean_token_accuracy": 0.8411920800805092,
	"step": 2995
	},
	{
	"epoch": 2.954841885074443,
	"grad_norm": 0.1966339498758316,
	"learning_rate": 1.3307525438711611e-08,
	"loss": 0.488,
	"mean_token_accuracy": 0.841396550834179,
	"step": 3000
	},
	{
	"epoch": 2.959763750461425,
	"grad_norm": 0.2234841138124466,
	"learning_rate": 1.0515077583498346e-08,
	"loss": 0.4911,
	"mean_token_accuracy": 0.8406392633914948,
	"step": 3005
	},
	{
	"epoch": 2.9646856158484063,
	"grad_norm": 0.27488455176353455,
	"learning_rate": 8.050937024666195e-09,
	"loss": 0.4942,
	"mean_token_accuracy": 0.8396434351801872,
	"step": 3010
	},
	{
	"epoch": 2.9696074812353883,
	"grad_norm": 0.1911349892616272,
	"learning_rate": 5.9151847469041125e-09,
	"loss": 0.4823,
	"mean_token_accuracy": 0.8430395260453224,
	"step": 3015
	},
	{
	"epoch": 2.97452934662237,
	"grad_norm": 0.19882096350193024,
	"learning_rate": 4.1078909423253325e-09,
	"loss": 0.4995,
	"mean_token_accuracy": 0.8379872292280197,
	"step": 3020
	},
	{
	"epoch": 2.9794512120093515,
	"grad_norm": 0.20069076120853424,
	"learning_rate": 2.629115008160321e-09,
	"loss": 0.4964,
	"mean_token_accuracy": 0.8388297706842422,
	"step": 3025
	},
	{
	"epoch": 2.984373077396333,
	"grad_norm": 0.19437766075134277,
	"learning_rate": 1.4789055448061195e-09,
	"loss": 0.4851,
	"mean_token_accuracy": 0.8421405225992202,
	"step": 3030
	},
	{
	"epoch": 2.9892949427833146,
	"grad_norm": 0.19950829446315765,
	"learning_rate": 6.573003542276191e-10,
	"loss": 0.4889,
	"mean_token_accuracy": 0.8408236041665077,
	"step": 3035
	},
	{
	"epoch": 2.9942168081702967,
	"grad_norm": 0.19173409044742584,
	"learning_rate": 1.6432643871633346e-10,
	"loss": 0.4873,
	"mean_token_accuracy": 0.8419449985027313,
	"step": 3040
	},
	{
	"epoch": 2.9991386735572783,
	"grad_norm": 0.1980327069759369,
	"learning_rate": 0.0,
	"loss": 0.4895,
	"mean_token_accuracy": 0.8409327268600464,
	"step": 3045
	},
	{
	"epoch": 2.9991386735572783,
	"step": 3045,
	"total_flos": 2550348896010240.0,
	"train_loss": 0.5881131024979214,
	"train_runtime": 268544.791,
	"train_samples_per_second": 1.452,
	"train_steps_per_second": 0.011
	}
	],
	"logging_steps": 5,
	"max_steps": 3045,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2550348896010240.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}