{
  "best_metric": 2.0173556804656982,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.01897668240149916,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 9.48834120074958e-05,
      "grad_norm": 0.8838833570480347,
      "learning_rate": 1e-05,
      "loss": 1.4067,
      "step": 1
    },
    {
      "epoch": 0.0001897668240149916,
      "grad_norm": 1.2423186302185059,
      "learning_rate": 2e-05,
      "loss": 1.9,
      "step": 2
    },
    {
      "epoch": 0.00028465023602248737,
      "grad_norm": 1.480140209197998,
      "learning_rate": 3e-05,
      "loss": 1.82,
      "step": 3
    },
    {
      "epoch": 0.0003795336480299832,
      "grad_norm": 1.2943087816238403,
      "learning_rate": 4e-05,
      "loss": 2.2153,
      "step": 4
    },
    {
      "epoch": 0.00047441706003747893,
      "grad_norm": 1.5494521856307983,
      "learning_rate": 5e-05,
      "loss": 1.8174,
      "step": 5
    },
    {
      "epoch": 0.0005693004720449747,
      "grad_norm": 1.3341412544250488,
      "learning_rate": 6e-05,
      "loss": 2.0207,
      "step": 6
    },
    {
      "epoch": 0.0006641838840524705,
      "grad_norm": 1.42124605178833,
      "learning_rate": 7e-05,
      "loss": 1.9627,
      "step": 7
    },
    {
      "epoch": 0.0007590672960599664,
      "grad_norm": 1.2592655420303345,
      "learning_rate": 8e-05,
      "loss": 1.9669,
      "step": 8
    },
    {
      "epoch": 0.0008539507080674621,
      "grad_norm": 1.3849427700042725,
      "learning_rate": 9e-05,
      "loss": 1.9295,
      "step": 9
    },
    {
      "epoch": 0.0009488341200749579,
      "grad_norm": 1.301832675933838,
      "learning_rate": 0.0001,
      "loss": 1.9835,
      "step": 10
    },
    {
      "epoch": 0.0010437175320824536,
      "grad_norm": 1.4984749555587769,
      "learning_rate": 9.999316524962345e-05,
      "loss": 2.1085,
      "step": 11
    },
    {
      "epoch": 0.0011386009440899495,
      "grad_norm": 1.6964925527572632,
      "learning_rate": 9.997266286704631e-05,
      "loss": 2.0018,
      "step": 12
    },
    {
      "epoch": 0.0012334843560974453,
      "grad_norm": 1.778637170791626,
      "learning_rate": 9.993849845741524e-05,
      "loss": 2.1195,
      "step": 13
    },
    {
      "epoch": 0.001328367768104941,
      "grad_norm": 1.368541955947876,
      "learning_rate": 9.989068136093873e-05,
      "loss": 2.0479,
      "step": 14
    },
    {
      "epoch": 0.0014232511801124368,
      "grad_norm": 1.6682533025741577,
      "learning_rate": 9.98292246503335e-05,
      "loss": 1.9248,
      "step": 15
    },
    {
      "epoch": 0.0015181345921199327,
      "grad_norm": 1.538547158241272,
      "learning_rate": 9.975414512725057e-05,
      "loss": 1.8649,
      "step": 16
    },
    {
      "epoch": 0.0016130180041274284,
      "grad_norm": 1.4527428150177002,
      "learning_rate": 9.966546331768191e-05,
      "loss": 1.8957,
      "step": 17
    },
    {
      "epoch": 0.0017079014161349242,
      "grad_norm": 1.3289763927459717,
      "learning_rate": 9.956320346634876e-05,
      "loss": 1.9661,
      "step": 18
    },
    {
      "epoch": 0.00180278482814242,
      "grad_norm": 1.5817415714263916,
      "learning_rate": 9.944739353007344e-05,
      "loss": 2.1738,
      "step": 19
    },
    {
      "epoch": 0.0018976682401499157,
      "grad_norm": 1.3027006387710571,
      "learning_rate": 9.931806517013612e-05,
      "loss": 2.1811,
      "step": 20
    },
    {
      "epoch": 0.0019925516521574114,
      "grad_norm": 1.3309630155563354,
      "learning_rate": 9.917525374361912e-05,
      "loss": 2.0806,
      "step": 21
    },
    {
      "epoch": 0.0020874350641649072,
      "grad_norm": 1.2938600778579712,
      "learning_rate": 9.901899829374047e-05,
      "loss": 1.9846,
      "step": 22
    },
    {
      "epoch": 0.002182318476172403,
      "grad_norm": 1.334308385848999,
      "learning_rate": 9.884934153917997e-05,
      "loss": 2.1439,
      "step": 23
    },
    {
      "epoch": 0.002277201888179899,
      "grad_norm": 1.3120801448822021,
      "learning_rate": 9.86663298624003e-05,
      "loss": 2.166,
      "step": 24
    },
    {
      "epoch": 0.002372085300187395,
      "grad_norm": 1.5599623918533325,
      "learning_rate": 9.847001329696653e-05,
      "loss": 2.186,
      "step": 25
    },
    {
      "epoch": 0.0024669687121948907,
      "grad_norm": 1.412286400794983,
      "learning_rate": 9.826044551386744e-05,
      "loss": 2.3119,
      "step": 26
    },
    {
      "epoch": 0.002561852124202386,
      "grad_norm": 1.3022650480270386,
      "learning_rate": 9.803768380684242e-05,
      "loss": 2.0793,
      "step": 27
    },
    {
      "epoch": 0.002656735536209882,
      "grad_norm": 1.4159303903579712,
      "learning_rate": 9.780178907671789e-05,
      "loss": 2.2518,
      "step": 28
    },
    {
      "epoch": 0.002751618948217378,
      "grad_norm": 1.2287791967391968,
      "learning_rate": 9.755282581475769e-05,
      "loss": 2.0652,
      "step": 29
    },
    {
      "epoch": 0.0028465023602248737,
      "grad_norm": 1.406341314315796,
      "learning_rate": 9.729086208503174e-05,
      "loss": 1.9255,
      "step": 30
    },
    {
      "epoch": 0.0029413857722323695,
      "grad_norm": 1.273499846458435,
      "learning_rate": 9.701596950580806e-05,
      "loss": 2.2866,
      "step": 31
    },
    {
      "epoch": 0.0030362691842398654,
      "grad_norm": 1.3544858694076538,
      "learning_rate": 9.672822322997305e-05,
      "loss": 1.9707,
      "step": 32
    },
    {
      "epoch": 0.003131152596247361,
      "grad_norm": 1.354182481765747,
      "learning_rate": 9.642770192448536e-05,
      "loss": 2.0438,
      "step": 33
    },
    {
      "epoch": 0.0032260360082548567,
      "grad_norm": 1.2465276718139648,
      "learning_rate": 9.611448774886924e-05,
      "loss": 2.1058,
      "step": 34
    },
    {
      "epoch": 0.0033209194202623526,
      "grad_norm": 1.3346402645111084,
      "learning_rate": 9.578866633275288e-05,
      "loss": 2.3046,
      "step": 35
    },
    {
      "epoch": 0.0034158028322698484,
      "grad_norm": 1.2788852453231812,
      "learning_rate": 9.545032675245813e-05,
      "loss": 2.1955,
      "step": 36
    },
    {
      "epoch": 0.0035106862442773443,
      "grad_norm": 1.3409639596939087,
      "learning_rate": 9.509956150664796e-05,
      "loss": 2.3714,
      "step": 37
    },
    {
      "epoch": 0.00360556965628484,
      "grad_norm": 1.370141625404358,
      "learning_rate": 9.473646649103818e-05,
      "loss": 2.1143,
      "step": 38
    },
    {
      "epoch": 0.0037004530682923356,
      "grad_norm": 1.4561847448349,
      "learning_rate": 9.43611409721806e-05,
      "loss": 2.2798,
      "step": 39
    },
    {
      "epoch": 0.0037953364802998314,
      "grad_norm": 1.485458493232727,
      "learning_rate": 9.397368756032445e-05,
      "loss": 2.1755,
      "step": 40
    },
    {
      "epoch": 0.0038902198923073273,
      "grad_norm": 1.588273525238037,
      "learning_rate": 9.357421218136386e-05,
      "loss": 2.161,
      "step": 41
    },
    {
      "epoch": 0.003985103304314823,
      "grad_norm": 1.719086766242981,
      "learning_rate": 9.316282404787871e-05,
      "loss": 2.2835,
      "step": 42
    },
    {
      "epoch": 0.004079986716322319,
      "grad_norm": 1.6477314233779907,
      "learning_rate": 9.273963562927695e-05,
      "loss": 2.2757,
      "step": 43
    },
    {
      "epoch": 0.0041748701283298145,
      "grad_norm": 1.5888322591781616,
      "learning_rate": 9.230476262104677e-05,
      "loss": 2.0256,
      "step": 44
    },
    {
      "epoch": 0.004269753540337311,
      "grad_norm": 1.8566473722457886,
      "learning_rate": 9.185832391312644e-05,
      "loss": 2.3412,
      "step": 45
    },
    {
      "epoch": 0.004364636952344806,
      "grad_norm": 1.5225262641906738,
      "learning_rate": 9.140044155740101e-05,
      "loss": 2.2668,
      "step": 46
    },
    {
      "epoch": 0.0044595203643523025,
      "grad_norm": 1.6312646865844727,
      "learning_rate": 9.093124073433463e-05,
      "loss": 2.3703,
      "step": 47
    },
    {
      "epoch": 0.004554403776359798,
      "grad_norm": 1.6596307754516602,
      "learning_rate": 9.045084971874738e-05,
      "loss": 2.1094,
      "step": 48
    },
    {
      "epoch": 0.004649287188367293,
      "grad_norm": 1.817733883857727,
      "learning_rate": 8.995939984474624e-05,
      "loss": 2.224,
      "step": 49
    },
    {
      "epoch": 0.00474417060037479,
      "grad_norm": 1.9491512775421143,
      "learning_rate": 8.945702546981969e-05,
      "loss": 2.1386,
      "step": 50
    },
    {
      "epoch": 0.00474417060037479,
      "eval_loss": 2.0888671875,
      "eval_runtime": 119.9565,
      "eval_samples_per_second": 73.994,
      "eval_steps_per_second": 18.498,
      "step": 50
    },
    {
      "epoch": 0.004839054012382285,
      "grad_norm": 1.487788438796997,
      "learning_rate": 8.894386393810563e-05,
      "loss": 1.7438,
      "step": 51
    },
    {
      "epoch": 0.004933937424389781,
      "grad_norm": 1.4779846668243408,
      "learning_rate": 8.842005554284296e-05,
      "loss": 2.0748,
      "step": 52
    },
    {
      "epoch": 0.005028820836397277,
      "grad_norm": 1.430275559425354,
      "learning_rate": 8.788574348801675e-05,
      "loss": 1.6703,
      "step": 53
    },
    {
      "epoch": 0.005123704248404772,
      "grad_norm": 1.4807400703430176,
      "learning_rate": 8.73410738492077e-05,
      "loss": 1.9705,
      "step": 54
    },
    {
      "epoch": 0.0052185876604122685,
      "grad_norm": 1.2823394536972046,
      "learning_rate": 8.678619553365659e-05,
      "loss": 1.8351,
      "step": 55
    },
    {
      "epoch": 0.005313471072419764,
      "grad_norm": 1.137636423110962,
      "learning_rate": 8.622126023955446e-05,
      "loss": 1.9556,
      "step": 56
    },
    {
      "epoch": 0.00540835448442726,
      "grad_norm": 1.1205836534500122,
      "learning_rate": 8.564642241456986e-05,
      "loss": 2.1125,
      "step": 57
    },
    {
      "epoch": 0.005503237896434756,
      "grad_norm": 1.1130911111831665,
      "learning_rate": 8.506183921362443e-05,
      "loss": 2.0172,
      "step": 58
    },
    {
      "epoch": 0.005598121308442252,
      "grad_norm": 1.0878705978393555,
      "learning_rate": 8.44676704559283e-05,
      "loss": 1.7837,
      "step": 59
    },
    {
      "epoch": 0.005693004720449747,
      "grad_norm": 1.0885311365127563,
      "learning_rate": 8.386407858128706e-05,
      "loss": 2.1172,
      "step": 60
    },
    {
      "epoch": 0.005787888132457243,
      "grad_norm": 1.0377049446105957,
      "learning_rate": 8.32512286056924e-05,
      "loss": 2.0005,
      "step": 61
    },
    {
      "epoch": 0.005882771544464739,
      "grad_norm": 1.242769718170166,
      "learning_rate": 8.262928807620843e-05,
      "loss": 2.2622,
      "step": 62
    },
    {
      "epoch": 0.0059776549564722345,
      "grad_norm": 1.1244306564331055,
      "learning_rate": 8.199842702516583e-05,
      "loss": 1.8778,
      "step": 63
    },
    {
      "epoch": 0.006072538368479731,
      "grad_norm": 1.126284122467041,
      "learning_rate": 8.135881792367686e-05,
      "loss": 1.7032,
      "step": 64
    },
    {
      "epoch": 0.006167421780487226,
      "grad_norm": 1.2214293479919434,
      "learning_rate": 8.07106356344834e-05,
      "loss": 2.2701,
      "step": 65
    },
    {
      "epoch": 0.006262305192494722,
      "grad_norm": 1.3734968900680542,
      "learning_rate": 8.005405736415126e-05,
      "loss": 1.997,
      "step": 66
    },
    {
      "epoch": 0.006357188604502218,
      "grad_norm": 1.1757069826126099,
      "learning_rate": 7.938926261462366e-05,
      "loss": 1.793,
      "step": 67
    },
    {
      "epoch": 0.006452072016509713,
      "grad_norm": 1.1494101285934448,
      "learning_rate": 7.871643313414718e-05,
      "loss": 1.953,
      "step": 68
    },
    {
      "epoch": 0.00654695542851721,
      "grad_norm": 1.2112014293670654,
      "learning_rate": 7.803575286758364e-05,
      "loss": 1.9036,
      "step": 69
    },
    {
      "epoch": 0.006641838840524705,
      "grad_norm": 1.1815861463546753,
      "learning_rate": 7.734740790612136e-05,
      "loss": 1.9637,
      "step": 70
    },
    {
      "epoch": 0.006736722252532201,
      "grad_norm": 1.28214693069458,
      "learning_rate": 7.66515864363997e-05,
      "loss": 2.0176,
      "step": 71
    },
    {
      "epoch": 0.006831605664539697,
      "grad_norm": 1.152395486831665,
      "learning_rate": 7.594847868906076e-05,
      "loss": 1.8751,
      "step": 72
    },
    {
      "epoch": 0.006926489076547192,
      "grad_norm": 1.1782279014587402,
      "learning_rate": 7.52382768867422e-05,
      "loss": 1.7866,
      "step": 73
    },
    {
      "epoch": 0.007021372488554689,
      "grad_norm": 1.2158095836639404,
      "learning_rate": 7.452117519152542e-05,
      "loss": 2.0916,
      "step": 74
    },
    {
      "epoch": 0.007116255900562184,
      "grad_norm": 1.1991045475006104,
      "learning_rate": 7.379736965185368e-05,
      "loss": 1.9513,
      "step": 75
    },
    {
      "epoch": 0.00721113931256968,
      "grad_norm": 1.1849697828292847,
      "learning_rate": 7.30670581489344e-05,
      "loss": 2.0241,
      "step": 76
    },
    {
      "epoch": 0.007306022724577176,
      "grad_norm": 1.17843496799469,
      "learning_rate": 7.233044034264034e-05,
      "loss": 2.1417,
      "step": 77
    },
    {
      "epoch": 0.007400906136584671,
      "grad_norm": 1.2592320442199707,
      "learning_rate": 7.158771761692464e-05,
      "loss": 2.0599,
      "step": 78
    },
    {
      "epoch": 0.0074957895485921675,
      "grad_norm": 1.3397972583770752,
      "learning_rate": 7.083909302476453e-05,
      "loss": 2.3276,
      "step": 79
    },
    {
      "epoch": 0.007590672960599663,
      "grad_norm": 1.4249298572540283,
      "learning_rate": 7.008477123264848e-05,
      "loss": 2.1919,
      "step": 80
    },
    {
      "epoch": 0.007685556372607159,
      "grad_norm": 1.2797282934188843,
      "learning_rate": 6.932495846462261e-05,
      "loss": 2.2331,
      "step": 81
    },
    {
      "epoch": 0.007780439784614655,
      "grad_norm": 1.330752968788147,
      "learning_rate": 6.855986244591104e-05,
      "loss": 1.9893,
      "step": 82
    },
    {
      "epoch": 0.007875323196622151,
      "grad_norm": 1.4427181482315063,
      "learning_rate": 6.778969234612584e-05,
      "loss": 2.162,
      "step": 83
    },
    {
      "epoch": 0.007970206608629645,
      "grad_norm": 1.2555612325668335,
      "learning_rate": 6.701465872208216e-05,
      "loss": 1.9421,
      "step": 84
    },
    {
      "epoch": 0.008065090020637142,
      "grad_norm": 1.331203818321228,
      "learning_rate": 6.623497346023418e-05,
      "loss": 2.1507,
      "step": 85
    },
    {
      "epoch": 0.008159973432644638,
      "grad_norm": 1.4480226039886475,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.9284,
      "step": 86
    },
    {
      "epoch": 0.008254856844652134,
      "grad_norm": 1.374146580696106,
      "learning_rate": 6.466250186922325e-05,
      "loss": 1.8668,
      "step": 87
    },
    {
      "epoch": 0.008349740256659629,
      "grad_norm": 1.5382773876190186,
      "learning_rate": 6.387014543809223e-05,
      "loss": 2.1082,
      "step": 88
    },
    {
      "epoch": 0.008444623668667125,
      "grad_norm": 1.3442814350128174,
      "learning_rate": 6.307399704769099e-05,
      "loss": 2.1171,
      "step": 89
    },
    {
      "epoch": 0.008539507080674621,
      "grad_norm": 1.3628745079040527,
      "learning_rate": 6.227427435703997e-05,
      "loss": 1.9571,
      "step": 90
    },
    {
      "epoch": 0.008634390492682116,
      "grad_norm": 1.5637470483779907,
      "learning_rate": 6.147119600233758e-05,
      "loss": 2.0132,
      "step": 91
    },
    {
      "epoch": 0.008729273904689612,
      "grad_norm": 1.363867998123169,
      "learning_rate": 6.066498153718735e-05,
      "loss": 2.0566,
      "step": 92
    },
    {
      "epoch": 0.008824157316697109,
      "grad_norm": 1.5957680940628052,
      "learning_rate": 5.985585137257401e-05,
      "loss": 2.2534,
      "step": 93
    },
    {
      "epoch": 0.008919040728704605,
      "grad_norm": 1.5808871984481812,
      "learning_rate": 5.90440267166055e-05,
      "loss": 2.2162,
      "step": 94
    },
    {
      "epoch": 0.0090139241407121,
      "grad_norm": 1.4806901216506958,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 1.936,
      "step": 95
    },
    {
      "epoch": 0.009108807552719596,
      "grad_norm": 1.726537823677063,
      "learning_rate": 5.74131823855921e-05,
      "loss": 2.0416,
      "step": 96
    },
    {
      "epoch": 0.009203690964727092,
      "grad_norm": 1.8173493146896362,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 1.8688,
      "step": 97
    },
    {
      "epoch": 0.009298574376734587,
      "grad_norm": 1.4894782304763794,
      "learning_rate": 5.577423184847932e-05,
      "loss": 1.8834,
      "step": 98
    },
    {
      "epoch": 0.009393457788742083,
      "grad_norm": 1.8153401613235474,
      "learning_rate": 5.495227651252315e-05,
      "loss": 2.0852,
      "step": 99
    },
    {
      "epoch": 0.00948834120074958,
      "grad_norm": 2.143449306488037,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 2.0325,
      "step": 100
    },
    {
      "epoch": 0.00948834120074958,
      "eval_loss": 2.0675554275512695,
      "eval_runtime": 119.0472,
      "eval_samples_per_second": 74.559,
      "eval_steps_per_second": 18.64,
      "step": 100
    },
    {
      "epoch": 0.009583224612757076,
      "grad_norm": 1.2630748748779297,
      "learning_rate": 5.330452921628497e-05,
      "loss": 1.7836,
      "step": 101
    },
    {
      "epoch": 0.00967810802476457,
      "grad_norm": 2.2324020862579346,
      "learning_rate": 5.247918773366112e-05,
      "loss": 1.7624,
      "step": 102
    },
    {
      "epoch": 0.009772991436772066,
      "grad_norm": 1.2741106748580933,
      "learning_rate": 5.165316846586541e-05,
      "loss": 1.8087,
      "step": 103
    },
    {
      "epoch": 0.009867874848779563,
      "grad_norm": 1.3459296226501465,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 1.9047,
      "step": 104
    },
    {
      "epoch": 0.009962758260787057,
      "grad_norm": 1.2173100709915161,
      "learning_rate": 5e-05,
      "loss": 1.9179,
      "step": 105
    },
    {
      "epoch": 0.010057641672794554,
      "grad_norm": 1.2945222854614258,
      "learning_rate": 4.917330276168208e-05,
      "loss": 2.0004,
      "step": 106
    },
    {
      "epoch": 0.01015252508480205,
      "grad_norm": 1.079614520072937,
      "learning_rate": 4.834683153413459e-05,
      "loss": 2.0622,
      "step": 107
    },
    {
      "epoch": 0.010247408496809544,
      "grad_norm": 1.1016380786895752,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 1.8741,
      "step": 108
    },
    {
      "epoch": 0.01034229190881704,
      "grad_norm": 1.131259560585022,
      "learning_rate": 4.669547078371504e-05,
      "loss": 1.9846,
      "step": 109
    },
    {
      "epoch": 0.010437175320824537,
      "grad_norm": 1.5276200771331787,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 1.6754,
      "step": 110
    },
    {
      "epoch": 0.010532058732832033,
      "grad_norm": 0.9747890830039978,
      "learning_rate": 4.504772348747687e-05,
      "loss": 1.8397,
      "step": 111
    },
    {
      "epoch": 0.010626942144839528,
      "grad_norm": 1.3463689088821411,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 1.9134,
      "step": 112
    },
    {
      "epoch": 0.010721825556847024,
      "grad_norm": 0.9940723180770874,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 2.2335,
      "step": 113
    },
    {
      "epoch": 0.01081670896885452,
      "grad_norm": 1.1125766038894653,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 2.0096,
      "step": 114
    },
    {
      "epoch": 0.010911592380862015,
      "grad_norm": 1.0317147970199585,
      "learning_rate": 4.17702704859633e-05,
      "loss": 2.1867,
      "step": 115
    },
    {
      "epoch": 0.011006475792869511,
      "grad_norm": 1.114760160446167,
      "learning_rate": 4.095597328339452e-05,
      "loss": 1.9316,
      "step": 116
    },
    {
      "epoch": 0.011101359204877008,
      "grad_norm": 1.1086978912353516,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 1.9571,
      "step": 117
    },
    {
      "epoch": 0.011196242616884504,
      "grad_norm": 1.1025787591934204,
      "learning_rate": 3.933501846281267e-05,
      "loss": 2.1347,
      "step": 118
    },
    {
      "epoch": 0.011291126028891998,
      "grad_norm": 1.1371296644210815,
      "learning_rate": 3.852880399766243e-05,
      "loss": 2.0788,
      "step": 119
    },
    {
      "epoch": 0.011386009440899495,
      "grad_norm": 1.1835999488830566,
      "learning_rate": 3.772572564296005e-05,
      "loss": 2.1422,
      "step": 120
    },
    {
      "epoch": 0.011480892852906991,
      "grad_norm": 1.1618963479995728,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 2.1868,
      "step": 121
    },
    {
      "epoch": 0.011575776264914486,
      "grad_norm": 1.5680204629898071,
      "learning_rate": 3.612985456190778e-05,
      "loss": 1.9136,
      "step": 122
    },
    {
      "epoch": 0.011670659676921982,
      "grad_norm": 1.226629376411438,
      "learning_rate": 3.533749813077677e-05,
      "loss": 1.9884,
      "step": 123
    },
    {
      "epoch": 0.011765543088929478,
      "grad_norm": 1.2455418109893799,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.8813,
      "step": 124
    },
    {
      "epoch": 0.011860426500936974,
      "grad_norm": 1.3396416902542114,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 2.198,
      "step": 125
    },
    {
      "epoch": 0.011955309912944469,
      "grad_norm": 1.2984768152236938,
      "learning_rate": 3.298534127791785e-05,
      "loss": 2.2242,
      "step": 126
    },
    {
      "epoch": 0.012050193324951965,
      "grad_norm": 1.2060365676879883,
      "learning_rate": 3.221030765387417e-05,
      "loss": 1.9731,
      "step": 127
    },
    {
      "epoch": 0.012145076736959462,
      "grad_norm": 1.2922470569610596,
      "learning_rate": 3.144013755408895e-05,
      "loss": 2.3406,
      "step": 128
    },
    {
      "epoch": 0.012239960148966956,
      "grad_norm": 1.2654407024383545,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 1.8535,
      "step": 129
    },
    {
      "epoch": 0.012334843560974453,
      "grad_norm": 1.2713849544525146,
      "learning_rate": 2.991522876735154e-05,
      "loss": 2.1445,
      "step": 130
    },
    {
      "epoch": 0.012429726972981949,
      "grad_norm": 1.2265071868896484,
      "learning_rate": 2.916090697523549e-05,
      "loss": 2.0885,
      "step": 131
    },
    {
      "epoch": 0.012524610384989443,
      "grad_norm": 1.1980204582214355,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 2.1799,
      "step": 132
    },
    {
      "epoch": 0.01261949379699694,
      "grad_norm": 1.2400431632995605,
      "learning_rate": 2.766955965735968e-05,
      "loss": 2.2166,
      "step": 133
    },
    {
      "epoch": 0.012714377209004436,
      "grad_norm": 1.2337483167648315,
      "learning_rate": 2.693294185106562e-05,
      "loss": 2.1243,
      "step": 134
    },
    {
      "epoch": 0.012809260621011932,
      "grad_norm": 1.3153451681137085,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 2.1307,
      "step": 135
    },
    {
      "epoch": 0.012904144033019427,
      "grad_norm": 1.2778208255767822,
      "learning_rate": 2.547882480847461e-05,
      "loss": 2.3366,
      "step": 136
    },
    {
      "epoch": 0.012999027445026923,
      "grad_norm": 1.3559702634811401,
      "learning_rate": 2.476172311325783e-05,
      "loss": 2.069,
      "step": 137
    },
    {
      "epoch": 0.01309391085703442,
      "grad_norm": 1.2735697031021118,
      "learning_rate": 2.405152131093926e-05,
      "loss": 2.0602,
      "step": 138
    },
    {
      "epoch": 0.013188794269041914,
      "grad_norm": 1.380509376525879,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 2.2309,
      "step": 139
    },
    {
      "epoch": 0.01328367768104941,
      "grad_norm": 1.413867712020874,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 2.2614,
      "step": 140
    },
    {
      "epoch": 0.013378561093056907,
      "grad_norm": 1.4495834112167358,
      "learning_rate": 2.196424713241637e-05,
      "loss": 2.1997,
      "step": 141
    },
    {
      "epoch": 0.013473444505064403,
      "grad_norm": 1.6474498510360718,
      "learning_rate": 2.128356686585282e-05,
      "loss": 1.9669,
      "step": 142
    },
    {
      "epoch": 0.013568327917071897,
      "grad_norm": 1.386406660079956,
      "learning_rate": 2.061073738537635e-05,
      "loss": 2.0114,
      "step": 143
    },
    {
      "epoch": 0.013663211329079394,
      "grad_norm": 1.503170371055603,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 2.1757,
      "step": 144
    },
    {
      "epoch": 0.01375809474108689,
      "grad_norm": 1.3989717960357666,
      "learning_rate": 1.928936436551661e-05,
      "loss": 2.0015,
      "step": 145
    },
    {
      "epoch": 0.013852978153094385,
      "grad_norm": 1.4377864599227905,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 2.0907,
      "step": 146
    },
    {
      "epoch": 0.01394786156510188,
      "grad_norm": 1.4964275360107422,
      "learning_rate": 1.800157297483417e-05,
      "loss": 2.1548,
      "step": 147
    },
    {
      "epoch": 0.014042744977109377,
      "grad_norm": 1.6749155521392822,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 2.3757,
      "step": 148
    },
    {
      "epoch": 0.014137628389116873,
      "grad_norm": 1.893975019454956,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 1.9031,
      "step": 149
    },
    {
      "epoch": 0.014232511801124368,
      "grad_norm": 2.1364755630493164,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 2.0298,
      "step": 150
    },
    {
      "epoch": 0.014232511801124368,
      "eval_loss": 2.025883436203003,
      "eval_runtime": 119.9554,
      "eval_samples_per_second": 73.994,
      "eval_steps_per_second": 18.499,
      "step": 150
    },
    {
      "epoch": 0.014327395213131864,
      "grad_norm": 0.8882197141647339,
      "learning_rate": 1.553232954407171e-05,
      "loss": 1.6649,
      "step": 151
    },
    {
      "epoch": 0.01442227862513936,
      "grad_norm": 0.9180642366409302,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 1.7657,
      "step": 152
    },
    {
      "epoch": 0.014517162037146855,
      "grad_norm": 1.070859432220459,
      "learning_rate": 1.435357758543015e-05,
      "loss": 1.8792,
      "step": 153
    },
    {
      "epoch": 0.014612045449154351,
      "grad_norm": 1.083225131034851,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 1.9601,
      "step": 154
    },
    {
      "epoch": 0.014706928861161848,
      "grad_norm": 1.233264684677124,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 1.9263,
      "step": 155
    },
    {
      "epoch": 0.014801812273169342,
      "grad_norm": 1.083557367324829,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 1.9221,
      "step": 156
    },
    {
      "epoch": 0.014896695685176839,
      "grad_norm": 1.0876855850219727,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 2.1532,
      "step": 157
    },
    {
      "epoch": 0.014991579097184335,
      "grad_norm": 1.2478482723236084,
      "learning_rate": 1.157994445715706e-05,
      "loss": 1.8077,
      "step": 158
    },
    {
      "epoch": 0.015086462509191831,
      "grad_norm": 1.1777915954589844,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 2.0632,
      "step": 159
    },
    {
      "epoch": 0.015181345921199326,
      "grad_norm": 1.1727139949798584,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 1.9638,
      "step": 160
    },
    {
      "epoch": 0.015276229333206822,
      "grad_norm": 1.181553602218628,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 2.0766,
      "step": 161
    },
    {
      "epoch": 0.015371112745214318,
      "grad_norm": 1.1587207317352295,
      "learning_rate": 9.549150281252633e-06,
      "loss": 2.0138,
      "step": 162
    },
    {
      "epoch": 0.015465996157221813,
      "grad_norm": 1.1263347864151,
      "learning_rate": 9.068759265665384e-06,
      "loss": 2.0403,
      "step": 163
    },
    {
      "epoch": 0.01556087956922931,
      "grad_norm": 1.0438908338546753,
      "learning_rate": 8.599558442598998e-06,
      "loss": 2.0905,
      "step": 164
    },
    {
      "epoch": 0.015655762981236804,
      "grad_norm": 1.034799337387085,
      "learning_rate": 8.141676086873572e-06,
      "loss": 2.0611,
      "step": 165
    },
    {
      "epoch": 0.015750646393244302,
      "grad_norm": 1.0483295917510986,
      "learning_rate": 7.695237378953223e-06,
      "loss": 1.9386,
      "step": 166
    },
    {
      "epoch": 0.015845529805251796,
      "grad_norm": 1.4198410511016846,
      "learning_rate": 7.260364370723044e-06,
      "loss": 2.1314,
      "step": 167
    },
    {
      "epoch": 0.01594041321725929,
      "grad_norm": 1.0335968732833862,
      "learning_rate": 6.837175952121306e-06,
      "loss": 2.125,
      "step": 168
    },
    {
      "epoch": 0.01603529662926679,
      "grad_norm": 1.199023723602295,
      "learning_rate": 6.425787818636131e-06,
      "loss": 1.8756,
      "step": 169
    },
    {
      "epoch": 0.016130180041274284,
      "grad_norm": 1.091479778289795,
      "learning_rate": 6.026312439675552e-06,
      "loss": 1.87,
      "step": 170
    },
    {
      "epoch": 0.01622506345328178,
      "grad_norm": 1.1280505657196045,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 2.0628,
      "step": 171
    },
    {
      "epoch": 0.016319946865289276,
      "grad_norm": 1.2018766403198242,
      "learning_rate": 5.263533508961827e-06,
      "loss": 2.3655,
      "step": 172
    },
    {
      "epoch": 0.01641483027729677,
      "grad_norm": 1.186612606048584,
      "learning_rate": 4.900438493352055e-06,
      "loss": 2.2122,
      "step": 173
    },
    {
      "epoch": 0.01650971368930427,
      "grad_norm": 1.199109435081482,
      "learning_rate": 4.549673247541875e-06,
      "loss": 2.2879,
      "step": 174
    },
    {
      "epoch": 0.016604597101311763,
      "grad_norm": 1.2703847885131836,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 1.9067,
      "step": 175
    },
    {
      "epoch": 0.016699480513319258,
      "grad_norm": 1.3019192218780518,
      "learning_rate": 3.885512251130763e-06,
      "loss": 2.1764,
      "step": 176
    },
    {
      "epoch": 0.016794363925326756,
      "grad_norm": 1.1338942050933838,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 1.886,
      "step": 177
    },
    {
      "epoch": 0.01688924733733425,
      "grad_norm": 1.1936876773834229,
      "learning_rate": 3.271776770026963e-06,
      "loss": 2.0012,
      "step": 178
    },
    {
      "epoch": 0.016984130749341745,
      "grad_norm": 1.1709415912628174,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 1.667,
      "step": 179
    },
    {
      "epoch": 0.017079014161349243,
      "grad_norm": 1.2448089122772217,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 2.3925,
      "step": 180
    },
    {
      "epoch": 0.017173897573356738,
      "grad_norm": 1.2825788259506226,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 2.371,
      "step": 181
    },
    {
      "epoch": 0.017268780985364232,
      "grad_norm": 1.3123975992202759,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 2.1796,
      "step": 182
    },
    {
      "epoch": 0.01736366439737173,
      "grad_norm": 1.3166747093200684,
      "learning_rate": 1.962316193157593e-06,
      "loss": 2.3147,
      "step": 183
    },
    {
      "epoch": 0.017458547809379225,
      "grad_norm": 1.3600785732269287,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 2.2855,
      "step": 184
    },
    {
      "epoch": 0.017553431221386723,
      "grad_norm": 1.2609660625457764,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 1.9452,
      "step": 185
    },
    {
      "epoch": 0.017648314633394217,
      "grad_norm": 1.35756254196167,
      "learning_rate": 1.333670137599713e-06,
      "loss": 1.9424,
      "step": 186
    },
    {
      "epoch": 0.017743198045401712,
      "grad_norm": 1.2451428174972534,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 2.0649,
      "step": 187
    },
    {
      "epoch": 0.01783808145740921,
      "grad_norm": 1.2775943279266357,
      "learning_rate": 9.810017062595322e-07,
      "loss": 2.094,
      "step": 188
    },
    {
      "epoch": 0.017932964869416704,
      "grad_norm": 1.4015995264053345,
      "learning_rate": 8.247462563808817e-07,
      "loss": 2.1351,
      "step": 189
    },
    {
      "epoch": 0.0180278482814242,
      "grad_norm": 1.336523413658142,
      "learning_rate": 6.819348298638839e-07,
      "loss": 2.0384,
      "step": 190
    },
    {
      "epoch": 0.018122731693431697,
      "grad_norm": 1.4648990631103516,
      "learning_rate": 5.526064699265753e-07,
      "loss": 2.14,
      "step": 191
    },
    {
      "epoch": 0.01821761510543919,
      "grad_norm": 1.4060330390930176,
      "learning_rate": 4.367965336512403e-07,
      "loss": 1.9715,
      "step": 192
    },
    {
      "epoch": 0.018312498517446686,
      "grad_norm": 1.512107253074646,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 2.0954,
      "step": 193
    },
    {
      "epoch": 0.018407381929454184,
      "grad_norm": 1.4914844036102295,
      "learning_rate": 2.458548727494292e-07,
      "loss": 2.0701,
      "step": 194
    },
    {
      "epoch": 0.01850226534146168,
      "grad_norm": 1.6735234260559082,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 2.0406,
      "step": 195
    },
    {
      "epoch": 0.018597148753469173,
      "grad_norm": 1.5727736949920654,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 2.0578,
      "step": 196
    },
    {
      "epoch": 0.01869203216547667,
      "grad_norm": 1.9277193546295166,
      "learning_rate": 6.150154258476315e-08,
      "loss": 2.2626,
      "step": 197
    },
    {
      "epoch": 0.018786915577484166,
      "grad_norm": 1.873883605003357,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 2.2186,
      "step": 198
    },
    {
      "epoch": 0.01888179898949166,
      "grad_norm": 1.8665002584457397,
      "learning_rate": 6.834750376549792e-09,
      "loss": 1.9324,
      "step": 199
    },
    {
      "epoch": 0.01897668240149916,
      "grad_norm": 2.3762528896331787,
      "learning_rate": 0.0,
      "loss": 2.1509,
      "step": 200
    },
    {
      "epoch": 0.01897668240149916,
      "eval_loss": 2.0173556804656982,
      "eval_runtime": 121.0374,
      "eval_samples_per_second": 73.333,
      "eval_steps_per_second": 18.333,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7218554937016320.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}