{
  "best_metric": 2.380446672439575,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.043778045310276896,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002188902265513845,
      "grad_norm": 6.500237464904785,
      "learning_rate": 1e-05,
      "loss": 8.7623,
      "step": 1
    },
    {
      "epoch": 0.0002188902265513845,
      "eval_loss": 2.997931480407715,
      "eval_runtime": 198.604,
      "eval_samples_per_second": 38.745,
      "eval_steps_per_second": 9.688,
      "step": 1
    },
    {
      "epoch": 0.000437780453102769,
      "grad_norm": 6.580024719238281,
      "learning_rate": 2e-05,
      "loss": 9.4208,
      "step": 2
    },
    {
      "epoch": 0.0006566706796541534,
      "grad_norm": 6.683958530426025,
      "learning_rate": 3e-05,
      "loss": 9.8938,
      "step": 3
    },
    {
      "epoch": 0.000875560906205538,
      "grad_norm": 5.3068060874938965,
      "learning_rate": 4e-05,
      "loss": 9.8522,
      "step": 4
    },
    {
      "epoch": 0.0010944511327569224,
      "grad_norm": 3.811368465423584,
      "learning_rate": 5e-05,
      "loss": 9.8277,
      "step": 5
    },
    {
      "epoch": 0.0013133413593083068,
      "grad_norm": 3.7034103870391846,
      "learning_rate": 6e-05,
      "loss": 9.4237,
      "step": 6
    },
    {
      "epoch": 0.0015322315858596913,
      "grad_norm": 3.8787999153137207,
      "learning_rate": 7e-05,
      "loss": 9.4151,
      "step": 7
    },
    {
      "epoch": 0.001751121812411076,
      "grad_norm": 3.900111436843872,
      "learning_rate": 8e-05,
      "loss": 9.6454,
      "step": 8
    },
    {
      "epoch": 0.00197001203896246,
      "grad_norm": 4.42629337310791,
      "learning_rate": 9e-05,
      "loss": 10.0042,
      "step": 9
    },
    {
      "epoch": 0.002188902265513845,
      "grad_norm": 3.848919630050659,
      "learning_rate": 0.0001,
      "loss": 9.8773,
      "step": 10
    },
    {
      "epoch": 0.0024077924920652295,
      "grad_norm": 3.977922201156616,
      "learning_rate": 9.999316524962345e-05,
      "loss": 9.9031,
      "step": 11
    },
    {
      "epoch": 0.0026266827186166137,
      "grad_norm": 3.507882595062256,
      "learning_rate": 9.997266286704631e-05,
      "loss": 9.7708,
      "step": 12
    },
    {
      "epoch": 0.0028455729451679983,
      "grad_norm": 3.5492982864379883,
      "learning_rate": 9.993849845741524e-05,
      "loss": 10.0182,
      "step": 13
    },
    {
      "epoch": 0.0030644631717193825,
      "grad_norm": 3.8495163917541504,
      "learning_rate": 9.989068136093873e-05,
      "loss": 9.86,
      "step": 14
    },
    {
      "epoch": 0.003283353398270767,
      "grad_norm": 3.6282999515533447,
      "learning_rate": 9.98292246503335e-05,
      "loss": 9.6736,
      "step": 15
    },
    {
      "epoch": 0.003502243624822152,
      "grad_norm": 3.8476133346557617,
      "learning_rate": 9.975414512725057e-05,
      "loss": 9.3288,
      "step": 16
    },
    {
      "epoch": 0.003721133851373536,
      "grad_norm": 3.684922456741333,
      "learning_rate": 9.966546331768191e-05,
      "loss": 9.2932,
      "step": 17
    },
    {
      "epoch": 0.00394002407792492,
      "grad_norm": 4.319076061248779,
      "learning_rate": 9.956320346634876e-05,
      "loss": 10.247,
      "step": 18
    },
    {
      "epoch": 0.004158914304476305,
      "grad_norm": 3.852356195449829,
      "learning_rate": 9.944739353007344e-05,
      "loss": 9.8497,
      "step": 19
    },
    {
      "epoch": 0.00437780453102769,
      "grad_norm": 4.216144561767578,
      "learning_rate": 9.931806517013612e-05,
      "loss": 10.2841,
      "step": 20
    },
    {
      "epoch": 0.004596694757579074,
      "grad_norm": 4.011423110961914,
      "learning_rate": 9.917525374361912e-05,
      "loss": 9.7892,
      "step": 21
    },
    {
      "epoch": 0.004815584984130459,
      "grad_norm": 7.366875171661377,
      "learning_rate": 9.901899829374047e-05,
      "loss": 9.8764,
      "step": 22
    },
    {
      "epoch": 0.005034475210681843,
      "grad_norm": 4.411603927612305,
      "learning_rate": 9.884934153917997e-05,
      "loss": 10.4425,
      "step": 23
    },
    {
      "epoch": 0.005253365437233227,
      "grad_norm": 4.46986198425293,
      "learning_rate": 9.86663298624003e-05,
      "loss": 10.3085,
      "step": 24
    },
    {
      "epoch": 0.005472255663784612,
      "grad_norm": 4.593271255493164,
      "learning_rate": 9.847001329696653e-05,
      "loss": 9.4697,
      "step": 25
    },
    {
      "epoch": 0.005691145890335997,
      "grad_norm": 4.499696254730225,
      "learning_rate": 9.826044551386744e-05,
      "loss": 10.3918,
      "step": 26
    },
    {
      "epoch": 0.005910036116887381,
      "grad_norm": 4.379833698272705,
      "learning_rate": 9.803768380684242e-05,
      "loss": 10.2354,
      "step": 27
    },
    {
      "epoch": 0.006128926343438765,
      "grad_norm": 5.7264227867126465,
      "learning_rate": 9.780178907671789e-05,
      "loss": 9.4842,
      "step": 28
    },
    {
      "epoch": 0.00634781656999015,
      "grad_norm": 4.888491153717041,
      "learning_rate": 9.755282581475769e-05,
      "loss": 10.5369,
      "step": 29
    },
    {
      "epoch": 0.006566706796541534,
      "grad_norm": 4.657556533813477,
      "learning_rate": 9.729086208503174e-05,
      "loss": 9.7166,
      "step": 30
    },
    {
      "epoch": 0.006785597023092919,
      "grad_norm": 4.962536811828613,
      "learning_rate": 9.701596950580806e-05,
      "loss": 10.2116,
      "step": 31
    },
    {
      "epoch": 0.007004487249644304,
      "grad_norm": 5.322515487670898,
      "learning_rate": 9.672822322997305e-05,
      "loss": 10.7,
      "step": 32
    },
    {
      "epoch": 0.0072233774761956875,
      "grad_norm": 5.198309421539307,
      "learning_rate": 9.642770192448536e-05,
      "loss": 9.9068,
      "step": 33
    },
    {
      "epoch": 0.007442267702747072,
      "grad_norm": 5.671598434448242,
      "learning_rate": 9.611448774886924e-05,
      "loss": 10.2068,
      "step": 34
    },
    {
      "epoch": 0.007661157929298457,
      "grad_norm": 5.260356426239014,
      "learning_rate": 9.578866633275288e-05,
      "loss": 9.9807,
      "step": 35
    },
    {
      "epoch": 0.00788004815584984,
      "grad_norm": 5.651011943817139,
      "learning_rate": 9.545032675245813e-05,
      "loss": 10.5204,
      "step": 36
    },
    {
      "epoch": 0.008098938382401225,
      "grad_norm": 5.437604904174805,
      "learning_rate": 9.509956150664796e-05,
      "loss": 9.9439,
      "step": 37
    },
    {
      "epoch": 0.00831782860895261,
      "grad_norm": 5.553522109985352,
      "learning_rate": 9.473646649103818e-05,
      "loss": 10.0066,
      "step": 38
    },
    {
      "epoch": 0.008536718835503995,
      "grad_norm": 5.800121784210205,
      "learning_rate": 9.43611409721806e-05,
      "loss": 10.2337,
      "step": 39
    },
    {
      "epoch": 0.00875560906205538,
      "grad_norm": 5.946160793304443,
      "learning_rate": 9.397368756032445e-05,
      "loss": 10.545,
      "step": 40
    },
    {
      "epoch": 0.008974499288606764,
      "grad_norm": 6.193027019500732,
      "learning_rate": 9.357421218136386e-05,
      "loss": 10.4596,
      "step": 41
    },
    {
      "epoch": 0.009193389515158149,
      "grad_norm": 6.113093852996826,
      "learning_rate": 9.316282404787871e-05,
      "loss": 10.1726,
      "step": 42
    },
    {
      "epoch": 0.009412279741709533,
      "grad_norm": 6.249059200286865,
      "learning_rate": 9.273963562927695e-05,
      "loss": 9.9938,
      "step": 43
    },
    {
      "epoch": 0.009631169968260918,
      "grad_norm": 6.900107383728027,
      "learning_rate": 9.230476262104677e-05,
      "loss": 10.4514,
      "step": 44
    },
    {
      "epoch": 0.009850060194812302,
      "grad_norm": 6.959128379821777,
      "learning_rate": 9.185832391312644e-05,
      "loss": 10.6484,
      "step": 45
    },
    {
      "epoch": 0.010068950421363685,
      "grad_norm": 6.8629045486450195,
      "learning_rate": 9.140044155740101e-05,
      "loss": 10.3721,
      "step": 46
    },
    {
      "epoch": 0.01028784064791507,
      "grad_norm": 7.331613540649414,
      "learning_rate": 9.093124073433463e-05,
      "loss": 10.3334,
      "step": 47
    },
    {
      "epoch": 0.010506730874466455,
      "grad_norm": 8.23045539855957,
      "learning_rate": 9.045084971874738e-05,
      "loss": 10.3816,
      "step": 48
    },
    {
      "epoch": 0.01072562110101784,
      "grad_norm": 9.26784610748291,
      "learning_rate": 8.995939984474624e-05,
      "loss": 10.7827,
      "step": 49
    },
    {
      "epoch": 0.010944511327569224,
      "grad_norm": 12.992657661437988,
      "learning_rate": 8.945702546981969e-05,
      "loss": 10.2433,
      "step": 50
    },
    {
      "epoch": 0.010944511327569224,
      "eval_loss": 2.620750665664673,
      "eval_runtime": 198.2927,
      "eval_samples_per_second": 38.806,
      "eval_steps_per_second": 9.703,
      "step": 50
    },
    {
      "epoch": 0.011163401554120609,
      "grad_norm": 12.270162582397461,
      "learning_rate": 8.894386393810563e-05,
      "loss": 9.5607,
      "step": 51
    },
    {
      "epoch": 0.011382291780671993,
      "grad_norm": 10.887065887451172,
      "learning_rate": 8.842005554284296e-05,
      "loss": 9.4021,
      "step": 52
    },
    {
      "epoch": 0.011601182007223378,
      "grad_norm": 9.474898338317871,
      "learning_rate": 8.788574348801675e-05,
      "loss": 9.831,
      "step": 53
    },
    {
      "epoch": 0.011820072233774763,
      "grad_norm": 6.884459018707275,
      "learning_rate": 8.73410738492077e-05,
      "loss": 9.4742,
      "step": 54
    },
    {
      "epoch": 0.012038962460326147,
      "grad_norm": 5.356474876403809,
      "learning_rate": 8.678619553365659e-05,
      "loss": 9.5158,
      "step": 55
    },
    {
      "epoch": 0.01225785268687753,
      "grad_norm": 4.654416561126709,
      "learning_rate": 8.622126023955446e-05,
      "loss": 9.4022,
      "step": 56
    },
    {
      "epoch": 0.012476742913428915,
      "grad_norm": 3.674131155014038,
      "learning_rate": 8.564642241456986e-05,
      "loss": 9.2773,
      "step": 57
    },
    {
      "epoch": 0.0126956331399803,
      "grad_norm": 3.226531505584717,
      "learning_rate": 8.506183921362443e-05,
      "loss": 9.3989,
      "step": 58
    },
    {
      "epoch": 0.012914523366531684,
      "grad_norm": 2.898969888687134,
      "learning_rate": 8.44676704559283e-05,
      "loss": 8.8827,
      "step": 59
    },
    {
      "epoch": 0.013133413593083069,
      "grad_norm": 3.015895366668701,
      "learning_rate": 8.386407858128706e-05,
      "loss": 9.4417,
      "step": 60
    },
    {
      "epoch": 0.013352303819634453,
      "grad_norm": 3.343222141265869,
      "learning_rate": 8.32512286056924e-05,
      "loss": 9.4653,
      "step": 61
    },
    {
      "epoch": 0.013571194046185838,
      "grad_norm": 3.5456881523132324,
      "learning_rate": 8.262928807620843e-05,
      "loss": 8.9368,
      "step": 62
    },
    {
      "epoch": 0.013790084272737223,
      "grad_norm": 3.53558349609375,
      "learning_rate": 8.199842702516583e-05,
      "loss": 9.6489,
      "step": 63
    },
    {
      "epoch": 0.014008974499288607,
      "grad_norm": 3.402852773666382,
      "learning_rate": 8.135881792367686e-05,
      "loss": 9.8039,
      "step": 64
    },
    {
      "epoch": 0.014227864725839992,
      "grad_norm": 3.5022084712982178,
      "learning_rate": 8.07106356344834e-05,
      "loss": 9.5333,
      "step": 65
    },
    {
      "epoch": 0.014446754952391375,
      "grad_norm": 3.479779005050659,
      "learning_rate": 8.005405736415126e-05,
      "loss": 9.4188,
      "step": 66
    },
    {
      "epoch": 0.01466564517894276,
      "grad_norm": 3.619973659515381,
      "learning_rate": 7.938926261462366e-05,
      "loss": 9.6977,
      "step": 67
    },
    {
      "epoch": 0.014884535405494144,
      "grad_norm": 3.4543967247009277,
      "learning_rate": 7.871643313414718e-05,
      "loss": 9.4583,
      "step": 68
    },
    {
      "epoch": 0.015103425632045529,
      "grad_norm": 3.6297924518585205,
      "learning_rate": 7.803575286758364e-05,
      "loss": 10.0073,
      "step": 69
    },
    {
      "epoch": 0.015322315858596914,
      "grad_norm": 3.6644136905670166,
      "learning_rate": 7.734740790612136e-05,
      "loss": 9.8906,
      "step": 70
    },
    {
      "epoch": 0.015541206085148298,
      "grad_norm": 3.7459490299224854,
      "learning_rate": 7.66515864363997e-05,
      "loss": 9.9253,
      "step": 71
    },
    {
      "epoch": 0.01576009631169968,
      "grad_norm": 3.593775749206543,
      "learning_rate": 7.594847868906076e-05,
      "loss": 9.7009,
      "step": 72
    },
    {
      "epoch": 0.015978986538251066,
      "grad_norm": 3.751965284347534,
      "learning_rate": 7.52382768867422e-05,
      "loss": 10.2235,
      "step": 73
    },
    {
      "epoch": 0.01619787676480245,
      "grad_norm": 3.732764482498169,
      "learning_rate": 7.452117519152542e-05,
      "loss": 9.9861,
      "step": 74
    },
    {
      "epoch": 0.016416766991353835,
      "grad_norm": 3.956003427505493,
      "learning_rate": 7.379736965185368e-05,
      "loss": 9.5676,
      "step": 75
    },
    {
      "epoch": 0.01663565721790522,
      "grad_norm": 4.190549850463867,
      "learning_rate": 7.30670581489344e-05,
      "loss": 9.6395,
      "step": 76
    },
    {
      "epoch": 0.016854547444456604,
      "grad_norm": 4.143647193908691,
      "learning_rate": 7.233044034264034e-05,
      "loss": 9.7189,
      "step": 77
    },
    {
      "epoch": 0.01707343767100799,
      "grad_norm": 4.314365863800049,
      "learning_rate": 7.158771761692464e-05,
      "loss": 10.1196,
      "step": 78
    },
    {
      "epoch": 0.017292327897559374,
      "grad_norm": 4.398593902587891,
      "learning_rate": 7.083909302476453e-05,
      "loss": 9.2351,
      "step": 79
    },
    {
      "epoch": 0.01751121812411076,
      "grad_norm": 4.549702167510986,
      "learning_rate": 7.008477123264848e-05,
      "loss": 10.1372,
      "step": 80
    },
    {
      "epoch": 0.017730108350662143,
      "grad_norm": 4.588869571685791,
      "learning_rate": 6.932495846462261e-05,
      "loss": 9.6357,
      "step": 81
    },
    {
      "epoch": 0.017948998577213528,
      "grad_norm": 4.945944786071777,
      "learning_rate": 6.855986244591104e-05,
      "loss": 10.3761,
      "step": 82
    },
    {
      "epoch": 0.018167888803764912,
      "grad_norm": 4.89844274520874,
      "learning_rate": 6.778969234612584e-05,
      "loss": 10.2156,
      "step": 83
    },
    {
      "epoch": 0.018386779030316297,
      "grad_norm": 5.056128978729248,
      "learning_rate": 6.701465872208216e-05,
      "loss": 10.1166,
      "step": 84
    },
    {
      "epoch": 0.01860566925686768,
      "grad_norm": 5.276784420013428,
      "learning_rate": 6.623497346023418e-05,
      "loss": 10.4749,
      "step": 85
    },
    {
      "epoch": 0.018824559483419066,
      "grad_norm": 5.233035087585449,
      "learning_rate": 6.545084971874738e-05,
      "loss": 9.7689,
      "step": 86
    },
    {
      "epoch": 0.01904344970997045,
      "grad_norm": 5.230832099914551,
      "learning_rate": 6.466250186922325e-05,
      "loss": 10.2697,
      "step": 87
    },
    {
      "epoch": 0.019262339936521836,
      "grad_norm": 5.235775947570801,
      "learning_rate": 6.387014543809223e-05,
      "loss": 10.0161,
      "step": 88
    },
    {
      "epoch": 0.01948123016307322,
      "grad_norm": 5.558104991912842,
      "learning_rate": 6.307399704769099e-05,
      "loss": 10.0864,
      "step": 89
    },
    {
      "epoch": 0.019700120389624605,
      "grad_norm": 5.509007930755615,
      "learning_rate": 6.227427435703997e-05,
      "loss": 9.9219,
      "step": 90
    },
    {
      "epoch": 0.019919010616175986,
      "grad_norm": 5.710042476654053,
      "learning_rate": 6.147119600233758e-05,
      "loss": 9.594,
      "step": 91
    },
    {
      "epoch": 0.02013790084272737,
      "grad_norm": 5.903689861297607,
      "learning_rate": 6.066498153718735e-05,
      "loss": 10.2384,
      "step": 92
    },
    {
      "epoch": 0.020356791069278755,
      "grad_norm": 6.031618595123291,
      "learning_rate": 5.985585137257401e-05,
      "loss": 10.2827,
      "step": 93
    },
    {
      "epoch": 0.02057568129583014,
      "grad_norm": 6.28908109664917,
      "learning_rate": 5.90440267166055e-05,
      "loss": 10.2289,
      "step": 94
    },
    {
      "epoch": 0.020794571522381525,
      "grad_norm": 6.491415977478027,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 9.982,
      "step": 95
    },
    {
      "epoch": 0.02101346174893291,
      "grad_norm": 6.685091018676758,
      "learning_rate": 5.74131823855921e-05,
      "loss": 9.786,
      "step": 96
    },
    {
      "epoch": 0.021232351975484294,
      "grad_norm": 7.1086297035217285,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 9.7668,
      "step": 97
    },
    {
      "epoch": 0.02145124220203568,
      "grad_norm": 7.542728424072266,
      "learning_rate": 5.577423184847932e-05,
      "loss": 9.666,
      "step": 98
    },
    {
      "epoch": 0.021670132428587063,
      "grad_norm": 8.560836791992188,
      "learning_rate": 5.495227651252315e-05,
      "loss": 9.8195,
      "step": 99
    },
    {
      "epoch": 0.021889022655138448,
      "grad_norm": 12.100088119506836,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 9.9234,
      "step": 100
    },
    {
      "epoch": 0.021889022655138448,
      "eval_loss": 2.484067916870117,
      "eval_runtime": 198.8733,
      "eval_samples_per_second": 38.693,
      "eval_steps_per_second": 9.675,
      "step": 100
    },
    {
      "epoch": 0.022107912881689833,
      "grad_norm": 5.220340251922607,
      "learning_rate": 5.330452921628497e-05,
      "loss": 8.0547,
      "step": 101
    },
    {
      "epoch": 0.022326803108241217,
      "grad_norm": 5.001081943511963,
      "learning_rate": 5.247918773366112e-05,
      "loss": 8.8204,
      "step": 102
    },
    {
      "epoch": 0.022545693334792602,
      "grad_norm": 4.7386884689331055,
      "learning_rate": 5.165316846586541e-05,
      "loss": 8.9997,
      "step": 103
    },
    {
      "epoch": 0.022764583561343987,
      "grad_norm": 4.088811874389648,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 8.9147,
      "step": 104
    },
    {
      "epoch": 0.02298347378789537,
      "grad_norm": 3.8125219345092773,
      "learning_rate": 5e-05,
      "loss": 8.7668,
      "step": 105
    },
    {
      "epoch": 0.023202364014446756,
      "grad_norm": 3.1329643726348877,
      "learning_rate": 4.917330276168208e-05,
      "loss": 8.8809,
      "step": 106
    },
    {
      "epoch": 0.02342125424099814,
      "grad_norm": 2.878676176071167,
      "learning_rate": 4.834683153413459e-05,
      "loss": 8.9662,
      "step": 107
    },
    {
      "epoch": 0.023640144467549525,
      "grad_norm": 2.8402059078216553,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 9.1039,
      "step": 108
    },
    {
      "epoch": 0.02385903469410091,
      "grad_norm": 2.6496686935424805,
      "learning_rate": 4.669547078371504e-05,
      "loss": 9.1534,
      "step": 109
    },
    {
      "epoch": 0.024077924920652295,
      "grad_norm": 2.6912124156951904,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 9.1186,
      "step": 110
    },
    {
      "epoch": 0.024296815147203676,
      "grad_norm": 3.348677635192871,
      "learning_rate": 4.504772348747687e-05,
      "loss": 8.9246,
      "step": 111
    },
    {
      "epoch": 0.02451570537375506,
      "grad_norm": 2.9585952758789062,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 8.8532,
      "step": 112
    },
    {
      "epoch": 0.024734595600306445,
      "grad_norm": 4.863480091094971,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 9.5013,
      "step": 113
    },
    {
      "epoch": 0.02495348582685783,
      "grad_norm": 3.8894760608673096,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 9.23,
      "step": 114
    },
    {
      "epoch": 0.025172376053409214,
      "grad_norm": 3.2965657711029053,
      "learning_rate": 4.17702704859633e-05,
      "loss": 9.3988,
      "step": 115
    },
    {
      "epoch": 0.0253912662799606,
      "grad_norm": 3.3195412158966064,
      "learning_rate": 4.095597328339452e-05,
      "loss": 9.4244,
      "step": 116
    },
    {
      "epoch": 0.025610156506511984,
      "grad_norm": 3.3847200870513916,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 9.5098,
      "step": 117
    },
    {
      "epoch": 0.02582904673306337,
      "grad_norm": 3.6167619228363037,
      "learning_rate": 3.933501846281267e-05,
      "loss": 9.6044,
      "step": 118
    },
    {
      "epoch": 0.026047936959614753,
      "grad_norm": 3.5407891273498535,
      "learning_rate": 3.852880399766243e-05,
      "loss": 9.5024,
      "step": 119
    },
    {
      "epoch": 0.026266827186166138,
      "grad_norm": 3.87943434715271,
      "learning_rate": 3.772572564296005e-05,
      "loss": 9.3363,
      "step": 120
    },
    {
      "epoch": 0.026485717412717522,
      "grad_norm": 3.525582790374756,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 9.3356,
      "step": 121
    },
    {
      "epoch": 0.026704607639268907,
      "grad_norm": 3.7342495918273926,
      "learning_rate": 3.612985456190778e-05,
      "loss": 9.6824,
      "step": 122
    },
    {
      "epoch": 0.02692349786582029,
      "grad_norm": 3.8450307846069336,
      "learning_rate": 3.533749813077677e-05,
      "loss": 9.8837,
      "step": 123
    },
    {
      "epoch": 0.027142388092371676,
      "grad_norm": 3.689761161804199,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 9.4099,
      "step": 124
    },
    {
      "epoch": 0.02736127831892306,
      "grad_norm": 3.678617238998413,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 9.3245,
      "step": 125
    },
    {
      "epoch": 0.027580168545474446,
      "grad_norm": 3.8375022411346436,
      "learning_rate": 3.298534127791785e-05,
      "loss": 9.5048,
      "step": 126
    },
    {
      "epoch": 0.02779905877202583,
      "grad_norm": 3.9953837394714355,
      "learning_rate": 3.221030765387417e-05,
      "loss": 10.2727,
      "step": 127
    },
    {
      "epoch": 0.028017948998577215,
      "grad_norm": 4.085158348083496,
      "learning_rate": 3.144013755408895e-05,
      "loss": 9.9067,
      "step": 128
    },
    {
      "epoch": 0.0282368392251286,
      "grad_norm": 4.128382205963135,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 10.1037,
      "step": 129
    },
    {
      "epoch": 0.028455729451679984,
      "grad_norm": 4.04295539855957,
      "learning_rate": 2.991522876735154e-05,
      "loss": 9.7172,
      "step": 130
    },
    {
      "epoch": 0.028674619678231365,
      "grad_norm": 4.299539566040039,
      "learning_rate": 2.916090697523549e-05,
      "loss": 9.8495,
      "step": 131
    },
    {
      "epoch": 0.02889350990478275,
      "grad_norm": 4.328097820281982,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 9.6653,
      "step": 132
    },
    {
      "epoch": 0.029112400131334135,
      "grad_norm": 4.615394115447998,
      "learning_rate": 2.766955965735968e-05,
      "loss": 10.1751,
      "step": 133
    },
    {
      "epoch": 0.02933129035788552,
      "grad_norm": 4.394522190093994,
      "learning_rate": 2.693294185106562e-05,
      "loss": 9.5251,
      "step": 134
    },
    {
      "epoch": 0.029550180584436904,
      "grad_norm": 4.596439838409424,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 9.9073,
      "step": 135
    },
    {
      "epoch": 0.02976907081098829,
      "grad_norm": 4.6028289794921875,
      "learning_rate": 2.547882480847461e-05,
      "loss": 9.4403,
      "step": 136
    },
    {
      "epoch": 0.029987961037539673,
      "grad_norm": 4.668446063995361,
      "learning_rate": 2.476172311325783e-05,
      "loss": 10.2178,
      "step": 137
    },
    {
      "epoch": 0.030206851264091058,
      "grad_norm": 4.8964409828186035,
      "learning_rate": 2.405152131093926e-05,
      "loss": 9.3571,
      "step": 138
    },
    {
      "epoch": 0.030425741490642443,
      "grad_norm": 5.143425464630127,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 9.5974,
      "step": 139
    },
    {
      "epoch": 0.030644631717193827,
      "grad_norm": 5.348685264587402,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 11.0709,
      "step": 140
    },
    {
      "epoch": 0.030863521943745212,
      "grad_norm": 5.432384014129639,
      "learning_rate": 2.196424713241637e-05,
      "loss": 10.6518,
      "step": 141
    },
    {
      "epoch": 0.031082412170296597,
      "grad_norm": 5.738955497741699,
      "learning_rate": 2.128356686585282e-05,
      "loss": 10.4478,
      "step": 142
    },
    {
      "epoch": 0.03130130239684798,
      "grad_norm": 5.936408996582031,
      "learning_rate": 2.061073738537635e-05,
      "loss": 9.2741,
      "step": 143
    },
    {
      "epoch": 0.03152019262339936,
      "grad_norm": 6.2231764793396,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 10.1136,
      "step": 144
    },
    {
      "epoch": 0.03173908284995075,
      "grad_norm": 6.604419231414795,
      "learning_rate": 1.928936436551661e-05,
      "loss": 9.8515,
      "step": 145
    },
    {
      "epoch": 0.03195797307650213,
      "grad_norm": 6.8342437744140625,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 9.9804,
      "step": 146
    },
    {
      "epoch": 0.03217686330305352,
      "grad_norm": 6.861989498138428,
      "learning_rate": 1.800157297483417e-05,
      "loss": 10.2698,
      "step": 147
    },
    {
      "epoch": 0.0323957535296049,
      "grad_norm": 7.621464252471924,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 10.8569,
      "step": 148
    },
    {
      "epoch": 0.03261464375615629,
      "grad_norm": 9.522614479064941,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 10.1267,
      "step": 149
    },
    {
      "epoch": 0.03283353398270767,
      "grad_norm": 16.19915008544922,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 9.6044,
      "step": 150
    },
    {
      "epoch": 0.03283353398270767,
      "eval_loss": 2.3944945335388184,
      "eval_runtime": 198.7889,
      "eval_samples_per_second": 38.709,
      "eval_steps_per_second": 9.679,
      "step": 150
    },
    {
      "epoch": 0.03305242420925906,
      "grad_norm": 2.096721887588501,
      "learning_rate": 1.553232954407171e-05,
      "loss": 8.4925,
      "step": 151
    },
    {
      "epoch": 0.03327131443581044,
      "grad_norm": 1.9941847324371338,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 8.1868,
      "step": 152
    },
    {
      "epoch": 0.03349020466236183,
      "grad_norm": 2.2237014770507812,
      "learning_rate": 1.435357758543015e-05,
      "loss": 8.3037,
      "step": 153
    },
    {
      "epoch": 0.03370909488891321,
      "grad_norm": 2.58015775680542,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 8.5168,
      "step": 154
    },
    {
      "epoch": 0.0339279851154646,
      "grad_norm": 2.687354564666748,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 9.2628,
      "step": 155
    },
    {
      "epoch": 0.03414687534201598,
      "grad_norm": 2.6190080642700195,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 8.7347,
      "step": 156
    },
    {
      "epoch": 0.034365765568567366,
      "grad_norm": 2.7748208045959473,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 8.9632,
      "step": 157
    },
    {
      "epoch": 0.03458465579511875,
      "grad_norm": 3.210798978805542,
      "learning_rate": 1.157994445715706e-05,
      "loss": 9.0763,
      "step": 158
    },
    {
      "epoch": 0.034803546021670136,
      "grad_norm": 3.073160409927368,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 9.126,
      "step": 159
    },
    {
      "epoch": 0.03502243624822152,
      "grad_norm": 3.297600507736206,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 9.5509,
      "step": 160
    },
    {
      "epoch": 0.0352413264747729,
      "grad_norm": 3.3480982780456543,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 9.3937,
      "step": 161
    },
    {
      "epoch": 0.035460216701324286,
      "grad_norm": 3.6188671588897705,
      "learning_rate": 9.549150281252633e-06,
      "loss": 9.1179,
      "step": 162
    },
    {
      "epoch": 0.03567910692787567,
      "grad_norm": 3.3901708126068115,
      "learning_rate": 9.068759265665384e-06,
      "loss": 9.5498,
      "step": 163
    },
    {
      "epoch": 0.035897997154427055,
      "grad_norm": 3.28686261177063,
      "learning_rate": 8.599558442598998e-06,
      "loss": 8.9896,
      "step": 164
    },
    {
      "epoch": 0.03611688738097844,
      "grad_norm": 3.2760164737701416,
      "learning_rate": 8.141676086873572e-06,
      "loss": 9.2544,
      "step": 165
    },
    {
      "epoch": 0.036335777607529825,
      "grad_norm": 3.349505662918091,
      "learning_rate": 7.695237378953223e-06,
      "loss": 9.2493,
      "step": 166
    },
    {
      "epoch": 0.036554667834081206,
      "grad_norm": 3.5168023109436035,
      "learning_rate": 7.260364370723044e-06,
      "loss": 9.6737,
      "step": 167
    },
    {
      "epoch": 0.036773558060632594,
      "grad_norm": 3.4631474018096924,
      "learning_rate": 6.837175952121306e-06,
      "loss": 9.3806,
      "step": 168
    },
    {
      "epoch": 0.036992448287183975,
      "grad_norm": 3.5344691276550293,
      "learning_rate": 6.425787818636131e-06,
      "loss": 9.0135,
      "step": 169
    },
    {
      "epoch": 0.03721133851373536,
      "grad_norm": 3.538398504257202,
      "learning_rate": 6.026312439675552e-06,
      "loss": 8.9312,
      "step": 170
    },
    {
      "epoch": 0.037430228740286745,
      "grad_norm": 3.655240297317505,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 9.6333,
      "step": 171
    },
    {
      "epoch": 0.03764911896683813,
      "grad_norm": 3.582289695739746,
      "learning_rate": 5.263533508961827e-06,
      "loss": 9.5427,
      "step": 172
    },
    {
      "epoch": 0.037868009193389514,
      "grad_norm": 3.7137362957000732,
      "learning_rate": 4.900438493352055e-06,
      "loss": 9.5975,
      "step": 173
    },
    {
      "epoch": 0.0380868994199409,
      "grad_norm": 3.9157092571258545,
      "learning_rate": 4.549673247541875e-06,
      "loss": 9.434,
      "step": 174
    },
    {
      "epoch": 0.03830578964649228,
      "grad_norm": 3.8581018447875977,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 9.1172,
      "step": 175
    },
    {
      "epoch": 0.03852467987304367,
      "grad_norm": 3.7773358821868896,
      "learning_rate": 3.885512251130763e-06,
      "loss": 9.3058,
      "step": 176
    },
    {
      "epoch": 0.03874357009959505,
      "grad_norm": 3.9338793754577637,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 9.8121,
      "step": 177
    },
    {
      "epoch": 0.03896246032614644,
      "grad_norm": 4.021871566772461,
      "learning_rate": 3.271776770026963e-06,
      "loss": 10.3161,
      "step": 178
    },
    {
      "epoch": 0.03918135055269782,
      "grad_norm": 4.4229207038879395,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 9.6569,
      "step": 179
    },
    {
      "epoch": 0.03940024077924921,
      "grad_norm": 4.170444965362549,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 10.0404,
      "step": 180
    },
    {
      "epoch": 0.03961913100580059,
      "grad_norm": 4.385123252868652,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 10.2908,
      "step": 181
    },
    {
      "epoch": 0.03983802123235197,
      "grad_norm": 4.367660045623779,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 9.8113,
      "step": 182
    },
    {
      "epoch": 0.04005691145890336,
      "grad_norm": 4.666950702667236,
      "learning_rate": 1.962316193157593e-06,
      "loss": 9.556,
      "step": 183
    },
    {
      "epoch": 0.04027580168545474,
      "grad_norm": 4.6306915283203125,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 9.8797,
      "step": 184
    },
    {
      "epoch": 0.04049469191200613,
      "grad_norm": 4.8750176429748535,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 9.6531,
      "step": 185
    },
    {
      "epoch": 0.04071358213855751,
      "grad_norm": 4.905502796173096,
      "learning_rate": 1.333670137599713e-06,
      "loss": 9.5642,
      "step": 186
    },
    {
      "epoch": 0.0409324723651089,
      "grad_norm": 5.227187633514404,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 9.6742,
      "step": 187
    },
    {
      "epoch": 0.04115136259166028,
      "grad_norm": 5.177999973297119,
      "learning_rate": 9.810017062595322e-07,
      "loss": 9.6262,
      "step": 188
    },
    {
      "epoch": 0.04137025281821167,
      "grad_norm": 4.965554237365723,
      "learning_rate": 8.247462563808817e-07,
      "loss": 9.3526,
      "step": 189
    },
    {
      "epoch": 0.04158914304476305,
      "grad_norm": 5.532609462738037,
      "learning_rate": 6.819348298638839e-07,
      "loss": 10.0158,
      "step": 190
    },
    {
      "epoch": 0.04180803327131444,
      "grad_norm": 5.633469581604004,
      "learning_rate": 5.526064699265753e-07,
      "loss": 10.103,
      "step": 191
    },
    {
      "epoch": 0.04202692349786582,
      "grad_norm": 5.720408916473389,
      "learning_rate": 4.367965336512403e-07,
      "loss": 10.2934,
      "step": 192
    },
    {
      "epoch": 0.04224581372441721,
      "grad_norm": 5.862722873687744,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 9.8082,
      "step": 193
    },
    {
      "epoch": 0.04246470395096859,
      "grad_norm": 6.159598350524902,
      "learning_rate": 2.458548727494292e-07,
      "loss": 9.9984,
      "step": 194
    },
    {
      "epoch": 0.042683594177519976,
      "grad_norm": 6.761998653411865,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 10.6021,
      "step": 195
    },
    {
      "epoch": 0.04290248440407136,
      "grad_norm": 7.087679386138916,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 10.2908,
      "step": 196
    },
    {
      "epoch": 0.043121374630622746,
      "grad_norm": 8.031879425048828,
      "learning_rate": 6.150154258476315e-08,
      "loss": 10.3075,
      "step": 197
    },
    {
      "epoch": 0.04334026485717413,
      "grad_norm": 8.844575881958008,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 10.6868,
      "step": 198
    },
    {
      "epoch": 0.043559155083725515,
      "grad_norm": 11.206236839294434,
      "learning_rate": 6.834750376549792e-09,
      "loss": 10.3428,
      "step": 199
    },
    {
      "epoch": 0.043778045310276896,
      "grad_norm": 14.511768341064453,
      "learning_rate": 0.0,
      "loss": 10.6155,
      "step": 200
    },
    {
      "epoch": 0.043778045310276896,
      "eval_loss": 2.380446672439575,
      "eval_runtime": 198.7715,
      "eval_samples_per_second": 38.713,
      "eval_steps_per_second": 9.679,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3054068771520512e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}