{
  "best_metric": 2.031379222869873,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.01688191103232886,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 8.44095551616443e-05,
      "grad_norm": 1.8181818723678589,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 2.6278,
      "step": 1
    },
    {
      "epoch": 8.44095551616443e-05,
      "eval_loss": 4.414971828460693,
      "eval_runtime": 1805.6386,
      "eval_samples_per_second": 11.05,
      "eval_steps_per_second": 5.525,
      "step": 1
    },
    {
      "epoch": 0.0001688191103232886,
      "grad_norm": 4.043564319610596,
      "learning_rate": 6.666666666666667e-06,
      "loss": 2.6823,
      "step": 2
    },
    {
      "epoch": 0.0002532286654849329,
      "grad_norm": 5.1233439445495605,
      "learning_rate": 1e-05,
      "loss": 3.5682,
      "step": 3
    },
    {
      "epoch": 0.0003376382206465772,
      "grad_norm": 13.150885581970215,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 6.8793,
      "step": 4
    },
    {
      "epoch": 0.0004220477758082215,
      "grad_norm": 6.947402000427246,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 4.3595,
      "step": 5
    },
    {
      "epoch": 0.0005064573309698658,
      "grad_norm": 2.695288896560669,
      "learning_rate": 2e-05,
      "loss": 2.9436,
      "step": 6
    },
    {
      "epoch": 0.0005908668861315101,
      "grad_norm": 2.6573355197906494,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 2.8457,
      "step": 7
    },
    {
      "epoch": 0.0006752764412931544,
      "grad_norm": 2.778068780899048,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 2.5245,
      "step": 8
    },
    {
      "epoch": 0.0007596859964547987,
      "grad_norm": 2.147824764251709,
      "learning_rate": 3e-05,
      "loss": 2.9072,
      "step": 9
    },
    {
      "epoch": 0.000844095551616443,
      "grad_norm": 2.7237422466278076,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 2.7404,
      "step": 10
    },
    {
      "epoch": 0.0009285051067780873,
      "grad_norm": 2.291903257369995,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 2.6539,
      "step": 11
    },
    {
      "epoch": 0.0010129146619397315,
      "grad_norm": 2.141740322113037,
      "learning_rate": 4e-05,
      "loss": 2.8489,
      "step": 12
    },
    {
      "epoch": 0.001097324217101376,
      "grad_norm": 2.1393141746520996,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 2.4076,
      "step": 13
    },
    {
      "epoch": 0.0011817337722630202,
      "grad_norm": 2.3622074127197266,
      "learning_rate": 4.666666666666667e-05,
      "loss": 2.3485,
      "step": 14
    },
    {
      "epoch": 0.0012661433274246644,
      "grad_norm": 2.048785924911499,
      "learning_rate": 5e-05,
      "loss": 2.3128,
      "step": 15
    },
    {
      "epoch": 0.0013505528825863088,
      "grad_norm": 1.7385978698730469,
      "learning_rate": 5.333333333333333e-05,
      "loss": 2.1492,
      "step": 16
    },
    {
      "epoch": 0.001434962437747953,
      "grad_norm": 1.5012621879577637,
      "learning_rate": 5.666666666666667e-05,
      "loss": 2.3002,
      "step": 17
    },
    {
      "epoch": 0.0015193719929095975,
      "grad_norm": 1.7553797960281372,
      "learning_rate": 6e-05,
      "loss": 2.2492,
      "step": 18
    },
    {
      "epoch": 0.0016037815480712417,
      "grad_norm": 1.512536883354187,
      "learning_rate": 6.333333333333333e-05,
      "loss": 1.9978,
      "step": 19
    },
    {
      "epoch": 0.001688191103232886,
      "grad_norm": 1.6202983856201172,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.8773,
      "step": 20
    },
    {
      "epoch": 0.0017726006583945303,
      "grad_norm": 2.145515203475952,
      "learning_rate": 7e-05,
      "loss": 2.1498,
      "step": 21
    },
    {
      "epoch": 0.0018570102135561746,
      "grad_norm": 1.9246118068695068,
      "learning_rate": 7.333333333333333e-05,
      "loss": 2.3591,
      "step": 22
    },
    {
      "epoch": 0.0019414197687178188,
      "grad_norm": 2.0743422508239746,
      "learning_rate": 7.666666666666667e-05,
      "loss": 2.0131,
      "step": 23
    },
    {
      "epoch": 0.002025829323879463,
      "grad_norm": 1.645342469215393,
      "learning_rate": 8e-05,
      "loss": 2.0229,
      "step": 24
    },
    {
      "epoch": 0.0021102388790411077,
      "grad_norm": 2.071183443069458,
      "learning_rate": 8.333333333333334e-05,
      "loss": 2.3616,
      "step": 25
    },
    {
      "epoch": 0.002194648434202752,
      "grad_norm": 1.910996913909912,
      "learning_rate": 8.666666666666667e-05,
      "loss": 2.078,
      "step": 26
    },
    {
      "epoch": 0.002279057989364396,
      "grad_norm": 1.669381856918335,
      "learning_rate": 9e-05,
      "loss": 2.1676,
      "step": 27
    },
    {
      "epoch": 0.0023634675445260403,
      "grad_norm": 1.6509839296340942,
      "learning_rate": 9.333333333333334e-05,
      "loss": 1.9288,
      "step": 28
    },
    {
      "epoch": 0.0024478770996876845,
      "grad_norm": 2.153214454650879,
      "learning_rate": 9.666666666666667e-05,
      "loss": 2.1312,
      "step": 29
    },
    {
      "epoch": 0.0025322866548493288,
      "grad_norm": 1.6824779510498047,
      "learning_rate": 0.0001,
      "loss": 1.8805,
      "step": 30
    },
    {
      "epoch": 0.0026166962100109734,
      "grad_norm": 3.2034170627593994,
      "learning_rate": 9.999146252290264e-05,
      "loss": 2.2348,
      "step": 31
    },
    {
      "epoch": 0.0027011057651726176,
      "grad_norm": 2.3675742149353027,
      "learning_rate": 9.996585300715116e-05,
      "loss": 2.3106,
      "step": 32
    },
    {
      "epoch": 0.002785515320334262,
      "grad_norm": 2.261749744415283,
      "learning_rate": 9.99231801983717e-05,
      "loss": 2.3094,
      "step": 33
    },
    {
      "epoch": 0.002869924875495906,
      "grad_norm": 2.450434446334839,
      "learning_rate": 9.986345866928941e-05,
      "loss": 2.5182,
      "step": 34
    },
    {
      "epoch": 0.0029543344306575503,
      "grad_norm": 2.2372260093688965,
      "learning_rate": 9.978670881475172e-05,
      "loss": 2.234,
      "step": 35
    },
    {
      "epoch": 0.003038743985819195,
      "grad_norm": 2.3994569778442383,
      "learning_rate": 9.96929568447637e-05,
      "loss": 1.9185,
      "step": 36
    },
    {
      "epoch": 0.003123153540980839,
      "grad_norm": 2.7623260021209717,
      "learning_rate": 9.958223477553714e-05,
      "loss": 2.5983,
      "step": 37
    },
    {
      "epoch": 0.0032075630961424834,
      "grad_norm": 2.736055374145508,
      "learning_rate": 9.94545804185573e-05,
      "loss": 2.099,
      "step": 38
    },
    {
      "epoch": 0.0032919726513041276,
      "grad_norm": 2.6781463623046875,
      "learning_rate": 9.931003736767013e-05,
      "loss": 2.2046,
      "step": 39
    },
    {
      "epoch": 0.003376382206465772,
      "grad_norm": 2.937976121902466,
      "learning_rate": 9.91486549841951e-05,
      "loss": 2.5578,
      "step": 40
    },
    {
      "epoch": 0.003460791761627416,
      "grad_norm": 3.6056296825408936,
      "learning_rate": 9.89704883800683e-05,
      "loss": 2.5767,
      "step": 41
    },
    {
      "epoch": 0.0035452013167890607,
      "grad_norm": 3.104539632797241,
      "learning_rate": 9.877559839902184e-05,
      "loss": 2.6227,
      "step": 42
    },
    {
      "epoch": 0.003629610871950705,
      "grad_norm": 3.1687333583831787,
      "learning_rate": 9.85640515958057e-05,
      "loss": 2.6713,
      "step": 43
    },
    {
      "epoch": 0.003714020427112349,
      "grad_norm": 3.6623644828796387,
      "learning_rate": 9.833592021345937e-05,
      "loss": 2.8328,
      "step": 44
    },
    {
      "epoch": 0.0037984299822739933,
      "grad_norm": 4.0008087158203125,
      "learning_rate": 9.809128215864097e-05,
      "loss": 2.8074,
      "step": 45
    },
    {
      "epoch": 0.0038828395374356376,
      "grad_norm": 3.692141532897949,
      "learning_rate": 9.783022097502204e-05,
      "loss": 2.7198,
      "step": 46
    },
    {
      "epoch": 0.003967249092597282,
      "grad_norm": 4.566468238830566,
      "learning_rate": 9.755282581475769e-05,
      "loss": 2.684,
      "step": 47
    },
    {
      "epoch": 0.004051658647758926,
      "grad_norm": 5.8097124099731445,
      "learning_rate": 9.725919140804099e-05,
      "loss": 2.6825,
      "step": 48
    },
    {
      "epoch": 0.004136068202920571,
      "grad_norm": 6.072657108306885,
      "learning_rate": 9.694941803075283e-05,
      "loss": 2.7775,
      "step": 49
    },
    {
      "epoch": 0.004220477758082215,
      "grad_norm": 7.343986511230469,
      "learning_rate": 9.662361147021779e-05,
      "loss": 2.8328,
      "step": 50
    },
    {
      "epoch": 0.004220477758082215,
      "eval_loss": 2.454012155532837,
      "eval_runtime": 1810.409,
      "eval_samples_per_second": 11.021,
      "eval_steps_per_second": 5.511,
      "step": 50
    },
    {
      "epoch": 0.004304887313243859,
      "grad_norm": 2.3229269981384277,
      "learning_rate": 9.628188298907782e-05,
      "loss": 2.3604,
      "step": 51
    },
    {
      "epoch": 0.004389296868405504,
      "grad_norm": 2.030663251876831,
      "learning_rate": 9.592434928729616e-05,
      "loss": 2.1,
      "step": 52
    },
    {
      "epoch": 0.0044737064235671475,
      "grad_norm": 1.5572001934051514,
      "learning_rate": 9.555113246230442e-05,
      "loss": 1.9344,
      "step": 53
    },
    {
      "epoch": 0.004558115978728792,
      "grad_norm": 2.5994277000427246,
      "learning_rate": 9.516235996730645e-05,
      "loss": 2.3085,
      "step": 54
    },
    {
      "epoch": 0.004642525533890436,
      "grad_norm": 5.465787410736084,
      "learning_rate": 9.475816456775313e-05,
      "loss": 2.7403,
      "step": 55
    },
    {
      "epoch": 0.004726935089052081,
      "grad_norm": 3.608912229537964,
      "learning_rate": 9.43386842960031e-05,
      "loss": 2.6378,
      "step": 56
    },
    {
      "epoch": 0.004811344644213725,
      "grad_norm": 1.3181077241897583,
      "learning_rate": 9.39040624041849e-05,
      "loss": 2.1806,
      "step": 57
    },
    {
      "epoch": 0.004895754199375369,
      "grad_norm": 1.1497766971588135,
      "learning_rate": 9.345444731527642e-05,
      "loss": 2.3601,
      "step": 58
    },
    {
      "epoch": 0.004980163754537014,
      "grad_norm": 1.078818440437317,
      "learning_rate": 9.298999257241863e-05,
      "loss": 2.08,
      "step": 59
    },
    {
      "epoch": 0.0050645733096986575,
      "grad_norm": 1.2510125637054443,
      "learning_rate": 9.251085678648072e-05,
      "loss": 2.5723,
      "step": 60
    },
    {
      "epoch": 0.005148982864860302,
      "grad_norm": 1.3191688060760498,
      "learning_rate": 9.201720358189464e-05,
      "loss": 2.1822,
      "step": 61
    },
    {
      "epoch": 0.005233392420021947,
      "grad_norm": 0.9648534059524536,
      "learning_rate": 9.150920154077754e-05,
      "loss": 1.7929,
      "step": 62
    },
    {
      "epoch": 0.005317801975183591,
      "grad_norm": 1.0660755634307861,
      "learning_rate": 9.098702414536107e-05,
      "loss": 2.0524,
      "step": 63
    },
    {
      "epoch": 0.005402211530345235,
      "grad_norm": 1.1169694662094116,
      "learning_rate": 9.045084971874738e-05,
      "loss": 2.2406,
      "step": 64
    },
    {
      "epoch": 0.005486621085506879,
      "grad_norm": 1.21298086643219,
      "learning_rate": 8.9900861364012e-05,
      "loss": 1.9126,
      "step": 65
    },
    {
      "epoch": 0.005571030640668524,
      "grad_norm": 1.0305255651474,
      "learning_rate": 8.933724690167417e-05,
      "loss": 2.11,
      "step": 66
    },
    {
      "epoch": 0.005655440195830168,
      "grad_norm": 1.306191086769104,
      "learning_rate": 8.876019880555649e-05,
      "loss": 2.053,
      "step": 67
    },
    {
      "epoch": 0.005739849750991812,
      "grad_norm": 1.1437000036239624,
      "learning_rate": 8.816991413705516e-05,
      "loss": 1.9714,
      "step": 68
    },
    {
      "epoch": 0.005824259306153457,
      "grad_norm": 1.2591968774795532,
      "learning_rate": 8.756659447784368e-05,
      "loss": 2.0585,
      "step": 69
    },
    {
      "epoch": 0.005908668861315101,
      "grad_norm": 1.6632970571517944,
      "learning_rate": 8.695044586103296e-05,
      "loss": 1.8475,
      "step": 70
    },
    {
      "epoch": 0.005993078416476745,
      "grad_norm": 1.160606861114502,
      "learning_rate": 8.632167870081121e-05,
      "loss": 1.8555,
      "step": 71
    },
    {
      "epoch": 0.00607748797163839,
      "grad_norm": 1.2138736248016357,
      "learning_rate": 8.568050772058762e-05,
      "loss": 1.7836,
      "step": 72
    },
    {
      "epoch": 0.006161897526800034,
      "grad_norm": 1.222679853439331,
      "learning_rate": 8.502715187966455e-05,
      "loss": 1.9562,
      "step": 73
    },
    {
      "epoch": 0.006246307081961678,
      "grad_norm": 1.1274261474609375,
      "learning_rate": 8.436183429846313e-05,
      "loss": 1.7001,
      "step": 74
    },
    {
      "epoch": 0.006330716637123322,
      "grad_norm": 1.52631676197052,
      "learning_rate": 8.368478218232787e-05,
      "loss": 1.8859,
      "step": 75
    },
    {
      "epoch": 0.006415126192284967,
      "grad_norm": 1.2555538415908813,
      "learning_rate": 8.299622674393614e-05,
      "loss": 2.0622,
      "step": 76
    },
    {
      "epoch": 0.0064995357474466105,
      "grad_norm": 1.5558490753173828,
      "learning_rate": 8.229640312433937e-05,
      "loss": 1.8258,
      "step": 77
    },
    {
      "epoch": 0.006583945302608255,
      "grad_norm": 1.0191174745559692,
      "learning_rate": 8.158555031266254e-05,
      "loss": 1.7624,
      "step": 78
    },
    {
      "epoch": 0.0066683548577699,
      "grad_norm": 1.4955583810806274,
      "learning_rate": 8.086391106448965e-05,
      "loss": 1.4768,
      "step": 79
    },
    {
      "epoch": 0.006752764412931544,
      "grad_norm": 1.314788579940796,
      "learning_rate": 8.013173181896283e-05,
      "loss": 1.77,
      "step": 80
    },
    {
      "epoch": 0.006837173968093188,
      "grad_norm": 1.235695242881775,
      "learning_rate": 7.938926261462366e-05,
      "loss": 1.6502,
      "step": 81
    },
    {
      "epoch": 0.006921583523254832,
      "grad_norm": 1.6731237173080444,
      "learning_rate": 7.863675700402526e-05,
      "loss": 2.0114,
      "step": 82
    },
    {
      "epoch": 0.007005993078416477,
      "grad_norm": 1.446967601776123,
      "learning_rate": 7.787447196714427e-05,
      "loss": 2.0877,
      "step": 83
    },
    {
      "epoch": 0.007090402633578121,
      "grad_norm": 1.4711289405822754,
      "learning_rate": 7.710266782362247e-05,
      "loss": 1.7021,
      "step": 84
    },
    {
      "epoch": 0.007174812188739765,
      "grad_norm": 1.4009013175964355,
      "learning_rate": 7.63216081438678e-05,
      "loss": 1.6771,
      "step": 85
    },
    {
      "epoch": 0.00725922174390141,
      "grad_norm": 1.5292202234268188,
      "learning_rate": 7.553155965904535e-05,
      "loss": 1.9153,
      "step": 86
    },
    {
      "epoch": 0.007343631299063054,
      "grad_norm": 1.4913169145584106,
      "learning_rate": 7.473279216998895e-05,
      "loss": 1.9661,
      "step": 87
    },
    {
      "epoch": 0.007428040854224698,
      "grad_norm": 2.3871500492095947,
      "learning_rate": 7.392557845506432e-05,
      "loss": 2.2322,
      "step": 88
    },
    {
      "epoch": 0.007512450409386343,
      "grad_norm": 1.8112202882766724,
      "learning_rate": 7.311019417701566e-05,
      "loss": 1.8489,
      "step": 89
    },
    {
      "epoch": 0.007596859964547987,
      "grad_norm": 1.9640885591506958,
      "learning_rate": 7.228691778882693e-05,
      "loss": 2.0606,
      "step": 90
    },
    {
      "epoch": 0.007681269519709631,
      "grad_norm": 3.1275691986083984,
      "learning_rate": 7.145603043863045e-05,
      "loss": 2.2683,
      "step": 91
    },
    {
      "epoch": 0.007765679074871275,
      "grad_norm": 2.9464898109436035,
      "learning_rate": 7.061781587369519e-05,
      "loss": 2.3049,
      "step": 92
    },
    {
      "epoch": 0.00785008863003292,
      "grad_norm": 3.205500364303589,
      "learning_rate": 6.977256034352712e-05,
      "loss": 2.1571,
      "step": 93
    },
    {
      "epoch": 0.007934498185194564,
      "grad_norm": 2.8985326290130615,
      "learning_rate": 6.892055250211552e-05,
      "loss": 2.1649,
      "step": 94
    },
    {
      "epoch": 0.008018907740356209,
      "grad_norm": 2.6997387409210205,
      "learning_rate": 6.806208330935766e-05,
      "loss": 2.3543,
      "step": 95
    },
    {
      "epoch": 0.008103317295517852,
      "grad_norm": 2.9911913871765137,
      "learning_rate": 6.719744593169641e-05,
      "loss": 2.4564,
      "step": 96
    },
    {
      "epoch": 0.008187726850679497,
      "grad_norm": 3.5631487369537354,
      "learning_rate": 6.632693564200416e-05,
      "loss": 2.2209,
      "step": 97
    },
    {
      "epoch": 0.008272136405841141,
      "grad_norm": 4.231320858001709,
      "learning_rate": 6.545084971874738e-05,
      "loss": 2.4387,
      "step": 98
    },
    {
      "epoch": 0.008356545961002786,
      "grad_norm": 3.3669190406799316,
      "learning_rate": 6.456948734446624e-05,
      "loss": 1.9174,
      "step": 99
    },
    {
      "epoch": 0.00844095551616443,
      "grad_norm": 4.364703178405762,
      "learning_rate": 6.368314950360415e-05,
      "loss": 2.3834,
      "step": 100
    },
    {
      "epoch": 0.00844095551616443,
      "eval_loss": 2.1764209270477295,
      "eval_runtime": 1810.2966,
      "eval_samples_per_second": 11.022,
      "eval_steps_per_second": 5.511,
      "step": 100
    },
    {
      "epoch": 0.008525365071326074,
      "grad_norm": 0.8329039812088013,
      "learning_rate": 6.279213887972179e-05,
      "loss": 1.9627,
      "step": 101
    },
    {
      "epoch": 0.008609774626487718,
      "grad_norm": 1.5277196168899536,
      "learning_rate": 6.189675975213094e-05,
      "loss": 1.0581,
      "step": 102
    },
    {
      "epoch": 0.008694184181649363,
      "grad_norm": 1.4037386178970337,
      "learning_rate": 6.099731789198344e-05,
      "loss": 2.242,
      "step": 103
    },
    {
      "epoch": 0.008778593736811008,
      "grad_norm": 3.4319448471069336,
      "learning_rate": 6.009412045785051e-05,
      "loss": 2.1786,
      "step": 104
    },
    {
      "epoch": 0.008863003291972652,
      "grad_norm": 1.5401387214660645,
      "learning_rate": 5.918747589082853e-05,
      "loss": 2.2078,
      "step": 105
    },
    {
      "epoch": 0.008947412847134295,
      "grad_norm": 1.2498023509979248,
      "learning_rate": 5.82776938092065e-05,
      "loss": 1.9751,
      "step": 106
    },
    {
      "epoch": 0.00903182240229594,
      "grad_norm": 1.0410596132278442,
      "learning_rate": 5.736508490273188e-05,
      "loss": 1.9234,
      "step": 107
    },
    {
      "epoch": 0.009116231957457584,
      "grad_norm": 1.7921696901321411,
      "learning_rate": 5.644996082651017e-05,
      "loss": 2.0355,
      "step": 108
    },
    {
      "epoch": 0.009200641512619229,
      "grad_norm": 0.9875342845916748,
      "learning_rate": 5.553263409457504e-05,
      "loss": 2.1915,
      "step": 109
    },
    {
      "epoch": 0.009285051067780872,
      "grad_norm": 0.983015239238739,
      "learning_rate": 5.4613417973165106e-05,
      "loss": 1.7572,
      "step": 110
    },
    {
      "epoch": 0.009369460622942517,
      "grad_norm": 1.257350206375122,
      "learning_rate": 5.3692626373743706e-05,
      "loss": 1.7889,
      "step": 111
    },
    {
      "epoch": 0.009453870178104161,
      "grad_norm": 0.96494460105896,
      "learning_rate": 5.27705737457985e-05,
      "loss": 1.7814,
      "step": 112
    },
    {
      "epoch": 0.009538279733265806,
      "grad_norm": 0.9378180503845215,
      "learning_rate": 5.184757496945726e-05,
      "loss": 2.1742,
      "step": 113
    },
    {
      "epoch": 0.00962268928842745,
      "grad_norm": 0.8996978402137756,
      "learning_rate": 5.092394524795649e-05,
      "loss": 2.1518,
      "step": 114
    },
    {
      "epoch": 0.009707098843589093,
      "grad_norm": 1.2315887212753296,
      "learning_rate": 5e-05,
      "loss": 1.9632,
      "step": 115
    },
    {
      "epoch": 0.009791508398750738,
      "grad_norm": 0.963108241558075,
      "learning_rate": 4.907605475204352e-05,
      "loss": 1.9375,
      "step": 116
    },
    {
      "epoch": 0.009875917953912383,
      "grad_norm": 1.0140211582183838,
      "learning_rate": 4.8152425030542766e-05,
      "loss": 1.4991,
      "step": 117
    },
    {
      "epoch": 0.009960327509074027,
      "grad_norm": 0.8235830068588257,
      "learning_rate": 4.72294262542015e-05,
      "loss": 1.6948,
      "step": 118
    },
    {
      "epoch": 0.010044737064235672,
      "grad_norm": 1.008412480354309,
      "learning_rate": 4.6307373626256306e-05,
      "loss": 1.3628,
      "step": 119
    },
    {
      "epoch": 0.010129146619397315,
      "grad_norm": 1.0166562795639038,
      "learning_rate": 4.5386582026834906e-05,
      "loss": 1.5645,
      "step": 120
    },
    {
      "epoch": 0.01021355617455896,
      "grad_norm": 1.075079321861267,
      "learning_rate": 4.446736590542497e-05,
      "loss": 1.6391,
      "step": 121
    },
    {
      "epoch": 0.010297965729720604,
      "grad_norm": 1.0736780166625977,
      "learning_rate": 4.3550039173489845e-05,
      "loss": 1.8835,
      "step": 122
    },
    {
      "epoch": 0.010382375284882249,
      "grad_norm": 1.330854892730713,
      "learning_rate": 4.2634915097268115e-05,
      "loss": 1.7725,
      "step": 123
    },
    {
      "epoch": 0.010466784840043894,
      "grad_norm": 1.6348861455917358,
      "learning_rate": 4.1722306190793495e-05,
      "loss": 1.7617,
      "step": 124
    },
    {
      "epoch": 0.010551194395205537,
      "grad_norm": 1.3457287549972534,
      "learning_rate": 4.0812524109171476e-05,
      "loss": 1.8506,
      "step": 125
    },
    {
      "epoch": 0.010635603950367181,
      "grad_norm": 1.2787361145019531,
      "learning_rate": 3.99058795421495e-05,
      "loss": 1.8059,
      "step": 126
    },
    {
      "epoch": 0.010720013505528826,
      "grad_norm": 1.2608163356781006,
      "learning_rate": 3.9002682108016585e-05,
      "loss": 1.6276,
      "step": 127
    },
    {
      "epoch": 0.01080442306069047,
      "grad_norm": 1.0264259576797485,
      "learning_rate": 3.8103240247869075e-05,
      "loss": 1.5321,
      "step": 128
    },
    {
      "epoch": 0.010888832615852115,
      "grad_norm": 1.3834068775177002,
      "learning_rate": 3.720786112027822e-05,
      "loss": 1.6483,
      "step": 129
    },
    {
      "epoch": 0.010973242171013758,
      "grad_norm": 1.335982322692871,
      "learning_rate": 3.631685049639586e-05,
      "loss": 1.7294,
      "step": 130
    },
    {
      "epoch": 0.011057651726175403,
      "grad_norm": 1.2448405027389526,
      "learning_rate": 3.543051265553377e-05,
      "loss": 1.5256,
      "step": 131
    },
    {
      "epoch": 0.011142061281337047,
      "grad_norm": 1.1373120546340942,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.8429,
      "step": 132
    },
    {
      "epoch": 0.011226470836498692,
      "grad_norm": 1.4305205345153809,
      "learning_rate": 3.367306435799584e-05,
      "loss": 2.0747,
      "step": 133
    },
    {
      "epoch": 0.011310880391660337,
      "grad_norm": 1.6904332637786865,
      "learning_rate": 3.2802554068303596e-05,
      "loss": 2.2343,
      "step": 134
    },
    {
      "epoch": 0.01139528994682198,
      "grad_norm": 1.8783656358718872,
      "learning_rate": 3.1937916690642356e-05,
      "loss": 1.9961,
      "step": 135
    },
    {
      "epoch": 0.011479699501983624,
      "grad_norm": 2.045578718185425,
      "learning_rate": 3.107944749788449e-05,
      "loss": 2.3154,
      "step": 136
    },
    {
      "epoch": 0.011564109057145269,
      "grad_norm": 1.8023104667663574,
      "learning_rate": 3.0227439656472877e-05,
      "loss": 1.7244,
      "step": 137
    },
    {
      "epoch": 0.011648518612306914,
      "grad_norm": 1.8824018239974976,
      "learning_rate": 2.9382184126304834e-05,
      "loss": 2.2433,
      "step": 138
    },
    {
      "epoch": 0.011732928167468558,
      "grad_norm": 1.7303247451782227,
      "learning_rate": 2.8543969561369556e-05,
      "loss": 1.7089,
      "step": 139
    },
    {
      "epoch": 0.011817337722630201,
      "grad_norm": 2.0319793224334717,
      "learning_rate": 2.771308221117309e-05,
      "loss": 2.0727,
      "step": 140
    },
    {
      "epoch": 0.011901747277791846,
      "grad_norm": 2.2583532333374023,
      "learning_rate": 2.688980582298435e-05,
      "loss": 1.8439,
      "step": 141
    },
    {
      "epoch": 0.01198615683295349,
      "grad_norm": 2.583017587661743,
      "learning_rate": 2.607442154493568e-05,
      "loss": 2.1232,
      "step": 142
    },
    {
      "epoch": 0.012070566388115135,
      "grad_norm": 3.050464630126953,
      "learning_rate": 2.5267207830011068e-05,
      "loss": 2.121,
      "step": 143
    },
    {
      "epoch": 0.01215497594327678,
      "grad_norm": 3.034822940826416,
      "learning_rate": 2.446844034095466e-05,
      "loss": 1.7587,
      "step": 144
    },
    {
      "epoch": 0.012239385498438423,
      "grad_norm": 2.6765623092651367,
      "learning_rate": 2.3678391856132204e-05,
      "loss": 2.0119,
      "step": 145
    },
    {
      "epoch": 0.012323795053600067,
      "grad_norm": 2.746692180633545,
      "learning_rate": 2.2897332176377528e-05,
      "loss": 2.0327,
      "step": 146
    },
    {
      "epoch": 0.012408204608761712,
      "grad_norm": 2.931114673614502,
      "learning_rate": 2.2125528032855724e-05,
      "loss": 2.3408,
      "step": 147
    },
    {
      "epoch": 0.012492614163923357,
      "grad_norm": 3.69539213180542,
      "learning_rate": 2.136324299597474e-05,
      "loss": 2.5359,
      "step": 148
    },
    {
      "epoch": 0.012577023719085001,
      "grad_norm": 3.0832767486572266,
      "learning_rate": 2.061073738537635e-05,
      "loss": 2.0631,
      "step": 149
    },
    {
      "epoch": 0.012661433274246644,
      "grad_norm": 5.046596050262451,
      "learning_rate": 1.9868268181037185e-05,
      "loss": 2.4239,
      "step": 150
    },
    {
      "epoch": 0.012661433274246644,
      "eval_loss": 2.052938938140869,
      "eval_runtime": 1817.9905,
      "eval_samples_per_second": 10.975,
      "eval_steps_per_second": 5.488,
      "step": 150
    },
    {
      "epoch": 0.012745842829408289,
      "grad_norm": 0.5950528979301453,
      "learning_rate": 1.9136088935510362e-05,
      "loss": 1.8463,
      "step": 151
    },
    {
      "epoch": 0.012830252384569934,
      "grad_norm": 1.1702004671096802,
      "learning_rate": 1.8414449687337464e-05,
      "loss": 1.8844,
      "step": 152
    },
    {
      "epoch": 0.012914661939731578,
      "grad_norm": 2.3687124252319336,
      "learning_rate": 1.7703596875660645e-05,
      "loss": 2.3188,
      "step": 153
    },
    {
      "epoch": 0.012999071494893221,
      "grad_norm": 4.25615119934082,
      "learning_rate": 1.700377325606388e-05,
      "loss": 2.5482,
      "step": 154
    },
    {
      "epoch": 0.013083481050054866,
      "grad_norm": 1.1373034715652466,
      "learning_rate": 1.631521781767214e-05,
      "loss": 2.2085,
      "step": 155
    },
    {
      "epoch": 0.01316789060521651,
      "grad_norm": 0.8639218211174011,
      "learning_rate": 1.5638165701536868e-05,
      "loss": 1.7806,
      "step": 156
    },
    {
      "epoch": 0.013252300160378155,
      "grad_norm": 1.0641635656356812,
      "learning_rate": 1.4972848120335453e-05,
      "loss": 2.0495,
      "step": 157
    },
    {
      "epoch": 0.0133367097155398,
      "grad_norm": 1.1919292211532593,
      "learning_rate": 1.4319492279412388e-05,
      "loss": 2.0498,
      "step": 158
    },
    {
      "epoch": 0.013421119270701443,
      "grad_norm": 0.8188783526420593,
      "learning_rate": 1.3678321299188801e-05,
      "loss": 1.777,
      "step": 159
    },
    {
      "epoch": 0.013505528825863087,
      "grad_norm": 1.0833444595336914,
      "learning_rate": 1.3049554138967051e-05,
      "loss": 1.8938,
      "step": 160
    },
    {
      "epoch": 0.013589938381024732,
      "grad_norm": 1.1514899730682373,
      "learning_rate": 1.2433405522156332e-05,
      "loss": 1.8971,
      "step": 161
    },
    {
      "epoch": 0.013674347936186377,
      "grad_norm": 0.9755855798721313,
      "learning_rate": 1.183008586294485e-05,
      "loss": 1.5531,
      "step": 162
    },
    {
      "epoch": 0.013758757491348021,
      "grad_norm": 1.0513923168182373,
      "learning_rate": 1.1239801194443506e-05,
      "loss": 1.7984,
      "step": 163
    },
    {
      "epoch": 0.013843167046509664,
      "grad_norm": 0.8997096419334412,
      "learning_rate": 1.066275309832584e-05,
      "loss": 1.6783,
      "step": 164
    },
    {
      "epoch": 0.013927576601671309,
      "grad_norm": 0.9897979497909546,
      "learning_rate": 1.0099138635988026e-05,
      "loss": 1.8195,
      "step": 165
    },
    {
      "epoch": 0.014011986156832953,
      "grad_norm": 0.9806956648826599,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.6615,
      "step": 166
    },
    {
      "epoch": 0.014096395711994598,
      "grad_norm": 1.7226569652557373,
      "learning_rate": 9.012975854638949e-06,
      "loss": 1.8531,
      "step": 167
    },
    {
      "epoch": 0.014180805267156243,
      "grad_norm": 1.0133280754089355,
      "learning_rate": 8.490798459222476e-06,
      "loss": 1.9478,
      "step": 168
    },
    {
      "epoch": 0.014265214822317886,
      "grad_norm": 1.1512953042984009,
      "learning_rate": 7.982796418105371e-06,
      "loss": 1.7631,
      "step": 169
    },
    {
      "epoch": 0.01434962437747953,
      "grad_norm": 1.0277490615844727,
      "learning_rate": 7.489143213519301e-06,
      "loss": 1.8953,
      "step": 170
    },
    {
      "epoch": 0.014434033932641175,
      "grad_norm": 1.0464650392532349,
      "learning_rate": 7.010007427581378e-06,
      "loss": 1.4614,
      "step": 171
    },
    {
      "epoch": 0.01451844348780282,
      "grad_norm": 1.2851471900939941,
      "learning_rate": 6.5455526847235825e-06,
      "loss": 1.9117,
      "step": 172
    },
    {
      "epoch": 0.014602853042964464,
      "grad_norm": 1.3133386373519897,
      "learning_rate": 6.0959375958151045e-06,
      "loss": 1.9137,
      "step": 173
    },
    {
      "epoch": 0.014687262598126107,
      "grad_norm": 1.449835181236267,
      "learning_rate": 5.6613157039969055e-06,
      "loss": 2.0593,
      "step": 174
    },
    {
      "epoch": 0.014771672153287752,
      "grad_norm": 1.144891381263733,
      "learning_rate": 5.241835432246889e-06,
      "loss": 1.8089,
      "step": 175
    },
    {
      "epoch": 0.014856081708449397,
      "grad_norm": 1.3811804056167603,
      "learning_rate": 4.837640032693558e-06,
      "loss": 1.6361,
      "step": 176
    },
    {
      "epoch": 0.014940491263611041,
      "grad_norm": 1.1664718389511108,
      "learning_rate": 4.448867537695578e-06,
      "loss": 1.6181,
      "step": 177
    },
    {
      "epoch": 0.015024900818772686,
      "grad_norm": 1.106393814086914,
      "learning_rate": 4.075650712703849e-06,
      "loss": 1.8079,
      "step": 178
    },
    {
      "epoch": 0.015109310373934329,
      "grad_norm": 1.4185856580734253,
      "learning_rate": 3.71811701092219e-06,
      "loss": 1.6172,
      "step": 179
    },
    {
      "epoch": 0.015193719929095973,
      "grad_norm": 1.219308853149414,
      "learning_rate": 3.376388529782215e-06,
      "loss": 1.8988,
      "step": 180
    },
    {
      "epoch": 0.015278129484257618,
      "grad_norm": 1.5813593864440918,
      "learning_rate": 3.0505819692471792e-06,
      "loss": 1.8037,
      "step": 181
    },
    {
      "epoch": 0.015362539039419263,
      "grad_norm": 1.340388536453247,
      "learning_rate": 2.7408085919590264e-06,
      "loss": 1.91,
      "step": 182
    },
    {
      "epoch": 0.015446948594580907,
      "grad_norm": 1.3707598447799683,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 1.7123,
      "step": 183
    },
    {
      "epoch": 0.01553135814974255,
      "grad_norm": 1.3039051294326782,
      "learning_rate": 2.1697790249779636e-06,
      "loss": 1.9991,
      "step": 184
    },
    {
      "epoch": 0.015615767704904195,
      "grad_norm": 1.6467350721359253,
      "learning_rate": 1.908717841359048e-06,
      "loss": 2.0003,
      "step": 185
    },
    {
      "epoch": 0.01570017726006584,
      "grad_norm": 1.6364213228225708,
      "learning_rate": 1.6640797865406288e-06,
      "loss": 1.9468,
      "step": 186
    },
    {
      "epoch": 0.015784586815227482,
      "grad_norm": 2.0733160972595215,
      "learning_rate": 1.4359484041943038e-06,
      "loss": 2.0161,
      "step": 187
    },
    {
      "epoch": 0.01586899637038913,
      "grad_norm": 1.8086639642715454,
      "learning_rate": 1.2244016009781701e-06,
      "loss": 1.702,
      "step": 188
    },
    {
      "epoch": 0.015953405925550772,
      "grad_norm": 2.1483781337738037,
      "learning_rate": 1.0295116199317057e-06,
      "loss": 2.0142,
      "step": 189
    },
    {
      "epoch": 0.016037815480712418,
      "grad_norm": 2.356604814529419,
      "learning_rate": 8.513450158049108e-07,
      "loss": 2.0527,
      "step": 190
    },
    {
      "epoch": 0.01612222503587406,
      "grad_norm": 2.5516037940979004,
      "learning_rate": 6.899626323298713e-07,
      "loss": 2.2821,
      "step": 191
    },
    {
      "epoch": 0.016206634591035704,
      "grad_norm": 2.540558338165283,
      "learning_rate": 5.454195814427021e-07,
      "loss": 2.3179,
      "step": 192
    },
    {
      "epoch": 0.01629104414619735,
      "grad_norm": 3.2335739135742188,
      "learning_rate": 4.177652244628627e-07,
      "loss": 2.2797,
      "step": 193
    },
    {
      "epoch": 0.016375453701358993,
      "grad_norm": 2.390767812728882,
      "learning_rate": 3.0704315523631953e-07,
      "loss": 1.5567,
      "step": 194
    },
    {
      "epoch": 0.01645986325652064,
      "grad_norm": 2.4722132682800293,
      "learning_rate": 2.1329118524827662e-07,
      "loss": 2.0033,
      "step": 195
    },
    {
      "epoch": 0.016544272811682283,
      "grad_norm": 2.667738437652588,
      "learning_rate": 1.3654133071059893e-07,
      "loss": 1.9427,
      "step": 196
    },
    {
      "epoch": 0.016628682366843926,
      "grad_norm": 2.29872989654541,
      "learning_rate": 7.681980162830282e-08,
      "loss": 2.2453,
      "step": 197
    },
    {
      "epoch": 0.016713091922005572,
      "grad_norm": 2.9227683544158936,
      "learning_rate": 3.4146992848854695e-08,
      "loss": 2.2806,
      "step": 198
    },
    {
      "epoch": 0.016797501477167215,
      "grad_norm": 4.208425998687744,
      "learning_rate": 8.537477097364522e-09,
      "loss": 2.1202,
      "step": 199
    },
    {
      "epoch": 0.01688191103232886,
      "grad_norm": 4.306198596954346,
      "learning_rate": 0.0,
      "loss": 2.1001,
      "step": 200
    },
    {
      "epoch": 0.01688191103232886,
      "eval_loss": 2.031379222869873,
      "eval_runtime": 1813.1682,
      "eval_samples_per_second": 11.004,
      "eval_steps_per_second": 5.503,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.3262724411346125e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}