amuvarma
/

conversation-6.0

@@ -10,2234 +10,2234 @@
   "log_history": [
     {
       "epoch": 0.004032258064516129,
-      "grad_norm": 107.96044921875,
       "learning_rate": 4.999799414013322e-06,
-      "loss": 3.1763,
-      "mean_token_accuracy": 0.48242291808128357,
-      "num_tokens": 1851.0,
       "step": 1
     },
     {
       "epoch": 0.008064516129032258,
-      "grad_norm": 44.63172149658203,
       "learning_rate": 4.999197688241076e-06,
-      "loss": 2.6469,
-      "mean_token_accuracy": 0.4947773516178131,
-      "num_tokens": 3672.0,
       "step": 2
     },
     {
       "epoch": 0.012096774193548387,
-      "grad_norm": 34.54632568359375,
       "learning_rate": 4.998194919241471e-06,
-      "loss": 1.9867,
-      "mean_token_accuracy": 0.5458515286445618,
-      "num_tokens": 5506.0,
       "step": 3
     },
     {
       "epoch": 0.016129032258064516,
-      "grad_norm": 12.74654769897461,
       "learning_rate": 4.996791267927632e-06,
-      "loss": 1.7959,
-      "mean_token_accuracy": 0.5700883269309998,
-      "num_tokens": 7320.0,
       "step": 4
     },
     {
       "epoch": 0.020161290322580645,
-      "grad_norm": 24.671205520629883,
       "learning_rate": 4.994986959541788e-06,
-      "loss": 1.946,
-      "mean_token_accuracy": 0.5244379043579102,
-      "num_tokens": 9368.0,
       "step": 5
     },
     {
       "epoch": 0.024193548387096774,
-      "grad_norm": 8.909770011901855,
       "learning_rate": 4.9927822836191185e-06,
-      "loss": 1.7736,
-      "mean_token_accuracy": 0.5628244876861572,
-      "num_tokens": 11296.0,
       "step": 6
     },
     {
       "epoch": 0.028225806451612902,
-      "grad_norm": 8.721368789672852,
       "learning_rate": 4.990177593941303e-06,
-      "loss": 1.7561,
-      "mean_token_accuracy": 0.5577777624130249,
-      "num_tokens": 13098.0,
       "step": 7
     },
     {
       "epoch": 0.03225806451612903,
-      "grad_norm": 8.095498085021973,
       "learning_rate": 4.987173308479738e-06,
-      "loss": 1.6833,
-      "mean_token_accuracy": 0.5811339020729065,
-      "num_tokens": 15146.0,
       "step": 8
     },
     {
       "epoch": 0.036290322580645164,
-      "grad_norm": 7.460132598876953,
       "learning_rate": 4.9837699093284765e-06,
-      "loss": 1.6155,
-      "mean_token_accuracy": 0.5812332630157471,
-      "num_tokens": 17013.0,
       "step": 9
     },
     {
       "epoch": 0.04032258064516129,
-      "grad_norm": 11.340461730957031,
       "learning_rate": 4.9799679426268575e-06,
-      "loss": 1.7714,
-      "mean_token_accuracy": 0.5604277849197388,
-      "num_tokens": 18885.0,
       "step": 10
     },
     {
       "epoch": 0.04435483870967742,
-      "grad_norm": 7.0455827713012695,
       "learning_rate": 4.975768018471877e-06,
-      "loss": 1.6119,
-      "mean_token_accuracy": 0.5844630002975464,
-      "num_tokens": 20805.0,
       "step": 11
     },
     {
       "epoch": 0.04838709677419355,
-      "grad_norm": 10.100363731384277,
       "learning_rate": 4.971170810820279e-06,
-      "loss": 1.6173,
-      "mean_token_accuracy": 0.5839415788650513,
-      "num_tokens": 22451.0,
       "step": 12
     },
     {
       "epoch": 0.05241935483870968,
-      "grad_norm": 7.86726713180542,
       "learning_rate": 4.966177057380409e-06,
-      "loss": 1.6026,
-      "mean_token_accuracy": 0.5944099426269531,
-      "num_tokens": 24063.0,
       "step": 13
     },
     {
       "epoch": 0.056451612903225805,
-      "grad_norm": 7.701871871948242,
       "learning_rate": 4.960787559493836e-06,
-      "loss": 1.544,
-      "mean_token_accuracy": 0.5955132842063904,
-      "num_tokens": 25536.0,
       "step": 14
     },
     {
       "epoch": 0.06048387096774194,
-      "grad_norm": 6.793758869171143,
       "learning_rate": 4.955003182006761e-06,
-      "loss": 1.5746,
-      "mean_token_accuracy": 0.5850556492805481,
-      "num_tokens": 27425.0,
       "step": 15
     },
     {
       "epoch": 0.06451612903225806,
-      "grad_norm": 7.042947292327881,
       "learning_rate": 4.948824853131237e-06,
-      "loss": 1.6941,
-      "mean_token_accuracy": 0.5564345717430115,
-      "num_tokens": 29323.0,
       "step": 16
     },
     {
       "epoch": 0.06854838709677419,
-      "grad_norm": 6.403198719024658,
       "learning_rate": 4.942253564296217e-06,
-      "loss": 1.491,
-      "mean_token_accuracy": 0.6023738980293274,
-      "num_tokens": 31010.0,
       "step": 17
     },
     {
       "epoch": 0.07258064516129033,
-      "grad_norm": 6.8317694664001465,
       "learning_rate": 4.935290369988468e-06,
-      "loss": 1.6276,
-      "mean_token_accuracy": 0.5830005407333374,
-      "num_tokens": 32765.0,
       "step": 18
     },
     {
       "epoch": 0.07661290322580645,
-      "grad_norm": 6.971025466918945,
       "learning_rate": 4.927936387583348e-06,
-      "loss": 1.6332,
-      "mean_token_accuracy": 0.5976441502571106,
-      "num_tokens": 34380.0,
       "step": 19
     },
     {
       "epoch": 0.08064516129032258,
-      "grad_norm": 6.04213809967041,
       "learning_rate": 4.920192797165511e-06,
-      "loss": 1.6032,
-      "mean_token_accuracy": 0.5835776925086975,
-      "num_tokens": 36428.0,
       "step": 20
     },
     {
       "epoch": 0.0846774193548387,
-      "grad_norm": 6.803706169128418,
       "learning_rate": 4.912060841339536e-06,
-      "loss": 1.5274,
-      "mean_token_accuracy": 0.607098400592804,
-      "num_tokens": 38036.0,
       "step": 21
     },
     {
       "epoch": 0.08870967741935484,
-      "grad_norm": 7.13438606262207,
       "learning_rate": 4.9035418250305314e-06,
-      "loss": 1.616,
-      "mean_token_accuracy": 0.576968252658844,
-      "num_tokens": 39740.0,
       "step": 22
     },
     {
       "epoch": 0.09274193548387097,
-      "grad_norm": 6.349973678588867,
       "learning_rate": 4.894637115274728e-06,
-      "loss": 1.5672,
-      "mean_token_accuracy": 0.592720091342926,
-      "num_tokens": 41775.0,
       "step": 23
     },
     {
       "epoch": 0.0967741935483871,
-      "grad_norm": 6.1270012855529785,
       "learning_rate": 4.8853481410001225e-06,
-      "loss": 1.611,
-      "mean_token_accuracy": 0.5788690447807312,
-      "num_tokens": 43793.0,
       "step": 24
     },
     {
       "epoch": 0.10080645161290322,
-      "grad_norm": 6.584856986999512,
       "learning_rate": 4.875676392797169e-06,
-      "loss": 1.507,
-      "mean_token_accuracy": 0.6083052754402161,
-      "num_tokens": 45577.0,
       "step": 25
     },
     {
       "epoch": 0.10483870967741936,
-      "grad_norm": 6.3819260597229,
       "learning_rate": 4.865623422679593e-06,
-      "loss": 1.5968,
-      "mean_token_accuracy": 0.595588207244873,
-      "num_tokens": 47483.0,
       "step": 26
     },
     {
       "epoch": 0.10887096774193548,
-      "grad_norm": 7.157993793487549,
       "learning_rate": 4.855190843835338e-06,
-      "loss": 1.4946,
-      "mean_token_accuracy": 0.6049535870552063,
-      "num_tokens": 49100.0,
       "step": 27
     },
     {
       "epoch": 0.11290322580645161,
-      "grad_norm": 6.9199981689453125,
       "learning_rate": 4.844380330367701e-06,
-      "loss": 1.4496,
-      "mean_token_accuracy": 0.6191275119781494,
-      "num_tokens": 50890.0,
       "step": 28
     },
     {
       "epoch": 0.11693548387096774,
-      "grad_norm": 6.741199970245361,
       "learning_rate": 4.833193617026692e-06,
-      "loss": 1.6398,
-      "mean_token_accuracy": 0.5777652859687805,
-      "num_tokens": 52673.0,
       "step": 29
     },
     {
       "epoch": 0.12096774193548387,
-      "grad_norm": 6.519247531890869,
       "learning_rate": 4.821632498930656e-06,
-      "loss": 1.5068,
-      "mean_token_accuracy": 0.6147789359092712,
-      "num_tokens": 54326.0,
       "step": 30
     },
     {
       "epoch": 0.125,
-      "grad_norm": 6.327451705932617,
       "learning_rate": 4.809698831278217e-06,
-      "loss": 1.6198,
-      "mean_token_accuracy": 0.585949182510376,
-      "num_tokens": 56335.0,
       "step": 31
     },
     {
       "epoch": 0.12903225806451613,
-      "grad_norm": 6.036173343658447,
       "learning_rate": 4.797394529050577e-06,
-      "loss": 1.5194,
-      "mean_token_accuracy": 0.606656551361084,
-      "num_tokens": 58320.0,
       "step": 32
     },
     {
       "epoch": 0.13306451612903225,
-      "grad_norm": 7.737890720367432,
       "learning_rate": 4.784721566704217e-06,
-      "loss": 1.6831,
-      "mean_token_accuracy": 0.5820170044898987,
-      "num_tokens": 59968.0,
       "step": 33
     },
     {
       "epoch": 0.13709677419354838,
-      "grad_norm": 6.581600189208984,
       "learning_rate": 4.771681977854062e-06,
-      "loss": 1.5672,
-      "mean_token_accuracy": 0.592617928981781,
-      "num_tokens": 61433.0,
       "step": 34
     },
     {
       "epoch": 0.14112903225806453,
-      "grad_norm": 6.525332927703857,
       "learning_rate": 4.75827785494715e-06,
-      "loss": 1.6133,
-      "mean_token_accuracy": 0.5874263048171997,
-      "num_tokens": 63471.0,
       "step": 35
     },
     {
       "epoch": 0.14516129032258066,
-      "grad_norm": 6.5660905838012695,
       "learning_rate": 4.744511348926855e-06,
-      "loss": 1.4583,
-      "mean_token_accuracy": 0.6023869514465332,
-      "num_tokens": 65065.0,
       "step": 36
     },
     {
       "epoch": 0.14919354838709678,
-      "grad_norm": 5.877732753753662,
       "learning_rate": 4.730384668887731e-06,
-      "loss": 1.5884,
-      "mean_token_accuracy": 0.575619637966156,
-      "num_tokens": 67044.0,
       "step": 37
     },
     {
       "epoch": 0.1532258064516129,
-      "grad_norm": 6.293325901031494,
       "learning_rate": 4.715900081721021e-06,
-      "loss": 1.5918,
-      "mean_token_accuracy": 0.5884907841682434,
-      "num_tokens": 68888.0,
       "step": 38
     },
     {
       "epoch": 0.15725806451612903,
-      "grad_norm": 5.8657426834106445,
       "learning_rate": 4.7010599117508936e-06,
-      "loss": 1.481,
-      "mean_token_accuracy": 0.6016027331352234,
-      "num_tokens": 70637.0,
       "step": 39
     },
     {
       "epoch": 0.16129032258064516,
-      "grad_norm": 6.863683223724365,
       "learning_rate": 4.685866540361456e-06,
-      "loss": 1.6415,
-      "mean_token_accuracy": 0.5896656513214111,
-      "num_tokens": 72284.0,
       "step": 40
     },
     {
       "epoch": 0.16532258064516128,
-      "grad_norm": 6.902022838592529,
       "learning_rate": 4.670322405614621e-06,
-      "loss": 1.496,
-      "mean_token_accuracy": 0.6054931282997131,
-      "num_tokens": 73888.0,
       "step": 41
     },
     {
       "epoch": 0.1693548387096774,
-      "grad_norm": 5.99281120300293,
       "learning_rate": 4.654430001858874e-06,
-      "loss": 1.514,
-      "mean_token_accuracy": 0.6034939289093018,
-      "num_tokens": 75779.0,
       "step": 42
     },
     {
       "epoch": 0.17338709677419356,
-      "grad_norm": 6.133821487426758,
       "learning_rate": 4.638191879329005e-06,
-      "loss": 1.5616,
-      "mean_token_accuracy": 0.6049129962921143,
-      "num_tokens": 77735.0,
       "step": 43
     },
     {
       "epoch": 0.1774193548387097,
-      "grad_norm": 6.4369282722473145,
       "learning_rate": 4.621610643736878e-06,
-      "loss": 1.4358,
-      "mean_token_accuracy": 0.6190981268882751,
-      "num_tokens": 79622.0,
       "step": 44
     },
     {
       "epoch": 0.1814516129032258,
-      "grad_norm": 11.392876625061035,
       "learning_rate": 4.6046889558532925e-06,
-      "loss": 1.2083,
-      "mean_token_accuracy": 0.6125714182853699,
-      "num_tokens": 80499.0,
       "step": 45
     },
     {
       "epoch": 0.18548387096774194,
-      "grad_norm": 5.731788158416748,
       "learning_rate": 4.587429531081019e-06,
-      "loss": 1.5584,
-      "mean_token_accuracy": 0.5816226601600647,
-      "num_tokens": 82547.0,
       "step": 46
     },
     {
       "epoch": 0.18951612903225806,
-      "grad_norm": 6.6911821365356445,
       "learning_rate": 4.569835139019054e-06,
-      "loss": 1.5732,
-      "mean_token_accuracy": 0.6054380536079407,
-      "num_tokens": 84204.0,
       "step": 47
     },
     {
       "epoch": 0.1935483870967742,
-      "grad_norm": 5.956648349761963,
       "learning_rate": 4.551908603018191e-06,
-      "loss": 1.4579,
-      "mean_token_accuracy": 0.6021164059638977,
-      "num_tokens": 86096.0,
       "step": 48
     },
     {
       "epoch": 0.1975806451612903,
-      "grad_norm": 5.765907287597656,
       "learning_rate": 4.53365279972796e-06,
-      "loss": 1.5831,
-      "mean_token_accuracy": 0.5886736512184143,
-      "num_tokens": 88111.0,
       "step": 49
     },
     {
       "epoch": 0.20161290322580644,
-      "grad_norm": 5.812353134155273,
       "learning_rate": 4.515070658635013e-06,
-      "loss": 1.5898,
-      "mean_token_accuracy": 0.5925537347793579,
-      "num_tokens": 90020.0,
       "step": 50
     },
     {
       "epoch": 0.2056451612903226,
-      "grad_norm": 6.308623313903809,
       "learning_rate": 4.4961651615930344e-06,
-      "loss": 1.5961,
-      "mean_token_accuracy": 0.575691819190979,
-      "num_tokens": 91865.0,
       "step": 51
     },
     {
       "epoch": 0.20967741935483872,
-      "grad_norm": 5.844722270965576,
       "learning_rate": 4.476939342344246e-06,
-      "loss": 1.5373,
-      "mean_token_accuracy": 0.6010256409645081,
-      "num_tokens": 93817.0,
       "step": 52
     },
     {
       "epoch": 0.21370967741935484,
-      "grad_norm": 5.775147438049316,
       "learning_rate": 4.457396286032589e-06,
-      "loss": 1.5615,
-      "mean_token_accuracy": 0.5845070481300354,
-      "num_tokens": 95807.0,
       "step": 53
     },
     {
       "epoch": 0.21774193548387097,
-      "grad_norm": 6.662364959716797,
       "learning_rate": 4.437539128708647e-06,
-      "loss": 1.7192,
-      "mean_token_accuracy": 0.5652173757553101,
-      "num_tokens": 97695.0,
       "step": 54
     },
     {
       "epoch": 0.2217741935483871,
-      "grad_norm": 6.161769390106201,
       "learning_rate": 4.417371056826417e-06,
-      "loss": 1.4881,
-      "mean_token_accuracy": 0.6129223704338074,
-      "num_tokens": 99384.0,
       "step": 55
     },
     {
       "epoch": 0.22580645161290322,
-      "grad_norm": 5.920022487640381,
       "learning_rate": 4.396895306731978e-06,
-      "loss": 1.5958,
-      "mean_token_accuracy": 0.5787709355354309,
-      "num_tokens": 101176.0,
       "step": 56
     },
     {
       "epoch": 0.22983870967741934,
-      "grad_norm": 6.026185035705566,
       "learning_rate": 4.376115164144157e-06,
-      "loss": 1.4987,
-      "mean_token_accuracy": 0.610188901424408,
-      "num_tokens": 102925.0,
       "step": 57
     },
     {
       "epoch": 0.23387096774193547,
-      "grad_norm": 6.1018853187561035,
       "learning_rate": 4.355033963627277e-06,
-      "loss": 1.4963,
-      "mean_token_accuracy": 0.5976627469062805,
-      "num_tokens": 104724.0,
       "step": 58
     },
     {
       "epoch": 0.23790322580645162,
-      "grad_norm": 5.7301926612854,
       "learning_rate": 4.333655088056065e-06,
-      "loss": 1.5099,
-      "mean_token_accuracy": 0.5928535461425781,
-      "num_tokens": 106713.0,
       "step": 59
     },
     {
       "epoch": 0.24193548387096775,
-      "grad_norm": 6.505590915679932,
       "learning_rate": 4.3119819680728e-06,
-      "loss": 1.5809,
-      "mean_token_accuracy": 0.5960374474525452,
-      "num_tokens": 108532.0,
       "step": 60
     },
     {
       "epoch": 0.24596774193548387,
-      "grad_norm": 5.877953052520752,
       "learning_rate": 4.290018081536807e-06,
-      "loss": 1.5485,
-      "mean_token_accuracy": 0.5997865796089172,
-      "num_tokens": 110408.0,
       "step": 61
     },
     {
       "epoch": 0.25,
-      "grad_norm": 6.6848344802856445,
       "learning_rate": 4.267766952966369e-06,
-      "loss": 1.6196,
-      "mean_token_accuracy": 0.5770323872566223,
-      "num_tokens": 112169.0,
       "step": 62
     },
     {
       "epoch": 0.2540322580645161,
-      "grad_norm": 6.186676979064941,
       "learning_rate": 4.245232152973148e-06,
-      "loss": 1.5803,
-      "mean_token_accuracy": 0.5931076407432556,
-      "num_tokens": 113825.0,
       "step": 63
     },
     {
       "epoch": 0.25806451612903225,
-      "grad_norm": 6.039516448974609,
       "learning_rate": 4.222417297689217e-06,
-      "loss": 1.5961,
-      "mean_token_accuracy": 0.5947338342666626,
-      "num_tokens": 115574.0,
       "step": 64
     },
     {
       "epoch": 0.2620967741935484,
-      "grad_norm": 5.791101455688477,
       "learning_rate": 4.199326048186783e-06,
-      "loss": 1.5687,
-      "mean_token_accuracy": 0.5985589027404785,
-      "num_tokens": 117519.0,
       "step": 65
     },
     {
       "epoch": 0.2661290322580645,
-      "grad_norm": 6.39521598815918,
       "learning_rate": 4.175962109890697e-06,
-      "loss": 1.4316,
-      "mean_token_accuracy": 0.6014805436134338,
-      "num_tokens": 119142.0,
       "step": 66
     },
     {
       "epoch": 0.2701612903225806,
-      "grad_norm": 7.0771164894104,
       "learning_rate": 4.152329231983852e-06,
-      "loss": 1.476,
-      "mean_token_accuracy": 0.606376051902771,
-      "num_tokens": 120681.0,
       "step": 67
     },
     {
       "epoch": 0.27419354838709675,
-      "grad_norm": 6.331075668334961,
       "learning_rate": 4.128431206805556e-06,
-      "loss": 1.411,
-      "mean_token_accuracy": 0.6274386644363403,
-      "num_tokens": 122272.0,
       "step": 68
     },
     {
       "epoch": 0.2782258064516129,
-      "grad_norm": 5.685318470001221,
       "learning_rate": 4.104271869242975e-06,
-      "loss": 1.5592,
-      "mean_token_accuracy": 0.5986500382423401,
-      "num_tokens": 124200.0,
       "step": 69
     },
     {
       "epoch": 0.28225806451612906,
-      "grad_norm": 6.1029181480407715,
       "learning_rate": 4.07985509611576e-06,
-      "loss": 1.4496,
-      "mean_token_accuracy": 0.6037967205047607,
-      "num_tokens": 125835.0,
       "step": 70
     },
     {
       "epoch": 0.2862903225806452,
-      "grad_norm": 5.715236663818359,
       "learning_rate": 4.0551848055539345e-06,
-      "loss": 1.4618,
-      "mean_token_accuracy": 0.6144641041755676,
-      "num_tokens": 127759.0,
       "step": 71
     },
     {
       "epoch": 0.2903225806451613,
-      "grad_norm": 6.0016326904296875,
       "learning_rate": 4.030264956369158e-06,
-      "loss": 1.4941,
-      "mean_token_accuracy": 0.5982388257980347,
-      "num_tokens": 129578.0,
       "step": 72
     },
     {
       "epoch": 0.29435483870967744,
-      "grad_norm": 5.980151653289795,
       "learning_rate": 4.005099547419458e-06,
-      "loss": 1.5329,
-      "mean_token_accuracy": 0.6055718660354614,
-      "num_tokens": 131626.0,
       "step": 73
     },
     {
       "epoch": 0.29838709677419356,
-      "grad_norm": 6.0370402336120605,
       "learning_rate": 3.979692616967543e-06,
-      "loss": 1.6052,
-      "mean_token_accuracy": 0.5672669410705566,
-      "num_tokens": 133516.0,
       "step": 74
     },
     {
       "epoch": 0.3024193548387097,
-      "grad_norm": 6.851926803588867,
       "learning_rate": 3.9540482420327845e-06,
-      "loss": 1.7212,
-      "mean_token_accuracy": 0.564525306224823,
-      "num_tokens": 135277.0,
       "step": 75
     },
     {
       "epoch": 0.3064516129032258,
-      "grad_norm": 6.928350925445557,
       "learning_rate": 3.9281705377369814e-06,
-      "loss": 1.4745,
-      "mean_token_accuracy": 0.607520580291748,
-      "num_tokens": 136981.0,
       "step": 76
     },
     {
       "epoch": 0.31048387096774194,
-      "grad_norm": 6.389596462249756,
       "learning_rate": 3.902063656644012e-06,
-      "loss": 1.5524,
-      "mean_token_accuracy": 0.5836354494094849,
-      "num_tokens": 138914.0,
       "step": 77
     },
     {
       "epoch": 0.31451612903225806,
-      "grad_norm": 6.1231184005737305,
       "learning_rate": 3.875731788093478e-06,
-      "loss": 1.5595,
-      "mean_token_accuracy": 0.5914567112922668,
-      "num_tokens": 140742.0,
       "step": 78
     },
     {
       "epoch": 0.3185483870967742,
-      "grad_norm": 6.400425910949707,
       "learning_rate": 3.84917915752845e-06,
-      "loss": 1.4809,
-      "mean_token_accuracy": 0.5991902947425842,
-      "num_tokens": 142226.0,
       "step": 79
     },
     {
       "epoch": 0.3225806451612903,
-      "grad_norm": 5.729289531707764,
       "learning_rate": 3.8224100258174066e-06,
-      "loss": 1.508,
-      "mean_token_accuracy": 0.5901980996131897,
-      "num_tokens": 144146.0,
       "step": 80
     },
     {
       "epoch": 0.32661290322580644,
-      "grad_norm": 6.0282745361328125,
       "learning_rate": 3.795428688570505e-06,
-      "loss": 1.5134,
-      "mean_token_accuracy": 0.5803259611129761,
-      "num_tokens": 145866.0,
       "step": 81
     },
     {
       "epoch": 0.33064516129032256,
-      "grad_norm": 6.180048942565918,
       "learning_rate": 3.7682394754502687e-06,
-      "loss": 1.5839,
-      "mean_token_accuracy": 0.5930232405662537,
-      "num_tokens": 147760.0,
       "step": 82
     },
     {
       "epoch": 0.3346774193548387,
-      "grad_norm": 6.051394462585449,
       "learning_rate": 3.7408467494768104e-06,
-      "loss": 1.5338,
-      "mean_token_accuracy": 0.5994550585746765,
-      "num_tokens": 149597.0,
       "step": 83
     },
     {
       "epoch": 0.3387096774193548,
-      "grad_norm": 6.172335147857666,
       "learning_rate": 3.7132549063277033e-06,
-      "loss": 1.5743,
-      "mean_token_accuracy": 0.589076042175293,
-      "num_tokens": 151558.0,
       "step": 84
     },
     {
       "epoch": 0.34274193548387094,
-      "grad_norm": 6.0946173667907715,
       "learning_rate": 3.685468373632613e-06,
-      "loss": 1.6523,
-      "mean_token_accuracy": 0.5849376916885376,
-      "num_tokens": 153326.0,
       "step": 85
     },
     {
       "epoch": 0.3467741935483871,
-      "grad_norm": 5.9409685134887695,
       "learning_rate": 3.657491610262802e-06,
-      "loss": 1.5014,
-      "mean_token_accuracy": 0.5996649861335754,
-      "num_tokens": 155119.0,
       "step": 86
     },
     {
       "epoch": 0.35080645161290325,
-      "grad_norm": 5.449697017669678,
       "learning_rate": 3.6293291056156178e-06,
-      "loss": 1.4594,
-      "mean_token_accuracy": 0.6026719212532043,
-      "num_tokens": 157142.0,
       "step": 87
     },
     {
       "epoch": 0.3548387096774194,
-      "grad_norm": 5.716015338897705,
       "learning_rate": 3.600985378894086e-06,
-      "loss": 1.574,
-      "mean_token_accuracy": 0.5821114182472229,
-      "num_tokens": 159190.0,
       "step": 88
     },
     {
       "epoch": 0.3588709677419355,
-      "grad_norm": 5.608844757080078,
       "learning_rate": 3.572464978381719e-06,
-      "loss": 1.4763,
-      "mean_token_accuracy": 0.6000996232032776,
-      "num_tokens": 161200.0,
       "step": 89
     },
     {
       "epoch": 0.3629032258064516,
-      "grad_norm": 6.2373504638671875,
       "learning_rate": 3.5437724807126583e-06,
-      "loss": 1.507,
-      "mean_token_accuracy": 0.6010498404502869,
-      "num_tokens": 163107.0,
       "step": 90
     },
     {
       "epoch": 0.36693548387096775,
-      "grad_norm": 5.765131950378418,
       "learning_rate": 3.514912490137268e-06,
-      "loss": 1.3591,
-      "mean_token_accuracy": 0.6406074166297913,
-      "num_tokens": 164887.0,
       "step": 91
     },
     {
       "epoch": 0.3709677419354839,
-      "grad_norm": 6.011144638061523,
       "learning_rate": 3.4858896377832966e-06,
-      "loss": 1.5002,
-      "mean_token_accuracy": 0.6023555994033813,
-      "num_tokens": 166672.0,
       "step": 92
     },
     {
       "epoch": 0.375,
-      "grad_norm": 5.688225269317627,
       "learning_rate": 3.4567085809127247e-06,
-      "loss": 1.5489,
-      "mean_token_accuracy": 0.5985626578330994,
-      "num_tokens": 168622.0,
       "step": 93
     },
     {
       "epoch": 0.3790322580645161,
-      "grad_norm": 6.043911933898926,
       "learning_rate": 3.42737400217442e-06,
-      "loss": 1.6204,
-      "mean_token_accuracy": 0.5738548636436462,
-      "num_tokens": 170567.0,
       "step": 94
     },
     {
       "epoch": 0.38306451612903225,
-      "grad_norm": 6.654932498931885,
       "learning_rate": 3.397890608852718e-06,
-      "loss": 1.5397,
-      "mean_token_accuracy": 0.5841359496116638,
-      "num_tokens": 172334.0,
       "step": 95
     },
     {
       "epoch": 0.3870967741935484,
-      "grad_norm": 6.631567001342773,
       "learning_rate": 3.3682631321120507e-06,
-      "loss": 1.4801,
-      "mean_token_accuracy": 0.6001339554786682,
-      "num_tokens": 173829.0,
       "step": 96
     },
     {
       "epoch": 0.3911290322580645,
-      "grad_norm": 6.069915771484375,
       "learning_rate": 3.3384963262377434e-06,
-      "loss": 1.445,
-      "mean_token_accuracy": 0.6049661636352539,
-      "num_tokens": 175603.0,
       "step": 97
     },
     {
       "epoch": 0.3951612903225806,
-      "grad_norm": 5.770754814147949,
       "learning_rate": 3.3085949678730953e-06,
-      "loss": 1.3734,
-      "mean_token_accuracy": 0.6360360383987427,
-      "num_tokens": 177270.0,
       "step": 98
     },
     {
       "epoch": 0.39919354838709675,
-      "grad_norm": 6.306713104248047,
       "learning_rate": 3.278563855252885e-06,
-      "loss": 1.3932,
-      "mean_token_accuracy": 0.6313309669494629,
-      "num_tokens": 178970.0,
       "step": 99
     },
     {
       "epoch": 0.4032258064516129,
-      "grad_norm": 6.053974628448486,
       "learning_rate": 3.248407807433396e-06,
-      "loss": 1.503,
-      "mean_token_accuracy": 0.596764862537384,
-      "num_tokens": 180703.0,
       "step": 100
     },
     {
       "epoch": 0.40725806451612906,
-      "grad_norm": 6.127834796905518,
       "learning_rate": 3.2181316635191125e-06,
-      "loss": 1.4419,
-      "mean_token_accuracy": 0.6175858378410339,
-      "num_tokens": 182627.0,
       "step": 101
     },
     {
       "epoch": 0.4112903225806452,
-      "grad_norm": 5.551910877227783,
       "learning_rate": 3.1877402818861954e-06,
-      "loss": 1.4529,
-      "mean_token_accuracy": 0.6182200908660889,
-      "num_tokens": 184528.0,
       "step": 102
     },
     {
       "epoch": 0.4153225806451613,
-      "grad_norm": 5.696438312530518,
       "learning_rate": 3.157238539402862e-06,
-      "loss": 1.4396,
-      "mean_token_accuracy": 0.5976768732070923,
-      "num_tokens": 186424.0,
       "step": 103
     },
     {
       "epoch": 0.41935483870967744,
-      "grad_norm": 6.004664897918701,
       "learning_rate": 3.1266313306468018e-06,
-      "loss": 1.4536,
-      "mean_token_accuracy": 0.6109510064125061,
-      "num_tokens": 188161.0,
       "step": 104
     },
     {
       "epoch": 0.42338709677419356,
-      "grad_norm": 5.998103141784668,
       "learning_rate": 3.095923567119748e-06,
-      "loss": 1.5062,
-      "mean_token_accuracy": 0.5847597718238831,
-      "num_tokens": 189974.0,
       "step": 105
     },
     {
       "epoch": 0.4274193548387097,
-      "grad_norm": 5.998319625854492,
       "learning_rate": 3.0651201764593375e-06,
-      "loss": 1.5443,
-      "mean_token_accuracy": 0.6007860898971558,
-      "num_tokens": 191757.0,
       "step": 106
     },
     {
       "epoch": 0.4314516129032258,
-      "grad_norm": 5.7663469314575195,
       "learning_rate": 3.034226101648377e-06,
-      "loss": 1.5604,
-      "mean_token_accuracy": 0.5880815386772156,
-      "num_tokens": 193672.0,
       "step": 107
     },
     {
       "epoch": 0.43548387096774194,
-      "grad_norm": 5.39485502243042,
       "learning_rate": 3.0032463002216504e-06,
-      "loss": 1.3204,
-      "mean_token_accuracy": 0.626024603843689,
-      "num_tokens": 195626.0,
       "step": 108
     },
     {
       "epoch": 0.43951612903225806,
-      "grad_norm": 5.5706071853637695,
       "learning_rate": 2.972185743470386e-06,
-      "loss": 1.488,
-      "mean_token_accuracy": 0.6072655916213989,
-      "num_tokens": 197665.0,
       "step": 109
     },
     {
       "epoch": 0.4435483870967742,
-      "grad_norm": 6.337919235229492,
       "learning_rate": 2.941049415644522e-06,
-      "loss": 1.4812,
-      "mean_token_accuracy": 0.6153846383094788,
-      "num_tokens": 199188.0,
       "step": 110
     },
     {
       "epoch": 0.4475806451612903,
-      "grad_norm": 5.9900031089782715,
       "learning_rate": 2.909842313152888e-06,
-      "loss": 1.5086,
-      "mean_token_accuracy": 0.602787435054779,
-      "num_tokens": 200912.0,
       "step": 111
     },
     {
       "epoch": 0.45161290322580644,
-      "grad_norm": 5.438904285430908,
       "learning_rate": 2.878569443761442e-06,
-      "loss": 1.4478,
-      "mean_token_accuracy": 0.6037735939025879,
-      "num_tokens": 202928.0,
       "step": 112
     },
     {
       "epoch": 0.45564516129032256,
-      "grad_norm": 5.8790202140808105,
       "learning_rate": 2.847235825789673e-06,
-      "loss": 1.4787,
-      "mean_token_accuracy": 0.6100966930389404,
-      "num_tokens": 204792.0,
       "step": 113
     },
     {
       "epoch": 0.4596774193548387,
-      "grad_norm": 6.044961452484131,
       "learning_rate": 2.8158464873053236e-06,
-      "loss": 1.5838,
-      "mean_token_accuracy": 0.5734103918075562,
-      "num_tokens": 206524.0,
       "step": 114
     },
     {
       "epoch": 0.4637096774193548,
-      "grad_norm": 6.442505836486816,
       "learning_rate": 2.784406465317538e-06,
-      "loss": 1.3986,
-      "mean_token_accuracy": 0.6293754577636719,
-      "num_tokens": 207983.0,
       "step": 115
     },
     {
       "epoch": 0.46774193548387094,
-      "grad_norm": 5.556701183319092,
       "learning_rate": 2.752920804968581e-06,
-      "loss": 1.4771,
-      "mean_token_accuracy": 0.5975479483604431,
-      "num_tokens": 209861.0,
       "step": 116
     },
     {
       "epoch": 0.4717741935483871,
-      "grad_norm": 5.995906829833984,
       "learning_rate": 2.7213945587242507e-06,
-      "loss": 1.5932,
-      "mean_token_accuracy": 0.5834970474243164,
-      "num_tokens": 211899.0,
       "step": 117
     },
     {
       "epoch": 0.47580645161290325,
-      "grad_norm": 5.339012622833252,
       "learning_rate": 2.689832785563116e-06,
-      "loss": 1.5322,
-      "mean_token_accuracy": 0.5938416719436646,
-      "num_tokens": 213947.0,
       "step": 118
     },
     {
       "epoch": 0.4798387096774194,
-      "grad_norm": 5.315260887145996,
       "learning_rate": 2.658240550164704e-06,
-      "loss": 1.5155,
-      "mean_token_accuracy": 0.6036168336868286,
-      "num_tokens": 215995.0,
       "step": 119
     },
     {
       "epoch": 0.4838709677419355,
-      "grad_norm": 5.855271816253662,
       "learning_rate": 2.626622922096782e-06,
-      "loss": 1.528,
-      "mean_token_accuracy": 0.5960825681686401,
-      "num_tokens": 217886.0,
       "step": 120
     },
     {
       "epoch": 0.4879032258064516,
-      "grad_norm": 5.652218818664551,
       "learning_rate": 2.5949849750018486e-06,
-      "loss": 1.3299,
-      "mean_token_accuracy": 0.6447288393974304,
-      "num_tokens": 219529.0,
       "step": 121
     },
     {
       "epoch": 0.49193548387096775,
-      "grad_norm": 5.632993221282959,
       "learning_rate": 2.56333178578297e-06,
-      "loss": 1.6213,
-      "mean_token_accuracy": 0.5840754508972168,
-      "num_tokens": 221440.0,
       "step": 122
     },
     {
       "epoch": 0.4959677419354839,
-      "grad_norm": 5.944242000579834,
       "learning_rate": 2.5316684337891005e-06,
-      "loss": 1.3382,
-      "mean_token_accuracy": 0.6456548571586609,
-      "num_tokens": 223076.0,
       "step": 123
     },
     {
       "epoch": 0.5,
-      "grad_norm": 6.07872200012207,
       "learning_rate": 2.5e-06,
-      "loss": 1.4408,
-      "mean_token_accuracy": 0.6191074848175049,
-      "num_tokens": 224669.0,
       "step": 124
     },
     {
       "epoch": 0.5040322580645161,
-      "grad_norm": 5.755851745605469,
       "learning_rate": 2.4683315662109003e-06,
-      "loss": 1.5241,
-      "mean_token_accuracy": 0.5973829627037048,
-      "num_tokens": 226658.0,
       "step": 125
     },
     {
       "epoch": 0.5080645161290323,
-      "grad_norm": 5.648890495300293,
       "learning_rate": 2.436668214217031e-06,
-      "loss": 1.4993,
-      "mean_token_accuracy": 0.5903743505477905,
-      "num_tokens": 228530.0,
       "step": 126
     },
     {
       "epoch": 0.5120967741935484,
-      "grad_norm": 5.533483982086182,
       "learning_rate": 2.4050150249981522e-06,
-      "loss": 1.4514,
-      "mean_token_accuracy": 0.603741466999054,
-      "num_tokens": 230296.0,
       "step": 127
     },
     {
       "epoch": 0.5161290322580645,
-      "grad_norm": 5.521024227142334,
       "learning_rate": 2.3733770779032185e-06,
-      "loss": 1.6105,
-      "mean_token_accuracy": 0.5796676278114319,
-      "num_tokens": 232344.0,
       "step": 128
     },
     {
       "epoch": 0.5201612903225806,
-      "grad_norm": 5.75255012512207,
       "learning_rate": 2.341759449835297e-06,
-      "loss": 1.4744,
-      "mean_token_accuracy": 0.6114369630813599,
-      "num_tokens": 234392.0,
       "step": 129
     },
     {
       "epoch": 0.5241935483870968,
-      "grad_norm": 5.678014755249023,
       "learning_rate": 2.310167214436885e-06,
-      "loss": 1.499,
-      "mean_token_accuracy": 0.6071619391441345,
-      "num_tokens": 236265.0,
       "step": 130
     },
     {
       "epoch": 0.5282258064516129,
-      "grad_norm": 5.571830749511719,
       "learning_rate": 2.27860544127575e-06,
-      "loss": 1.4699,
-      "mean_token_accuracy": 0.5967920422554016,
-      "num_tokens": 238075.0,
       "step": 131
     },
     {
       "epoch": 0.532258064516129,
-      "grad_norm": 5.447475433349609,
       "learning_rate": 2.24707919503142e-06,
-      "loss": 1.3888,
-      "mean_token_accuracy": 0.6393354535102844,
-      "num_tokens": 239943.0,
       "step": 132
     },
     {
       "epoch": 0.5362903225806451,
-      "grad_norm": 5.604481220245361,
       "learning_rate": 2.2155935346824634e-06,
-      "loss": 1.4842,
-      "mean_token_accuracy": 0.6134101748466492,
-      "num_tokens": 241854.0,
       "step": 133
     },
     {
       "epoch": 0.5403225806451613,
-      "grad_norm": 6.123833179473877,
       "learning_rate": 2.1841535126946777e-06,
-      "loss": 1.5383,
-      "mean_token_accuracy": 0.6017410159111023,
-      "num_tokens": 243694.0,
       "step": 134
     },
     {
       "epoch": 0.5443548387096774,
-      "grad_norm": 5.753880977630615,
       "learning_rate": 2.1527641742103282e-06,
-      "loss": 1.3975,
-      "mean_token_accuracy": 0.6189274191856384,
-      "num_tokens": 245281.0,
       "step": 135
     },
     {
       "epoch": 0.5483870967741935,
-      "grad_norm": 6.030308246612549,
       "learning_rate": 2.1214305562385592e-06,
-      "loss": 1.6492,
-      "mean_token_accuracy": 0.5873786211013794,
-      "num_tokens": 247137.0,
       "step": 136
     },
     {
       "epoch": 0.5524193548387096,
-      "grad_norm": 5.8744072914123535,
       "learning_rate": 2.0901576868471125e-06,
-      "loss": 1.6567,
-      "mean_token_accuracy": 0.5649746060371399,
-      "num_tokens": 249109.0,
       "step": 137
     },
     {
       "epoch": 0.5564516129032258,
-      "grad_norm": 5.910853385925293,
       "learning_rate": 2.05895058435548e-06,
-      "loss": 1.3588,
-      "mean_token_accuracy": 0.6202830076217651,
-      "num_tokens": 250807.0,
       "step": 138
     },
     {
       "epoch": 0.5604838709677419,
-      "grad_norm": 5.257957935333252,
       "learning_rate": 2.0278142565296153e-06,
-      "loss": 1.4603,
-      "mean_token_accuracy": 0.6119257211685181,
-      "num_tokens": 252855.0,
       "step": 139
     },
     {
       "epoch": 0.5645161290322581,
-      "grad_norm": 5.51725959777832,
       "learning_rate": 1.9967536997783495e-06,
-      "loss": 1.4978,
-      "mean_token_accuracy": 0.6072477698326111,
-      "num_tokens": 254899.0,
       "step": 140
     },
     {
       "epoch": 0.5685483870967742,
-      "grad_norm": 5.905327796936035,
       "learning_rate": 1.9657738983516227e-06,
-      "loss": 1.4752,
-      "mean_token_accuracy": 0.6073774695396423,
-      "num_tokens": 256880.0,
       "step": 141
     },
     {
       "epoch": 0.5725806451612904,
-      "grad_norm": 5.558453559875488,
       "learning_rate": 1.934879823540663e-06,
-      "loss": 1.4172,
-      "mean_token_accuracy": 0.6178310513496399,
-      "num_tokens": 258800.0,
       "step": 142
     },
     {
       "epoch": 0.5766129032258065,
-      "grad_norm": 5.4025092124938965,
       "learning_rate": 1.9040764328802523e-06,
-      "loss": 1.2946,
-      "mean_token_accuracy": 0.633697509765625,
-      "num_tokens": 260541.0,
       "step": 143
     },
     {
       "epoch": 0.5806451612903226,
-      "grad_norm": 5.80867338180542,
       "learning_rate": 1.8733686693531986e-06,
-      "loss": 1.5323,
-      "mean_token_accuracy": 0.5953912138938904,
-      "num_tokens": 262409.0,
       "step": 144
     },
     {
       "epoch": 0.5846774193548387,
-      "grad_norm": 5.8681960105896,
       "learning_rate": 1.842761460597138e-06,
-      "loss": 1.4026,
-      "mean_token_accuracy": 0.6375969052314758,
-      "num_tokens": 263959.0,
       "step": 145
     },
     {
       "epoch": 0.5887096774193549,
-      "grad_norm": 7.02825403213501,
       "learning_rate": 1.812259718113805e-06,
-      "loss": 1.5044,
-      "mean_token_accuracy": 0.5856146216392517,
-      "num_tokens": 265824.0,
       "step": 146
     },
     {
       "epoch": 0.592741935483871,
-      "grad_norm": 6.359186172485352,
       "learning_rate": 1.7818683364808883e-06,
-      "loss": 1.6111,
-      "mean_token_accuracy": 0.5825688242912292,
-      "num_tokens": 267570.0,
       "step": 147
     },
     {
       "epoch": 0.5967741935483871,
-      "grad_norm": 6.150012493133545,
       "learning_rate": 1.7515921925666053e-06,
-      "loss": 1.522,
-      "mean_token_accuracy": 0.6050228476524353,
-      "num_tokens": 269324.0,
       "step": 148
     },
     {
       "epoch": 0.6008064516129032,
-      "grad_norm": 5.904049873352051,
       "learning_rate": 1.7214361447471156e-06,
-      "loss": 1.5305,
-      "mean_token_accuracy": 0.5844994783401489,
-      "num_tokens": 271184.0,
       "step": 149
     },
     {
       "epoch": 0.6048387096774194,
-      "grad_norm": 5.567264080047607,
       "learning_rate": 1.6914050321269049e-06,
-      "loss": 1.3721,
-      "mean_token_accuracy": 0.6215351819992065,
-      "num_tokens": 273062.0,
       "step": 150
     },
     {
       "epoch": 0.6088709677419355,
-      "grad_norm": 6.086479187011719,
       "learning_rate": 1.6615036737622574e-06,
-      "loss": 1.5675,
-      "mean_token_accuracy": 0.5931184887886047,
-      "num_tokens": 274895.0,
       "step": 151
     },
     {
       "epoch": 0.6129032258064516,
-      "grad_norm": 5.990588188171387,
       "learning_rate": 1.6317368678879497e-06,
-      "loss": 1.5735,
-      "mean_token_accuracy": 0.5785550475120544,
-      "num_tokens": 276641.0,
       "step": 152
     },
     {
       "epoch": 0.6169354838709677,
-      "grad_norm": 5.858160972595215,
       "learning_rate": 1.6021093911472825e-06,
-      "loss": 1.5325,
-      "mean_token_accuracy": 0.605381190776825,
-      "num_tokens": 278427.0,
       "step": 153
     },
     {
       "epoch": 0.6209677419354839,
-      "grad_norm": 5.8571929931640625,
       "learning_rate": 1.572625997825581e-06,
-      "loss": 1.4536,
-      "mean_token_accuracy": 0.6045584082603455,
-      "num_tokens": 280184.0,
       "step": 154
     },
     {
       "epoch": 0.625,
-      "grad_norm": 5.734030246734619,
       "learning_rate": 1.5432914190872757e-06,
-      "loss": 1.3984,
-      "mean_token_accuracy": 0.6304709315299988,
-      "num_tokens": 281991.0,
       "step": 155
     },
     {
       "epoch": 0.6290322580645161,
-      "grad_norm": 5.276788234710693,
       "learning_rate": 1.5141103622167042e-06,
-      "loss": 1.4146,
-      "mean_token_accuracy": 0.6243386268615723,
-      "num_tokens": 283883.0,
       "step": 156
     },
     {
       "epoch": 0.6330645161290323,
-      "grad_norm": 6.132949352264404,
       "learning_rate": 1.4850875098627326e-06,
-      "loss": 1.5479,
-      "mean_token_accuracy": 0.6136772632598877,
-      "num_tokens": 285552.0,
       "step": 157
     },
     {
       "epoch": 0.6370967741935484,
-      "grad_norm": 5.336827754974365,
       "learning_rate": 1.456227519287343e-06,
-      "loss": 1.4708,
-      "mean_token_accuracy": 0.6063033938407898,
-      "num_tokens": 287426.0,
       "step": 158
     },
     {
       "epoch": 0.6411290322580645,
-      "grad_norm": 5.892852306365967,
       "learning_rate": 1.4275350216182824e-06,
-      "loss": 1.3438,
-      "mean_token_accuracy": 0.628995418548584,
-      "num_tokens": 289180.0,
       "step": 159
     },
     {
       "epoch": 0.6451612903225806,
-      "grad_norm": 5.262267112731934,
       "learning_rate": 1.3990146211059141e-06,
-      "loss": 1.4585,
-      "mean_token_accuracy": 0.6095186471939087,
-      "num_tokens": 291031.0,
       "step": 160
     },
     {
       "epoch": 0.6491935483870968,
-      "grad_norm": 5.676732063293457,
       "learning_rate": 1.3706708943843822e-06,
-      "loss": 1.4394,
-      "mean_token_accuracy": 0.6081903576850891,
-      "num_tokens": 292840.0,
       "step": 161
     },
     {
       "epoch": 0.6532258064516129,
-      "grad_norm": 5.9136505126953125,
       "learning_rate": 1.3425083897371983e-06,
-      "loss": 1.4198,
-      "mean_token_accuracy": 0.6248492002487183,
-      "num_tokens": 294500.0,
       "step": 162
     },
     {
       "epoch": 0.657258064516129,
-      "grad_norm": 5.905851364135742,
       "learning_rate": 1.3145316263673874e-06,
-      "loss": 1.5303,
-      "mean_token_accuracy": 0.5844226479530334,
-      "num_tokens": 296338.0,
       "step": 163
     },
     {
       "epoch": 0.6612903225806451,
-      "grad_norm": 5.872440338134766,
       "learning_rate": 1.286745093672298e-06,
-      "loss": 1.4809,
-      "mean_token_accuracy": 0.6081771850585938,
-      "num_tokens": 298101.0,
       "step": 164
     },
     {
       "epoch": 0.6653225806451613,
-      "grad_norm": 5.722828388214111,
       "learning_rate": 1.2591532505231906e-06,
-      "loss": 1.4752,
-      "mean_token_accuracy": 0.5961538553237915,
-      "num_tokens": 300131.0,
       "step": 165
     },
     {
       "epoch": 0.6693548387096774,
-      "grad_norm": 5.679011821746826,
       "learning_rate": 1.2317605245497324e-06,
-      "loss": 1.4752,
-      "mean_token_accuracy": 0.5989610552787781,
-      "num_tokens": 302058.0,
       "step": 166
     },
     {
       "epoch": 0.6733870967741935,
-      "grad_norm": 5.3445844650268555,
       "learning_rate": 1.204571311429496e-06,
-      "loss": 1.4345,
-      "mean_token_accuracy": 0.5995935201644897,
-      "num_tokens": 304028.0,
       "step": 167
     },
     {
       "epoch": 0.6774193548387096,
-      "grad_norm": 6.3857421875,
       "learning_rate": 1.1775899741825947e-06,
-      "loss": 1.4429,
-      "mean_token_accuracy": 0.6027944087982178,
-      "num_tokens": 305533.0,
       "step": 168
     },
     {
       "epoch": 0.6814516129032258,
-      "grad_norm": 6.405001640319824,
       "learning_rate": 1.1508208424715511e-06,
-      "loss": 1.5413,
-      "mean_token_accuracy": 0.5933043956756592,
-      "num_tokens": 307148.0,
       "step": 169
     },
     {
       "epoch": 0.6854838709677419,
-      "grad_norm": 5.383761882781982,
       "learning_rate": 1.1242682119065217e-06,
-      "loss": 1.3979,
-      "mean_token_accuracy": 0.6169666051864624,
-      "num_tokens": 309095.0,
       "step": 170
     },
     {
       "epoch": 0.6895161290322581,
-      "grad_norm": 5.891480445861816,
       "learning_rate": 1.0979363433559892e-06,
-      "loss": 1.4874,
-      "mean_token_accuracy": 0.6015037298202515,
-      "num_tokens": 310826.0,
       "step": 171
     },
     {
       "epoch": 0.6935483870967742,
-      "grad_norm": 6.480978488922119,
       "learning_rate": 1.0718294622630188e-06,
-      "loss": 1.4797,
-      "mean_token_accuracy": 0.6166783571243286,
-      "num_tokens": 312255.0,
       "step": 172
     },
     {
       "epoch": 0.6975806451612904,
-      "grad_norm": 5.803843021392822,
       "learning_rate": 1.045951757967215e-06,
-      "loss": 1.4709,
-      "mean_token_accuracy": 0.6082949042320251,
-      "num_tokens": 314210.0,
       "step": 173
     },
     {
       "epoch": 0.7016129032258065,
-      "grad_norm": 6.1190619468688965,
       "learning_rate": 1.0203073830324566e-06,
-      "loss": 1.412,
-      "mean_token_accuracy": 0.6229611039161682,
-      "num_tokens": 315806.0,
       "step": 174
     },
     {
       "epoch": 0.7056451612903226,
-      "grad_norm": 5.825779438018799,
       "learning_rate": 9.949004525805423e-07,
-      "loss": 1.3616,
-      "mean_token_accuracy": 0.6321473717689514,
-      "num_tokens": 317382.0,
       "step": 175
     },
     {
       "epoch": 0.7096774193548387,
-      "grad_norm": 6.114853858947754,
       "learning_rate": 9.697350436308428e-07,
-      "loss": 1.369,
-      "mean_token_accuracy": 0.6252273917198181,
-      "num_tokens": 319033.0,
       "step": 176
     },
     {
       "epoch": 0.7137096774193549,
-      "grad_norm": 6.001349449157715,
       "learning_rate": 9.448151944460657e-07,
-      "loss": 1.5904,
-      "mean_token_accuracy": 0.5789205431938171,
-      "num_tokens": 320999.0,
       "step": 177
     },
     {
       "epoch": 0.717741935483871,
-      "grad_norm": 5.847578525543213,
       "learning_rate": 9.201449038842403e-07,
-      "loss": 1.5322,
-      "mean_token_accuracy": 0.6073808073997498,
-      "num_tokens": 322952.0,
       "step": 178
     },
     {
       "epoch": 0.7217741935483871,
-      "grad_norm": 6.095054626464844,
       "learning_rate": 8.957281307570254e-07,
-      "loss": 1.4049,
-      "mean_token_accuracy": 0.6155827641487122,
-      "num_tokens": 324507.0,
       "step": 179
     },
     {
       "epoch": 0.7258064516129032,
-      "grad_norm": 5.704720497131348,
       "learning_rate": 8.71568793194445e-07,
-      "loss": 1.4795,
-      "mean_token_accuracy": 0.6071779727935791,
-      "num_tokens": 326543.0,
       "step": 180
     },
     {
       "epoch": 0.7298387096774194,
-      "grad_norm": 5.767334461212158,
       "learning_rate": 8.476707680161486e-07,
-      "loss": 1.4597,
-      "mean_token_accuracy": 0.6028138399124146,
-      "num_tokens": 328393.0,
       "step": 181
     },
     {
       "epoch": 0.7338709677419355,
-      "grad_norm": 5.690002918243408,
       "learning_rate": 8.240378901093035e-07,
-      "loss": 1.5312,
-      "mean_token_accuracy": 0.6054233312606812,
-      "num_tokens": 330202.0,
       "step": 182
     },
     {
       "epoch": 0.7379032258064516,
-      "grad_norm": 6.5543599128723145,
       "learning_rate": 8.006739518132179e-07,
-      "loss": 1.5492,
-      "mean_token_accuracy": 0.5909899473190308,
-      "num_tokens": 331891.0,
       "step": 183
     },
     {
       "epoch": 0.7419354838709677,
-      "grad_norm": 6.568686008453369,
       "learning_rate": 7.775827023107835e-07,
-      "loss": 1.4621,
-      "mean_token_accuracy": 0.6218130588531494,
-      "num_tokens": 333305.0,
       "step": 184
     },
     {
       "epoch": 0.7459677419354839,
-      "grad_norm": 5.713389873504639,
       "learning_rate": 7.547678470268526e-07,
-      "loss": 1.4554,
-      "mean_token_accuracy": 0.6157278418540955,
-      "num_tokens": 335100.0,
       "step": 185
     },
     {
       "epoch": 0.75,
-      "grad_norm": 5.921985626220703,
       "learning_rate": 7.322330470336314e-07,
-      "loss": 1.5999,
-      "mean_token_accuracy": 0.5684261918067932,
-      "num_tokens": 337148.0,
       "step": 186
     },
     {
       "epoch": 0.7540322580645161,
-      "grad_norm": 5.191997051239014,
       "learning_rate": 7.099819184631929e-07,
-      "loss": 1.4016,
-      "mean_token_accuracy": 0.6217559576034546,
-      "num_tokens": 338961.0,
       "step": 187
     },
     {
       "epoch": 0.7580645161290323,
-      "grad_norm": 5.541125297546387,
       "learning_rate": 6.880180319272006e-07,
-      "loss": 1.3727,
-      "mean_token_accuracy": 0.6247433423995972,
-      "num_tokens": 340911.0,
       "step": 188
     },
     {
       "epoch": 0.7620967741935484,
-      "grad_norm": 5.37374210357666,
       "learning_rate": 6.663449119439358e-07,
-      "loss": 1.4549,
-      "mean_token_accuracy": 0.6195766925811768,
-      "num_tokens": 342803.0,
       "step": 189
     },
     {
       "epoch": 0.7661290322580645,
-      "grad_norm": 5.33998966217041,
       "learning_rate": 6.449660363727236e-07,
-      "loss": 1.4693,
-      "mean_token_accuracy": 0.6066945791244507,
-      "num_tokens": 344717.0,
       "step": 190
     },
     {
       "epoch": 0.7701612903225806,
-      "grad_norm": 6.046936511993408,
       "learning_rate": 6.238848358558439e-07,
-      "loss": 1.4392,
-      "mean_token_accuracy": 0.6037507653236389,
-      "num_tokens": 346372.0,
       "step": 191
     },
     {
       "epoch": 0.7741935483870968,
-      "grad_norm": 6.447813034057617,
       "learning_rate": 6.031046932680229e-07,
-      "loss": 1.4287,
-      "mean_token_accuracy": 0.6267870664596558,
-      "num_tokens": 347703.0,
       "step": 192
     },
     {
       "epoch": 0.7782258064516129,
-      "grad_norm": 5.176486492156982,
       "learning_rate": 5.826289431735832e-07,
-      "loss": 1.4166,
-      "mean_token_accuracy": 0.6180344223976135,
-      "num_tokens": 349679.0,
       "step": 193
     },
     {
       "epoch": 0.782258064516129,
-      "grad_norm": 6.081844329833984,
       "learning_rate": 5.624608712913531e-07,
-      "loss": 1.3443,
-      "mean_token_accuracy": 0.6172370314598083,
-      "num_tokens": 351259.0,
       "step": 194
     },
     {
       "epoch": 0.7862903225806451,
-      "grad_norm": 5.20806884765625,
       "learning_rate": 5.426037139674117e-07,
-      "loss": 1.4234,
-      "mean_token_accuracy": 0.6199596524238586,
-      "num_tokens": 353245.0,
       "step": 195
     },
     {
       "epoch": 0.7903225806451613,
-      "grad_norm": 5.874090671539307,
       "learning_rate": 5.23060657655754e-07,
-      "loss": 1.4924,
-      "mean_token_accuracy": 0.6056056022644043,
-      "num_tokens": 355245.0,
       "step": 196
     },
     {
       "epoch": 0.7943548387096774,
-      "grad_norm": 5.100249767303467,
       "learning_rate": 5.038348384069663e-07,
-      "loss": 1.3869,
-      "mean_token_accuracy": 0.6326630711555481,
-      "num_tokens": 357286.0,
       "step": 197
     },
     {
       "epoch": 0.7983870967741935,
-      "grad_norm": 5.905794620513916,
       "learning_rate": 4.84929341364988e-07,
-      "loss": 1.4721,
-      "mean_token_accuracy": 0.6025428175926208,
-      "num_tokens": 359097.0,
       "step": 198
     },
     {
       "epoch": 0.8024193548387096,
-      "grad_norm": 5.788403034210205,
       "learning_rate": 4.6634720027204093e-07,
-      "loss": 1.4298,
-      "mean_token_accuracy": 0.6162790656089783,
-      "num_tokens": 360905.0,
       "step": 199
     },
     {
       "epoch": 0.8064516129032258,
-      "grad_norm": 5.737428188323975,
       "learning_rate": 4.480913969818099e-07,
-      "loss": 1.4908,
-      "mean_token_accuracy": 0.5982195734977722,
-      "num_tokens": 362592.0,
       "step": 200
     },
     {
       "epoch": 0.8104838709677419,
-      "grad_norm": 5.1596360206604,
       "learning_rate": 4.3016486098094667e-07,
-      "loss": 1.4329,
-      "mean_token_accuracy": 0.6217008829116821,
-      "num_tokens": 364640.0,
       "step": 201
     },
     {
       "epoch": 0.8145161290322581,
-      "grad_norm": 5.4481964111328125,
       "learning_rate": 4.125704689189819e-07,
-      "loss": 1.4815,
-      "mean_token_accuracy": 0.5962854623794556,
-      "num_tokens": 366688.0,
       "step": 202
     },
     {
       "epoch": 0.8185483870967742,
-      "grad_norm": 5.777848243713379,
       "learning_rate": 3.953110441467073e-07,
-      "loss": 1.3747,
-      "mean_token_accuracy": 0.6329723000526428,
-      "num_tokens": 368352.0,
       "step": 203
     },
     {
       "epoch": 0.8225806451612904,
-      "grad_norm": 5.9793500900268555,
       "learning_rate": 3.7838935626312246e-07,
-      "loss": 1.4336,
-      "mean_token_accuracy": 0.6180328130722046,
-      "num_tokens": 370184.0,
       "step": 204
     },
     {
       "epoch": 0.8266129032258065,
-      "grad_norm": 5.642481327056885,
       "learning_rate": 3.6180812067099477e-07,
-      "loss": 1.3679,
-      "mean_token_accuracy": 0.6316390633583069,
-      "num_tokens": 371937.0,
       "step": 205
     },
     {
       "epoch": 0.8306451612903226,
-      "grad_norm": 5.729284763336182,
       "learning_rate": 3.455699981411259e-07,
-      "loss": 1.5629,
-      "mean_token_accuracy": 0.5879765152931213,
-      "num_tokens": 373985.0,
       "step": 206
     },
     {
       "epoch": 0.8346774193548387,
-      "grad_norm": 5.723310947418213,
       "learning_rate": 3.296775943853789e-07,
-      "loss": 1.3882,
-      "mean_token_accuracy": 0.6189857125282288,
-      "num_tokens": 375525.0,
       "step": 207
     },
     {
       "epoch": 0.8387096774193549,
-      "grad_norm": 5.779016494750977,
       "learning_rate": 3.141334596385448e-07,
-      "loss": 1.461,
-      "mean_token_accuracy": 0.6056337952613831,
-      "num_tokens": 377373.0,
       "step": 208
     },
     {
       "epoch": 0.842741935483871,
-      "grad_norm": 5.4905500411987305,
       "learning_rate": 2.9894008824910726e-07,
-      "loss": 1.521,
-      "mean_token_accuracy": 0.5928640961647034,
-      "num_tokens": 379421.0,
       "step": 209
     },
     {
       "epoch": 0.8467741935483871,
-      "grad_norm": 5.458898544311523,
       "learning_rate": 2.840999182789797e-07,
-      "loss": 1.3915,
-      "mean_token_accuracy": 0.6187683343887329,
-      "num_tokens": 381469.0,
       "step": 210
     },
     {
       "epoch": 0.8508064516129032,
-      "grad_norm": 5.632810592651367,
       "learning_rate": 2.696153311122704e-07,
-      "loss": 1.6075,
-      "mean_token_accuracy": 0.5782422423362732,
-      "num_tokens": 383337.0,
       "step": 211
     },
     {
       "epoch": 0.8548387096774194,
-      "grad_norm": 5.911554336547852,
       "learning_rate": 2.5548865107314606e-07,
-      "loss": 1.4003,
-      "mean_token_accuracy": 0.6060606241226196,
-      "num_tokens": 385055.0,
       "step": 212
     },
     {
       "epoch": 0.8588709677419355,
-      "grad_norm": 5.624124050140381,
       "learning_rate": 2.4172214505285006e-07,
-      "loss": 1.4583,
-      "mean_token_accuracy": 0.6126724481582642,
-      "num_tokens": 387014.0,
       "step": 213
     },
     {
       "epoch": 0.8629032258064516,
-      "grad_norm": 5.617734432220459,
       "learning_rate": 2.2831802214593774e-07,
-      "loss": 1.5721,
-      "mean_token_accuracy": 0.5764281749725342,
-      "num_tokens": 388959.0,
       "step": 214
     },
     {
       "epoch": 0.8669354838709677,
-      "grad_norm": 5.280562877655029,
       "learning_rate": 2.1527843329578328e-07,
-      "loss": 1.5147,
-      "mean_token_accuracy": 0.6034653186798096,
-      "num_tokens": 390981.0,
       "step": 215
     },
     {
       "epoch": 0.8709677419354839,
-      "grad_norm": 5.687208652496338,
       "learning_rate": 2.026054709494235e-07,
-      "loss": 1.4534,
-      "mean_token_accuracy": 0.6150367259979248,
-      "num_tokens": 392752.0,
       "step": 216
     },
     {
       "epoch": 0.875,
-      "grad_norm": 5.705509185791016,
       "learning_rate": 1.9030116872178317e-07,
-      "loss": 1.4152,
-      "mean_token_accuracy": 0.6127232313156128,
-      "num_tokens": 394546.0,
       "step": 217
     },
     {
       "epoch": 0.8790322580645161,
-      "grad_norm": 5.683897972106934,
       "learning_rate": 1.7836750106934475e-07,
-      "loss": 1.4271,
-      "mean_token_accuracy": 0.6148231625556946,
-      "num_tokens": 396329.0,
       "step": 218
     },
     {
       "epoch": 0.8830645161290323,
-      "grad_norm": 6.243759632110596,
       "learning_rate": 1.6680638297330854e-07,
-      "loss": 1.4465,
-      "mean_token_accuracy": 0.5965217351913452,
-      "num_tokens": 398056.0,
       "step": 219
     },
     {
       "epoch": 0.8870967741935484,
-      "grad_norm": 6.134514331817627,
       "learning_rate": 1.5561966963229925e-07,
-      "loss": 1.3789,
-      "mean_token_accuracy": 0.6306666731834412,
-      "num_tokens": 399558.0,
       "step": 220
     },
     {
       "epoch": 0.8911290322580645,
-      "grad_norm": 5.514354228973389,
       "learning_rate": 1.448091561646628e-07,
-      "loss": 1.4516,
-      "mean_token_accuracy": 0.629768967628479,
-      "num_tokens": 401421.0,
       "step": 221
     },
     {
       "epoch": 0.8951612903225806,
-      "grad_norm": 6.08192253112793,
       "learning_rate": 1.3437657732040783e-07,
-      "loss": 1.3599,
-      "mean_token_accuracy": 0.627013623714447,
-      "num_tokens": 403037.0,
       "step": 222
     },
     {
       "epoch": 0.8991935483870968,
-      "grad_norm": 5.9470624923706055,
       "learning_rate": 1.243236072028317e-07,
-      "loss": 1.4422,
-      "mean_token_accuracy": 0.6150983572006226,
-      "num_tokens": 404920.0,
       "step": 223
     },
     {
       "epoch": 0.9032258064516129,
-      "grad_norm": 5.818566799163818,
       "learning_rate": 1.1465185899987797e-07,
-      "loss": 1.5879,
-      "mean_token_accuracy": 0.5864583253860474,
-      "num_tokens": 406842.0,
       "step": 224
     },
     {
       "epoch": 0.907258064516129,
-      "grad_norm": 5.502862930297852,
       "learning_rate": 1.0536288472527162e-07,
-      "loss": 1.5814,
-      "mean_token_accuracy": 0.6052631735801697,
-      "num_tokens": 408782.0,
       "step": 225
     },
     {
       "epoch": 0.9112903225806451,
-      "grad_norm": 5.415470123291016,
       "learning_rate": 9.645817496946902e-08,
-      "loss": 1.444,
-      "mean_token_accuracy": 0.6195147037506104,
-      "num_tokens": 410721.0,
       "step": 226
     },
     {
       "epoch": 0.9153225806451613,
-      "grad_norm": 5.986811637878418,
       "learning_rate": 8.79391586604636e-08,
-      "loss": 1.5418,
-      "mean_token_accuracy": 0.5859031081199646,
-      "num_tokens": 412539.0,
       "step": 227
     },
     {
       "epoch": 0.9193548387096774,
-      "grad_norm": 5.945112228393555,
       "learning_rate": 7.980720283448957e-08,
-      "loss": 1.6551,
-      "mean_token_accuracy": 0.5674486756324768,
-      "num_tokens": 414587.0,
       "step": 228
     },
     {
       "epoch": 0.9233870967741935,
-      "grad_norm": 6.400421619415283,
       "learning_rate": 7.206361241665266e-08,
-      "loss": 1.4483,
-      "mean_token_accuracy": 0.6121463179588318,
-      "num_tokens": 416038.0,
       "step": 229
     },
     {
       "epoch": 0.9274193548387096,
-      "grad_norm": 5.438772678375244,
       "learning_rate": 6.470963001153268e-08,
-      "loss": 1.4672,
-      "mean_token_accuracy": 0.6242893934249878,
-      "num_tokens": 417975.0,
       "step": 230
     },
     {
       "epoch": 0.9314516129032258,
-      "grad_norm": 5.7500715255737305,
       "learning_rate": 5.774643570378296e-08,
-      "loss": 1.2723,
-      "mean_token_accuracy": 0.6415220499038696,
-      "num_tokens": 419475.0,
       "step": 231
     },
     {
       "epoch": 0.9354838709677419,
-      "grad_norm": 5.149988651275635,
       "learning_rate": 5.117514686876379e-08,
-      "loss": 1.4171,
-      "mean_token_accuracy": 0.6119639873504639,
-      "num_tokens": 421366.0,
       "step": 232
     },
     {
       "epoch": 0.9395161290322581,
-      "grad_norm": 5.256503105163574,
       "learning_rate": 4.4996817993239464e-08,
-      "loss": 1.5328,
-      "mean_token_accuracy": 0.5879765152931213,
-      "num_tokens": 423414.0,
       "step": 233
     },
     {
       "epoch": 0.9435483870967742,
-      "grad_norm": 6.25666618347168,
       "learning_rate": 3.9212440506164465e-08,
-      "loss": 1.4684,
-      "mean_token_accuracy": 0.6087219715118408,
-      "num_tokens": 425067.0,
       "step": 234
     },
     {
       "epoch": 0.9475806451612904,
-      "grad_norm": 5.981427192687988,
       "learning_rate": 3.382294261959157e-08,
-      "loss": 1.5281,
-      "mean_token_accuracy": 0.6133871674537659,
-      "num_tokens": 426802.0,
       "step": 235
     },
     {
       "epoch": 0.9516129032258065,
-      "grad_norm": 6.321535587310791,
       "learning_rate": 2.8829189179721552e-08,
-      "loss": 1.4104,
-      "mean_token_accuracy": 0.6142162680625916,
-      "num_tokens": 428450.0,
       "step": 236
     },
     {
       "epoch": 0.9556451612903226,
-      "grad_norm": 5.302191257476807,
       "learning_rate": 2.423198152812306e-08,
-      "loss": 1.3648,
-      "mean_token_accuracy": 0.6049119234085083,
-      "num_tokens": 430325.0,
       "step": 237
     },
     {
       "epoch": 0.9596774193548387,
-      "grad_norm": 5.734409809112549,
       "learning_rate": 2.0032057373142453e-08,
-      "loss": 1.4529,
-      "mean_token_accuracy": 0.6051889657974243,
-      "num_tokens": 432100.0,
       "step": 238
     },
     {
       "epoch": 0.9637096774193549,
-      "grad_norm": 6.134054660797119,
       "learning_rate": 1.6230090671524312e-08,
-      "loss": 1.4594,
-      "mean_token_accuracy": 0.606150209903717,
-      "num_tokens": 433793.0,
       "step": 239
     },
     {
       "epoch": 0.967741935483871,
-      "grad_norm": 6.0663161277771,
       "learning_rate": 1.2826691520262114e-08,
-      "loss": 1.5932,
-      "mean_token_accuracy": 0.594725489616394,
-      "num_tokens": 435653.0,
       "step": 240
     },
     {
       "epoch": 0.9717741935483871,
-      "grad_norm": 5.548215866088867,
       "learning_rate": 9.822406058697665e-09,
-      "loss": 1.5462,
-      "mean_token_accuracy": 0.6009804010391235,
-      "num_tokens": 437695.0,
       "step": 241
     },
     {
       "epoch": 0.9758064516129032,
-      "grad_norm": 5.297504901885986,
       "learning_rate": 7.217716380881479e-09,
-      "loss": 1.4292,
-      "mean_token_accuracy": 0.605381190776825,
-      "num_tokens": 439704.0,
       "step": 242
     },
     {
       "epoch": 0.9798387096774194,
-      "grad_norm": 6.025217533111572,
       "learning_rate": 5.0130404582127144e-09,
-      "loss": 1.354,
-      "mean_token_accuracy": 0.6391494870185852,
-      "num_tokens": 441305.0,
       "step": 243
     },
     {
       "epoch": 0.9838709677419355,
-      "grad_norm": 5.9209885597229,
       "learning_rate": 3.208732072368104e-09,
-      "loss": 1.5128,
-      "mean_token_accuracy": 0.6028446555137634,
-      "num_tokens": 443135.0,
       "step": 244
     },
     {
       "epoch": 0.9879032258064516,
-      "grad_norm": 5.476851463317871,
       "learning_rate": 1.8050807585293095e-09,
-      "loss": 1.4337,
-      "mean_token_accuracy": 0.5929054021835327,
-      "num_tokens": 444913.0,
       "step": 245
     },
     {
       "epoch": 0.9919354838709677,
-      "grad_norm": 5.278493881225586,
       "learning_rate": 8.023117589237017e-10,
-      "loss": 1.4681,
-      "mean_token_accuracy": 0.6177908182144165,
-      "num_tokens": 446961.0,
       "step": 246
     },
     {
       "epoch": 0.9959677419354839,
-      "grad_norm": 5.931204319000244,
       "learning_rate": 2.0058598667854755e-10,
-      "loss": 1.3652,
-      "mean_token_accuracy": 0.6268472671508789,
-      "num_tokens": 448587.0,
       "step": 247
     },
     {
       "epoch": 1.0,
-      "grad_norm": 6.229298114776611,
       "learning_rate": 0.0,
-      "loss": 1.3911,
-      "mean_token_accuracy": 0.5912636518478394,
-      "num_tokens": 449229.0,
       "step": 248
     }
   ],
@@ -2258,7 +2258,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0128604195192832e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.004032258064516129,
+      "grad_norm": 99.0960693359375,
       "learning_rate": 4.999799414013322e-06,
+      "loss": 3.2792,
+      "mean_token_accuracy": 0.4705558717250824,
+      "num_tokens": 1819.0,
       "step": 1
     },
     {
       "epoch": 0.008064516129032258,
+      "grad_norm": 47.43061828613281,
       "learning_rate": 4.999197688241076e-06,
+      "loss": 2.6949,
+      "mean_token_accuracy": 0.4918949007987976,
+      "num_tokens": 3610.0,
       "step": 2
     },
     {
       "epoch": 0.012096774193548387,
+      "grad_norm": 40.37574005126953,
       "learning_rate": 4.998194919241471e-06,
+      "loss": 2.1322,
+      "mean_token_accuracy": 0.5253481864929199,
+      "num_tokens": 5407.0,
       "step": 3
     },
     {
       "epoch": 0.016129032258064516,
+      "grad_norm": 21.76544189453125,
       "learning_rate": 4.996791267927632e-06,
+      "loss": 1.924,
+      "mean_token_accuracy": 0.5501400828361511,
+      "num_tokens": 7194.0,
       "step": 4
     },
     {
       "epoch": 0.020161290322580645,
+      "grad_norm": 30.451719284057617,
       "learning_rate": 4.994986959541788e-06,
+      "loss": 2.0233,
+      "mean_token_accuracy": 0.5161290168762207,
+      "num_tokens": 9242.0,
       "step": 5
     },
     {
       "epoch": 0.024193548387096774,
+      "grad_norm": 8.43026065826416,
       "learning_rate": 4.9927822836191185e-06,
+      "loss": 1.8731,
+      "mean_token_accuracy": 0.5502092242240906,
+      "num_tokens": 11156.0,
       "step": 6
     },
     {
       "epoch": 0.028225806451612902,
+      "grad_norm": 8.538537979125977,
       "learning_rate": 4.990177593941303e-06,
+      "loss": 1.8274,
+      "mean_token_accuracy": 0.5549915432929993,
+      "num_tokens": 12931.0,
       "step": 7
     },
     {
       "epoch": 0.03225806451612903,
+      "grad_norm": 8.681036949157715,
       "learning_rate": 4.987173308479738e-06,
+      "loss": 1.8148,
+      "mean_token_accuracy": 0.563049852848053,
+      "num_tokens": 14979.0,
       "step": 8
     },
     {
       "epoch": 0.036290322580645164,
+      "grad_norm": 7.441074848175049,
       "learning_rate": 4.9837699093284765e-06,
+      "loss": 1.7176,
+      "mean_token_accuracy": 0.572820782661438,
+      "num_tokens": 16828.0,
       "step": 9
     },
     {
       "epoch": 0.04032258064516129,
+      "grad_norm": 7.5016093254089355,
       "learning_rate": 4.9799679426268575e-06,
+      "loss": 1.826,
+      "mean_token_accuracy": 0.5537056922912598,
+      "num_tokens": 18692.0,
       "step": 10
     },
     {
       "epoch": 0.04435483870967742,
+      "grad_norm": 7.0608062744140625,
       "learning_rate": 4.975768018471877e-06,
+      "loss": 1.6788,
+      "mean_token_accuracy": 0.5741225481033325,
+      "num_tokens": 20603.0,
       "step": 11
     },
     {
       "epoch": 0.04838709677419355,
+      "grad_norm": 7.283655166625977,
       "learning_rate": 4.971170810820279e-06,
+      "loss": 1.6694,
+      "mean_token_accuracy": 0.5708954930305481,
+      "num_tokens": 22213.0,
       "step": 12
     },
     {
       "epoch": 0.05241935483870968,
+      "grad_norm": 7.800687313079834,
       "learning_rate": 4.966177057380409e-06,
+      "loss": 1.7202,
+      "mean_token_accuracy": 0.5798588991165161,
+      "num_tokens": 23774.0,
       "step": 13
     },
     {
       "epoch": 0.056451612903225805,
+      "grad_norm": 7.64439058303833,
       "learning_rate": 4.960787559493836e-06,
+      "loss": 1.6408,
+      "mean_token_accuracy": 0.5935754179954529,
+      "num_tokens": 25208.0,
       "step": 14
     },
     {
       "epoch": 0.06048387096774194,
+      "grad_norm": 6.813995361328125,
       "learning_rate": 4.955003182006761e-06,
+      "loss": 1.6397,
+      "mean_token_accuracy": 0.5809217691421509,
+      "num_tokens": 27076.0,
       "step": 15
     },
     {
       "epoch": 0.06451612903225806,
+      "grad_norm": 7.024792194366455,
       "learning_rate": 4.948824853131237e-06,
+      "loss": 1.7807,
+      "mean_token_accuracy": 0.5546666383743286,
+      "num_tokens": 28953.0,
       "step": 16
     },
     {
       "epoch": 0.06854838709677419,
+      "grad_norm": 6.979730606079102,
       "learning_rate": 4.942253564296217e-06,
+      "loss": 1.5861,
+      "mean_token_accuracy": 0.5993921160697937,
+      "num_tokens": 30600.0,
       "step": 17
     },
     {
       "epoch": 0.07258064516129033,
+      "grad_norm": 6.971430778503418,
       "learning_rate": 4.935290369988468e-06,
+      "loss": 1.7106,
+      "mean_token_accuracy": 0.5747259259223938,
+      "num_tokens": 32335.0,
       "step": 18
     },
     {
       "epoch": 0.07661290322580645,
+      "grad_norm": 7.085752487182617,
       "learning_rate": 4.927936387583348e-06,
+      "loss": 1.7075,
+      "mean_token_accuracy": 0.5898089408874512,
+      "num_tokens": 33907.0,
       "step": 19
     },
     {
       "epoch": 0.08064516129032258,
+      "grad_norm": 6.59229040145874,
       "learning_rate": 4.920192797165511e-06,
+      "loss": 1.7039,
+      "mean_token_accuracy": 0.569328784942627,
+      "num_tokens": 35950.0,
       "step": 20
     },
     {
       "epoch": 0.0846774193548387,
+      "grad_norm": 6.934664249420166,
       "learning_rate": 4.912060841339536e-06,
+      "loss": 1.582,
+      "mean_token_accuracy": 0.6080306172370911,
+      "num_tokens": 37521.0,
       "step": 21
     },
     {
       "epoch": 0.08870967741935484,
+      "grad_norm": 7.222076416015625,
       "learning_rate": 4.9035418250305314e-06,
+      "loss": 1.6762,
+      "mean_token_accuracy": 0.5719424486160278,
+      "num_tokens": 39191.0,
       "step": 22
     },
     {
       "epoch": 0.09274193548387097,
+      "grad_norm": 6.332627773284912,
       "learning_rate": 4.894637115274728e-06,
+      "loss": 1.6376,
+      "mean_token_accuracy": 0.5898959636688232,
+      "num_tokens": 41212.0,
       "step": 23
     },
     {
       "epoch": 0.0967741935483871,
+      "grad_norm": 6.263752460479736,
       "learning_rate": 4.8853481410001225e-06,
+      "loss": 1.6816,
+      "mean_token_accuracy": 0.5732259750366211,
+      "num_tokens": 43201.0,
       "step": 24
     },
     {
       "epoch": 0.10080645161290322,
+      "grad_norm": 6.8030476570129395,
       "learning_rate": 4.875676392797169e-06,
+      "loss": 1.5712,
+      "mean_token_accuracy": 0.6030839681625366,
+      "num_tokens": 44954.0,
       "step": 25
     },
     {
       "epoch": 0.10483870967741936,
+      "grad_norm": 6.477639198303223,
       "learning_rate": 4.865623422679593e-06,
+      "loss": 1.6535,
+      "mean_token_accuracy": 0.5837808847427368,
+      "num_tokens": 46818.0,
       "step": 26
     },
     {
       "epoch": 0.10887096774193548,
+      "grad_norm": 8.109735488891602,
       "learning_rate": 4.855190843835338e-06,
+      "loss": 1.5428,
+      "mean_token_accuracy": 0.60636305809021,
+      "num_tokens": 48423.0,
       "step": 27
     },
     {
       "epoch": 0.11290322580645161,
+      "grad_norm": 6.8654046058654785,
       "learning_rate": 4.844380330367701e-06,
+      "loss": 1.5027,
+      "mean_token_accuracy": 0.6173325777053833,
+      "num_tokens": 50202.0,
       "step": 28
     },
     {
       "epoch": 0.11693548387096774,
+      "grad_norm": 6.878509044647217,
       "learning_rate": 4.833193617026692e-06,
+      "loss": 1.6905,
+      "mean_token_accuracy": 0.5734870433807373,
+      "num_tokens": 51939.0,
       "step": 29
     },
     {
       "epoch": 0.12096774193548387,
+      "grad_norm": 6.781070709228516,
       "learning_rate": 4.821632498930656e-06,
+      "loss": 1.584,
+      "mean_token_accuracy": 0.5995055437088013,
+      "num_tokens": 53559.0,
       "step": 30
     },
     {
       "epoch": 0.125,
+      "grad_norm": 6.2921271324157715,
       "learning_rate": 4.809698831278217e-06,
+      "loss": 1.6781,
+      "mean_token_accuracy": 0.582112193107605,
+      "num_tokens": 55540.0,
       "step": 31
     },
     {
       "epoch": 0.12903225806451613,
+      "grad_norm": 6.02636194229126,
       "learning_rate": 4.797394529050577e-06,
+      "loss": 1.5655,
+      "mean_token_accuracy": 0.6006144285202026,
+      "num_tokens": 57495.0,
       "step": 32
     },
     {
       "epoch": 0.13306451612903225,
+      "grad_norm": 7.5229902267456055,
       "learning_rate": 4.784721566704217e-06,
+      "loss": 1.7261,
+      "mean_token_accuracy": 0.5760197639465332,
+      "num_tokens": 59115.0,
       "step": 33
     },
     {
       "epoch": 0.13709677419354838,
+      "grad_norm": 6.765624046325684,
       "learning_rate": 4.771681977854062e-06,
+      "loss": 1.625,
+      "mean_token_accuracy": 0.5822873115539551,
+      "num_tokens": 60551.0,
       "step": 34
     },
     {
       "epoch": 0.14112903225806453,
+      "grad_norm": 6.864407062530518,
       "learning_rate": 4.75827785494715e-06,
+      "loss": 1.6879,
+      "mean_token_accuracy": 0.5782891511917114,
+      "num_tokens": 62552.0,
       "step": 35
     },
     {
       "epoch": 0.14516129032258066,
+      "grad_norm": 6.733999252319336,
       "learning_rate": 4.744511348926855e-06,
+      "loss": 1.5214,
+      "mean_token_accuracy": 0.6006430983543396,
+      "num_tokens": 64109.0,
       "step": 36
     },
     {
       "epoch": 0.14919354838709678,
+      "grad_norm": 5.977267265319824,
       "learning_rate": 4.730384668887731e-06,
+      "loss": 1.6555,
+      "mean_token_accuracy": 0.575398862361908,
+      "num_tokens": 66054.0,
       "step": 37
     },
     {
       "epoch": 0.1532258064516129,
+      "grad_norm": 6.319035053253174,
       "learning_rate": 4.715900081721021e-06,
+      "loss": 1.657,
+      "mean_token_accuracy": 0.5774725079536438,
+      "num_tokens": 67876.0,
       "step": 38
     },
     {
       "epoch": 0.15725806451612903,
+      "grad_norm": 6.248798847198486,
       "learning_rate": 4.7010599117508936e-06,
+      "loss": 1.5393,
+      "mean_token_accuracy": 0.5967366099357605,
+      "num_tokens": 69594.0,
       "step": 39
     },
     {
       "epoch": 0.16129032258064516,
+      "grad_norm": 6.949793815612793,
       "learning_rate": 4.685866540361456e-06,
+      "loss": 1.6971,
+      "mean_token_accuracy": 0.5807833671569824,
+      "num_tokens": 71230.0,
       "step": 40
     },
     {
       "epoch": 0.16532258064516128,
+      "grad_norm": 7.044243812561035,
       "learning_rate": 4.670322405614621e-06,
+      "loss": 1.5476,
+      "mean_token_accuracy": 0.6068921685218811,
+      "num_tokens": 72799.0,
       "step": 41
     },
     {
       "epoch": 0.1693548387096774,
+      "grad_norm": 6.1895670890808105,
       "learning_rate": 4.654430001858874e-06,
+      "loss": 1.5685,
+      "mean_token_accuracy": 0.5987124443054199,
+      "num_tokens": 74665.0,
       "step": 42
     },
     {
       "epoch": 0.17338709677419356,
+      "grad_norm": 6.357958793640137,
       "learning_rate": 4.638191879329005e-06,
+      "loss": 1.6369,
+      "mean_token_accuracy": 0.6065057516098022,
+      "num_tokens": 76573.0,
       "step": 43
     },
     {
       "epoch": 0.1774193548387097,
+      "grad_norm": 6.44213342666626,
       "learning_rate": 4.621610643736878e-06,
+      "loss": 1.477,
+      "mean_token_accuracy": 0.6165943741798401,
+      "num_tokens": 78419.0,
       "step": 44
     },
     {
       "epoch": 0.1814516129032258,
+      "grad_norm": 11.772004127502441,
       "learning_rate": 4.6046889558532925e-06,
+      "loss": 1.2458,
+      "mean_token_accuracy": 0.6105882525444031,
+      "num_tokens": 79271.0,
       "step": 45
     },
     {
       "epoch": 0.18548387096774194,
+      "grad_norm": 5.835907936096191,
       "learning_rate": 4.587429531081019e-06,
+      "loss": 1.5937,
+      "mean_token_accuracy": 0.5787923336029053,
+      "num_tokens": 81310.0,
       "step": 46
     },
     {
       "epoch": 0.18951612903225806,
+      "grad_norm": 6.897541046142578,
       "learning_rate": 4.569835139019054e-06,
+      "loss": 1.6269,
+      "mean_token_accuracy": 0.5900123119354248,
+      "num_tokens": 82934.0,
       "step": 47
     },
     {
       "epoch": 0.1935483870967742,
+      "grad_norm": 6.150733947753906,
       "learning_rate": 4.551908603018191e-06,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.5997865796089172,
+      "num_tokens": 84810.0,
       "step": 48
     },
     {
       "epoch": 0.1975806451612903,
+      "grad_norm": 5.933169841766357,
       "learning_rate": 4.53365279972796e-06,
+      "loss": 1.6289,
+      "mean_token_accuracy": 0.5821572542190552,
+      "num_tokens": 86796.0,
       "step": 49
     },
     {
       "epoch": 0.20161290322580644,
+      "grad_norm": 5.93269681930542,
       "learning_rate": 4.515070658635013e-06,
+      "loss": 1.6608,
+      "mean_token_accuracy": 0.5925726294517517,
+      "num_tokens": 88656.0,
       "step": 50
     },
     {
       "epoch": 0.2056451612903226,
+      "grad_norm": 6.56980037689209,
       "learning_rate": 4.4961651615930344e-06,
+      "loss": 1.6368,
+      "mean_token_accuracy": 0.5721311569213867,
+      "num_tokens": 90488.0,
       "step": 51
     },
     {
       "epoch": 0.20967741935483872,
+      "grad_norm": 5.973373889923096,
       "learning_rate": 4.476939342344246e-06,
+      "loss": 1.5851,
+      "mean_token_accuracy": 0.586832582950592,
+      "num_tokens": 92419.0,
       "step": 52
     },
     {
       "epoch": 0.21370967741935484,
+      "grad_norm": 6.0411553382873535,
       "learning_rate": 4.457396286032589e-06,
+      "loss": 1.6096,
+      "mean_token_accuracy": 0.5805962681770325,
+      "num_tokens": 94400.0,
       "step": 53
     },
     {
       "epoch": 0.21774193548387097,
+      "grad_norm": 6.7846221923828125,
       "learning_rate": 4.437539128708647e-06,
+      "loss": 1.7701,
+      "mean_token_accuracy": 0.5684491991996765,
+      "num_tokens": 96272.0,
       "step": 54
     },
     {
       "epoch": 0.2217741935483871,
+      "grad_norm": 6.365209579467773,
       "learning_rate": 4.417371056826417e-06,
+      "loss": 1.5444,
+      "mean_token_accuracy": 0.6007281541824341,
+      "num_tokens": 97922.0,
       "step": 55
     },
     {
       "epoch": 0.22580645161290322,
+      "grad_norm": 6.159636974334717,
       "learning_rate": 4.396895306731978e-06,
+      "loss": 1.6374,
+      "mean_token_accuracy": 0.5812357068061829,
+      "num_tokens": 99672.0,
       "step": 56
     },
     {
       "epoch": 0.22983870967741934,
+      "grad_norm": 6.037807464599609,
       "learning_rate": 4.376115164144157e-06,
+      "loss": 1.5427,
+      "mean_token_accuracy": 0.6033584475517273,
+      "num_tokens": 101401.0,
       "step": 57
     },
     {
       "epoch": 0.23387096774193547,
+      "grad_norm": 6.224438190460205,
       "learning_rate": 4.355033963627277e-06,
+      "loss": 1.5835,
+      "mean_token_accuracy": 0.5897436141967773,
+      "num_tokens": 103158.0,
       "step": 58
     },
     {
       "epoch": 0.23790322580645162,
+      "grad_norm": 5.788248062133789,
       "learning_rate": 4.333655088056065e-06,
+      "loss": 1.5512,
+      "mean_token_accuracy": 0.5878172516822815,
+      "num_tokens": 105130.0,
       "step": 59
     },
     {
       "epoch": 0.24193548387096775,
+      "grad_norm": 6.5106024742126465,
       "learning_rate": 4.3119819680728e-06,
+      "loss": 1.6323,
+      "mean_token_accuracy": 0.5971143245697021,
+      "num_tokens": 106934.0,
       "step": 60
     },
     {
       "epoch": 0.24596774193548387,
+      "grad_norm": 5.9823737144470215,
       "learning_rate": 4.290018081536807e-06,
+      "loss": 1.5736,
+      "mean_token_accuracy": 0.5935134887695312,
+      "num_tokens": 108786.0,
       "step": 61
     },
     {
       "epoch": 0.25,
+      "grad_norm": 6.844268798828125,
       "learning_rate": 4.267766952966369e-06,
+      "loss": 1.6744,
+      "mean_token_accuracy": 0.5678654313087463,
+      "num_tokens": 110512.0,
       "step": 62
     },
     {
       "epoch": 0.2540322580645161,
+      "grad_norm": 6.168908596038818,
       "learning_rate": 4.245232152973148e-06,
+      "loss": 1.6208,
+      "mean_token_accuracy": 0.5953115224838257,
+      "num_tokens": 112135.0,
       "step": 63
     },
     {
       "epoch": 0.25806451612903225,
+      "grad_norm": 6.162073135375977,
       "learning_rate": 4.222417297689217e-06,
+      "loss": 1.6455,
+      "mean_token_accuracy": 0.6012843251228333,
+      "num_tokens": 113850.0,
       "step": 64
     },
     {
       "epoch": 0.2620967741935484,
+      "grad_norm": 5.909740447998047,
       "learning_rate": 4.199326048186783e-06,
+      "loss": 1.6408,
+      "mean_token_accuracy": 0.5889984369277954,
+      "num_tokens": 115779.0,
       "step": 65
     },
     {
       "epoch": 0.2661290322580645,
+      "grad_norm": 6.424287796020508,
       "learning_rate": 4.175962109890697e-06,
+      "loss": 1.4827,
+      "mean_token_accuracy": 0.6072772741317749,
+      "num_tokens": 117375.0,
       "step": 66
     },
     {
       "epoch": 0.2701612903225806,
+      "grad_norm": 7.354248523712158,
       "learning_rate": 4.152329231983852e-06,
+      "loss": 1.5259,
+      "mean_token_accuracy": 0.6074517369270325,
+      "num_tokens": 118880.0,
       "step": 67
     },
     {
       "epoch": 0.27419354838709675,
+      "grad_norm": 6.386468887329102,
       "learning_rate": 4.128431206805556e-06,
+      "loss": 1.4579,
+      "mean_token_accuracy": 0.6266149878501892,
+      "num_tokens": 120430.0,
       "step": 68
     },
     {
       "epoch": 0.2782258064516129,
+      "grad_norm": 5.8017168045043945,
       "learning_rate": 4.104271869242975e-06,
+      "loss": 1.5997,
+      "mean_token_accuracy": 0.5914376378059387,
+      "num_tokens": 122324.0,
       "step": 69
     },
     {
       "epoch": 0.28225806451612906,
+      "grad_norm": 6.298964500427246,
       "learning_rate": 4.07985509611576e-06,
+      "loss": 1.5175,
+      "mean_token_accuracy": 0.6027742624282837,
+      "num_tokens": 123912.0,
       "step": 70
     },
     {
       "epoch": 0.2862903225806452,
+      "grad_norm": 5.610908031463623,
       "learning_rate": 4.0551848055539345e-06,
+      "loss": 1.4782,
+      "mean_token_accuracy": 0.6146214008331299,
+      "num_tokens": 125829.0,
       "step": 71
     },
     {
       "epoch": 0.2903225806451613,
+      "grad_norm": 5.9410014152526855,
       "learning_rate": 4.030264956369158e-06,
+      "loss": 1.5216,
+      "mean_token_accuracy": 0.6010044813156128,
+      "num_tokens": 127623.0,
       "step": 72
     },
     {
       "epoch": 0.29435483870967744,
+      "grad_norm": 6.027655601501465,
       "learning_rate": 4.005099547419458e-06,
+      "loss": 1.5922,
+      "mean_token_accuracy": 0.604594349861145,
+      "num_tokens": 129671.0,
       "step": 73
     },
     {
       "epoch": 0.29838709677419356,
+      "grad_norm": 6.194504261016846,
       "learning_rate": 3.979692616967543e-06,
+      "loss": 1.6518,
+      "mean_token_accuracy": 0.5671883225440979,
+      "num_tokens": 131526.0,
       "step": 74
     },
     {
       "epoch": 0.3024193548387097,
+      "grad_norm": 6.842575550079346,
       "learning_rate": 3.9540482420327845e-06,
+      "loss": 1.7604,
+      "mean_token_accuracy": 0.5674124956130981,
+      "num_tokens": 133271.0,
       "step": 75
     },
     {
       "epoch": 0.3064516129032258,
+      "grad_norm": 7.071008682250977,
       "learning_rate": 3.9281705377369814e-06,
+      "loss": 1.5444,
+      "mean_token_accuracy": 0.592570424079895,
+      "num_tokens": 134942.0,
       "step": 76
     },
     {
       "epoch": 0.31048387096774194,
+      "grad_norm": 6.561822414398193,
       "learning_rate": 3.902063656644012e-06,
+      "loss": 1.6206,
+      "mean_token_accuracy": 0.5793358087539673,
+      "num_tokens": 136841.0,
       "step": 77
     },
     {
       "epoch": 0.31451612903225806,
+      "grad_norm": 6.077663421630859,
       "learning_rate": 3.875731788093478e-06,
+      "loss": 1.5986,
+      "mean_token_accuracy": 0.591160237789154,
+      "num_tokens": 138653.0,
       "step": 78
     },
     {
       "epoch": 0.3185483870967742,
+      "grad_norm": 6.567859649658203,
       "learning_rate": 3.84917915752845e-06,
+      "loss": 1.5392,
+      "mean_token_accuracy": 0.5913461446762085,
+      "num_tokens": 140111.0,
       "step": 79
     },
     {
       "epoch": 0.3225806451612903,
+      "grad_norm": 5.775151252746582,
       "learning_rate": 3.8224100258174066e-06,
+      "loss": 1.5684,
+      "mean_token_accuracy": 0.5914602279663086,
+      "num_tokens": 142010.0,
       "step": 80
     },
     {
       "epoch": 0.32661290322580644,
+      "grad_norm": 6.075804233551025,
       "learning_rate": 3.795428688570505e-06,
+      "loss": 1.5588,
+      "mean_token_accuracy": 0.5793555974960327,
+      "num_tokens": 143688.0,
       "step": 81
     },
     {
       "epoch": 0.33064516129032256,
+      "grad_norm": 6.182637691497803,
       "learning_rate": 3.7682394754502687e-06,
+      "loss": 1.6354,
+      "mean_token_accuracy": 0.5826601982116699,
+      "num_tokens": 145547.0,
       "step": 82
     },
     {
       "epoch": 0.3346774193548387,
+      "grad_norm": 6.141689777374268,
       "learning_rate": 3.7408467494768104e-06,
+      "loss": 1.5793,
+      "mean_token_accuracy": 0.5980230569839478,
+      "num_tokens": 147370.0,
       "step": 83
     },
     {
       "epoch": 0.3387096774193548,
+      "grad_norm": 5.8948140144348145,
       "learning_rate": 3.7132549063277033e-06,
+      "loss": 1.6276,
+      "mean_token_accuracy": 0.5829015374183655,
+      "num_tokens": 149302.0,
       "step": 84
     },
     {
       "epoch": 0.34274193548387094,
+      "grad_norm": 6.238958358764648,
       "learning_rate": 3.685468373632613e-06,
+      "loss": 1.6904,
+      "mean_token_accuracy": 0.5823293328285217,
+      "num_tokens": 151047.0,
       "step": 85
     },
     {
       "epoch": 0.3467741935483871,
+      "grad_norm": 5.967896461486816,
       "learning_rate": 3.657491610262802e-06,
+      "loss": 1.5618,
+      "mean_token_accuracy": 0.5967926979064941,
+      "num_tokens": 152795.0,
       "step": 86
     },
     {
       "epoch": 0.35080645161290325,
+      "grad_norm": 5.502566337585449,
       "learning_rate": 3.6293291056156178e-06,
+      "loss": 1.5015,
+      "mean_token_accuracy": 0.5971802473068237,
+      "num_tokens": 154783.0,
       "step": 87
     },
     {
       "epoch": 0.3548387096774194,
+      "grad_norm": 5.598520755767822,
       "learning_rate": 3.600985378894086e-06,
+      "loss": 1.6132,
+      "mean_token_accuracy": 0.5847665667533875,
+      "num_tokens": 156820.0,
       "step": 88
     },
     {
       "epoch": 0.3588709677419355,
+      "grad_norm": 5.761752605438232,
       "learning_rate": 3.572464978381719e-06,
+      "loss": 1.5378,
+      "mean_token_accuracy": 0.5998993515968323,
+      "num_tokens": 158809.0,
       "step": 89
     },
     {
       "epoch": 0.3629032258064516,
+      "grad_norm": 6.394772529602051,
       "learning_rate": 3.5437724807126583e-06,
+      "loss": 1.5489,
+      "mean_token_accuracy": 0.597762405872345,
+      "num_tokens": 160688.0,
       "step": 90
     },
     {
       "epoch": 0.36693548387096775,
+      "grad_norm": 5.892634868621826,
       "learning_rate": 3.514912490137268e-06,
+      "loss": 1.3987,
+      "mean_token_accuracy": 0.634549617767334,
+      "num_tokens": 162444.0,
       "step": 91
     },
     {
       "epoch": 0.3709677419354839,
+      "grad_norm": 6.148153305053711,
       "learning_rate": 3.4858896377832966e-06,
+      "loss": 1.5568,
+      "mean_token_accuracy": 0.5997700095176697,
+      "num_tokens": 164185.0,
       "step": 92
     },
     {
       "epoch": 0.375,
+      "grad_norm": 5.827703952789307,
       "learning_rate": 3.4567085809127247e-06,
+      "loss": 1.6176,
+      "mean_token_accuracy": 0.6020779013633728,
+      "num_tokens": 166112.0,
       "step": 93
     },
     {
       "epoch": 0.3790322580645161,
+      "grad_norm": 5.979760646820068,
       "learning_rate": 3.42737400217442e-06,
+      "loss": 1.6762,
+      "mean_token_accuracy": 0.574064314365387,
+      "num_tokens": 168011.0,
       "step": 94
     },
     {
       "epoch": 0.38306451612903225,
+      "grad_norm": 6.755500793457031,
       "learning_rate": 3.397890608852718e-06,
+      "loss": 1.6051,
+      "mean_token_accuracy": 0.5879656076431274,
+      "num_tokens": 169758.0,
       "step": 95
     },
     {
       "epoch": 0.3870967741935484,
+      "grad_norm": 6.7287068367004395,
       "learning_rate": 3.3682631321120507e-06,
+      "loss": 1.5288,
+      "mean_token_accuracy": 0.6041095852851868,
+      "num_tokens": 171220.0,
       "step": 96
     },
     {
       "epoch": 0.3911290322580645,
+      "grad_norm": 6.124728679656982,
       "learning_rate": 3.3384963262377434e-06,
+      "loss": 1.5012,
+      "mean_token_accuracy": 0.5954991579055786,
+      "num_tokens": 172955.0,
       "step": 97
     },
     {
       "epoch": 0.3951612903225806,
+      "grad_norm": 5.964875221252441,
       "learning_rate": 3.3085949678730953e-06,
+      "loss": 1.4252,
+      "mean_token_accuracy": 0.6224677562713623,
+      "num_tokens": 174586.0,
       "step": 98
     },
     {
       "epoch": 0.39919354838709675,
+      "grad_norm": 6.314966678619385,
       "learning_rate": 3.278563855252885e-06,
+      "loss": 1.4519,
+      "mean_token_accuracy": 0.630832850933075,
+      "num_tokens": 176281.0,
       "step": 99
     },
     {
       "epoch": 0.4032258064516129,
+      "grad_norm": 6.121771812438965,
       "learning_rate": 3.248407807433396e-06,
+      "loss": 1.541,
+      "mean_token_accuracy": 0.5919907093048096,
+      "num_tokens": 178006.0,
       "step": 100
     },
     {
       "epoch": 0.40725806451612906,
+      "grad_norm": 6.246324062347412,
       "learning_rate": 3.2181316635191125e-06,
+      "loss": 1.4925,
+      "mean_token_accuracy": 0.6121912598609924,
+      "num_tokens": 179911.0,
       "step": 101
     },
     {
       "epoch": 0.4112903225806452,
+      "grad_norm": 5.7846221923828125,
       "learning_rate": 3.1877402818861954e-06,
+      "loss": 1.5096,
+      "mean_token_accuracy": 0.6097561120986938,
+      "num_tokens": 181799.0,
       "step": 102
     },
     {
       "epoch": 0.4153225806451613,
+      "grad_norm": 5.7426252365112305,
       "learning_rate": 3.157238539402862e-06,
+      "loss": 1.4982,
+      "mean_token_accuracy": 0.5930666923522949,
+      "num_tokens": 183676.0,
       "step": 103
     },
     {
       "epoch": 0.41935483870967744,
+      "grad_norm": 6.007601261138916,
       "learning_rate": 3.1266313306468018e-06,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.6020166277885437,
+      "num_tokens": 185364.0,
       "step": 104
     },
     {
       "epoch": 0.42338709677419356,
+      "grad_norm": 6.339498519897461,
       "learning_rate": 3.095923567119748e-06,
+      "loss": 1.5713,
+      "mean_token_accuracy": 0.5824423432350159,
+      "num_tokens": 187143.0,
       "step": 105
     },
     {
       "epoch": 0.4274193548387097,
+      "grad_norm": 6.260862827301025,
       "learning_rate": 3.0651201764593375e-06,
+      "loss": 1.6099,
+      "mean_token_accuracy": 0.5965318083763123,
+      "num_tokens": 188875.0,
       "step": 106
     },
     {
       "epoch": 0.4314516129032258,
+      "grad_norm": 5.941509246826172,
       "learning_rate": 3.034226101648377e-06,
+      "loss": 1.6252,
+      "mean_token_accuracy": 0.586152195930481,
+      "num_tokens": 190769.0,
       "step": 107
     },
     {
       "epoch": 0.43548387096774194,
+      "grad_norm": 5.4027509689331055,
       "learning_rate": 3.0032463002216504e-06,
+      "loss": 1.3669,
+      "mean_token_accuracy": 0.6161772012710571,
+      "num_tokens": 192712.0,
       "step": 108
     },
     {
       "epoch": 0.43951612903225806,
+      "grad_norm": 5.507197856903076,
       "learning_rate": 2.972185743470386e-06,
+      "loss": 1.5409,
+      "mean_token_accuracy": 0.6028755307197571,
+      "num_tokens": 194731.0,
       "step": 109
     },
     {
       "epoch": 0.4435483870967742,
+      "grad_norm": 6.563897609710693,
       "learning_rate": 2.941049415644522e-06,
+      "loss": 1.5292,
+      "mean_token_accuracy": 0.6081171035766602,
+      "num_tokens": 196236.0,
       "step": 110
     },
     {
       "epoch": 0.4475806451612903,
+      "grad_norm": 6.108341693878174,
       "learning_rate": 2.909842313152888e-06,
+      "loss": 1.5694,
+      "mean_token_accuracy": 0.5977421402931213,
+      "num_tokens": 197921.0,
       "step": 111
     },
     {
       "epoch": 0.45161290322580644,
+      "grad_norm": 5.4269256591796875,
       "learning_rate": 2.878569443761442e-06,
+      "loss": 1.4808,
+      "mean_token_accuracy": 0.6034912467002869,
+      "num_tokens": 199928.0,
       "step": 112
     },
     {
       "epoch": 0.45564516129032256,
+      "grad_norm": 6.073188304901123,
       "learning_rate": 2.847235825789673e-06,
+      "loss": 1.5251,
+      "mean_token_accuracy": 0.6071428656578064,
+      "num_tokens": 201750.0,
       "step": 113
     },
     {
       "epoch": 0.4596774193548387,
+      "grad_norm": 6.206169605255127,
       "learning_rate": 2.8158464873053236e-06,
+      "loss": 1.6275,
+      "mean_token_accuracy": 0.5718509554862976,
+      "num_tokens": 203443.0,
       "step": 114
     },
     {
       "epoch": 0.4637096774193548,
+      "grad_norm": 6.5099616050720215,
       "learning_rate": 2.784406465317538e-06,
+      "loss": 1.4364,
+      "mean_token_accuracy": 0.6256089210510254,
+      "num_tokens": 204882.0,
       "step": 115
     },
     {
       "epoch": 0.46774193548387094,
+      "grad_norm": 5.677121639251709,
       "learning_rate": 2.752920804968581e-06,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.5985877513885498,
+      "num_tokens": 206725.0,
       "step": 116
     },
     {
       "epoch": 0.4717741935483871,
+      "grad_norm": 5.99458646774292,
       "learning_rate": 2.7213945587242507e-06,
+      "loss": 1.6479,
+      "mean_token_accuracy": 0.5737704634666443,
+      "num_tokens": 208740.0,
       "step": 117
     },
     {
       "epoch": 0.47580645161290325,
+      "grad_norm": 5.447024822235107,
       "learning_rate": 2.689832785563116e-06,
+      "loss": 1.5805,
+      "mean_token_accuracy": 0.5884652733802795,
+      "num_tokens": 210788.0,
       "step": 118
     },
     {
       "epoch": 0.4798387096774194,
+      "grad_norm": 5.383421421051025,
       "learning_rate": 2.658240550164704e-06,
+      "loss": 1.5772,
+      "mean_token_accuracy": 0.5977517366409302,
+      "num_tokens": 212836.0,
       "step": 119
     },
     {
       "epoch": 0.4838709677419355,
+      "grad_norm": 6.088338375091553,
       "learning_rate": 2.626622922096782e-06,
+      "loss": 1.565,
+      "mean_token_accuracy": 0.5961331725120544,
+      "num_tokens": 214700.0,
       "step": 120
     },
     {
       "epoch": 0.4879032258064516,
+      "grad_norm": 5.788651466369629,
       "learning_rate": 2.5949849750018486e-06,
+      "loss": 1.3632,
+      "mean_token_accuracy": 0.6446384191513062,
+      "num_tokens": 216306.0,
       "step": 121
     },
     {
       "epoch": 0.49193548387096775,
+      "grad_norm": 5.829148769378662,
       "learning_rate": 2.56333178578297e-06,
+      "loss": 1.6738,
+      "mean_token_accuracy": 0.574331521987915,
+      "num_tokens": 218178.0,
       "step": 122
     },
     {
       "epoch": 0.4959677419354839,
+      "grad_norm": 5.958081245422363,
       "learning_rate": 2.5316684337891005e-06,
+      "loss": 1.3764,
+      "mean_token_accuracy": 0.6442367434501648,
+      "num_tokens": 219785.0,
       "step": 123
     },
     {
       "epoch": 0.5,
+      "grad_norm": 6.186583995819092,
       "learning_rate": 2.5e-06,
+      "loss": 1.4931,
+      "mean_token_accuracy": 0.6139564514160156,
+      "num_tokens": 221349.0,
       "step": 124
     },
     {
       "epoch": 0.5040322580645161,
+      "grad_norm": 5.803173542022705,
       "learning_rate": 2.4683315662109003e-06,
+      "loss": 1.5739,
+      "mean_token_accuracy": 0.58859783411026,
+      "num_tokens": 223298.0,
       "step": 125
     },
     {
       "epoch": 0.5080645161290323,
+      "grad_norm": 5.776984214782715,
       "learning_rate": 2.436668214217031e-06,
+      "loss": 1.5603,
+      "mean_token_accuracy": 0.5867098569869995,
+      "num_tokens": 225151.0,
       "step": 126
     },
     {
       "epoch": 0.5120967741935484,
+      "grad_norm": 5.5442094802856445,
       "learning_rate": 2.4050150249981522e-06,
+      "loss": 1.4753,
+      "mean_token_accuracy": 0.6018254160881042,
+      "num_tokens": 226906.0,
       "step": 127
     },
     {
       "epoch": 0.5161290322580645,
+      "grad_norm": 5.492681503295898,
       "learning_rate": 2.3733770779032185e-06,
+      "loss": 1.6577,
+      "mean_token_accuracy": 0.5733202695846558,
+      "num_tokens": 228947.0,
       "step": 128
     },
     {
       "epoch": 0.5201612903225806,
+      "grad_norm": 5.890382766723633,
       "learning_rate": 2.341759449835297e-06,
+      "loss": 1.5399,
+      "mean_token_accuracy": 0.5982404947280884,
+      "num_tokens": 230995.0,
       "step": 129
     },
     {
       "epoch": 0.5241935483870968,
+      "grad_norm": 5.885677337646484,
       "learning_rate": 2.310167214436885e-06,
+      "loss": 1.5541,
+      "mean_token_accuracy": 0.6021798253059387,
+      "num_tokens": 232832.0,
       "step": 130
     },
     {
       "epoch": 0.5282258064516129,
+      "grad_norm": 5.711495876312256,
       "learning_rate": 2.27860544127575e-06,
+      "loss": 1.5311,
+      "mean_token_accuracy": 0.5873016119003296,
+      "num_tokens": 234598.0,
       "step": 131
     },
     {
       "epoch": 0.532258064516129,
+      "grad_norm": 5.489191055297852,
       "learning_rate": 2.24707919503142e-06,
+      "loss": 1.4668,
+      "mean_token_accuracy": 0.6193058490753174,
+      "num_tokens": 236444.0,
       "step": 132
     },
     {
       "epoch": 0.5362903225806451,
+      "grad_norm": 5.6918110847473145,
       "learning_rate": 2.2155935346824634e-06,
+      "loss": 1.5273,
+      "mean_token_accuracy": 0.6107238531112671,
+      "num_tokens": 238311.0,
       "step": 133
     },
     {
       "epoch": 0.5403225806451613,
+      "grad_norm": 6.0905938148498535,
       "learning_rate": 2.1841535126946777e-06,
+      "loss": 1.5814,
+      "mean_token_accuracy": 0.6002208590507507,
+      "num_tokens": 240124.0,
       "step": 134
     },
     {
       "epoch": 0.5443548387096774,
+      "grad_norm": 5.952730178833008,
       "learning_rate": 2.1527641742103282e-06,
+      "loss": 1.4447,
+      "mean_token_accuracy": 0.6165267825126648,
+      "num_tokens": 241675.0,
       "step": 135
     },
     {
       "epoch": 0.5483870967741935,
+      "grad_norm": 6.087653160095215,
       "learning_rate": 2.1214305562385592e-06,
+      "loss": 1.6968,
+      "mean_token_accuracy": 0.5795266628265381,
+      "num_tokens": 243494.0,
       "step": 136
     },
     {
       "epoch": 0.5524193548387096,
+      "grad_norm": 5.839648246765137,
       "learning_rate": 2.0901576868471125e-06,
+      "loss": 1.7217,
+      "mean_token_accuracy": 0.5630123019218445,
+      "num_tokens": 245448.0,
       "step": 137
     },
     {
       "epoch": 0.5564516129032258,
+      "grad_norm": 5.999613285064697,
       "learning_rate": 2.05895058435548e-06,
+      "loss": 1.3948,
+      "mean_token_accuracy": 0.6161738038063049,
+      "num_tokens": 247107.0,
       "step": 138
     },
     {
       "epoch": 0.5604838709677419,
+      "grad_norm": 5.091090202331543,
       "learning_rate": 2.0278142565296153e-06,
+      "loss": 1.4922,
+      "mean_token_accuracy": 0.607038140296936,
+      "num_tokens": 249155.0,
       "step": 139
     },
     {
       "epoch": 0.5645161290322581,
+      "grad_norm": 5.5148539543151855,
       "learning_rate": 1.9967536997783495e-06,
+      "loss": 1.5327,
+      "mean_token_accuracy": 0.6058357954025269,
+      "num_tokens": 251179.0,
       "step": 140
     },
     {
       "epoch": 0.5685483870967742,
+      "grad_norm": 6.003233432769775,
       "learning_rate": 1.9657738983516227e-06,
+      "loss": 1.5269,
+      "mean_token_accuracy": 0.592024564743042,
+      "num_tokens": 253137.0,
       "step": 141
     },
     {
       "epoch": 0.5725806451612904,
+      "grad_norm": 5.6866068840026855,
       "learning_rate": 1.934879823540663e-06,
+      "loss": 1.4626,
+      "mean_token_accuracy": 0.6116965413093567,
+      "num_tokens": 255037.0,
       "step": 142
     },
     {
       "epoch": 0.5766129032258065,
+      "grad_norm": 5.541101455688477,
       "learning_rate": 1.9040764328802523e-06,
+      "loss": 1.3471,
+      "mean_token_accuracy": 0.6364172101020813,
+      "num_tokens": 256736.0,
       "step": 143
     },
     {
       "epoch": 0.5806451612903226,
+      "grad_norm": 5.830052375793457,
       "learning_rate": 1.8733686693531986e-06,
+      "loss": 1.5507,
+      "mean_token_accuracy": 0.5932571887969971,
+      "num_tokens": 258577.0,
       "step": 144
     },
     {
       "epoch": 0.5846774193548387,
+      "grad_norm": 6.131454944610596,
       "learning_rate": 1.842761460597138e-06,
+      "loss": 1.4502,
+      "mean_token_accuracy": 0.633840024471283,
+      "num_tokens": 260092.0,
       "step": 145
     },
     {
       "epoch": 0.5887096774193549,
+      "grad_norm": 7.0200324058532715,
       "learning_rate": 1.812259718113805e-06,
+      "loss": 1.5706,
+      "mean_token_accuracy": 0.5800653696060181,
+      "num_tokens": 261930.0,
       "step": 146
     },
     {
       "epoch": 0.592741935483871,
+      "grad_norm": 6.529550552368164,
       "learning_rate": 1.7818683364808883e-06,
+      "loss": 1.6779,
+      "mean_token_accuracy": 0.5723379850387573,
+      "num_tokens": 263660.0,
       "step": 147
     },
     {
       "epoch": 0.5967741935483871,
+      "grad_norm": 6.201499938964844,
       "learning_rate": 1.7515921925666053e-06,
+      "loss": 1.5537,
+      "mean_token_accuracy": 0.5979142785072327,
+      "num_tokens": 265388.0,
       "step": 148
     },
     {
       "epoch": 0.6008064516129032,
+      "grad_norm": 6.028550624847412,
       "learning_rate": 1.7214361447471156e-06,
+      "loss": 1.5809,
+      "mean_token_accuracy": 0.5865436792373657,
+      "num_tokens": 267233.0,
       "step": 149
     },
     {
       "epoch": 0.6048387096774194,
+      "grad_norm": 5.58845853805542,
       "learning_rate": 1.6914050321269049e-06,
+      "loss": 1.4061,
+      "mean_token_accuracy": 0.623369574546814,
+      "num_tokens": 269075.0,
       "step": 150
     },
     {
       "epoch": 0.6088709677419355,
+      "grad_norm": 6.210185527801514,
       "learning_rate": 1.6615036737622574e-06,
+      "loss": 1.6096,
+      "mean_token_accuracy": 0.5861111283302307,
+      "num_tokens": 270877.0,
       "step": 151
     },
     {
       "epoch": 0.6129032258064516,
+      "grad_norm": 6.132157325744629,
       "learning_rate": 1.6317368678879497e-06,
+      "loss": 1.6248,
+      "mean_token_accuracy": 0.5724177956581116,
+      "num_tokens": 272612.0,
       "step": 152
     },
     {
       "epoch": 0.6169354838709677,
+      "grad_norm": 6.025227069854736,
       "learning_rate": 1.6021093911472825e-06,
+      "loss": 1.5701,
+      "mean_token_accuracy": 0.5928652286529541,
+      "num_tokens": 274380.0,
       "step": 153
     },
     {
       "epoch": 0.6209677419354839,
+      "grad_norm": 5.912363529205322,
       "learning_rate": 1.572625997825581e-06,
+      "loss": 1.4989,
+      "mean_token_accuracy": 0.5981630086898804,
+      "num_tokens": 276124.0,
       "step": 154
     },
     {
       "epoch": 0.625,
+      "grad_norm": 5.779432773590088,
       "learning_rate": 1.5432914190872757e-06,
+      "loss": 1.4394,
+      "mean_token_accuracy": 0.6316964030265808,
+      "num_tokens": 277918.0,
       "step": 155
     },
     {
       "epoch": 0.6290322580645161,
+      "grad_norm": 5.328639984130859,
       "learning_rate": 1.5141103622167042e-06,
+      "loss": 1.4466,
+      "mean_token_accuracy": 0.6170212626457214,
+      "num_tokens": 279800.0,
       "step": 156
     },
     {
       "epoch": 0.6330645161290323,
+      "grad_norm": 6.32019567489624,
       "learning_rate": 1.4850875098627326e-06,
+      "loss": 1.5899,
+      "mean_token_accuracy": 0.6091743111610413,
+      "num_tokens": 281437.0,
       "step": 157
     },
     {
       "epoch": 0.6370967741935484,
+      "grad_norm": 5.477099418640137,
       "learning_rate": 1.456227519287343e-06,
+      "loss": 1.5322,
+      "mean_token_accuracy": 0.5986914038658142,
+      "num_tokens": 283273.0,
       "step": 158
     },
     {
       "epoch": 0.6411290322580645,
+      "grad_norm": 6.026065349578857,
       "learning_rate": 1.4275350216182824e-06,
+      "loss": 1.3874,
+      "mean_token_accuracy": 0.6260971426963806,
+      "num_tokens": 284984.0,
       "step": 159
     },
     {
       "epoch": 0.6451612903225806,
+      "grad_norm": 5.370904922485352,
       "learning_rate": 1.3990146211059141e-06,
+      "loss": 1.5299,
+      "mean_token_accuracy": 0.6030451059341431,
+      "num_tokens": 286825.0,
       "step": 160
     },
     {
       "epoch": 0.6491935483870968,
+      "grad_norm": 5.8816633224487305,
       "learning_rate": 1.3706708943843822e-06,
+      "loss": 1.4889,
+      "mean_token_accuracy": 0.6019198298454285,
+      "num_tokens": 288598.0,
       "step": 161
     },
     {
       "epoch": 0.6532258064516129,
+      "grad_norm": 6.100244522094727,
       "learning_rate": 1.3425083897371983e-06,
+      "loss": 1.4759,
+      "mean_token_accuracy": 0.6230722069740295,
+      "num_tokens": 290221.0,
       "step": 162
     },
     {
       "epoch": 0.657258064516129,
+      "grad_norm": 5.920684337615967,
       "learning_rate": 1.3145316263673874e-06,
+      "loss": 1.5585,
+      "mean_token_accuracy": 0.5871710777282715,
+      "num_tokens": 292047.0,
       "step": 163
     },
     {
       "epoch": 0.6612903225806451,
+      "grad_norm": 6.059237003326416,
       "learning_rate": 1.286745093672298e-06,
+      "loss": 1.5276,
+      "mean_token_accuracy": 0.6024376153945923,
+      "num_tokens": 293772.0,
       "step": 164
     },
     {
       "epoch": 0.6653225806451613,
+      "grad_norm": 5.7648701667785645,
       "learning_rate": 1.2591532505231906e-06,
+      "loss": 1.5058,
+      "mean_token_accuracy": 0.5996025800704956,
+      "num_tokens": 295787.0,
       "step": 165
     },
     {
       "epoch": 0.6693548387096774,
+      "grad_norm": 5.578222274780273,
       "learning_rate": 1.2317605245497324e-06,
+      "loss": 1.5277,
+      "mean_token_accuracy": 0.5919329524040222,
+      "num_tokens": 297698.0,
       "step": 166
     },
     {
       "epoch": 0.6733870967741935,
+      "grad_norm": 5.404395580291748,
       "learning_rate": 1.204571311429496e-06,
+      "loss": 1.4855,
+      "mean_token_accuracy": 0.5967162847518921,
+      "num_tokens": 299649.0,
       "step": 167
     },
     {
       "epoch": 0.6774193548387096,
+      "grad_norm": 6.532902240753174,
       "learning_rate": 1.1775899741825947e-06,
+      "loss": 1.4942,
+      "mean_token_accuracy": 0.5987738370895386,
+      "num_tokens": 301119.0,
       "step": 168
     },
     {
       "epoch": 0.6814516129032258,
+      "grad_norm": 6.508765697479248,
       "learning_rate": 1.1508208424715511e-06,
+      "loss": 1.5848,
+      "mean_token_accuracy": 0.5865746736526489,
+      "num_tokens": 302715.0,
       "step": 169
     },
     {
       "epoch": 0.6854838709677419,
+      "grad_norm": 5.411791801452637,
       "learning_rate": 1.1242682119065217e-06,
+      "loss": 1.4479,
+      "mean_token_accuracy": 0.6116002202033997,
+      "num_tokens": 304648.0,
       "step": 170
     },
     {
       "epoch": 0.6895161290322581,
+      "grad_norm": 6.0362548828125,
       "learning_rate": 1.0979363433559892e-06,
+      "loss": 1.5337,
+      "mean_token_accuracy": 0.5946902632713318,
+      "num_tokens": 306345.0,
       "step": 171
     },
     {
       "epoch": 0.6935483870967742,
+      "grad_norm": 6.6355743408203125,
       "learning_rate": 1.0718294622630188e-06,
+      "loss": 1.5346,
+      "mean_token_accuracy": 0.6140100359916687,
+      "num_tokens": 307746.0,
       "step": 172
     },
     {
       "epoch": 0.6975806451612904,
+      "grad_norm": 5.8390421867370605,
       "learning_rate": 1.045951757967215e-06,
+      "loss": 1.5117,
+      "mean_token_accuracy": 0.6113694906234741,
+      "num_tokens": 309683.0,
       "step": 173
     },
     {
       "epoch": 0.7016129032258065,
+      "grad_norm": 6.209187030792236,
       "learning_rate": 1.0203073830324566e-06,
+      "loss": 1.4862,
+      "mean_token_accuracy": 0.6215522885322571,
+      "num_tokens": 311244.0,
       "step": 174
     },
     {
       "epoch": 0.7056451612903226,
+      "grad_norm": 5.811971664428711,
       "learning_rate": 9.949004525805423e-07,
+      "loss": 1.4113,
+      "mean_token_accuracy": 0.625806450843811,
+      "num_tokens": 312796.0,
       "step": 175
     },
     {
       "epoch": 0.7096774193548387,
+      "grad_norm": 6.348616600036621,
       "learning_rate": 9.697350436308428e-07,
+      "loss": 1.4407,
+      "mean_token_accuracy": 0.614819347858429,
+      "num_tokens": 314431.0,
       "step": 176
     },
     {
       "epoch": 0.7137096774193549,
+      "grad_norm": 5.936633110046387,
       "learning_rate": 9.448151944460657e-07,
+      "loss": 1.6396,
+      "mean_token_accuracy": 0.5756798386573792,
+      "num_tokens": 316382.0,
       "step": 177
     },
     {
       "epoch": 0.717741935483871,
+      "grad_norm": 5.856295585632324,
       "learning_rate": 9.201449038842403e-07,
+      "loss": 1.5693,
+      "mean_token_accuracy": 0.6030020713806152,
+      "num_tokens": 318316.0,
       "step": 178
     },
     {
       "epoch": 0.7217741935483871,
+      "grad_norm": 6.206198215484619,
       "learning_rate": 8.957281307570254e-07,
+      "loss": 1.4272,
+      "mean_token_accuracy": 0.6132633090019226,
+      "num_tokens": 319841.0,
       "step": 179
     },
     {
       "epoch": 0.7258064516129032,
+      "grad_norm": 5.620049476623535,
       "learning_rate": 8.71568793194445e-07,
+      "loss": 1.5291,
+      "mean_token_accuracy": 0.6036797761917114,
+      "num_tokens": 321854.0,
       "step": 180
     },
     {
       "epoch": 0.7298387096774194,
+      "grad_norm": 5.8175177574157715,
       "learning_rate": 8.476707680161486e-07,
+      "loss": 1.4948,
+      "mean_token_accuracy": 0.5953565239906311,
+      "num_tokens": 323665.0,
       "step": 181
     },
     {
       "epoch": 0.7338709677419355,
+      "grad_norm": 5.765270709991455,
       "learning_rate": 8.240378901093035e-07,
+      "loss": 1.5781,
+      "mean_token_accuracy": 0.6022663116455078,
+      "num_tokens": 325432.0,
       "step": 182
     },
     {
       "epoch": 0.7379032258064516,
+      "grad_norm": 6.488076686859131,
       "learning_rate": 8.006739518132179e-07,
+      "loss": 1.5952,
+      "mean_token_accuracy": 0.5865209698677063,
+      "num_tokens": 327081.0,
       "step": 183
     },
     {
       "epoch": 0.7419354838709677,
+      "grad_norm": 6.85787296295166,
       "learning_rate": 7.775827023107835e-07,
+      "loss": 1.5112,
+      "mean_token_accuracy": 0.6159420013427734,
+      "num_tokens": 328463.0,
       "step": 184
     },
     {
       "epoch": 0.7459677419354839,
+      "grad_norm": 5.89924955368042,
       "learning_rate": 7.547678470268526e-07,
+      "loss": 1.4708,
+      "mean_token_accuracy": 0.615646243095398,
+      "num_tokens": 330229.0,
       "step": 185
     },
     {
       "epoch": 0.75,
+      "grad_norm": 5.8790812492370605,
       "learning_rate": 7.322330470336314e-07,
+      "loss": 1.6306,
+      "mean_token_accuracy": 0.5779411792755127,
+      "num_tokens": 332271.0,
       "step": 186
     },
     {
       "epoch": 0.7540322580645161,
+      "grad_norm": 5.292142391204834,
       "learning_rate": 7.099819184631929e-07,
+      "loss": 1.4507,
+      "mean_token_accuracy": 0.6181613206863403,
+      "num_tokens": 334046.0,
       "step": 187
     },
     {
       "epoch": 0.7580645161290323,
+      "grad_norm": 5.520077228546143,
       "learning_rate": 6.880180319272006e-07,
+      "loss": 1.4124,
+      "mean_token_accuracy": 0.6184003949165344,
+      "num_tokens": 335961.0,
       "step": 188
     },
     {
       "epoch": 0.7620967741935484,
+      "grad_norm": 5.447739124298096,
       "learning_rate": 6.663449119439358e-07,
+      "loss": 1.5101,
+      "mean_token_accuracy": 0.6079999804496765,
+      "num_tokens": 337838.0,
       "step": 189
     },
     {
       "epoch": 0.7661290322580645,
+      "grad_norm": 5.440929889678955,
       "learning_rate": 6.449660363727236e-07,
+      "loss": 1.5131,
+      "mean_token_accuracy": 0.5955055952072144,
+      "num_tokens": 339709.0,
       "step": 190
     },
     {
       "epoch": 0.7701612903225806,
+      "grad_norm": 6.182394504547119,
       "learning_rate": 6.238848358558439e-07,
+      "loss": 1.485,
+      "mean_token_accuracy": 0.6035979986190796,
+      "num_tokens": 341323.0,
       "step": 191
     },
     {
       "epoch": 0.7741935483870968,
+      "grad_norm": 6.693000793457031,
       "learning_rate": 6.031046932680229e-07,
+      "loss": 1.4743,
+      "mean_token_accuracy": 0.6190476417541504,
+      "num_tokens": 342627.0,
       "step": 192
     },
     {
       "epoch": 0.7782258064516129,
+      "grad_norm": 5.218486309051514,
       "learning_rate": 5.826289431735832e-07,
+      "loss": 1.4456,
+      "mean_token_accuracy": 0.6149131655693054,
+      "num_tokens": 344587.0,
       "step": 193
     },
     {
       "epoch": 0.782258064516129,
+      "grad_norm": 6.235224723815918,
       "learning_rate": 5.624608712913531e-07,
+      "loss": 1.3816,
+      "mean_token_accuracy": 0.6143410801887512,
+      "num_tokens": 346137.0,
       "step": 194
     },
     {
       "epoch": 0.7862903225806451,
+      "grad_norm": 5.2699761390686035,
       "learning_rate": 5.426037139674117e-07,
+      "loss": 1.4791,
+      "mean_token_accuracy": 0.6150712966918945,
+      "num_tokens": 348103.0,
       "step": 195
     },
     {
       "epoch": 0.7903225806451613,
+      "grad_norm": 5.843770980834961,
       "learning_rate": 5.23060657655754e-07,
+      "loss": 1.5063,
+      "mean_token_accuracy": 0.6077738404273987,
+      "num_tokens": 350086.0,
       "step": 196
     },
     {
       "epoch": 0.7943548387096774,
+      "grad_norm": 5.2697248458862305,
       "learning_rate": 5.038348384069663e-07,
+      "loss": 1.4611,
+      "mean_token_accuracy": 0.6173697113990784,
+      "num_tokens": 352103.0,
       "step": 197
     },
     {
       "epoch": 0.7983870967741935,
+      "grad_norm": 5.984487056732178,
       "learning_rate": 4.84929341364988e-07,
+      "loss": 1.5012,
+      "mean_token_accuracy": 0.6050000190734863,
+      "num_tokens": 353905.0,
       "step": 198
     },
     {
       "epoch": 0.8024193548387096,
+      "grad_norm": 5.947335243225098,
       "learning_rate": 4.6634720027204093e-07,
+      "loss": 1.4547,
+      "mean_token_accuracy": 0.6180400848388672,
+      "num_tokens": 355703.0,
       "step": 199
     },
     {
       "epoch": 0.8064516129032258,
+      "grad_norm": 5.749611854553223,
       "learning_rate": 4.480913969818099e-07,
+      "loss": 1.5199,
+      "mean_token_accuracy": 0.5952813029289246,
+      "num_tokens": 357358.0,
       "step": 200
     },
     {
       "epoch": 0.8104838709677419,
+      "grad_norm": 5.199901580810547,
       "learning_rate": 4.3016486098094667e-07,
+      "loss": 1.47,
+      "mean_token_accuracy": 0.6163245439529419,
+      "num_tokens": 359406.0,
       "step": 201
     },
     {
       "epoch": 0.8145161290322581,
+      "grad_norm": 5.465948581695557,
       "learning_rate": 4.125704689189819e-07,
+      "loss": 1.5307,
+      "mean_token_accuracy": 0.6006842851638794,
+      "num_tokens": 361454.0,
       "step": 202
     },
     {
       "epoch": 0.8185483870967742,
+      "grad_norm": 5.9000749588012695,
       "learning_rate": 3.953110441467073e-07,
+      "loss": 1.4202,
+      "mean_token_accuracy": 0.6333949565887451,
+      "num_tokens": 363079.0,
       "step": 203
     },
     {
       "epoch": 0.8225806451612904,
+      "grad_norm": 5.953113555908203,
       "learning_rate": 3.7838935626312246e-07,
+      "loss": 1.4819,
+      "mean_token_accuracy": 0.6164458990097046,
+      "num_tokens": 364893.0,
       "step": 204
     },
     {
       "epoch": 0.8266129032258065,
+      "grad_norm": 5.6844892501831055,
       "learning_rate": 3.6180812067099477e-07,
+      "loss": 1.4199,
+      "mean_token_accuracy": 0.6286211013793945,
+      "num_tokens": 366621.0,
       "step": 205
     },
     {
       "epoch": 0.8306451612903226,
+      "grad_norm": 5.685678482055664,
       "learning_rate": 3.455699981411259e-07,
+      "loss": 1.5947,
+      "mean_token_accuracy": 0.5794117450714111,
+      "num_tokens": 368663.0,
       "step": 206
     },
     {
       "epoch": 0.8346774193548387,
+      "grad_norm": 5.832515716552734,
       "learning_rate": 3.296775943853789e-07,
+      "loss": 1.419,
+      "mean_token_accuracy": 0.6132450103759766,
+      "num_tokens": 370175.0,
       "step": 207
     },
     {
       "epoch": 0.8387096774193549,
+      "grad_norm": 5.6208720207214355,
       "learning_rate": 3.141334596385448e-07,
+      "loss": 1.4981,
+      "mean_token_accuracy": 0.6034953594207764,
+      "num_tokens": 372008.0,
       "step": 208
     },
     {
       "epoch": 0.842741935483871,
+      "grad_norm": 5.669355869293213,
       "learning_rate": 2.9894008824910726e-07,
+      "loss": 1.5807,
+      "mean_token_accuracy": 0.591269850730896,
+      "num_tokens": 374026.0,
       "step": 209
     },
     {
       "epoch": 0.8467741935483871,
+      "grad_norm": 5.443574905395508,
       "learning_rate": 2.840999182789797e-07,
+      "loss": 1.4487,
+      "mean_token_accuracy": 0.6099706888198853,
+      "num_tokens": 376074.0,
       "step": 210
     },
     {
       "epoch": 0.8508064516129032,
+      "grad_norm": 5.724096298217773,
       "learning_rate": 2.696153311122704e-07,
+      "loss": 1.6509,
+      "mean_token_accuracy": 0.5762162208557129,
+      "num_tokens": 377926.0,
       "step": 211
     },
     {
       "epoch": 0.8548387096774194,
+      "grad_norm": 6.077378749847412,
       "learning_rate": 2.5548865107314606e-07,
+      "loss": 1.461,
+      "mean_token_accuracy": 0.6061684489250183,
+      "num_tokens": 379614.0,
       "step": 212
     },
     {
       "epoch": 0.8588709677419355,
+      "grad_norm": 5.7304229736328125,
       "learning_rate": 2.4172214505285006e-07,
+      "loss": 1.4963,
+      "mean_token_accuracy": 0.6054667234420776,
+      "num_tokens": 381555.0,
       "step": 213
     },
     {
       "epoch": 0.8629032258064516,
+      "grad_norm": 5.604650020599365,
       "learning_rate": 2.2831802214593774e-07,
+      "loss": 1.6199,
+      "mean_token_accuracy": 0.5726895332336426,
+      "num_tokens": 383483.0,
       "step": 214
     },
     {
       "epoch": 0.8669354838709677,
+      "grad_norm": 5.319303512573242,
       "learning_rate": 2.1527843329578328e-07,
+      "loss": 1.5539,
+      "mean_token_accuracy": 0.597201406955719,
+      "num_tokens": 385486.0,
       "step": 215
     },
     {
       "epoch": 0.8709677419354839,
+      "grad_norm": 5.75916862487793,
       "learning_rate": 2.026054709494235e-07,
+      "loss": 1.498,
+      "mean_token_accuracy": 0.6148062348365784,
+      "num_tokens": 387217.0,
       "step": 216
     },
     {
       "epoch": 0.875,
+      "grad_norm": 6.274486541748047,
       "learning_rate": 1.9030116872178317e-07,
+      "loss": 1.4691,
+      "mean_token_accuracy": 0.6093660593032837,
+      "num_tokens": 388970.0,
       "step": 217
     },
     {
       "epoch": 0.8790322580645161,
+      "grad_norm": 5.682790756225586,
       "learning_rate": 1.7836750106934475e-07,
+      "loss": 1.4487,
+      "mean_token_accuracy": 0.6198156476020813,
+      "num_tokens": 390708.0,
       "step": 218
     },
     {
       "epoch": 0.8830645161290323,
+      "grad_norm": 6.133249282836914,
       "learning_rate": 1.6680638297330854e-07,
+      "loss": 1.4905,
+      "mean_token_accuracy": 0.5962441563606262,
+      "num_tokens": 392414.0,
       "step": 219
     },
     {
       "epoch": 0.8870967741935484,
+      "grad_norm": 6.2251386642456055,
       "learning_rate": 1.5561966963229925e-07,
+      "loss": 1.4176,
+      "mean_token_accuracy": 0.6197279095649719,
+      "num_tokens": 393886.0,
       "step": 220
     },
     {
       "epoch": 0.8911290322580645,
+      "grad_norm": 5.665816307067871,
       "learning_rate": 1.448091561646628e-07,
+      "loss": 1.5031,
+      "mean_token_accuracy": 0.6201764345169067,
+      "num_tokens": 395702.0,
       "step": 221
     },
     {
       "epoch": 0.8951612903225806,
+      "grad_norm": 6.105023384094238,
       "learning_rate": 1.3437657732040783e-07,
+      "loss": 1.3976,
+      "mean_token_accuracy": 0.618686854839325,
+      "num_tokens": 397288.0,
       "step": 222
     },
     {
       "epoch": 0.8991935483870968,
+      "grad_norm": 5.846229553222656,
       "learning_rate": 1.243236072028317e-07,
+      "loss": 1.4722,
+      "mean_token_accuracy": 0.6098484992980957,
+      "num_tokens": 399138.0,
       "step": 223
     },
     {
       "epoch": 0.9032258064516129,
+      "grad_norm": 5.863070964813232,
       "learning_rate": 1.1465185899987797e-07,
+      "loss": 1.6153,
+      "mean_token_accuracy": 0.5908849835395813,
+      "num_tokens": 401027.0,
       "step": 224
     },
     {
       "epoch": 0.907258064516129,
+      "grad_norm": 5.625185966491699,
       "learning_rate": 1.0536288472527162e-07,
+      "loss": 1.6113,
+      "mean_token_accuracy": 0.5997909903526306,
+      "num_tokens": 402943.0,
       "step": 225
     },
     {
       "epoch": 0.9112903225806451,
+      "grad_norm": 5.376096725463867,
       "learning_rate": 9.645817496946902e-08,
+      "loss": 1.4866,
+      "mean_token_accuracy": 0.6109374761581421,
+      "num_tokens": 404865.0,
       "step": 226
     },
     {
       "epoch": 0.9153225806451613,
+      "grad_norm": 6.09489631652832,
       "learning_rate": 8.79391586604636e-08,
+      "loss": 1.6137,
+      "mean_token_accuracy": 0.5798553228378296,
+      "num_tokens": 406664.0,
       "step": 227
     },
     {
       "epoch": 0.9193548387096774,
+      "grad_norm": 6.106083393096924,
       "learning_rate": 7.980720283448957e-08,
+      "loss": 1.7006,
+      "mean_token_accuracy": 0.5664711594581604,
+      "num_tokens": 408712.0,
       "step": 228
     },
     {
       "epoch": 0.9233870967741935,
+      "grad_norm": 6.476028919219971,
       "learning_rate": 7.206361241665266e-08,
+      "loss": 1.5162,
+      "mean_token_accuracy": 0.608540952205658,
+      "num_tokens": 410119.0,
       "step": 229
     },
     {
       "epoch": 0.9274193548387096,
+      "grad_norm": 5.52684211730957,
       "learning_rate": 6.470963001153268e-08,
+      "loss": 1.5155,
+      "mean_token_accuracy": 0.6171218752861023,
+      "num_tokens": 412025.0,
       "step": 230
     },
     {
       "epoch": 0.9314516129032258,
+      "grad_norm": 5.9519782066345215,
       "learning_rate": 5.774643570378296e-08,
+      "loss": 1.3252,
+      "mean_token_accuracy": 0.6445659399032593,
+      "num_tokens": 413490.0,
       "step": 231
     },
     {
       "epoch": 0.9354838709677419,
+      "grad_norm": 5.545828342437744,
       "learning_rate": 5.117514686876379e-08,
+      "loss": 1.4661,
+      "mean_token_accuracy": 0.6093666553497314,
+      "num_tokens": 415371.0,
       "step": 232
     },
     {
       "epoch": 0.9395161290322581,
+      "grad_norm": 5.3752617835998535,
       "learning_rate": 4.4996817993239464e-08,
+      "loss": 1.5721,
+      "mean_token_accuracy": 0.589442789554596,
+      "num_tokens": 417419.0,
       "step": 233
     },
     {
       "epoch": 0.9435483870967742,
+      "grad_norm": 6.181939601898193,
       "learning_rate": 3.9212440506164465e-08,
+      "loss": 1.4851,
+      "mean_token_accuracy": 0.6140567064285278,
+      "num_tokens": 419043.0,
       "step": 234
     },
     {
       "epoch": 0.9475806451612904,
+      "grad_norm": 6.1111836433410645,
       "learning_rate": 3.382294261959157e-08,
+      "loss": 1.5793,
+      "mean_token_accuracy": 0.6070796251296997,
+      "num_tokens": 420740.0,
       "step": 235
     },
     {
       "epoch": 0.9516129032258065,
+      "grad_norm": 6.486725330352783,
       "learning_rate": 2.8829189179721552e-08,
+      "loss": 1.4531,
+      "mean_token_accuracy": 0.6059664487838745,
+      "num_tokens": 422351.0,
       "step": 236
     },
     {
       "epoch": 0.9556451612903226,
+      "grad_norm": 5.367029190063477,
       "learning_rate": 2.423198152812306e-08,
+      "loss": 1.412,
+      "mean_token_accuracy": 0.6007625460624695,
+      "num_tokens": 424189.0,
       "step": 237
     },
     {
       "epoch": 0.9596774193548387,
+      "grad_norm": 5.885536193847656,
       "learning_rate": 2.0032057373142453e-08,
+      "loss": 1.4751,
+      "mean_token_accuracy": 0.6121867895126343,
+      "num_tokens": 425947.0,
       "step": 238
     },
     {
       "epoch": 0.9637096774193549,
+      "grad_norm": 6.31535005569458,
       "learning_rate": 1.6230090671524312e-08,
+      "loss": 1.5074,
+      "mean_token_accuracy": 0.60240238904953,
+      "num_tokens": 427614.0,
       "step": 239
     },
     {
       "epoch": 0.967741935483871,
+      "grad_norm": 6.376657485961914,
       "learning_rate": 1.2826691520262114e-08,
+      "loss": 1.6623,
+      "mean_token_accuracy": 0.5947854518890381,
+      "num_tokens": 429457.0,
       "step": 240
     },
     {
       "epoch": 0.9717741935483871,
+      "grad_norm": 5.587056636810303,
       "learning_rate": 9.822406058697665e-09,
+      "loss": 1.5953,
+      "mean_token_accuracy": 0.5949429869651794,
+      "num_tokens": 431476.0,
       "step": 241
     },
     {
       "epoch": 0.9758064516129032,
+      "grad_norm": 5.475006580352783,
       "learning_rate": 7.217716380881479e-09,
+      "loss": 1.476,
+      "mean_token_accuracy": 0.6025062799453735,
+      "num_tokens": 433473.0,
       "step": 242
     },
     {
       "epoch": 0.9798387096774194,
+      "grad_norm": 6.063528537750244,
       "learning_rate": 5.0130404582127144e-09,
+      "loss": 1.3995,
+      "mean_token_accuracy": 0.6313099265098572,
+      "num_tokens": 435040.0,
       "step": 243
     },
     {
       "epoch": 0.9838709677419355,
+      "grad_norm": 5.9405035972595215,
       "learning_rate": 3.208732072368104e-09,
+      "loss": 1.5641,
+      "mean_token_accuracy": 0.5938547253608704,
+      "num_tokens": 436832.0,
       "step": 244
     },
     {
       "epoch": 0.9879032258064516,
+      "grad_norm": 5.634851932525635,
       "learning_rate": 1.8050807585293095e-09,
+      "loss": 1.4805,
+      "mean_token_accuracy": 0.5975820422172546,
+      "num_tokens": 438571.0,
       "step": 245
     },
     {
       "epoch": 0.9919354838709677,
+      "grad_norm": 5.381149768829346,
       "learning_rate": 8.023117589237017e-10,
+      "loss": 1.513,
+      "mean_token_accuracy": 0.6109482049942017,
+      "num_tokens": 440619.0,
       "step": 246
     },
     {
       "epoch": 0.9959677419354839,
+      "grad_norm": 6.20208215713501,
       "learning_rate": 2.0058598667854755e-10,
+      "loss": 1.4039,
+      "mean_token_accuracy": 0.6231250166893005,
+      "num_tokens": 442221.0,
       "step": 247
     },
     {
       "epoch": 1.0,
+      "grad_norm": 6.332696914672852,
       "learning_rate": 0.0,
+      "loss": 1.4206,
+      "mean_token_accuracy": 0.5873016119003296,
+      "num_tokens": 442852.0,
       "step": 248
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 9984447243878400.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null