{
  "best_metric": 1.4207253456115723,
  "best_model_checkpoint": "/root/autodl-tmp/tcm_qwen_distill/checkpoint-1750",
  "epoch": 7.9655172413793105,
  "eval_steps": 25,
  "global_step": 1792,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004449388209121246,
      "grad_norm": 2.009218215942383,
      "learning_rate": 2.777777777777778e-08,
      "loss": 2.7487,
      "mean_token_accuracy": 0.4462626799941063,
      "step": 1
    },
    {
      "epoch": 0.008898776418242492,
      "grad_norm": 2.0413801670074463,
      "learning_rate": 5.555555555555556e-08,
      "loss": 2.7489,
      "mean_token_accuracy": 0.43899567425251007,
      "step": 2
    },
    {
      "epoch": 0.013348164627363738,
      "grad_norm": 2.299772024154663,
      "learning_rate": 8.333333333333334e-08,
      "loss": 2.9466,
      "mean_token_accuracy": 0.4293036460876465,
      "step": 3
    },
    {
      "epoch": 0.017797552836484983,
      "grad_norm": 1.9970159530639648,
      "learning_rate": 1.1111111111111112e-07,
      "loss": 2.5324,
      "mean_token_accuracy": 0.47475870698690414,
      "step": 4
    },
    {
      "epoch": 0.02224694104560623,
      "grad_norm": 1.8692083358764648,
      "learning_rate": 1.3888888888888888e-07,
      "loss": 2.5893,
      "mean_token_accuracy": 0.4592745304107666,
      "step": 5
    },
    {
      "epoch": 0.026696329254727477,
      "grad_norm": 1.9362623691558838,
      "learning_rate": 1.6666666666666668e-07,
      "loss": 2.7417,
      "mean_token_accuracy": 0.4381498619914055,
      "step": 6
    },
    {
      "epoch": 0.03114571746384872,
      "grad_norm": 2.0483148097991943,
      "learning_rate": 1.9444444444444447e-07,
      "loss": 2.6577,
      "mean_token_accuracy": 0.4562995433807373,
      "step": 7
    },
    {
      "epoch": 0.035595105672969966,
      "grad_norm": 2.292417049407959,
      "learning_rate": 2.2222222222222224e-07,
      "loss": 2.8624,
      "mean_token_accuracy": 0.4243387430906296,
      "step": 8
    },
    {
      "epoch": 0.04004449388209121,
      "grad_norm": 1.872275471687317,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 2.7725,
      "mean_token_accuracy": 0.437575064599514,
      "step": 9
    },
    {
      "epoch": 0.04449388209121246,
      "grad_norm": 2.2026796340942383,
      "learning_rate": 2.7777777777777776e-07,
      "loss": 2.8429,
      "mean_token_accuracy": 0.4226543605327606,
      "step": 10
    },
    {
      "epoch": 0.048943270300333706,
      "grad_norm": 1.8889816999435425,
      "learning_rate": 3.055555555555556e-07,
      "loss": 2.695,
      "mean_token_accuracy": 0.4510272741317749,
      "step": 11
    },
    {
      "epoch": 0.05339265850945495,
      "grad_norm": 2.046509027481079,
      "learning_rate": 3.3333333333333335e-07,
      "loss": 2.7732,
      "mean_token_accuracy": 0.43711666762828827,
      "step": 12
    },
    {
      "epoch": 0.05784204671857619,
      "grad_norm": 2.2701573371887207,
      "learning_rate": 3.611111111111111e-07,
      "loss": 2.9249,
      "mean_token_accuracy": 0.4171593561768532,
      "step": 13
    },
    {
      "epoch": 0.06229143492769744,
      "grad_norm": 2.2439000606536865,
      "learning_rate": 3.8888888888888895e-07,
      "loss": 2.9016,
      "mean_token_accuracy": 0.4296119138598442,
      "step": 14
    },
    {
      "epoch": 0.06674082313681869,
      "grad_norm": 1.9200553894042969,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 2.8473,
      "mean_token_accuracy": 0.43836652487516403,
      "step": 15
    },
    {
      "epoch": 0.07119021134593993,
      "grad_norm": 1.9698530435562134,
      "learning_rate": 4.444444444444445e-07,
      "loss": 2.7081,
      "mean_token_accuracy": 0.44377046078443527,
      "step": 16
    },
    {
      "epoch": 0.07563959955506118,
      "grad_norm": 2.2571089267730713,
      "learning_rate": 4.7222222222222226e-07,
      "loss": 2.9044,
      "mean_token_accuracy": 0.4197026789188385,
      "step": 17
    },
    {
      "epoch": 0.08008898776418243,
      "grad_norm": 1.9301337003707886,
      "learning_rate": 5.000000000000001e-07,
      "loss": 2.7348,
      "mean_token_accuracy": 0.4367789849638939,
      "step": 18
    },
    {
      "epoch": 0.08453837597330367,
      "grad_norm": 1.9754377603530884,
      "learning_rate": 5.277777777777779e-07,
      "loss": 2.7792,
      "mean_token_accuracy": 0.4365149959921837,
      "step": 19
    },
    {
      "epoch": 0.08898776418242492,
      "grad_norm": 2.1270928382873535,
      "learning_rate": 5.555555555555555e-07,
      "loss": 2.8803,
      "mean_token_accuracy": 0.4221459701657295,
      "step": 20
    },
    {
      "epoch": 0.09343715239154617,
      "grad_norm": 2.001345634460449,
      "learning_rate": 5.833333333333334e-07,
      "loss": 2.8196,
      "mean_token_accuracy": 0.42622339725494385,
      "step": 21
    },
    {
      "epoch": 0.09788654060066741,
      "grad_norm": 1.777085542678833,
      "learning_rate": 6.111111111111112e-07,
      "loss": 2.7698,
      "mean_token_accuracy": 0.4322724863886833,
      "step": 22
    },
    {
      "epoch": 0.10233592880978866,
      "grad_norm": 1.8638743162155151,
      "learning_rate": 6.388888888888889e-07,
      "loss": 2.794,
      "mean_token_accuracy": 0.44039487838745117,
      "step": 23
    },
    {
      "epoch": 0.1067853170189099,
      "grad_norm": 1.7734066247940063,
      "learning_rate": 6.666666666666667e-07,
      "loss": 2.6519,
      "mean_token_accuracy": 0.46079644560813904,
      "step": 24
    },
    {
      "epoch": 0.11123470522803114,
      "grad_norm": 1.7797825336456299,
      "learning_rate": 6.944444444444446e-07,
      "loss": 2.8291,
      "mean_token_accuracy": 0.43527645617723465,
      "step": 25
    },
    {
      "epoch": 0.11123470522803114,
      "eval_loss": 2.7487823963165283,
      "eval_mean_token_accuracy": 0.44078978180885314,
      "eval_runtime": 8.8778,
      "eval_samples_per_second": 11.264,
      "eval_steps_per_second": 11.264,
      "step": 25
    },
    {
      "epoch": 0.11568409343715239,
      "grad_norm": 2.072458028793335,
      "learning_rate": 7.222222222222222e-07,
      "loss": 2.6922,
      "mean_token_accuracy": 0.4485549107193947,
      "step": 26
    },
    {
      "epoch": 0.12013348164627363,
      "grad_norm": 1.8412888050079346,
      "learning_rate": 7.5e-07,
      "loss": 2.6414,
      "mean_token_accuracy": 0.4498712494969368,
      "step": 27
    },
    {
      "epoch": 0.12458286985539488,
      "grad_norm": 1.8266985416412354,
      "learning_rate": 7.777777777777779e-07,
      "loss": 2.8116,
      "mean_token_accuracy": 0.4304393380880356,
      "step": 28
    },
    {
      "epoch": 0.12903225806451613,
      "grad_norm": 1.8043197393417358,
      "learning_rate": 8.055555555555557e-07,
      "loss": 2.8362,
      "mean_token_accuracy": 0.4218573421239853,
      "step": 29
    },
    {
      "epoch": 0.13348164627363737,
      "grad_norm": 1.8829331398010254,
      "learning_rate": 8.333333333333333e-07,
      "loss": 2.7367,
      "mean_token_accuracy": 0.4331985414028168,
      "step": 30
    },
    {
      "epoch": 0.13793103448275862,
      "grad_norm": 1.617417573928833,
      "learning_rate": 8.611111111111112e-07,
      "loss": 2.6479,
      "mean_token_accuracy": 0.4509468302130699,
      "step": 31
    },
    {
      "epoch": 0.14238042269187987,
      "grad_norm": 1.692047119140625,
      "learning_rate": 8.88888888888889e-07,
      "loss": 2.7237,
      "mean_token_accuracy": 0.4496723562479019,
      "step": 32
    },
    {
      "epoch": 0.1468298109010011,
      "grad_norm": 1.5979193449020386,
      "learning_rate": 9.166666666666666e-07,
      "loss": 2.7069,
      "mean_token_accuracy": 0.43870222568511963,
      "step": 33
    },
    {
      "epoch": 0.15127919911012236,
      "grad_norm": 1.7097002267837524,
      "learning_rate": 9.444444444444445e-07,
      "loss": 2.7404,
      "mean_token_accuracy": 0.4410271644592285,
      "step": 34
    },
    {
      "epoch": 0.1557285873192436,
      "grad_norm": 1.8705066442489624,
      "learning_rate": 9.722222222222224e-07,
      "loss": 2.7452,
      "mean_token_accuracy": 0.43395841866731644,
      "step": 35
    },
    {
      "epoch": 0.16017797552836485,
      "grad_norm": 1.6025139093399048,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.6757,
      "mean_token_accuracy": 0.4498729631304741,
      "step": 36
    },
    {
      "epoch": 0.1646273637374861,
      "grad_norm": 1.5217881202697754,
      "learning_rate": 1.0277777777777777e-06,
      "loss": 2.6064,
      "mean_token_accuracy": 0.45533721148967743,
      "step": 37
    },
    {
      "epoch": 0.16907675194660735,
      "grad_norm": 1.56376051902771,
      "learning_rate": 1.0555555555555557e-06,
      "loss": 2.6707,
      "mean_token_accuracy": 0.44628188759088516,
      "step": 38
    },
    {
      "epoch": 0.1735261401557286,
      "grad_norm": 1.7764126062393188,
      "learning_rate": 1.0833333333333335e-06,
      "loss": 2.8335,
      "mean_token_accuracy": 0.424385204911232,
      "step": 39
    },
    {
      "epoch": 0.17797552836484984,
      "grad_norm": 1.572440505027771,
      "learning_rate": 1.111111111111111e-06,
      "loss": 2.5891,
      "mean_token_accuracy": 0.45826738327741623,
      "step": 40
    },
    {
      "epoch": 0.18242491657397109,
      "grad_norm": 1.6315968036651611,
      "learning_rate": 1.138888888888889e-06,
      "loss": 2.7352,
      "mean_token_accuracy": 0.4313608482480049,
      "step": 41
    },
    {
      "epoch": 0.18687430478309233,
      "grad_norm": 1.736589789390564,
      "learning_rate": 1.1666666666666668e-06,
      "loss": 2.7308,
      "mean_token_accuracy": 0.4416026398539543,
      "step": 42
    },
    {
      "epoch": 0.19132369299221358,
      "grad_norm": 1.4774514436721802,
      "learning_rate": 1.1944444444444446e-06,
      "loss": 2.5975,
      "mean_token_accuracy": 0.4645133316516876,
      "step": 43
    },
    {
      "epoch": 0.19577308120133483,
      "grad_norm": 1.5157219171524048,
      "learning_rate": 1.2222222222222223e-06,
      "loss": 2.577,
      "mean_token_accuracy": 0.45173369348049164,
      "step": 44
    },
    {
      "epoch": 0.20022246941045607,
      "grad_norm": 1.693426251411438,
      "learning_rate": 1.25e-06,
      "loss": 2.7885,
      "mean_token_accuracy": 0.4265420138835907,
      "step": 45
    },
    {
      "epoch": 0.20467185761957732,
      "grad_norm": 1.5141314268112183,
      "learning_rate": 1.2777777777777779e-06,
      "loss": 2.5922,
      "mean_token_accuracy": 0.45387155562639236,
      "step": 46
    },
    {
      "epoch": 0.20912124582869857,
      "grad_norm": 1.551846981048584,
      "learning_rate": 1.3055555555555556e-06,
      "loss": 2.7222,
      "mean_token_accuracy": 0.4300708547234535,
      "step": 47
    },
    {
      "epoch": 0.2135706340378198,
      "grad_norm": 1.6399632692337036,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 2.835,
      "mean_token_accuracy": 0.4190157353878021,
      "step": 48
    },
    {
      "epoch": 0.21802002224694106,
      "grad_norm": 1.5565458536148071,
      "learning_rate": 1.3611111111111112e-06,
      "loss": 2.7191,
      "mean_token_accuracy": 0.42714349180459976,
      "step": 49
    },
    {
      "epoch": 0.22246941045606228,
      "grad_norm": 1.4832000732421875,
      "learning_rate": 1.3888888888888892e-06,
      "loss": 2.5936,
      "mean_token_accuracy": 0.4531092047691345,
      "step": 50
    },
    {
      "epoch": 0.22246941045606228,
      "eval_loss": 2.6630942821502686,
      "eval_mean_token_accuracy": 0.44548952162265776,
      "eval_runtime": 8.8334,
      "eval_samples_per_second": 11.321,
      "eval_steps_per_second": 11.321,
      "step": 50
    },
    {
      "epoch": 0.22691879866518352,
      "grad_norm": 1.4783799648284912,
      "learning_rate": 1.4166666666666667e-06,
      "loss": 2.6498,
      "mean_token_accuracy": 0.4540000855922699,
      "step": 51
    },
    {
      "epoch": 0.23136818687430477,
      "grad_norm": 1.608723759651184,
      "learning_rate": 1.4444444444444445e-06,
      "loss": 2.7527,
      "mean_token_accuracy": 0.4340514540672302,
      "step": 52
    },
    {
      "epoch": 0.23581757508342602,
      "grad_norm": 1.5116221904754639,
      "learning_rate": 1.4722222222222225e-06,
      "loss": 2.6505,
      "mean_token_accuracy": 0.4460330903530121,
      "step": 53
    },
    {
      "epoch": 0.24026696329254726,
      "grad_norm": 1.300389051437378,
      "learning_rate": 1.5e-06,
      "loss": 2.6586,
      "mean_token_accuracy": 0.4428958371281624,
      "step": 54
    },
    {
      "epoch": 0.2447163515016685,
      "grad_norm": 1.481078863143921,
      "learning_rate": 1.527777777777778e-06,
      "loss": 2.6558,
      "mean_token_accuracy": 0.4438251852989197,
      "step": 55
    },
    {
      "epoch": 0.24916573971078976,
      "grad_norm": 1.4775089025497437,
      "learning_rate": 1.5555555555555558e-06,
      "loss": 2.6899,
      "mean_token_accuracy": 0.4363170191645622,
      "step": 56
    },
    {
      "epoch": 0.25361512791991103,
      "grad_norm": 1.4037632942199707,
      "learning_rate": 1.5833333333333333e-06,
      "loss": 2.5094,
      "mean_token_accuracy": 0.4644869193434715,
      "step": 57
    },
    {
      "epoch": 0.25806451612903225,
      "grad_norm": 1.4124090671539307,
      "learning_rate": 1.6111111111111113e-06,
      "loss": 2.6657,
      "mean_token_accuracy": 0.43337976187467575,
      "step": 58
    },
    {
      "epoch": 0.2625139043381535,
      "grad_norm": 1.556583046913147,
      "learning_rate": 1.638888888888889e-06,
      "loss": 2.6685,
      "mean_token_accuracy": 0.43885236978530884,
      "step": 59
    },
    {
      "epoch": 0.26696329254727474,
      "grad_norm": 1.2375297546386719,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 2.556,
      "mean_token_accuracy": 0.45950865000486374,
      "step": 60
    },
    {
      "epoch": 0.271412680756396,
      "grad_norm": 1.310821771621704,
      "learning_rate": 1.6944444444444446e-06,
      "loss": 2.4607,
      "mean_token_accuracy": 0.46966027468442917,
      "step": 61
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 1.3697601556777954,
      "learning_rate": 1.7222222222222224e-06,
      "loss": 2.5978,
      "mean_token_accuracy": 0.4567346125841141,
      "step": 62
    },
    {
      "epoch": 0.2803114571746385,
      "grad_norm": 1.4707099199295044,
      "learning_rate": 1.75e-06,
      "loss": 2.6209,
      "mean_token_accuracy": 0.4543369635939598,
      "step": 63
    },
    {
      "epoch": 0.28476084538375973,
      "grad_norm": 1.2911403179168701,
      "learning_rate": 1.777777777777778e-06,
      "loss": 2.2733,
      "mean_token_accuracy": 0.4976814165711403,
      "step": 64
    },
    {
      "epoch": 0.289210233592881,
      "grad_norm": 1.3446376323699951,
      "learning_rate": 1.8055555555555557e-06,
      "loss": 2.5546,
      "mean_token_accuracy": 0.4624488279223442,
      "step": 65
    },
    {
      "epoch": 0.2936596218020022,
      "grad_norm": 1.425618290901184,
      "learning_rate": 1.8333333333333333e-06,
      "loss": 2.5178,
      "mean_token_accuracy": 0.4605920910835266,
      "step": 66
    },
    {
      "epoch": 0.29810901001112344,
      "grad_norm": 1.4423493146896362,
      "learning_rate": 1.8611111111111113e-06,
      "loss": 2.5963,
      "mean_token_accuracy": 0.4520954042673111,
      "step": 67
    },
    {
      "epoch": 0.3025583982202447,
      "grad_norm": 1.2912877798080444,
      "learning_rate": 1.888888888888889e-06,
      "loss": 2.4828,
      "mean_token_accuracy": 0.465055912733078,
      "step": 68
    },
    {
      "epoch": 0.30700778642936594,
      "grad_norm": 1.4772284030914307,
      "learning_rate": 1.916666666666667e-06,
      "loss": 2.7067,
      "mean_token_accuracy": 0.43121786415576935,
      "step": 69
    },
    {
      "epoch": 0.3114571746384872,
      "grad_norm": 1.3671499490737915,
      "learning_rate": 1.944444444444445e-06,
      "loss": 2.5468,
      "mean_token_accuracy": 0.4586639329791069,
      "step": 70
    },
    {
      "epoch": 0.31590656284760843,
      "grad_norm": 1.1856962442398071,
      "learning_rate": 1.9722222222222224e-06,
      "loss": 2.5153,
      "mean_token_accuracy": 0.4674157202243805,
      "step": 71
    },
    {
      "epoch": 0.3203559510567297,
      "grad_norm": 1.4019416570663452,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 2.6758,
      "mean_token_accuracy": 0.43234721571207047,
      "step": 72
    },
    {
      "epoch": 0.3248053392658509,
      "grad_norm": 1.4112409353256226,
      "learning_rate": 2.027777777777778e-06,
      "loss": 2.5897,
      "mean_token_accuracy": 0.44553081691265106,
      "step": 73
    },
    {
      "epoch": 0.3292547274749722,
      "grad_norm": 1.2346878051757812,
      "learning_rate": 2.0555555555555555e-06,
      "loss": 2.5222,
      "mean_token_accuracy": 0.4526861608028412,
      "step": 74
    },
    {
      "epoch": 0.3337041156840934,
      "grad_norm": 1.353711724281311,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 2.4651,
      "mean_token_accuracy": 0.4683324173092842,
      "step": 75
    },
    {
      "epoch": 0.3337041156840934,
      "eval_loss": 2.5377814769744873,
      "eval_mean_token_accuracy": 0.45559423327445986,
      "eval_runtime": 8.8896,
      "eval_samples_per_second": 11.249,
      "eval_steps_per_second": 11.249,
      "step": 75
    },
    {
      "epoch": 0.3381535038932147,
      "grad_norm": 1.2463281154632568,
      "learning_rate": 2.1111111111111114e-06,
      "loss": 2.3936,
      "mean_token_accuracy": 0.4675545394420624,
      "step": 76
    },
    {
      "epoch": 0.3426028921023359,
      "grad_norm": 1.2440040111541748,
      "learning_rate": 2.138888888888889e-06,
      "loss": 2.5278,
      "mean_token_accuracy": 0.4587515741586685,
      "step": 77
    },
    {
      "epoch": 0.3470522803114572,
      "grad_norm": 1.4393354654312134,
      "learning_rate": 2.166666666666667e-06,
      "loss": 2.6912,
      "mean_token_accuracy": 0.42774248868227005,
      "step": 78
    },
    {
      "epoch": 0.3515016685205784,
      "grad_norm": 1.3675040006637573,
      "learning_rate": 2.1944444444444445e-06,
      "loss": 2.5844,
      "mean_token_accuracy": 0.43713801354169846,
      "step": 79
    },
    {
      "epoch": 0.3559510567296997,
      "grad_norm": 1.2291693687438965,
      "learning_rate": 2.222222222222222e-06,
      "loss": 2.5432,
      "mean_token_accuracy": 0.4454035758972168,
      "step": 80
    },
    {
      "epoch": 0.3604004449388209,
      "grad_norm": 1.4478275775909424,
      "learning_rate": 2.25e-06,
      "loss": 2.4199,
      "mean_token_accuracy": 0.4683859571814537,
      "step": 81
    },
    {
      "epoch": 0.36484983314794217,
      "grad_norm": 1.267098069190979,
      "learning_rate": 2.277777777777778e-06,
      "loss": 2.4412,
      "mean_token_accuracy": 0.46535055339336395,
      "step": 82
    },
    {
      "epoch": 0.3692992213570634,
      "grad_norm": 1.2093297243118286,
      "learning_rate": 2.305555555555556e-06,
      "loss": 2.466,
      "mean_token_accuracy": 0.4606918469071388,
      "step": 83
    },
    {
      "epoch": 0.37374860956618466,
      "grad_norm": 1.3163836002349854,
      "learning_rate": 2.3333333333333336e-06,
      "loss": 2.5477,
      "mean_token_accuracy": 0.45330001413822174,
      "step": 84
    },
    {
      "epoch": 0.3781979977753059,
      "grad_norm": 1.2053110599517822,
      "learning_rate": 2.361111111111111e-06,
      "loss": 2.4928,
      "mean_token_accuracy": 0.4592110961675644,
      "step": 85
    },
    {
      "epoch": 0.38264738598442716,
      "grad_norm": 1.4013172388076782,
      "learning_rate": 2.388888888888889e-06,
      "loss": 2.5999,
      "mean_token_accuracy": 0.44309788942337036,
      "step": 86
    },
    {
      "epoch": 0.3870967741935484,
      "grad_norm": 1.3944236040115356,
      "learning_rate": 2.4166666666666667e-06,
      "loss": 2.5187,
      "mean_token_accuracy": 0.4519020915031433,
      "step": 87
    },
    {
      "epoch": 0.39154616240266965,
      "grad_norm": 1.377801775932312,
      "learning_rate": 2.4444444444444447e-06,
      "loss": 2.6153,
      "mean_token_accuracy": 0.44221001863479614,
      "step": 88
    },
    {
      "epoch": 0.39599555061179087,
      "grad_norm": 1.1777342557907104,
      "learning_rate": 2.4722222222222226e-06,
      "loss": 2.4359,
      "mean_token_accuracy": 0.4618222191929817,
      "step": 89
    },
    {
      "epoch": 0.40044493882091214,
      "grad_norm": 1.1522427797317505,
      "learning_rate": 2.5e-06,
      "loss": 2.4336,
      "mean_token_accuracy": 0.47333741188049316,
      "step": 90
    },
    {
      "epoch": 0.40489432703003336,
      "grad_norm": 1.146221399307251,
      "learning_rate": 2.5277777777777778e-06,
      "loss": 2.4194,
      "mean_token_accuracy": 0.4788663387298584,
      "step": 91
    },
    {
      "epoch": 0.40934371523915464,
      "grad_norm": 1.1302343606948853,
      "learning_rate": 2.5555555555555557e-06,
      "loss": 2.3023,
      "mean_token_accuracy": 0.4896032586693764,
      "step": 92
    },
    {
      "epoch": 0.41379310344827586,
      "grad_norm": 1.2020909786224365,
      "learning_rate": 2.5833333333333337e-06,
      "loss": 2.5002,
      "mean_token_accuracy": 0.4604544937610626,
      "step": 93
    },
    {
      "epoch": 0.41824249165739713,
      "grad_norm": 1.085962176322937,
      "learning_rate": 2.6111111111111113e-06,
      "loss": 2.491,
      "mean_token_accuracy": 0.4621496796607971,
      "step": 94
    },
    {
      "epoch": 0.42269187986651835,
      "grad_norm": 1.053913950920105,
      "learning_rate": 2.6388888888888893e-06,
      "loss": 2.4057,
      "mean_token_accuracy": 0.4772403761744499,
      "step": 95
    },
    {
      "epoch": 0.4271412680756396,
      "grad_norm": 1.1017723083496094,
      "learning_rate": 2.666666666666667e-06,
      "loss": 2.4975,
      "mean_token_accuracy": 0.4595247507095337,
      "step": 96
    },
    {
      "epoch": 0.43159065628476084,
      "grad_norm": 1.1247143745422363,
      "learning_rate": 2.6944444444444444e-06,
      "loss": 2.4908,
      "mean_token_accuracy": 0.4681853652000427,
      "step": 97
    },
    {
      "epoch": 0.4360400444938821,
      "grad_norm": 0.9648019075393677,
      "learning_rate": 2.7222222222222224e-06,
      "loss": 2.326,
      "mean_token_accuracy": 0.48691751062870026,
      "step": 98
    },
    {
      "epoch": 0.44048943270300334,
      "grad_norm": 0.9625123143196106,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 2.4316,
      "mean_token_accuracy": 0.4684325307607651,
      "step": 99
    },
    {
      "epoch": 0.44493882091212456,
      "grad_norm": 0.9364382028579712,
      "learning_rate": 2.7777777777777783e-06,
      "loss": 2.3971,
      "mean_token_accuracy": 0.4667048007249832,
      "step": 100
    },
    {
      "epoch": 0.44493882091212456,
      "eval_loss": 2.3848323822021484,
      "eval_mean_token_accuracy": 0.4777568754553795,
      "eval_runtime": 9.1293,
      "eval_samples_per_second": 10.954,
      "eval_steps_per_second": 10.954,
      "step": 100
    },
    {
      "epoch": 0.44938820912124583,
      "grad_norm": 0.9546471238136292,
      "learning_rate": 2.805555555555556e-06,
      "loss": 2.362,
      "mean_token_accuracy": 0.4771498888731003,
      "step": 101
    },
    {
      "epoch": 0.45383759733036705,
      "grad_norm": 0.9136762619018555,
      "learning_rate": 2.8333333333333335e-06,
      "loss": 2.2401,
      "mean_token_accuracy": 0.4998117908835411,
      "step": 102
    },
    {
      "epoch": 0.4582869855394883,
      "grad_norm": 0.9736888408660889,
      "learning_rate": 2.861111111111111e-06,
      "loss": 2.4015,
      "mean_token_accuracy": 0.48034460097551346,
      "step": 103
    },
    {
      "epoch": 0.46273637374860954,
      "grad_norm": 0.921255350112915,
      "learning_rate": 2.888888888888889e-06,
      "loss": 2.3994,
      "mean_token_accuracy": 0.47240785509347916,
      "step": 104
    },
    {
      "epoch": 0.4671857619577308,
      "grad_norm": 0.9500031471252441,
      "learning_rate": 2.916666666666667e-06,
      "loss": 2.4453,
      "mean_token_accuracy": 0.46418746560811996,
      "step": 105
    },
    {
      "epoch": 0.47163515016685204,
      "grad_norm": 0.8218125700950623,
      "learning_rate": 2.944444444444445e-06,
      "loss": 2.2042,
      "mean_token_accuracy": 0.5076979547739029,
      "step": 106
    },
    {
      "epoch": 0.4760845383759733,
      "grad_norm": 0.9890989065170288,
      "learning_rate": 2.9722222222222225e-06,
      "loss": 2.4499,
      "mean_token_accuracy": 0.47085732966661453,
      "step": 107
    },
    {
      "epoch": 0.48053392658509453,
      "grad_norm": 0.9491784572601318,
      "learning_rate": 3e-06,
      "loss": 2.328,
      "mean_token_accuracy": 0.48973486572504044,
      "step": 108
    },
    {
      "epoch": 0.4849833147942158,
      "grad_norm": 0.8750196099281311,
      "learning_rate": 3.0277777777777776e-06,
      "loss": 2.4247,
      "mean_token_accuracy": 0.46716463565826416,
      "step": 109
    },
    {
      "epoch": 0.489432703003337,
      "grad_norm": 0.8771957755088806,
      "learning_rate": 3.055555555555556e-06,
      "loss": 2.4618,
      "mean_token_accuracy": 0.460866779088974,
      "step": 110
    },
    {
      "epoch": 0.4938820912124583,
      "grad_norm": 0.8142064809799194,
      "learning_rate": 3.0833333333333336e-06,
      "loss": 2.2205,
      "mean_token_accuracy": 0.4906035587191582,
      "step": 111
    },
    {
      "epoch": 0.4983314794215795,
      "grad_norm": 0.8227256536483765,
      "learning_rate": 3.1111111111111116e-06,
      "loss": 2.3713,
      "mean_token_accuracy": 0.48699023574590683,
      "step": 112
    },
    {
      "epoch": 0.5027808676307007,
      "grad_norm": 0.8729016780853271,
      "learning_rate": 3.138888888888889e-06,
      "loss": 2.3317,
      "mean_token_accuracy": 0.48202014714479446,
      "step": 113
    },
    {
      "epoch": 0.5072302558398221,
      "grad_norm": 0.8142402172088623,
      "learning_rate": 3.1666666666666667e-06,
      "loss": 2.2958,
      "mean_token_accuracy": 0.4849321320652962,
      "step": 114
    },
    {
      "epoch": 0.5116796440489433,
      "grad_norm": 0.8178479075431824,
      "learning_rate": 3.1944444444444443e-06,
      "loss": 2.329,
      "mean_token_accuracy": 0.4848475828766823,
      "step": 115
    },
    {
      "epoch": 0.5161290322580645,
      "grad_norm": 0.7726330161094666,
      "learning_rate": 3.2222222222222227e-06,
      "loss": 2.2668,
      "mean_token_accuracy": 0.5016461238265038,
      "step": 116
    },
    {
      "epoch": 0.5205784204671857,
      "grad_norm": 0.8660762906074524,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 2.2527,
      "mean_token_accuracy": 0.4903142675757408,
      "step": 117
    },
    {
      "epoch": 0.525027808676307,
      "grad_norm": 0.8378332853317261,
      "learning_rate": 3.277777777777778e-06,
      "loss": 2.3055,
      "mean_token_accuracy": 0.4702363982796669,
      "step": 118
    },
    {
      "epoch": 0.5294771968854283,
      "grad_norm": 0.797016441822052,
      "learning_rate": 3.3055555555555558e-06,
      "loss": 2.2306,
      "mean_token_accuracy": 0.4941334202885628,
      "step": 119
    },
    {
      "epoch": 0.5339265850945495,
      "grad_norm": 0.7981109023094177,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 2.2791,
      "mean_token_accuracy": 0.4942282438278198,
      "step": 120
    },
    {
      "epoch": 0.5383759733036707,
      "grad_norm": 0.7602971196174622,
      "learning_rate": 3.3611111111111117e-06,
      "loss": 2.2606,
      "mean_token_accuracy": 0.4957791715860367,
      "step": 121
    },
    {
      "epoch": 0.542825361512792,
      "grad_norm": 0.762076199054718,
      "learning_rate": 3.3888888888888893e-06,
      "loss": 2.2219,
      "mean_token_accuracy": 0.5003332197666168,
      "step": 122
    },
    {
      "epoch": 0.5472747497219133,
      "grad_norm": 0.8171533942222595,
      "learning_rate": 3.416666666666667e-06,
      "loss": 2.1994,
      "mean_token_accuracy": 0.49400849640369415,
      "step": 123
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 0.785575270652771,
      "learning_rate": 3.444444444444445e-06,
      "loss": 2.2782,
      "mean_token_accuracy": 0.4953738898038864,
      "step": 124
    },
    {
      "epoch": 0.5561735261401557,
      "grad_norm": 0.7627156376838684,
      "learning_rate": 3.4722222222222224e-06,
      "loss": 2.0978,
      "mean_token_accuracy": 0.518354058265686,
      "step": 125
    },
    {
      "epoch": 0.5561735261401557,
      "eval_loss": 2.241877555847168,
      "eval_mean_token_accuracy": 0.4986444553732872,
      "eval_runtime": 9.0341,
      "eval_samples_per_second": 11.069,
      "eval_steps_per_second": 11.069,
      "step": 125
    },
    {
      "epoch": 0.560622914349277,
      "grad_norm": 0.7652373313903809,
      "learning_rate": 3.5e-06,
      "loss": 2.1857,
      "mean_token_accuracy": 0.5073032304644585,
      "step": 126
    },
    {
      "epoch": 0.5650723025583982,
      "grad_norm": 0.8046307563781738,
      "learning_rate": 3.5277777777777784e-06,
      "loss": 2.2055,
      "mean_token_accuracy": 0.4935016706585884,
      "step": 127
    },
    {
      "epoch": 0.5695216907675195,
      "grad_norm": 0.7816134691238403,
      "learning_rate": 3.555555555555556e-06,
      "loss": 2.3096,
      "mean_token_accuracy": 0.4902454689145088,
      "step": 128
    },
    {
      "epoch": 0.5739710789766407,
      "grad_norm": 0.7552080750465393,
      "learning_rate": 3.5833333333333335e-06,
      "loss": 2.2139,
      "mean_token_accuracy": 0.49369753152132034,
      "step": 129
    },
    {
      "epoch": 0.578420467185762,
      "grad_norm": 0.6990075707435608,
      "learning_rate": 3.6111111111111115e-06,
      "loss": 2.195,
      "mean_token_accuracy": 0.5085061863064766,
      "step": 130
    },
    {
      "epoch": 0.5828698553948832,
      "grad_norm": 0.6954190731048584,
      "learning_rate": 3.638888888888889e-06,
      "loss": 2.1218,
      "mean_token_accuracy": 0.5139522105455399,
      "step": 131
    },
    {
      "epoch": 0.5873192436040044,
      "grad_norm": 0.7488335371017456,
      "learning_rate": 3.6666666666666666e-06,
      "loss": 2.222,
      "mean_token_accuracy": 0.4939524084329605,
      "step": 132
    },
    {
      "epoch": 0.5917686318131257,
      "grad_norm": 0.7840399742126465,
      "learning_rate": 3.694444444444445e-06,
      "loss": 2.1056,
      "mean_token_accuracy": 0.5211809426546097,
      "step": 133
    },
    {
      "epoch": 0.5962180200222469,
      "grad_norm": 0.6907535195350647,
      "learning_rate": 3.7222222222222225e-06,
      "loss": 2.1968,
      "mean_token_accuracy": 0.5005966350436211,
      "step": 134
    },
    {
      "epoch": 0.6006674082313682,
      "grad_norm": 0.7653919458389282,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 2.0743,
      "mean_token_accuracy": 0.531219869852066,
      "step": 135
    },
    {
      "epoch": 0.6051167964404894,
      "grad_norm": 0.7683626413345337,
      "learning_rate": 3.777777777777778e-06,
      "loss": 2.2475,
      "mean_token_accuracy": 0.49625367671251297,
      "step": 136
    },
    {
      "epoch": 0.6095661846496107,
      "grad_norm": 0.7675255537033081,
      "learning_rate": 3.8055555555555556e-06,
      "loss": 2.2384,
      "mean_token_accuracy": 0.4971437081694603,
      "step": 137
    },
    {
      "epoch": 0.6140155728587319,
      "grad_norm": 0.7684009671211243,
      "learning_rate": 3.833333333333334e-06,
      "loss": 2.2531,
      "mean_token_accuracy": 0.4942075088620186,
      "step": 138
    },
    {
      "epoch": 0.6184649610678532,
      "grad_norm": 0.7151739001274109,
      "learning_rate": 3.861111111111112e-06,
      "loss": 2.1381,
      "mean_token_accuracy": 0.5106279328465462,
      "step": 139
    },
    {
      "epoch": 0.6229143492769744,
      "grad_norm": 0.8150621056556702,
      "learning_rate": 3.88888888888889e-06,
      "loss": 2.2405,
      "mean_token_accuracy": 0.5045290365815163,
      "step": 140
    },
    {
      "epoch": 0.6273637374860956,
      "grad_norm": 0.7024247050285339,
      "learning_rate": 3.916666666666667e-06,
      "loss": 2.0293,
      "mean_token_accuracy": 0.5168129205703735,
      "step": 141
    },
    {
      "epoch": 0.6318131256952169,
      "grad_norm": 0.7193692326545715,
      "learning_rate": 3.944444444444445e-06,
      "loss": 2.1505,
      "mean_token_accuracy": 0.5089541003108025,
      "step": 142
    },
    {
      "epoch": 0.6362625139043382,
      "grad_norm": 0.7116308808326721,
      "learning_rate": 3.972222222222223e-06,
      "loss": 2.0363,
      "mean_token_accuracy": 0.5215571895241737,
      "step": 143
    },
    {
      "epoch": 0.6407119021134594,
      "grad_norm": 0.7858880758285522,
      "learning_rate": 4.000000000000001e-06,
      "loss": 2.2207,
      "mean_token_accuracy": 0.4999060779809952,
      "step": 144
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 0.7702414393424988,
      "learning_rate": 4.027777777777779e-06,
      "loss": 2.0411,
      "mean_token_accuracy": 0.5360379368066788,
      "step": 145
    },
    {
      "epoch": 0.6496106785317018,
      "grad_norm": 0.8154651522636414,
      "learning_rate": 4.055555555555556e-06,
      "loss": 2.0593,
      "mean_token_accuracy": 0.5272029861807823,
      "step": 146
    },
    {
      "epoch": 0.6540600667408232,
      "grad_norm": 0.7834724187850952,
      "learning_rate": 4.083333333333334e-06,
      "loss": 2.0811,
      "mean_token_accuracy": 0.5199120491743088,
      "step": 147
    },
    {
      "epoch": 0.6585094549499444,
      "grad_norm": 0.7284405827522278,
      "learning_rate": 4.111111111111111e-06,
      "loss": 2.1118,
      "mean_token_accuracy": 0.5281796231865883,
      "step": 148
    },
    {
      "epoch": 0.6629588431590656,
      "grad_norm": 0.7803593873977661,
      "learning_rate": 4.138888888888889e-06,
      "loss": 2.1905,
      "mean_token_accuracy": 0.5023162215948105,
      "step": 149
    },
    {
      "epoch": 0.6674082313681868,
      "grad_norm": 0.7201734781265259,
      "learning_rate": 4.166666666666667e-06,
      "loss": 2.1678,
      "mean_token_accuracy": 0.5050294473767281,
      "step": 150
    },
    {
      "epoch": 0.6674082313681868,
      "eval_loss": 2.107060432434082,
      "eval_mean_token_accuracy": 0.5213068568706513,
      "eval_runtime": 8.8953,
      "eval_samples_per_second": 11.242,
      "eval_steps_per_second": 11.242,
      "step": 150
    },
    {
      "epoch": 0.6718576195773082,
      "grad_norm": 0.7538101673126221,
      "learning_rate": 4.194444444444445e-06,
      "loss": 2.0899,
      "mean_token_accuracy": 0.5241426974534988,
      "step": 151
    },
    {
      "epoch": 0.6763070077864294,
      "grad_norm": 0.7367638349533081,
      "learning_rate": 4.222222222222223e-06,
      "loss": 1.991,
      "mean_token_accuracy": 0.5362798869609833,
      "step": 152
    },
    {
      "epoch": 0.6807563959955506,
      "grad_norm": 0.7786456346511841,
      "learning_rate": 4.25e-06,
      "loss": 2.1757,
      "mean_token_accuracy": 0.514036275446415,
      "step": 153
    },
    {
      "epoch": 0.6852057842046718,
      "grad_norm": 0.7446198463439941,
      "learning_rate": 4.277777777777778e-06,
      "loss": 1.8585,
      "mean_token_accuracy": 0.5535176992416382,
      "step": 154
    },
    {
      "epoch": 0.6896551724137931,
      "grad_norm": 0.6907914280891418,
      "learning_rate": 4.305555555555556e-06,
      "loss": 1.9458,
      "mean_token_accuracy": 0.5464107543230057,
      "step": 155
    },
    {
      "epoch": 0.6941045606229144,
      "grad_norm": 0.7375004291534424,
      "learning_rate": 4.333333333333334e-06,
      "loss": 2.1477,
      "mean_token_accuracy": 0.5127398744225502,
      "step": 156
    },
    {
      "epoch": 0.6985539488320356,
      "grad_norm": 0.732463538646698,
      "learning_rate": 4.361111111111112e-06,
      "loss": 2.0329,
      "mean_token_accuracy": 0.5357107669115067,
      "step": 157
    },
    {
      "epoch": 0.7030033370411568,
      "grad_norm": 0.7640869617462158,
      "learning_rate": 4.388888888888889e-06,
      "loss": 2.1029,
      "mean_token_accuracy": 0.516984686255455,
      "step": 158
    },
    {
      "epoch": 0.7074527252502781,
      "grad_norm": 0.7085590362548828,
      "learning_rate": 4.416666666666667e-06,
      "loss": 2.0722,
      "mean_token_accuracy": 0.5233887583017349,
      "step": 159
    },
    {
      "epoch": 0.7119021134593994,
      "grad_norm": 0.6967461705207825,
      "learning_rate": 4.444444444444444e-06,
      "loss": 1.9016,
      "mean_token_accuracy": 0.5448021292686462,
      "step": 160
    },
    {
      "epoch": 0.7163515016685206,
      "grad_norm": 0.7588576674461365,
      "learning_rate": 4.472222222222223e-06,
      "loss": 2.1643,
      "mean_token_accuracy": 0.5074128583073616,
      "step": 161
    },
    {
      "epoch": 0.7208008898776418,
      "grad_norm": 0.7092380523681641,
      "learning_rate": 4.5e-06,
      "loss": 2.0381,
      "mean_token_accuracy": 0.5285339951515198,
      "step": 162
    },
    {
      "epoch": 0.7252502780867631,
      "grad_norm": 0.6955495476722717,
      "learning_rate": 4.527777777777778e-06,
      "loss": 1.9922,
      "mean_token_accuracy": 0.5438354760408401,
      "step": 163
    },
    {
      "epoch": 0.7296996662958843,
      "grad_norm": 0.7948070168495178,
      "learning_rate": 4.555555555555556e-06,
      "loss": 2.0886,
      "mean_token_accuracy": 0.5216548442840576,
      "step": 164
    },
    {
      "epoch": 0.7341490545050056,
      "grad_norm": 0.7088972330093384,
      "learning_rate": 4.583333333333333e-06,
      "loss": 2.0141,
      "mean_token_accuracy": 0.5363157987594604,
      "step": 165
    },
    {
      "epoch": 0.7385984427141268,
      "grad_norm": 0.7901366353034973,
      "learning_rate": 4.611111111111112e-06,
      "loss": 2.0896,
      "mean_token_accuracy": 0.5307308584451675,
      "step": 166
    },
    {
      "epoch": 0.743047830923248,
      "grad_norm": 0.7495909333229065,
      "learning_rate": 4.638888888888889e-06,
      "loss": 2.0574,
      "mean_token_accuracy": 0.5224747508764267,
      "step": 167
    },
    {
      "epoch": 0.7474972191323693,
      "grad_norm": 0.7793410420417786,
      "learning_rate": 4.666666666666667e-06,
      "loss": 2.177,
      "mean_token_accuracy": 0.5041852444410324,
      "step": 168
    },
    {
      "epoch": 0.7519466073414905,
      "grad_norm": 0.7301535606384277,
      "learning_rate": 4.694444444444445e-06,
      "loss": 1.9969,
      "mean_token_accuracy": 0.5387862026691437,
      "step": 169
    },
    {
      "epoch": 0.7563959955506118,
      "grad_norm": 0.7748189568519592,
      "learning_rate": 4.722222222222222e-06,
      "loss": 2.0186,
      "mean_token_accuracy": 0.5338797569274902,
      "step": 170
    },
    {
      "epoch": 0.760845383759733,
      "grad_norm": 0.7976014614105225,
      "learning_rate": 4.75e-06,
      "loss": 2.0081,
      "mean_token_accuracy": 0.5347288250923157,
      "step": 171
    },
    {
      "epoch": 0.7652947719688543,
      "grad_norm": 0.7385895252227783,
      "learning_rate": 4.777777777777778e-06,
      "loss": 1.9057,
      "mean_token_accuracy": 0.5618085563182831,
      "step": 172
    },
    {
      "epoch": 0.7697441601779755,
      "grad_norm": 0.7555418014526367,
      "learning_rate": 4.805555555555556e-06,
      "loss": 1.9145,
      "mean_token_accuracy": 0.5533231049776077,
      "step": 173
    },
    {
      "epoch": 0.7741935483870968,
      "grad_norm": 0.6869227290153503,
      "learning_rate": 4.833333333333333e-06,
      "loss": 1.8969,
      "mean_token_accuracy": 0.5477338284254074,
      "step": 174
    },
    {
      "epoch": 0.778642936596218,
      "grad_norm": 0.7604513168334961,
      "learning_rate": 4.861111111111111e-06,
      "loss": 2.0009,
      "mean_token_accuracy": 0.5353117287158966,
      "step": 175
    },
    {
      "epoch": 0.778642936596218,
      "eval_loss": 1.9900516271591187,
      "eval_mean_token_accuracy": 0.5389377090334893,
      "eval_runtime": 9.0174,
      "eval_samples_per_second": 11.09,
      "eval_steps_per_second": 11.09,
      "step": 175
    },
    {
      "epoch": 0.7830923248053393,
      "grad_norm": 0.7570619583129883,
      "learning_rate": 4.888888888888889e-06,
      "loss": 2.1345,
      "mean_token_accuracy": 0.5117234662175179,
      "step": 176
    },
    {
      "epoch": 0.7875417130144605,
      "grad_norm": 0.8101115226745605,
      "learning_rate": 4.9166666666666665e-06,
      "loss": 2.0988,
      "mean_token_accuracy": 0.5232079401612282,
      "step": 177
    },
    {
      "epoch": 0.7919911012235817,
      "grad_norm": 0.7664352655410767,
      "learning_rate": 4.944444444444445e-06,
      "loss": 1.9357,
      "mean_token_accuracy": 0.5463046133518219,
      "step": 178
    },
    {
      "epoch": 0.796440489432703,
      "grad_norm": 0.7031095623970032,
      "learning_rate": 4.9722222222222224e-06,
      "loss": 1.8557,
      "mean_token_accuracy": 0.5520238429307938,
      "step": 179
    },
    {
      "epoch": 0.8008898776418243,
      "grad_norm": 0.7294557690620422,
      "learning_rate": 5e-06,
      "loss": 2.0109,
      "mean_token_accuracy": 0.5340788513422012,
      "step": 180
    },
    {
      "epoch": 0.8053392658509455,
      "grad_norm": 0.7348244786262512,
      "learning_rate": 4.999995252340697e-06,
      "loss": 1.8106,
      "mean_token_accuracy": 0.5632848739624023,
      "step": 181
    },
    {
      "epoch": 0.8097886540600667,
      "grad_norm": 0.7185838222503662,
      "learning_rate": 4.99998100938082e-06,
      "loss": 1.9459,
      "mean_token_accuracy": 0.5405893176794052,
      "step": 182
    },
    {
      "epoch": 0.814238042269188,
      "grad_norm": 0.7474575042724609,
      "learning_rate": 4.999957271174464e-06,
      "loss": 1.975,
      "mean_token_accuracy": 0.5366986393928528,
      "step": 183
    },
    {
      "epoch": 0.8186874304783093,
      "grad_norm": 0.795755922794342,
      "learning_rate": 4.999924037811792e-06,
      "loss": 2.0188,
      "mean_token_accuracy": 0.533078134059906,
      "step": 184
    },
    {
      "epoch": 0.8231368186874305,
      "grad_norm": 0.7967379689216614,
      "learning_rate": 4.999881309419027e-06,
      "loss": 2.0133,
      "mean_token_accuracy": 0.5351161062717438,
      "step": 185
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 0.7891333699226379,
      "learning_rate": 4.999829086158458e-06,
      "loss": 1.9677,
      "mean_token_accuracy": 0.5445671826601028,
      "step": 186
    },
    {
      "epoch": 0.8320355951056729,
      "grad_norm": 0.7386866807937622,
      "learning_rate": 4.999767368228434e-06,
      "loss": 1.8965,
      "mean_token_accuracy": 0.5400855988264084,
      "step": 187
    },
    {
      "epoch": 0.8364849833147943,
      "grad_norm": 0.7857177257537842,
      "learning_rate": 4.999696155863369e-06,
      "loss": 1.8367,
      "mean_token_accuracy": 0.5582646727561951,
      "step": 188
    },
    {
      "epoch": 0.8409343715239155,
      "grad_norm": 0.795525848865509,
      "learning_rate": 4.999615449333737e-06,
      "loss": 1.9786,
      "mean_token_accuracy": 0.5476748496294022,
      "step": 189
    },
    {
      "epoch": 0.8453837597330367,
      "grad_norm": 0.7944909334182739,
      "learning_rate": 4.99952524894607e-06,
      "loss": 1.8648,
      "mean_token_accuracy": 0.5552579164505005,
      "step": 190
    },
    {
      "epoch": 0.8498331479421579,
      "grad_norm": 0.7597591280937195,
      "learning_rate": 4.999425555042962e-06,
      "loss": 1.7925,
      "mean_token_accuracy": 0.5756873339414597,
      "step": 191
    },
    {
      "epoch": 0.8542825361512792,
      "grad_norm": 0.736956775188446,
      "learning_rate": 4.999316368003062e-06,
      "loss": 1.9334,
      "mean_token_accuracy": 0.5467250645160675,
      "step": 192
    },
    {
      "epoch": 0.8587319243604005,
      "grad_norm": 0.7624133825302124,
      "learning_rate": 4.999197688241076e-06,
      "loss": 1.8959,
      "mean_token_accuracy": 0.5518860965967178,
      "step": 193
    },
    {
      "epoch": 0.8631813125695217,
      "grad_norm": 0.8769143223762512,
      "learning_rate": 4.999069516207767e-06,
      "loss": 1.9038,
      "mean_token_accuracy": 0.5472344607114792,
      "step": 194
    },
    {
      "epoch": 0.8676307007786429,
      "grad_norm": 0.7802203297615051,
      "learning_rate": 4.998931852389947e-06,
      "loss": 1.9067,
      "mean_token_accuracy": 0.5497399866580963,
      "step": 195
    },
    {
      "epoch": 0.8720800889877642,
      "grad_norm": 0.8137075901031494,
      "learning_rate": 4.998784697310483e-06,
      "loss": 2.0805,
      "mean_token_accuracy": 0.5189379006624222,
      "step": 196
    },
    {
      "epoch": 0.8765294771968855,
      "grad_norm": 0.7800240516662598,
      "learning_rate": 4.998628051528285e-06,
      "loss": 1.8819,
      "mean_token_accuracy": 0.5520250499248505,
      "step": 197
    },
    {
      "epoch": 0.8809788654060067,
      "grad_norm": 0.7775863409042358,
      "learning_rate": 4.998461915638316e-06,
      "loss": 1.9393,
      "mean_token_accuracy": 0.5428410321474075,
      "step": 198
    },
    {
      "epoch": 0.8854282536151279,
      "grad_norm": 0.7116863131523132,
      "learning_rate": 4.998286290271581e-06,
      "loss": 1.8621,
      "mean_token_accuracy": 0.5548622459173203,
      "step": 199
    },
    {
      "epoch": 0.8898776418242491,
      "grad_norm": 0.8018787503242493,
      "learning_rate": 4.998101176095128e-06,
      "loss": 1.9425,
      "mean_token_accuracy": 0.5418781787157059,
      "step": 200
    },
    {
      "epoch": 0.8898776418242491,
      "eval_loss": 1.9042999744415283,
      "eval_mean_token_accuracy": 0.5507208308577538,
      "eval_runtime": 8.8691,
      "eval_samples_per_second": 11.275,
      "eval_steps_per_second": 11.275,
      "step": 200
    },
    {
      "epoch": 0.8943270300333704,
      "grad_norm": 0.8009943962097168,
      "learning_rate": 4.997906573812042e-06,
      "loss": 1.9842,
      "mean_token_accuracy": 0.5279970914125443,
      "step": 201
    },
    {
      "epoch": 0.8987764182424917,
      "grad_norm": 0.7389478087425232,
      "learning_rate": 4.997702484161451e-06,
      "loss": 1.722,
      "mean_token_accuracy": 0.5845596194267273,
      "step": 202
    },
    {
      "epoch": 0.9032258064516129,
      "grad_norm": 0.7543587684631348,
      "learning_rate": 4.99748890791851e-06,
      "loss": 1.8406,
      "mean_token_accuracy": 0.5566525459289551,
      "step": 203
    },
    {
      "epoch": 0.9076751946607341,
      "grad_norm": 0.7575052380561829,
      "learning_rate": 4.997265845894411e-06,
      "loss": 1.7396,
      "mean_token_accuracy": 0.5863444209098816,
      "step": 204
    },
    {
      "epoch": 0.9121245828698554,
      "grad_norm": 0.7867734432220459,
      "learning_rate": 4.99703329893637e-06,
      "loss": 1.8669,
      "mean_token_accuracy": 0.5585835874080658,
      "step": 205
    },
    {
      "epoch": 0.9165739710789766,
      "grad_norm": 0.7224212884902954,
      "learning_rate": 4.996791267927632e-06,
      "loss": 1.7798,
      "mean_token_accuracy": 0.5828783363103867,
      "step": 206
    },
    {
      "epoch": 0.9210233592880979,
      "grad_norm": 0.7358167767524719,
      "learning_rate": 4.996539753787461e-06,
      "loss": 1.8542,
      "mean_token_accuracy": 0.5557697266340256,
      "step": 207
    },
    {
      "epoch": 0.9254727474972191,
      "grad_norm": 0.8121910095214844,
      "learning_rate": 4.996278757471139e-06,
      "loss": 2.05,
      "mean_token_accuracy": 0.5234925150871277,
      "step": 208
    },
    {
      "epoch": 0.9299221357063404,
      "grad_norm": 0.8003960847854614,
      "learning_rate": 4.996008279969965e-06,
      "loss": 1.9196,
      "mean_token_accuracy": 0.5450435727834702,
      "step": 209
    },
    {
      "epoch": 0.9343715239154616,
      "grad_norm": 0.8682481050491333,
      "learning_rate": 4.995728322311244e-06,
      "loss": 1.8899,
      "mean_token_accuracy": 0.5548589676618576,
      "step": 210
    },
    {
      "epoch": 0.9388209121245829,
      "grad_norm": 0.8325849175453186,
      "learning_rate": 4.995438885558294e-06,
      "loss": 1.8986,
      "mean_token_accuracy": 0.5472962856292725,
      "step": 211
    },
    {
      "epoch": 0.9432703003337041,
      "grad_norm": 0.8153002262115479,
      "learning_rate": 4.995139970810431e-06,
      "loss": 1.7246,
      "mean_token_accuracy": 0.5761573910713196,
      "step": 212
    },
    {
      "epoch": 0.9477196885428254,
      "grad_norm": 0.8126769065856934,
      "learning_rate": 4.9948315792029714e-06,
      "loss": 1.9262,
      "mean_token_accuracy": 0.5516125112771988,
      "step": 213
    },
    {
      "epoch": 0.9521690767519466,
      "grad_norm": 0.8246006369590759,
      "learning_rate": 4.994513711907227e-06,
      "loss": 1.7509,
      "mean_token_accuracy": 0.5714277625083923,
      "step": 214
    },
    {
      "epoch": 0.9566184649610678,
      "grad_norm": 0.8283434510231018,
      "learning_rate": 4.994186370130496e-06,
      "loss": 1.9552,
      "mean_token_accuracy": 0.5469483286142349,
      "step": 215
    },
    {
      "epoch": 0.9610678531701891,
      "grad_norm": 0.9188334345817566,
      "learning_rate": 4.993849555116067e-06,
      "loss": 1.909,
      "mean_token_accuracy": 0.5439473092556,
      "step": 216
    },
    {
      "epoch": 0.9655172413793104,
      "grad_norm": 0.7812661528587341,
      "learning_rate": 4.993503268143205e-06,
      "loss": 1.7657,
      "mean_token_accuracy": 0.5756425112485886,
      "step": 217
    },
    {
      "epoch": 0.9699666295884316,
      "grad_norm": 0.7468552589416504,
      "learning_rate": 4.993147510527151e-06,
      "loss": 1.8617,
      "mean_token_accuracy": 0.5575807690620422,
      "step": 218
    },
    {
      "epoch": 0.9744160177975528,
      "grad_norm": 0.7967860102653503,
      "learning_rate": 4.9927822836191185e-06,
      "loss": 1.8957,
      "mean_token_accuracy": 0.5518811792135239,
      "step": 219
    },
    {
      "epoch": 0.978865406006674,
      "grad_norm": 0.8183383941650391,
      "learning_rate": 4.992407588806287e-06,
      "loss": 1.8581,
      "mean_token_accuracy": 0.5623067617416382,
      "step": 220
    },
    {
      "epoch": 0.9833147942157954,
      "grad_norm": 0.8034993410110474,
      "learning_rate": 4.9920234275117944e-06,
      "loss": 1.8022,
      "mean_token_accuracy": 0.561370849609375,
      "step": 221
    },
    {
      "epoch": 0.9877641824249166,
      "grad_norm": 0.7943668365478516,
      "learning_rate": 4.991629801194734e-06,
      "loss": 1.7042,
      "mean_token_accuracy": 0.5775289684534073,
      "step": 222
    },
    {
      "epoch": 0.9922135706340378,
      "grad_norm": 0.8463107347488403,
      "learning_rate": 4.991226711350148e-06,
      "loss": 1.8777,
      "mean_token_accuracy": 0.5568550676107407,
      "step": 223
    },
    {
      "epoch": 0.996662958843159,
      "grad_norm": 0.976538896560669,
      "learning_rate": 4.990814159509025e-06,
      "loss": 1.9261,
      "mean_token_accuracy": 0.5452031791210175,
      "step": 224
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0858312845230103,
      "learning_rate": 4.990392147238287e-06,
      "loss": 1.899,
      "mean_token_accuracy": 0.5477160215377808,
      "step": 225
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.841709017753601,
      "eval_mean_token_accuracy": 0.5586273768544197,
      "eval_runtime": 9.0973,
      "eval_samples_per_second": 10.992,
      "eval_steps_per_second": 10.992,
      "step": 225
    },
    {
      "epoch": 1.0044493882091212,
      "grad_norm": 0.7465180158615112,
      "learning_rate": 4.989960676140793e-06,
      "loss": 1.8313,
      "mean_token_accuracy": 0.5690857619047165,
      "step": 226
    },
    {
      "epoch": 1.0088987764182424,
      "grad_norm": 0.7752246260643005,
      "learning_rate": 4.989519747855323e-06,
      "loss": 1.7491,
      "mean_token_accuracy": 0.5662905871868134,
      "step": 227
    },
    {
      "epoch": 1.0133481646273637,
      "grad_norm": 0.8642746210098267,
      "learning_rate": 4.98906936405658e-06,
      "loss": 1.8897,
      "mean_token_accuracy": 0.5499543994665146,
      "step": 228
    },
    {
      "epoch": 1.0177975528364849,
      "grad_norm": 0.8594925403594971,
      "learning_rate": 4.9886095264551794e-06,
      "loss": 1.7185,
      "mean_token_accuracy": 0.5744164735078812,
      "step": 229
    },
    {
      "epoch": 1.0222469410456063,
      "grad_norm": 0.8626742362976074,
      "learning_rate": 4.988140236797642e-06,
      "loss": 1.7836,
      "mean_token_accuracy": 0.5683142989873886,
      "step": 230
    },
    {
      "epoch": 1.0266963292547275,
      "grad_norm": 0.8354923129081726,
      "learning_rate": 4.987661496866389e-06,
      "loss": 1.8,
      "mean_token_accuracy": 0.5743415951728821,
      "step": 231
    },
    {
      "epoch": 1.0311457174638488,
      "grad_norm": 0.9336957335472107,
      "learning_rate": 4.987173308479738e-06,
      "loss": 1.7014,
      "mean_token_accuracy": 0.5905201882123947,
      "step": 232
    },
    {
      "epoch": 1.03559510567297,
      "grad_norm": 0.8317011594772339,
      "learning_rate": 4.98667567349189e-06,
      "loss": 1.8642,
      "mean_token_accuracy": 0.5525138825178146,
      "step": 233
    },
    {
      "epoch": 1.0400444938820912,
      "grad_norm": 0.8862014412879944,
      "learning_rate": 4.986168593792924e-06,
      "loss": 1.8724,
      "mean_token_accuracy": 0.5577463954687119,
      "step": 234
    },
    {
      "epoch": 1.0444938820912124,
      "grad_norm": 0.7823032140731812,
      "learning_rate": 4.985652071308797e-06,
      "loss": 1.7697,
      "mean_token_accuracy": 0.5670530050992966,
      "step": 235
    },
    {
      "epoch": 1.0489432703003336,
      "grad_norm": 0.8202162981033325,
      "learning_rate": 4.985126108001323e-06,
      "loss": 1.7914,
      "mean_token_accuracy": 0.5617993772029877,
      "step": 236
    },
    {
      "epoch": 1.0533926585094548,
      "grad_norm": 0.8670591711997986,
      "learning_rate": 4.984590705868181e-06,
      "loss": 1.714,
      "mean_token_accuracy": 0.5799422711133957,
      "step": 237
    },
    {
      "epoch": 1.0578420467185763,
      "grad_norm": 0.8519799709320068,
      "learning_rate": 4.984045866942895e-06,
      "loss": 1.7983,
      "mean_token_accuracy": 0.5695763379335403,
      "step": 238
    },
    {
      "epoch": 1.0622914349276975,
      "grad_norm": 0.8250904083251953,
      "learning_rate": 4.983491593294834e-06,
      "loss": 1.7248,
      "mean_token_accuracy": 0.5753364711999893,
      "step": 239
    },
    {
      "epoch": 1.0667408231368187,
      "grad_norm": 0.8035046458244324,
      "learning_rate": 4.9829278870291975e-06,
      "loss": 1.6929,
      "mean_token_accuracy": 0.58084736764431,
      "step": 240
    },
    {
      "epoch": 1.07119021134594,
      "grad_norm": 0.8401524424552917,
      "learning_rate": 4.982354750287017e-06,
      "loss": 1.8452,
      "mean_token_accuracy": 0.5660194158554077,
      "step": 241
    },
    {
      "epoch": 1.0756395995550612,
      "grad_norm": 0.8614855408668518,
      "learning_rate": 4.981772185245135e-06,
      "loss": 1.6588,
      "mean_token_accuracy": 0.575428307056427,
      "step": 242
    },
    {
      "epoch": 1.0800889877641824,
      "grad_norm": 0.8573229908943176,
      "learning_rate": 4.981180194116211e-06,
      "loss": 1.7594,
      "mean_token_accuracy": 0.5795171409845352,
      "step": 243
    },
    {
      "epoch": 1.0845383759733036,
      "grad_norm": 0.825501561164856,
      "learning_rate": 4.980578779148702e-06,
      "loss": 1.7581,
      "mean_token_accuracy": 0.5703655481338501,
      "step": 244
    },
    {
      "epoch": 1.0889877641824248,
      "grad_norm": 0.9585031867027283,
      "learning_rate": 4.9799679426268575e-06,
      "loss": 1.9058,
      "mean_token_accuracy": 0.5469519048929214,
      "step": 245
    },
    {
      "epoch": 1.0934371523915463,
      "grad_norm": 0.9602431058883667,
      "learning_rate": 4.979347686870714e-06,
      "loss": 2.0004,
      "mean_token_accuracy": 0.5335015952587128,
      "step": 246
    },
    {
      "epoch": 1.0978865406006675,
      "grad_norm": 0.7889814972877502,
      "learning_rate": 4.978718014236081e-06,
      "loss": 1.7764,
      "mean_token_accuracy": 0.5809079706668854,
      "step": 247
    },
    {
      "epoch": 1.1023359288097887,
      "grad_norm": 0.8804389834403992,
      "learning_rate": 4.978078927114536e-06,
      "loss": 1.8727,
      "mean_token_accuracy": 0.5549643188714981,
      "step": 248
    },
    {
      "epoch": 1.10678531701891,
      "grad_norm": 0.8747841119766235,
      "learning_rate": 4.977430427933412e-06,
      "loss": 1.8353,
      "mean_token_accuracy": 0.5604991018772125,
      "step": 249
    },
    {
      "epoch": 1.1112347052280311,
      "grad_norm": 0.8439493775367737,
      "learning_rate": 4.976772519155793e-06,
      "loss": 1.7627,
      "mean_token_accuracy": 0.5681566745042801,
      "step": 250
    },
    {
      "epoch": 1.1112347052280311,
      "eval_loss": 1.7922613620758057,
      "eval_mean_token_accuracy": 0.5671988767385483,
      "eval_runtime": 8.7998,
      "eval_samples_per_second": 11.364,
      "eval_steps_per_second": 11.364,
      "step": 250
    },
    {
      "epoch": 1.1156840934371524,
      "grad_norm": 0.9733117818832397,
      "learning_rate": 4.9761052032805e-06,
      "loss": 1.8205,
      "mean_token_accuracy": 0.560064047574997,
      "step": 251
    },
    {
      "epoch": 1.1201334816462736,
      "grad_norm": 0.9113299250602722,
      "learning_rate": 4.975428482842083e-06,
      "loss": 1.6708,
      "mean_token_accuracy": 0.5810781717300415,
      "step": 252
    },
    {
      "epoch": 1.1245828698553948,
      "grad_norm": 0.8974245190620422,
      "learning_rate": 4.974742360410814e-06,
      "loss": 1.8454,
      "mean_token_accuracy": 0.5605671405792236,
      "step": 253
    },
    {
      "epoch": 1.129032258064516,
      "grad_norm": 0.7901744246482849,
      "learning_rate": 4.974046838592672e-06,
      "loss": 1.755,
      "mean_token_accuracy": 0.5691103339195251,
      "step": 254
    },
    {
      "epoch": 1.1334816462736375,
      "grad_norm": 0.838596522808075,
      "learning_rate": 4.973341920029338e-06,
      "loss": 1.7919,
      "mean_token_accuracy": 0.5794511288404465,
      "step": 255
    },
    {
      "epoch": 1.1379310344827587,
      "grad_norm": 0.8838204741477966,
      "learning_rate": 4.972627607398183e-06,
      "loss": 1.7866,
      "mean_token_accuracy": 0.5717032551765442,
      "step": 256
    },
    {
      "epoch": 1.14238042269188,
      "grad_norm": 0.94266277551651,
      "learning_rate": 4.971903903412256e-06,
      "loss": 1.6384,
      "mean_token_accuracy": 0.5871206521987915,
      "step": 257
    },
    {
      "epoch": 1.1468298109010011,
      "grad_norm": 0.8858733177185059,
      "learning_rate": 4.971170810820279e-06,
      "loss": 1.7695,
      "mean_token_accuracy": 0.5643827021121979,
      "step": 258
    },
    {
      "epoch": 1.1512791991101223,
      "grad_norm": 0.8828850388526917,
      "learning_rate": 4.97042833240663e-06,
      "loss": 1.7259,
      "mean_token_accuracy": 0.5717647969722748,
      "step": 259
    },
    {
      "epoch": 1.1557285873192435,
      "grad_norm": 0.9559433460235596,
      "learning_rate": 4.969676470991336e-06,
      "loss": 1.8694,
      "mean_token_accuracy": 0.5589475780725479,
      "step": 260
    },
    {
      "epoch": 1.1601779755283648,
      "grad_norm": 0.8822446465492249,
      "learning_rate": 4.968915229430063e-06,
      "loss": 1.7493,
      "mean_token_accuracy": 0.5734861344099045,
      "step": 261
    },
    {
      "epoch": 1.1646273637374862,
      "grad_norm": 0.9333612322807312,
      "learning_rate": 4.968144610614104e-06,
      "loss": 1.6431,
      "mean_token_accuracy": 0.5866501778364182,
      "step": 262
    },
    {
      "epoch": 1.1690767519466074,
      "grad_norm": 0.8532614707946777,
      "learning_rate": 4.9673646174703675e-06,
      "loss": 1.7394,
      "mean_token_accuracy": 0.576145812869072,
      "step": 263
    },
    {
      "epoch": 1.1735261401557286,
      "grad_norm": 1.0310899019241333,
      "learning_rate": 4.966575252961365e-06,
      "loss": 1.8134,
      "mean_token_accuracy": 0.5588687211275101,
      "step": 264
    },
    {
      "epoch": 1.1779755283648499,
      "grad_norm": 0.8899819850921631,
      "learning_rate": 4.965776520085206e-06,
      "loss": 1.8006,
      "mean_token_accuracy": 0.5541523098945618,
      "step": 265
    },
    {
      "epoch": 1.182424916573971,
      "grad_norm": 0.950843095779419,
      "learning_rate": 4.964968421875579e-06,
      "loss": 1.7461,
      "mean_token_accuracy": 0.5748095363378525,
      "step": 266
    },
    {
      "epoch": 1.1868743047830923,
      "grad_norm": 0.9984121918678284,
      "learning_rate": 4.964150961401744e-06,
      "loss": 1.7002,
      "mean_token_accuracy": 0.5767215639352798,
      "step": 267
    },
    {
      "epoch": 1.1913236929922135,
      "grad_norm": 0.9198915362358093,
      "learning_rate": 4.963324141768519e-06,
      "loss": 1.661,
      "mean_token_accuracy": 0.5815063714981079,
      "step": 268
    },
    {
      "epoch": 1.1957730812013347,
      "grad_norm": 0.9970038533210754,
      "learning_rate": 4.962487966116271e-06,
      "loss": 1.8267,
      "mean_token_accuracy": 0.5581904351711273,
      "step": 269
    },
    {
      "epoch": 1.200222469410456,
      "grad_norm": 0.8585866093635559,
      "learning_rate": 4.961642437620901e-06,
      "loss": 1.7197,
      "mean_token_accuracy": 0.5716863572597504,
      "step": 270
    },
    {
      "epoch": 1.2046718576195774,
      "grad_norm": 0.9695976376533508,
      "learning_rate": 4.960787559493836e-06,
      "loss": 1.8001,
      "mean_token_accuracy": 0.5599160194396973,
      "step": 271
    },
    {
      "epoch": 1.2091212458286986,
      "grad_norm": 0.974105954170227,
      "learning_rate": 4.95992333498201e-06,
      "loss": 1.6579,
      "mean_token_accuracy": 0.5801564157009125,
      "step": 272
    },
    {
      "epoch": 1.2135706340378198,
      "grad_norm": 0.9795564413070679,
      "learning_rate": 4.95904976736786e-06,
      "loss": 2.0044,
      "mean_token_accuracy": 0.5356740951538086,
      "step": 273
    },
    {
      "epoch": 1.218020022246941,
      "grad_norm": 0.917978823184967,
      "learning_rate": 4.958166859969304e-06,
      "loss": 1.8615,
      "mean_token_accuracy": 0.5579520761966705,
      "step": 274
    },
    {
      "epoch": 1.2224694104560623,
      "grad_norm": 0.9393746852874756,
      "learning_rate": 4.95727461613974e-06,
      "loss": 1.745,
      "mean_token_accuracy": 0.5711262673139572,
      "step": 275
    },
    {
      "epoch": 1.2224694104560623,
      "eval_loss": 1.7518864870071411,
      "eval_mean_token_accuracy": 0.5735284146666527,
      "eval_runtime": 8.862,
      "eval_samples_per_second": 11.284,
      "eval_steps_per_second": 11.284,
      "step": 275
    },
    {
      "epoch": 1.2269187986651835,
      "grad_norm": 0.959340512752533,
      "learning_rate": 4.956373039268022e-06,
      "loss": 1.6541,
      "mean_token_accuracy": 0.5912456214427948,
      "step": 276
    },
    {
      "epoch": 1.2313681868743047,
      "grad_norm": 0.8761029243469238,
      "learning_rate": 4.9554621327784534e-06,
      "loss": 1.7457,
      "mean_token_accuracy": 0.5756755173206329,
      "step": 277
    },
    {
      "epoch": 1.235817575083426,
      "grad_norm": 1.0415198802947998,
      "learning_rate": 4.954541900130775e-06,
      "loss": 1.7985,
      "mean_token_accuracy": 0.562799334526062,
      "step": 278
    },
    {
      "epoch": 1.2402669632925472,
      "grad_norm": 0.8694655299186707,
      "learning_rate": 4.953612344820147e-06,
      "loss": 1.6492,
      "mean_token_accuracy": 0.5851626992225647,
      "step": 279
    },
    {
      "epoch": 1.2447163515016686,
      "grad_norm": 0.9356406927108765,
      "learning_rate": 4.952673470377137e-06,
      "loss": 1.7698,
      "mean_token_accuracy": 0.5719871371984482,
      "step": 280
    },
    {
      "epoch": 1.2491657397107898,
      "grad_norm": 0.8940538763999939,
      "learning_rate": 4.951725280367713e-06,
      "loss": 1.6537,
      "mean_token_accuracy": 0.5919952392578125,
      "step": 281
    },
    {
      "epoch": 1.253615127919911,
      "grad_norm": 0.9189663529396057,
      "learning_rate": 4.95076777839322e-06,
      "loss": 1.8186,
      "mean_token_accuracy": 0.5640005171298981,
      "step": 282
    },
    {
      "epoch": 1.2580645161290323,
      "grad_norm": 0.9143533706665039,
      "learning_rate": 4.9498009680903705e-06,
      "loss": 1.7388,
      "mean_token_accuracy": 0.5618493556976318,
      "step": 283
    },
    {
      "epoch": 1.2625139043381535,
      "grad_norm": 0.96138596534729,
      "learning_rate": 4.948824853131237e-06,
      "loss": 1.7199,
      "mean_token_accuracy": 0.5729009360074997,
      "step": 284
    },
    {
      "epoch": 1.2669632925472747,
      "grad_norm": 0.9239013195037842,
      "learning_rate": 4.9478394372232255e-06,
      "loss": 1.6504,
      "mean_token_accuracy": 0.5828668475151062,
      "step": 285
    },
    {
      "epoch": 1.271412680756396,
      "grad_norm": 0.9595199823379517,
      "learning_rate": 4.946844724109073e-06,
      "loss": 1.7201,
      "mean_token_accuracy": 0.5809866338968277,
      "step": 286
    },
    {
      "epoch": 1.2758620689655173,
      "grad_norm": 0.8585267663002014,
      "learning_rate": 4.9458407175668255e-06,
      "loss": 1.6176,
      "mean_token_accuracy": 0.5973909348249435,
      "step": 287
    },
    {
      "epoch": 1.2803114571746386,
      "grad_norm": 0.9242027997970581,
      "learning_rate": 4.944827421409829e-06,
      "loss": 1.6839,
      "mean_token_accuracy": 0.5666152387857437,
      "step": 288
    },
    {
      "epoch": 1.2847608453837598,
      "grad_norm": 0.8458268642425537,
      "learning_rate": 4.94380483948671e-06,
      "loss": 1.7195,
      "mean_token_accuracy": 0.5735581517219543,
      "step": 289
    },
    {
      "epoch": 1.289210233592881,
      "grad_norm": 1.0036072731018066,
      "learning_rate": 4.942772975681366e-06,
      "loss": 1.6139,
      "mean_token_accuracy": 0.5861148536205292,
      "step": 290
    },
    {
      "epoch": 1.2936596218020022,
      "grad_norm": 0.9870766401290894,
      "learning_rate": 4.941731833912948e-06,
      "loss": 1.742,
      "mean_token_accuracy": 0.5806842744350433,
      "step": 291
    },
    {
      "epoch": 1.2981090100111234,
      "grad_norm": 1.0486035346984863,
      "learning_rate": 4.940681418135843e-06,
      "loss": 1.7777,
      "mean_token_accuracy": 0.5652354806661606,
      "step": 292
    },
    {
      "epoch": 1.3025583982202447,
      "grad_norm": 1.0631356239318848,
      "learning_rate": 4.939621732339665e-06,
      "loss": 1.6215,
      "mean_token_accuracy": 0.5904130935668945,
      "step": 293
    },
    {
      "epoch": 1.3070077864293659,
      "grad_norm": 0.9513578414916992,
      "learning_rate": 4.938552780549236e-06,
      "loss": 1.7979,
      "mean_token_accuracy": 0.5663558691740036,
      "step": 294
    },
    {
      "epoch": 1.311457174638487,
      "grad_norm": 0.9708477854728699,
      "learning_rate": 4.937474566824571e-06,
      "loss": 1.7129,
      "mean_token_accuracy": 0.5818164497613907,
      "step": 295
    },
    {
      "epoch": 1.3159065628476085,
      "grad_norm": 0.9219452738761902,
      "learning_rate": 4.9363870952608634e-06,
      "loss": 1.6383,
      "mean_token_accuracy": 0.591848611831665,
      "step": 296
    },
    {
      "epoch": 1.3203559510567298,
      "grad_norm": 0.9345641732215881,
      "learning_rate": 4.935290369988468e-06,
      "loss": 1.7533,
      "mean_token_accuracy": 0.5759328454732895,
      "step": 297
    },
    {
      "epoch": 1.324805339265851,
      "grad_norm": 1.018566370010376,
      "learning_rate": 4.934184395172888e-06,
      "loss": 1.7051,
      "mean_token_accuracy": 0.5758243650197983,
      "step": 298
    },
    {
      "epoch": 1.3292547274749722,
      "grad_norm": 0.9657765030860901,
      "learning_rate": 4.933069175014756e-06,
      "loss": 1.733,
      "mean_token_accuracy": 0.5743085145950317,
      "step": 299
    },
    {
      "epoch": 1.3337041156840934,
      "grad_norm": 0.9714094400405884,
      "learning_rate": 4.931944713749821e-06,
      "loss": 1.7544,
      "mean_token_accuracy": 0.5683694630861282,
      "step": 300
    },
    {
      "epoch": 1.3337041156840934,
      "eval_loss": 1.7167766094207764,
      "eval_mean_token_accuracy": 0.5790269216895103,
      "eval_runtime": 8.8223,
      "eval_samples_per_second": 11.335,
      "eval_steps_per_second": 11.335,
      "step": 300
    },
    {
      "epoch": 1.3381535038932146,
      "grad_norm": 1.0278961658477783,
      "learning_rate": 4.930811015648929e-06,
      "loss": 1.6776,
      "mean_token_accuracy": 0.5859626680612564,
      "step": 301
    },
    {
      "epoch": 1.3426028921023359,
      "grad_norm": 0.958892285823822,
      "learning_rate": 4.929668085018011e-06,
      "loss": 1.7474,
      "mean_token_accuracy": 0.5727525651454926,
      "step": 302
    },
    {
      "epoch": 1.3470522803114573,
      "grad_norm": 0.9462315440177917,
      "learning_rate": 4.928515926198063e-06,
      "loss": 1.6788,
      "mean_token_accuracy": 0.5894428193569183,
      "step": 303
    },
    {
      "epoch": 1.3515016685205783,
      "grad_norm": 1.0704323053359985,
      "learning_rate": 4.927354543565131e-06,
      "loss": 1.5656,
      "mean_token_accuracy": 0.6152756661176682,
      "step": 304
    },
    {
      "epoch": 1.3559510567296997,
      "grad_norm": 0.8531171083450317,
      "learning_rate": 4.926183941530294e-06,
      "loss": 1.7877,
      "mean_token_accuracy": 0.564966544508934,
      "step": 305
    },
    {
      "epoch": 1.360400444938821,
      "grad_norm": 1.0124225616455078,
      "learning_rate": 4.925004124539648e-06,
      "loss": 1.7139,
      "mean_token_accuracy": 0.5724947899580002,
      "step": 306
    },
    {
      "epoch": 1.3648498331479422,
      "grad_norm": 0.9822540879249573,
      "learning_rate": 4.923815097074287e-06,
      "loss": 1.6059,
      "mean_token_accuracy": 0.6035686433315277,
      "step": 307
    },
    {
      "epoch": 1.3692992213570634,
      "grad_norm": 1.2252212762832642,
      "learning_rate": 4.92261686365029e-06,
      "loss": 1.7727,
      "mean_token_accuracy": 0.573668509721756,
      "step": 308
    },
    {
      "epoch": 1.3737486095661846,
      "grad_norm": 1.0007656812667847,
      "learning_rate": 4.921409428818702e-06,
      "loss": 1.7072,
      "mean_token_accuracy": 0.584416463971138,
      "step": 309
    },
    {
      "epoch": 1.3781979977753058,
      "grad_norm": 1.0340428352355957,
      "learning_rate": 4.920192797165511e-06,
      "loss": 1.7217,
      "mean_token_accuracy": 0.5799942016601562,
      "step": 310
    },
    {
      "epoch": 1.382647385984427,
      "grad_norm": 0.9796954393386841,
      "learning_rate": 4.918966973311641e-06,
      "loss": 1.7176,
      "mean_token_accuracy": 0.576792374253273,
      "step": 311
    },
    {
      "epoch": 1.3870967741935485,
      "grad_norm": 1.1559799909591675,
      "learning_rate": 4.917731961912927e-06,
      "loss": 1.5741,
      "mean_token_accuracy": 0.6008260846138,
      "step": 312
    },
    {
      "epoch": 1.3915461624026697,
      "grad_norm": 0.961754322052002,
      "learning_rate": 4.9164877676601e-06,
      "loss": 1.6733,
      "mean_token_accuracy": 0.5812514275312424,
      "step": 313
    },
    {
      "epoch": 1.395995550611791,
      "grad_norm": 1.289412021636963,
      "learning_rate": 4.915234395278768e-06,
      "loss": 1.6487,
      "mean_token_accuracy": 0.5936466604471207,
      "step": 314
    },
    {
      "epoch": 1.4004449388209121,
      "grad_norm": 1.0252896547317505,
      "learning_rate": 4.913971849529399e-06,
      "loss": 1.6213,
      "mean_token_accuracy": 0.5944527387619019,
      "step": 315
    },
    {
      "epoch": 1.4048943270300334,
      "grad_norm": 1.0466346740722656,
      "learning_rate": 4.912700135207301e-06,
      "loss": 1.6857,
      "mean_token_accuracy": 0.5846407264471054,
      "step": 316
    },
    {
      "epoch": 1.4093437152391546,
      "grad_norm": 1.0442306995391846,
      "learning_rate": 4.91141925714261e-06,
      "loss": 1.727,
      "mean_token_accuracy": 0.5754292011260986,
      "step": 317
    },
    {
      "epoch": 1.4137931034482758,
      "grad_norm": 1.100900411605835,
      "learning_rate": 4.910129220200263e-06,
      "loss": 1.655,
      "mean_token_accuracy": 0.5786808729171753,
      "step": 318
    },
    {
      "epoch": 1.4182424916573972,
      "grad_norm": 1.0596121549606323,
      "learning_rate": 4.908830029279984e-06,
      "loss": 1.7139,
      "mean_token_accuracy": 0.5782517194747925,
      "step": 319
    },
    {
      "epoch": 1.4226918798665182,
      "grad_norm": 1.0123326778411865,
      "learning_rate": 4.907521689316265e-06,
      "loss": 1.7199,
      "mean_token_accuracy": 0.5737171620130539,
      "step": 320
    },
    {
      "epoch": 1.4271412680756397,
      "grad_norm": 0.9710723161697388,
      "learning_rate": 4.906204205278351e-06,
      "loss": 1.7301,
      "mean_token_accuracy": 0.5800124704837799,
      "step": 321
    },
    {
      "epoch": 1.431590656284761,
      "grad_norm": 0.9879564046859741,
      "learning_rate": 4.904877582170212e-06,
      "loss": 1.6826,
      "mean_token_accuracy": 0.5834766626358032,
      "step": 322
    },
    {
      "epoch": 1.4360400444938821,
      "grad_norm": 1.0492908954620361,
      "learning_rate": 4.9035418250305314e-06,
      "loss": 1.5761,
      "mean_token_accuracy": 0.6032388359308243,
      "step": 323
    },
    {
      "epoch": 1.4404894327030033,
      "grad_norm": 1.017972707748413,
      "learning_rate": 4.9021969389326866e-06,
      "loss": 1.6417,
      "mean_token_accuracy": 0.5809502750635147,
      "step": 324
    },
    {
      "epoch": 1.4449388209121246,
      "grad_norm": 1.001990556716919,
      "learning_rate": 4.9008429289847245e-06,
      "loss": 1.6169,
      "mean_token_accuracy": 0.589624673128128,
      "step": 325
    },
    {
      "epoch": 1.4449388209121246,
      "eval_loss": 1.6871705055236816,
      "eval_mean_token_accuracy": 0.5857126241922379,
      "eval_runtime": 8.8102,
      "eval_samples_per_second": 11.35,
      "eval_steps_per_second": 11.35,
      "step": 325
    },
    {
      "epoch": 1.4493882091212458,
      "grad_norm": 1.0688074827194214,
      "learning_rate": 4.899479800329348e-06,
      "loss": 1.7296,
      "mean_token_accuracy": 0.5730269402265549,
      "step": 326
    },
    {
      "epoch": 1.453837597330367,
      "grad_norm": 0.9745123386383057,
      "learning_rate": 4.898107558143895e-06,
      "loss": 1.6676,
      "mean_token_accuracy": 0.5887830406427383,
      "step": 327
    },
    {
      "epoch": 1.4582869855394884,
      "grad_norm": 1.2206871509552002,
      "learning_rate": 4.896726207640315e-06,
      "loss": 1.752,
      "mean_token_accuracy": 0.5782598108053207,
      "step": 328
    },
    {
      "epoch": 1.4627363737486094,
      "grad_norm": 1.119408130645752,
      "learning_rate": 4.895335754065153e-06,
      "loss": 1.6563,
      "mean_token_accuracy": 0.591153472661972,
      "step": 329
    },
    {
      "epoch": 1.4671857619577309,
      "grad_norm": 0.9779911041259766,
      "learning_rate": 4.8939362026995295e-06,
      "loss": 1.7799,
      "mean_token_accuracy": 0.5632702261209488,
      "step": 330
    },
    {
      "epoch": 1.471635150166852,
      "grad_norm": 0.9313666820526123,
      "learning_rate": 4.892527558859118e-06,
      "loss": 1.672,
      "mean_token_accuracy": 0.5843745321035385,
      "step": 331
    },
    {
      "epoch": 1.4760845383759733,
      "grad_norm": 1.0424251556396484,
      "learning_rate": 4.891109827894129e-06,
      "loss": 1.7223,
      "mean_token_accuracy": 0.5821659117937088,
      "step": 332
    },
    {
      "epoch": 1.4805339265850945,
      "grad_norm": 1.008599877357483,
      "learning_rate": 4.889683015189283e-06,
      "loss": 1.5912,
      "mean_token_accuracy": 0.596081867814064,
      "step": 333
    },
    {
      "epoch": 1.4849833147942157,
      "grad_norm": 0.9566251635551453,
      "learning_rate": 4.8882471261637985e-06,
      "loss": 1.6976,
      "mean_token_accuracy": 0.5702096670866013,
      "step": 334
    },
    {
      "epoch": 1.489432703003337,
      "grad_norm": 0.9865685105323792,
      "learning_rate": 4.886802166271365e-06,
      "loss": 1.6551,
      "mean_token_accuracy": 0.5956000536680222,
      "step": 335
    },
    {
      "epoch": 1.4938820912124582,
      "grad_norm": 0.955431342124939,
      "learning_rate": 4.8853481410001225e-06,
      "loss": 1.622,
      "mean_token_accuracy": 0.5895833671092987,
      "step": 336
    },
    {
      "epoch": 1.4983314794215796,
      "grad_norm": 0.9590843319892883,
      "learning_rate": 4.883885055872646e-06,
      "loss": 1.6128,
      "mean_token_accuracy": 0.6079659014940262,
      "step": 337
    },
    {
      "epoch": 1.5027808676307006,
      "grad_norm": 1.20150625705719,
      "learning_rate": 4.882412916445919e-06,
      "loss": 1.4617,
      "mean_token_accuracy": 0.6300778537988663,
      "step": 338
    },
    {
      "epoch": 1.507230255839822,
      "grad_norm": 0.991244375705719,
      "learning_rate": 4.880931728311314e-06,
      "loss": 1.7251,
      "mean_token_accuracy": 0.5821298211812973,
      "step": 339
    },
    {
      "epoch": 1.5116796440489433,
      "grad_norm": 1.0132566690444946,
      "learning_rate": 4.879441497094572e-06,
      "loss": 1.6111,
      "mean_token_accuracy": 0.5982575714588165,
      "step": 340
    },
    {
      "epoch": 1.5161290322580645,
      "grad_norm": 1.0329687595367432,
      "learning_rate": 4.877942228455783e-06,
      "loss": 1.6285,
      "mean_token_accuracy": 0.5939797759056091,
      "step": 341
    },
    {
      "epoch": 1.5205784204671857,
      "grad_norm": 0.954939603805542,
      "learning_rate": 4.876433928089359e-06,
      "loss": 1.6719,
      "mean_token_accuracy": 0.5891047418117523,
      "step": 342
    },
    {
      "epoch": 1.525027808676307,
      "grad_norm": 0.9725693464279175,
      "learning_rate": 4.874916601724017e-06,
      "loss": 1.6722,
      "mean_token_accuracy": 0.5822561383247375,
      "step": 343
    },
    {
      "epoch": 1.5294771968854284,
      "grad_norm": 0.9781208038330078,
      "learning_rate": 4.873390255122756e-06,
      "loss": 1.6138,
      "mean_token_accuracy": 0.5891935527324677,
      "step": 344
    },
    {
      "epoch": 1.5339265850945494,
      "grad_norm": 1.033381700515747,
      "learning_rate": 4.8718548940828355e-06,
      "loss": 1.6014,
      "mean_token_accuracy": 0.5927228927612305,
      "step": 345
    },
    {
      "epoch": 1.5383759733036708,
      "grad_norm": 1.023654580116272,
      "learning_rate": 4.8703105244357504e-06,
      "loss": 1.7549,
      "mean_token_accuracy": 0.575452595949173,
      "step": 346
    },
    {
      "epoch": 1.542825361512792,
      "grad_norm": 1.1900421380996704,
      "learning_rate": 4.8687571520472165e-06,
      "loss": 1.7336,
      "mean_token_accuracy": 0.5790518522262573,
      "step": 347
    },
    {
      "epoch": 1.5472747497219133,
      "grad_norm": 1.0346744060516357,
      "learning_rate": 4.867194782817138e-06,
      "loss": 1.6919,
      "mean_token_accuracy": 0.5899117290973663,
      "step": 348
    },
    {
      "epoch": 1.5517241379310345,
      "grad_norm": 1.0871503353118896,
      "learning_rate": 4.865623422679593e-06,
      "loss": 1.5495,
      "mean_token_accuracy": 0.6110992580652237,
      "step": 349
    },
    {
      "epoch": 1.5561735261401557,
      "grad_norm": 1.0333997011184692,
      "learning_rate": 4.864043077602807e-06,
      "loss": 1.6652,
      "mean_token_accuracy": 0.5920053273439407,
      "step": 350
    },
    {
      "epoch": 1.5561735261401557,
      "eval_loss": 1.6618211269378662,
      "eval_mean_token_accuracy": 0.5903042143583298,
      "eval_runtime": 8.7724,
      "eval_samples_per_second": 11.399,
      "eval_steps_per_second": 11.399,
      "step": 350
    },
    {
      "epoch": 1.5606229143492771,
      "grad_norm": 1.0583088397979736,
      "learning_rate": 4.8624537535891325e-06,
      "loss": 1.7797,
      "mean_token_accuracy": 0.5695829689502716,
      "step": 351
    },
    {
      "epoch": 1.5650723025583981,
      "grad_norm": 1.1044219732284546,
      "learning_rate": 4.860855456675024e-06,
      "loss": 1.7044,
      "mean_token_accuracy": 0.5813647508621216,
      "step": 352
    },
    {
      "epoch": 1.5695216907675196,
      "grad_norm": 1.1088169813156128,
      "learning_rate": 4.859248192931018e-06,
      "loss": 1.8179,
      "mean_token_accuracy": 0.567449301481247,
      "step": 353
    },
    {
      "epoch": 1.5739710789766406,
      "grad_norm": 1.001866340637207,
      "learning_rate": 4.8576319684617064e-06,
      "loss": 1.5953,
      "mean_token_accuracy": 0.5978285521268845,
      "step": 354
    },
    {
      "epoch": 1.578420467185762,
      "grad_norm": 1.0657979249954224,
      "learning_rate": 4.856006789405716e-06,
      "loss": 1.6514,
      "mean_token_accuracy": 0.5778665542602539,
      "step": 355
    },
    {
      "epoch": 1.5828698553948832,
      "grad_norm": 1.1126104593276978,
      "learning_rate": 4.8543726619356846e-06,
      "loss": 1.6736,
      "mean_token_accuracy": 0.5830388069152832,
      "step": 356
    },
    {
      "epoch": 1.5873192436040044,
      "grad_norm": 1.3459550142288208,
      "learning_rate": 4.852729592258234e-06,
      "loss": 1.8613,
      "mean_token_accuracy": 0.5604645609855652,
      "step": 357
    },
    {
      "epoch": 1.5917686318131257,
      "grad_norm": 1.0013556480407715,
      "learning_rate": 4.8510775866139556e-06,
      "loss": 1.5823,
      "mean_token_accuracy": 0.5994186103343964,
      "step": 358
    },
    {
      "epoch": 1.5962180200222469,
      "grad_norm": 0.9849836230278015,
      "learning_rate": 4.8494166512773745e-06,
      "loss": 1.641,
      "mean_token_accuracy": 0.5993939191102982,
      "step": 359
    },
    {
      "epoch": 1.6006674082313683,
      "grad_norm": 1.155341625213623,
      "learning_rate": 4.8477467925569365e-06,
      "loss": 1.7113,
      "mean_token_accuracy": 0.5803772360086441,
      "step": 360
    },
    {
      "epoch": 1.6051167964404893,
      "grad_norm": 1.0314704179763794,
      "learning_rate": 4.846068016794978e-06,
      "loss": 1.6547,
      "mean_token_accuracy": 0.5946122854948044,
      "step": 361
    },
    {
      "epoch": 1.6095661846496108,
      "grad_norm": 1.0398238897323608,
      "learning_rate": 4.844380330367701e-06,
      "loss": 1.5869,
      "mean_token_accuracy": 0.6009245961904526,
      "step": 362
    },
    {
      "epoch": 1.6140155728587318,
      "grad_norm": 1.0618544816970825,
      "learning_rate": 4.842683739685156e-06,
      "loss": 1.5881,
      "mean_token_accuracy": 0.6065523773431778,
      "step": 363
    },
    {
      "epoch": 1.6184649610678532,
      "grad_norm": 1.0037930011749268,
      "learning_rate": 4.840978251191212e-06,
      "loss": 1.6688,
      "mean_token_accuracy": 0.578540250658989,
      "step": 364
    },
    {
      "epoch": 1.6229143492769744,
      "grad_norm": 1.0210182666778564,
      "learning_rate": 4.839263871363527e-06,
      "loss": 1.6267,
      "mean_token_accuracy": 0.5975232422351837,
      "step": 365
    },
    {
      "epoch": 1.6273637374860956,
      "grad_norm": 1.0660535097122192,
      "learning_rate": 4.837540606713538e-06,
      "loss": 1.6949,
      "mean_token_accuracy": 0.5825738608837128,
      "step": 366
    },
    {
      "epoch": 1.6318131256952169,
      "grad_norm": 1.1743171215057373,
      "learning_rate": 4.835808463786421e-06,
      "loss": 1.6132,
      "mean_token_accuracy": 0.5959160476922989,
      "step": 367
    },
    {
      "epoch": 1.636262513904338,
      "grad_norm": 0.9982394576072693,
      "learning_rate": 4.8340674491610786e-06,
      "loss": 1.6349,
      "mean_token_accuracy": 0.5977689474821091,
      "step": 368
    },
    {
      "epoch": 1.6407119021134595,
      "grad_norm": 1.0246860980987549,
      "learning_rate": 4.832317569450103e-06,
      "loss": 1.639,
      "mean_token_accuracy": 0.5894003361463547,
      "step": 369
    },
    {
      "epoch": 1.6451612903225805,
      "grad_norm": 1.0193296670913696,
      "learning_rate": 4.8305588312997635e-06,
      "loss": 1.5894,
      "mean_token_accuracy": 0.5942712277173996,
      "step": 370
    },
    {
      "epoch": 1.649610678531702,
      "grad_norm": 1.1188035011291504,
      "learning_rate": 4.82879124138997e-06,
      "loss": 1.5577,
      "mean_token_accuracy": 0.6101136952638626,
      "step": 371
    },
    {
      "epoch": 1.6540600667408232,
      "grad_norm": 1.1091891527175903,
      "learning_rate": 4.827014806434254e-06,
      "loss": 1.5786,
      "mean_token_accuracy": 0.6103330105543137,
      "step": 372
    },
    {
      "epoch": 1.6585094549499444,
      "grad_norm": 1.273712158203125,
      "learning_rate": 4.8252295331797415e-06,
      "loss": 1.7884,
      "mean_token_accuracy": 0.580178752541542,
      "step": 373
    },
    {
      "epoch": 1.6629588431590656,
      "grad_norm": 1.0805960893630981,
      "learning_rate": 4.823435428407129e-06,
      "loss": 1.4511,
      "mean_token_accuracy": 0.6178730577230453,
      "step": 374
    },
    {
      "epoch": 1.6674082313681868,
      "grad_norm": 1.041975498199463,
      "learning_rate": 4.821632498930656e-06,
      "loss": 1.5384,
      "mean_token_accuracy": 0.6132074892520905,
      "step": 375
    },
    {
      "epoch": 1.6674082313681868,
      "eval_loss": 1.6394633054733276,
      "eval_mean_token_accuracy": 0.5935316741466522,
      "eval_runtime": 8.8269,
      "eval_samples_per_second": 11.329,
      "eval_steps_per_second": 11.329,
      "step": 375
    },
    {
      "epoch": 1.6718576195773083,
      "grad_norm": 1.1816470623016357,
      "learning_rate": 4.819820751598076e-06,
      "loss": 1.5415,
      "mean_token_accuracy": 0.5998038351535797,
      "step": 376
    },
    {
      "epoch": 1.6763070077864293,
      "grad_norm": 1.0951343774795532,
      "learning_rate": 4.818000193290638e-06,
      "loss": 1.6089,
      "mean_token_accuracy": 0.5875554531812668,
      "step": 377
    },
    {
      "epoch": 1.6807563959955507,
      "grad_norm": 1.048252820968628,
      "learning_rate": 4.816170830923053e-06,
      "loss": 1.675,
      "mean_token_accuracy": 0.590011715888977,
      "step": 378
    },
    {
      "epoch": 1.6852057842046717,
      "grad_norm": 1.1745250225067139,
      "learning_rate": 4.8143326714434745e-06,
      "loss": 1.6902,
      "mean_token_accuracy": 0.5873340368270874,
      "step": 379
    },
    {
      "epoch": 1.6896551724137931,
      "grad_norm": 1.0455293655395508,
      "learning_rate": 4.812485721833465e-06,
      "loss": 1.6602,
      "mean_token_accuracy": 0.5876192152500153,
      "step": 380
    },
    {
      "epoch": 1.6941045606229144,
      "grad_norm": 1.123304843902588,
      "learning_rate": 4.810629989107973e-06,
      "loss": 1.6396,
      "mean_token_accuracy": 0.5900321900844574,
      "step": 381
    },
    {
      "epoch": 1.6985539488320356,
      "grad_norm": 1.1234899759292603,
      "learning_rate": 4.808765480315312e-06,
      "loss": 1.4958,
      "mean_token_accuracy": 0.6116354465484619,
      "step": 382
    },
    {
      "epoch": 1.7030033370411568,
      "grad_norm": 1.1133102178573608,
      "learning_rate": 4.8068922025371205e-06,
      "loss": 1.5649,
      "mean_token_accuracy": 0.6048668026924133,
      "step": 383
    },
    {
      "epoch": 1.707452725250278,
      "grad_norm": 1.0559884309768677,
      "learning_rate": 4.805010162888347e-06,
      "loss": 1.647,
      "mean_token_accuracy": 0.5952505767345428,
      "step": 384
    },
    {
      "epoch": 1.7119021134593995,
      "grad_norm": 1.1315505504608154,
      "learning_rate": 4.803119368517219e-06,
      "loss": 1.7544,
      "mean_token_accuracy": 0.5730762928724289,
      "step": 385
    },
    {
      "epoch": 1.7163515016685205,
      "grad_norm": 1.222446322441101,
      "learning_rate": 4.801219826605213e-06,
      "loss": 1.6639,
      "mean_token_accuracy": 0.5908860415220261,
      "step": 386
    },
    {
      "epoch": 1.720800889877642,
      "grad_norm": 1.0831140279769897,
      "learning_rate": 4.799311544367033e-06,
      "loss": 1.5869,
      "mean_token_accuracy": 0.5946006774902344,
      "step": 387
    },
    {
      "epoch": 1.7252502780867631,
      "grad_norm": 1.162773847579956,
      "learning_rate": 4.797394529050577e-06,
      "loss": 1.6295,
      "mean_token_accuracy": 0.5927435904741287,
      "step": 388
    },
    {
      "epoch": 1.7296996662958843,
      "grad_norm": 1.0280134677886963,
      "learning_rate": 4.795468787936913e-06,
      "loss": 1.6326,
      "mean_token_accuracy": 0.5860231220722198,
      "step": 389
    },
    {
      "epoch": 1.7341490545050056,
      "grad_norm": 0.9977383017539978,
      "learning_rate": 4.793534328340253e-06,
      "loss": 1.6351,
      "mean_token_accuracy": 0.5945837050676346,
      "step": 390
    },
    {
      "epoch": 1.7385984427141268,
      "grad_norm": 1.300040602684021,
      "learning_rate": 4.79159115760792e-06,
      "loss": 1.7611,
      "mean_token_accuracy": 0.5688360035419464,
      "step": 391
    },
    {
      "epoch": 1.743047830923248,
      "grad_norm": 1.0402218103408813,
      "learning_rate": 4.789639283120323e-06,
      "loss": 1.6085,
      "mean_token_accuracy": 0.5991698354482651,
      "step": 392
    },
    {
      "epoch": 1.7474972191323692,
      "grad_norm": 1.125199317932129,
      "learning_rate": 4.787678712290931e-06,
      "loss": 1.649,
      "mean_token_accuracy": 0.5944114774465561,
      "step": 393
    },
    {
      "epoch": 1.7519466073414907,
      "grad_norm": 1.0501420497894287,
      "learning_rate": 4.785709452566243e-06,
      "loss": 1.5952,
      "mean_token_accuracy": 0.589063748717308,
      "step": 394
    },
    {
      "epoch": 1.7563959955506117,
      "grad_norm": 1.3210161924362183,
      "learning_rate": 4.783731511425756e-06,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6087121963500977,
      "step": 395
    },
    {
      "epoch": 1.760845383759733,
      "grad_norm": 1.34498929977417,
      "learning_rate": 4.781744896381945e-06,
      "loss": 1.614,
      "mean_token_accuracy": 0.5999427139759064,
      "step": 396
    },
    {
      "epoch": 1.7652947719688543,
      "grad_norm": 1.1020270586013794,
      "learning_rate": 4.779749614980225e-06,
      "loss": 1.6137,
      "mean_token_accuracy": 0.5964404195547104,
      "step": 397
    },
    {
      "epoch": 1.7697441601779755,
      "grad_norm": 1.1008819341659546,
      "learning_rate": 4.777745674798931e-06,
      "loss": 1.5958,
      "mean_token_accuracy": 0.6047508716583252,
      "step": 398
    },
    {
      "epoch": 1.7741935483870968,
      "grad_norm": 1.12168550491333,
      "learning_rate": 4.775733083449282e-06,
      "loss": 1.611,
      "mean_token_accuracy": 0.5920844227075577,
      "step": 399
    },
    {
      "epoch": 1.778642936596218,
      "grad_norm": 1.137706995010376,
      "learning_rate": 4.773711848575357e-06,
      "loss": 1.6382,
      "mean_token_accuracy": 0.6030127257108688,
      "step": 400
    },
    {
      "epoch": 1.778642936596218,
      "eval_loss": 1.6209666728973389,
      "eval_mean_token_accuracy": 0.5969387710094451,
      "eval_runtime": 8.7647,
      "eval_samples_per_second": 11.409,
      "eval_steps_per_second": 11.409,
      "step": 400
    },
    {
      "epoch": 1.7830923248053394,
      "grad_norm": 1.0736827850341797,
      "learning_rate": 4.771681977854062e-06,
      "loss": 1.5949,
      "mean_token_accuracy": 0.5997586101293564,
      "step": 401
    },
    {
      "epoch": 1.7875417130144604,
      "grad_norm": 1.155217170715332,
      "learning_rate": 4.7696434789951074e-06,
      "loss": 1.6904,
      "mean_token_accuracy": 0.5832161456346512,
      "step": 402
    },
    {
      "epoch": 1.7919911012235819,
      "grad_norm": 1.195434331893921,
      "learning_rate": 4.76759635974097e-06,
      "loss": 1.5755,
      "mean_token_accuracy": 0.6167187839746475,
      "step": 403
    },
    {
      "epoch": 1.7964404894327028,
      "grad_norm": 1.14751398563385,
      "learning_rate": 4.76554062786687e-06,
      "loss": 1.5932,
      "mean_token_accuracy": 0.5873294770717621,
      "step": 404
    },
    {
      "epoch": 1.8008898776418243,
      "grad_norm": 1.4758909940719604,
      "learning_rate": 4.763476291180739e-06,
      "loss": 1.7078,
      "mean_token_accuracy": 0.5830328315496445,
      "step": 405
    },
    {
      "epoch": 1.8053392658509455,
      "grad_norm": 1.086918592453003,
      "learning_rate": 4.76140335752319e-06,
      "loss": 1.5778,
      "mean_token_accuracy": 0.6033081114292145,
      "step": 406
    },
    {
      "epoch": 1.8097886540600667,
      "grad_norm": 1.0721644163131714,
      "learning_rate": 4.7593218347674895e-06,
      "loss": 1.548,
      "mean_token_accuracy": 0.6093009412288666,
      "step": 407
    },
    {
      "epoch": 1.814238042269188,
      "grad_norm": 1.0815931558609009,
      "learning_rate": 4.757231730819528e-06,
      "loss": 1.5497,
      "mean_token_accuracy": 0.6066103279590607,
      "step": 408
    },
    {
      "epoch": 1.8186874304783092,
      "grad_norm": 1.1145142316818237,
      "learning_rate": 4.755133053617785e-06,
      "loss": 1.6303,
      "mean_token_accuracy": 0.5959463268518448,
      "step": 409
    },
    {
      "epoch": 1.8231368186874306,
      "grad_norm": 1.112807273864746,
      "learning_rate": 4.753025811133304e-06,
      "loss": 1.6714,
      "mean_token_accuracy": 0.5794670581817627,
      "step": 410
    },
    {
      "epoch": 1.8275862068965516,
      "grad_norm": 1.2080397605895996,
      "learning_rate": 4.75091001136966e-06,
      "loss": 1.5859,
      "mean_token_accuracy": 0.5841002911329269,
      "step": 411
    },
    {
      "epoch": 1.832035595105673,
      "grad_norm": 1.1162315607070923,
      "learning_rate": 4.7487856623629325e-06,
      "loss": 1.5738,
      "mean_token_accuracy": 0.6011699736118317,
      "step": 412
    },
    {
      "epoch": 1.8364849833147943,
      "grad_norm": 1.0129376649856567,
      "learning_rate": 4.746652772181667e-06,
      "loss": 1.5314,
      "mean_token_accuracy": 0.605780839920044,
      "step": 413
    },
    {
      "epoch": 1.8409343715239155,
      "grad_norm": 1.0957375764846802,
      "learning_rate": 4.744511348926855e-06,
      "loss": 1.6229,
      "mean_token_accuracy": 0.5948030352592468,
      "step": 414
    },
    {
      "epoch": 1.8453837597330367,
      "grad_norm": 1.2771365642547607,
      "learning_rate": 4.742361400731892e-06,
      "loss": 1.5897,
      "mean_token_accuracy": 0.5988983362913132,
      "step": 415
    },
    {
      "epoch": 1.849833147942158,
      "grad_norm": 1.2346277236938477,
      "learning_rate": 4.740202935762557e-06,
      "loss": 1.7834,
      "mean_token_accuracy": 0.5699800848960876,
      "step": 416
    },
    {
      "epoch": 1.8542825361512794,
      "grad_norm": 1.301213026046753,
      "learning_rate": 4.738035962216975e-06,
      "loss": 1.6886,
      "mean_token_accuracy": 0.5919571220874786,
      "step": 417
    },
    {
      "epoch": 1.8587319243604004,
      "grad_norm": 1.2029982805252075,
      "learning_rate": 4.735860488325586e-06,
      "loss": 1.5924,
      "mean_token_accuracy": 0.599960058927536,
      "step": 418
    },
    {
      "epoch": 1.8631813125695218,
      "grad_norm": 1.325562834739685,
      "learning_rate": 4.733676522351119e-06,
      "loss": 1.6228,
      "mean_token_accuracy": 0.5893113911151886,
      "step": 419
    },
    {
      "epoch": 1.8676307007786428,
      "grad_norm": 1.288094401359558,
      "learning_rate": 4.731484072588556e-06,
      "loss": 1.6417,
      "mean_token_accuracy": 0.592293992638588,
      "step": 420
    },
    {
      "epoch": 1.8720800889877642,
      "grad_norm": 1.207215666770935,
      "learning_rate": 4.729283147365098e-06,
      "loss": 1.5743,
      "mean_token_accuracy": 0.6036430448293686,
      "step": 421
    },
    {
      "epoch": 1.8765294771968855,
      "grad_norm": 1.1815687417984009,
      "learning_rate": 4.72707375504014e-06,
      "loss": 1.7982,
      "mean_token_accuracy": 0.5650642514228821,
      "step": 422
    },
    {
      "epoch": 1.8809788654060067,
      "grad_norm": 1.1659904718399048,
      "learning_rate": 4.724855904005237e-06,
      "loss": 1.5727,
      "mean_token_accuracy": 0.6075900346040726,
      "step": 423
    },
    {
      "epoch": 1.885428253615128,
      "grad_norm": 1.149851679801941,
      "learning_rate": 4.722629602684069e-06,
      "loss": 1.633,
      "mean_token_accuracy": 0.5903383195400238,
      "step": 424
    },
    {
      "epoch": 1.889877641824249,
      "grad_norm": 1.0951443910598755,
      "learning_rate": 4.7203948595324125e-06,
      "loss": 1.5213,
      "mean_token_accuracy": 0.6072511076927185,
      "step": 425
    },
    {
      "epoch": 1.889877641824249,
      "eval_loss": 1.6052013635635376,
      "eval_mean_token_accuracy": 0.5989443963766098,
      "eval_runtime": 8.9123,
      "eval_samples_per_second": 11.22,
      "eval_steps_per_second": 11.22,
      "step": 425
    },
    {
      "epoch": 1.8943270300333706,
      "grad_norm": 1.2186824083328247,
      "learning_rate": 4.7181516830381065e-06,
      "loss": 1.6282,
      "mean_token_accuracy": 0.5976550728082657,
      "step": 426
    },
    {
      "epoch": 1.8987764182424915,
      "grad_norm": 1.118188738822937,
      "learning_rate": 4.715900081721021e-06,
      "loss": 1.5672,
      "mean_token_accuracy": 0.6173104047775269,
      "step": 427
    },
    {
      "epoch": 1.903225806451613,
      "grad_norm": 1.1097534894943237,
      "learning_rate": 4.7136400641330245e-06,
      "loss": 1.5963,
      "mean_token_accuracy": 0.5916774868965149,
      "step": 428
    },
    {
      "epoch": 1.907675194660734,
      "grad_norm": 1.1424622535705566,
      "learning_rate": 4.711371638857953e-06,
      "loss": 1.6581,
      "mean_token_accuracy": 0.5845005661249161,
      "step": 429
    },
    {
      "epoch": 1.9121245828698554,
      "grad_norm": 1.03110671043396,
      "learning_rate": 4.709094814511574e-06,
      "loss": 1.5884,
      "mean_token_accuracy": 0.5970037132501602,
      "step": 430
    },
    {
      "epoch": 1.9165739710789766,
      "grad_norm": 1.1363271474838257,
      "learning_rate": 4.706809599741557e-06,
      "loss": 1.5989,
      "mean_token_accuracy": 0.5939330607652664,
      "step": 431
    },
    {
      "epoch": 1.9210233592880979,
      "grad_norm": 1.201058030128479,
      "learning_rate": 4.704516003227439e-06,
      "loss": 1.5847,
      "mean_token_accuracy": 0.599701926112175,
      "step": 432
    },
    {
      "epoch": 1.925472747497219,
      "grad_norm": 1.0929206609725952,
      "learning_rate": 4.70221403368059e-06,
      "loss": 1.5214,
      "mean_token_accuracy": 0.6193809360265732,
      "step": 433
    },
    {
      "epoch": 1.9299221357063403,
      "grad_norm": 1.1311566829681396,
      "learning_rate": 4.699903699844186e-06,
      "loss": 1.5758,
      "mean_token_accuracy": 0.6057851314544678,
      "step": 434
    },
    {
      "epoch": 1.9343715239154617,
      "grad_norm": 1.3067299127578735,
      "learning_rate": 4.697585010493169e-06,
      "loss": 1.5905,
      "mean_token_accuracy": 0.602325826883316,
      "step": 435
    },
    {
      "epoch": 1.9388209121245827,
      "grad_norm": 1.1562938690185547,
      "learning_rate": 4.695257974434215e-06,
      "loss": 1.6894,
      "mean_token_accuracy": 0.5875909775495529,
      "step": 436
    },
    {
      "epoch": 1.9432703003337042,
      "grad_norm": 1.1649471521377563,
      "learning_rate": 4.692922600505705e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6202982366085052,
      "step": 437
    },
    {
      "epoch": 1.9477196885428254,
      "grad_norm": 1.0923510789871216,
      "learning_rate": 4.690578897577687e-06,
      "loss": 1.6136,
      "mean_token_accuracy": 0.605935201048851,
      "step": 438
    },
    {
      "epoch": 1.9521690767519466,
      "grad_norm": 1.186352014541626,
      "learning_rate": 4.688226874551843e-06,
      "loss": 1.715,
      "mean_token_accuracy": 0.5832416713237762,
      "step": 439
    },
    {
      "epoch": 1.9566184649610678,
      "grad_norm": 1.1345449686050415,
      "learning_rate": 4.685866540361456e-06,
      "loss": 1.5952,
      "mean_token_accuracy": 0.5977749079465866,
      "step": 440
    },
    {
      "epoch": 1.961067853170189,
      "grad_norm": 1.329533576965332,
      "learning_rate": 4.6834979039713755e-06,
      "loss": 1.5858,
      "mean_token_accuracy": 0.5939657986164093,
      "step": 441
    },
    {
      "epoch": 1.9655172413793105,
      "grad_norm": 1.2268096208572388,
      "learning_rate": 4.681120974377985e-06,
      "loss": 1.5577,
      "mean_token_accuracy": 0.6069519370794296,
      "step": 442
    },
    {
      "epoch": 1.9699666295884315,
      "grad_norm": 1.2063792943954468,
      "learning_rate": 4.6787357606091665e-06,
      "loss": 1.5918,
      "mean_token_accuracy": 0.5999717563390732,
      "step": 443
    },
    {
      "epoch": 1.974416017797553,
      "grad_norm": 1.1886522769927979,
      "learning_rate": 4.676342271724266e-06,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6169922351837158,
      "step": 444
    },
    {
      "epoch": 1.978865406006674,
      "grad_norm": 1.1348116397857666,
      "learning_rate": 4.673940516814058e-06,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6212279051542282,
      "step": 445
    },
    {
      "epoch": 1.9833147942157954,
      "grad_norm": 1.1786625385284424,
      "learning_rate": 4.671530505000714e-06,
      "loss": 1.5665,
      "mean_token_accuracy": 0.5876791775226593,
      "step": 446
    },
    {
      "epoch": 1.9877641824249166,
      "grad_norm": 1.2216764688491821,
      "learning_rate": 4.669112245437767e-06,
      "loss": 1.6941,
      "mean_token_accuracy": 0.5765497833490372,
      "step": 447
    },
    {
      "epoch": 1.9922135706340378,
      "grad_norm": 1.0825332403182983,
      "learning_rate": 4.666685747310075e-06,
      "loss": 1.5524,
      "mean_token_accuracy": 0.5989352315664291,
      "step": 448
    },
    {
      "epoch": 1.996662958843159,
      "grad_norm": 1.2098592519760132,
      "learning_rate": 4.664251019833786e-06,
      "loss": 1.6123,
      "mean_token_accuracy": 0.5930432081222534,
      "step": 449
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.2545218467712402,
      "learning_rate": 4.661808072256306e-06,
      "loss": 1.4589,
      "mean_token_accuracy": 0.6263503233591715,
      "step": 450
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.5901414155960083,
      "eval_mean_token_accuracy": 0.6015725195407867,
      "eval_runtime": 8.8334,
      "eval_samples_per_second": 11.321,
      "eval_steps_per_second": 11.321,
      "step": 450
    },
    {
      "epoch": 2.0044493882091214,
      "grad_norm": 1.0740654468536377,
      "learning_rate": 4.659356913856261e-06,
      "loss": 1.5385,
      "mean_token_accuracy": 0.6188432574272156,
      "step": 451
    },
    {
      "epoch": 2.0088987764182424,
      "grad_norm": 1.0812318325042725,
      "learning_rate": 4.656897553943463e-06,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6161755621433258,
      "step": 452
    },
    {
      "epoch": 2.013348164627364,
      "grad_norm": 1.1131147146224976,
      "learning_rate": 4.654430001858874e-06,
      "loss": 1.5712,
      "mean_token_accuracy": 0.6102026551961899,
      "step": 453
    },
    {
      "epoch": 2.017797552836485,
      "grad_norm": 1.209538221359253,
      "learning_rate": 4.651954266974573e-06,
      "loss": 1.6261,
      "mean_token_accuracy": 0.5941886901855469,
      "step": 454
    },
    {
      "epoch": 2.0222469410456063,
      "grad_norm": 1.1630477905273438,
      "learning_rate": 4.649470358693714e-06,
      "loss": 1.5477,
      "mean_token_accuracy": 0.6080958843231201,
      "step": 455
    },
    {
      "epoch": 2.0266963292547273,
      "grad_norm": 1.1276788711547852,
      "learning_rate": 4.6469782864504995e-06,
      "loss": 1.5004,
      "mean_token_accuracy": 0.6174975633621216,
      "step": 456
    },
    {
      "epoch": 2.0311457174638488,
      "grad_norm": 1.1586315631866455,
      "learning_rate": 4.644478059710137e-06,
      "loss": 1.6017,
      "mean_token_accuracy": 0.5886169523000717,
      "step": 457
    },
    {
      "epoch": 2.0355951056729698,
      "grad_norm": 1.2076349258422852,
      "learning_rate": 4.6419696879688046e-06,
      "loss": 1.4875,
      "mean_token_accuracy": 0.6161503344774246,
      "step": 458
    },
    {
      "epoch": 2.040044493882091,
      "grad_norm": 1.1857678890228271,
      "learning_rate": 4.639453180753619e-06,
      "loss": 1.5059,
      "mean_token_accuracy": 0.6119189113378525,
      "step": 459
    },
    {
      "epoch": 2.0444938820912126,
      "grad_norm": 1.2281160354614258,
      "learning_rate": 4.636928547622596e-06,
      "loss": 1.6188,
      "mean_token_accuracy": 0.59330053627491,
      "step": 460
    },
    {
      "epoch": 2.0489432703003336,
      "grad_norm": 1.28249990940094,
      "learning_rate": 4.6343957981646135e-06,
      "loss": 1.6429,
      "mean_token_accuracy": 0.5930549800395966,
      "step": 461
    },
    {
      "epoch": 2.053392658509455,
      "grad_norm": 1.1723014116287231,
      "learning_rate": 4.6318549419993765e-06,
      "loss": 1.5445,
      "mean_token_accuracy": 0.6115822345018387,
      "step": 462
    },
    {
      "epoch": 2.057842046718576,
      "grad_norm": 1.1774346828460693,
      "learning_rate": 4.62930598877738e-06,
      "loss": 1.5179,
      "mean_token_accuracy": 0.6048736125230789,
      "step": 463
    },
    {
      "epoch": 2.0622914349276975,
      "grad_norm": 1.2210191488265991,
      "learning_rate": 4.6267489481798744e-06,
      "loss": 1.5318,
      "mean_token_accuracy": 0.6048919558525085,
      "step": 464
    },
    {
      "epoch": 2.0667408231368185,
      "grad_norm": 1.0740985870361328,
      "learning_rate": 4.624183829918824e-06,
      "loss": 1.5394,
      "mean_token_accuracy": 0.6031854450702667,
      "step": 465
    },
    {
      "epoch": 2.07119021134594,
      "grad_norm": 1.200411319732666,
      "learning_rate": 4.621610643736878e-06,
      "loss": 1.7054,
      "mean_token_accuracy": 0.5753882676362991,
      "step": 466
    },
    {
      "epoch": 2.0756395995550614,
      "grad_norm": 1.167331337928772,
      "learning_rate": 4.619029399407322e-06,
      "loss": 1.504,
      "mean_token_accuracy": 0.6170366257429123,
      "step": 467
    },
    {
      "epoch": 2.0800889877641824,
      "grad_norm": 1.2183793783187866,
      "learning_rate": 4.616440106734053e-06,
      "loss": 1.5792,
      "mean_token_accuracy": 0.5988415330648422,
      "step": 468
    },
    {
      "epoch": 2.084538375973304,
      "grad_norm": 1.1822928190231323,
      "learning_rate": 4.613842775551533e-06,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6060337126255035,
      "step": 469
    },
    {
      "epoch": 2.088987764182425,
      "grad_norm": 1.1398659944534302,
      "learning_rate": 4.611237415724759e-06,
      "loss": 1.572,
      "mean_token_accuracy": 0.5923800468444824,
      "step": 470
    },
    {
      "epoch": 2.0934371523915463,
      "grad_norm": 1.314218282699585,
      "learning_rate": 4.6086240371492185e-06,
      "loss": 1.5595,
      "mean_token_accuracy": 0.5935321748256683,
      "step": 471
    },
    {
      "epoch": 2.0978865406006673,
      "grad_norm": 1.0494890213012695,
      "learning_rate": 4.606002649750856e-06,
      "loss": 1.6201,
      "mean_token_accuracy": 0.5934647172689438,
      "step": 472
    },
    {
      "epoch": 2.1023359288097887,
      "grad_norm": 1.1754398345947266,
      "learning_rate": 4.603373263486035e-06,
      "loss": 1.6024,
      "mean_token_accuracy": 0.5998095571994781,
      "step": 473
    },
    {
      "epoch": 2.1067853170189097,
      "grad_norm": 1.1058318614959717,
      "learning_rate": 4.6007358883414996e-06,
      "loss": 1.524,
      "mean_token_accuracy": 0.6152025759220123,
      "step": 474
    },
    {
      "epoch": 2.111234705228031,
      "grad_norm": 1.2578389644622803,
      "learning_rate": 4.598090534334337e-06,
      "loss": 1.484,
      "mean_token_accuracy": 0.6155434250831604,
      "step": 475
    },
    {
      "epoch": 2.111234705228031,
      "eval_loss": 1.5773766040802002,
      "eval_mean_token_accuracy": 0.6040018802881241,
      "eval_runtime": 8.8209,
      "eval_samples_per_second": 11.337,
      "eval_steps_per_second": 11.337,
      "step": 475
    },
    {
      "epoch": 2.1156840934371526,
      "grad_norm": 1.2976726293563843,
      "learning_rate": 4.59543721151194e-06,
      "loss": 1.6326,
      "mean_token_accuracy": 0.5872768461704254,
      "step": 476
    },
    {
      "epoch": 2.1201334816462736,
      "grad_norm": 1.1714491844177246,
      "learning_rate": 4.592775929951965e-06,
      "loss": 1.4746,
      "mean_token_accuracy": 0.621948316693306,
      "step": 477
    },
    {
      "epoch": 2.124582869855395,
      "grad_norm": 1.1547871828079224,
      "learning_rate": 4.590106699762299e-06,
      "loss": 1.5205,
      "mean_token_accuracy": 0.6231552958488464,
      "step": 478
    },
    {
      "epoch": 2.129032258064516,
      "grad_norm": 1.4163450002670288,
      "learning_rate": 4.587429531081019e-06,
      "loss": 1.6147,
      "mean_token_accuracy": 0.5933105945587158,
      "step": 479
    },
    {
      "epoch": 2.1334816462736375,
      "grad_norm": 1.1267427206039429,
      "learning_rate": 4.584744434076352e-06,
      "loss": 1.6172,
      "mean_token_accuracy": 0.5930112898349762,
      "step": 480
    },
    {
      "epoch": 2.1379310344827585,
      "grad_norm": 1.1421291828155518,
      "learning_rate": 4.582051418946639e-06,
      "loss": 1.7037,
      "mean_token_accuracy": 0.5824698209762573,
      "step": 481
    },
    {
      "epoch": 2.14238042269188,
      "grad_norm": 1.0825022459030151,
      "learning_rate": 4.579350495920295e-06,
      "loss": 1.5765,
      "mean_token_accuracy": 0.5980493873357773,
      "step": 482
    },
    {
      "epoch": 2.146829810901001,
      "grad_norm": 1.2012486457824707,
      "learning_rate": 4.57664167525577e-06,
      "loss": 1.5973,
      "mean_token_accuracy": 0.6052119582891464,
      "step": 483
    },
    {
      "epoch": 2.1512791991101223,
      "grad_norm": 1.2192476987838745,
      "learning_rate": 4.573924967241509e-06,
      "loss": 1.4209,
      "mean_token_accuracy": 0.6284343749284744,
      "step": 484
    },
    {
      "epoch": 2.1557285873192438,
      "grad_norm": 1.2493844032287598,
      "learning_rate": 4.571200382195917e-06,
      "loss": 1.5934,
      "mean_token_accuracy": 0.5951670259237289,
      "step": 485
    },
    {
      "epoch": 2.1601779755283648,
      "grad_norm": 1.134840488433838,
      "learning_rate": 4.568467930467314e-06,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6155513823032379,
      "step": 486
    },
    {
      "epoch": 2.164627363737486,
      "grad_norm": 1.1963483095169067,
      "learning_rate": 4.565727622433899e-06,
      "loss": 1.6151,
      "mean_token_accuracy": 0.5933522135019302,
      "step": 487
    },
    {
      "epoch": 2.169076751946607,
      "grad_norm": 1.1756923198699951,
      "learning_rate": 4.562979468503713e-06,
      "loss": 1.5199,
      "mean_token_accuracy": 0.5991590172052383,
      "step": 488
    },
    {
      "epoch": 2.1735261401557286,
      "grad_norm": 1.1190265417099,
      "learning_rate": 4.5602234791145935e-06,
      "loss": 1.4979,
      "mean_token_accuracy": 0.6209766566753387,
      "step": 489
    },
    {
      "epoch": 2.1779755283648496,
      "grad_norm": 1.2101026773452759,
      "learning_rate": 4.5574596647341414e-06,
      "loss": 1.4812,
      "mean_token_accuracy": 0.6186715811491013,
      "step": 490
    },
    {
      "epoch": 2.182424916573971,
      "grad_norm": 1.1899535655975342,
      "learning_rate": 4.554688035859674e-06,
      "loss": 1.5454,
      "mean_token_accuracy": 0.6072390228509903,
      "step": 491
    },
    {
      "epoch": 2.1868743047830925,
      "grad_norm": 1.2469452619552612,
      "learning_rate": 4.551908603018191e-06,
      "loss": 1.5316,
      "mean_token_accuracy": 0.604431539773941,
      "step": 492
    },
    {
      "epoch": 2.1913236929922135,
      "grad_norm": 1.1402795314788818,
      "learning_rate": 4.549121376766333e-06,
      "loss": 1.5895,
      "mean_token_accuracy": 0.6071503311395645,
      "step": 493
    },
    {
      "epoch": 2.195773081201335,
      "grad_norm": 1.0604479312896729,
      "learning_rate": 4.546326367690342e-06,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6313816905021667,
      "step": 494
    },
    {
      "epoch": 2.200222469410456,
      "grad_norm": 1.255650281906128,
      "learning_rate": 4.543523586406016e-06,
      "loss": 1.4443,
      "mean_token_accuracy": 0.6247529834508896,
      "step": 495
    },
    {
      "epoch": 2.2046718576195774,
      "grad_norm": 1.2809678316116333,
      "learning_rate": 4.540713043558678e-06,
      "loss": 1.65,
      "mean_token_accuracy": 0.5937860310077667,
      "step": 496
    },
    {
      "epoch": 2.2091212458286984,
      "grad_norm": 1.1916006803512573,
      "learning_rate": 4.537894749823126e-06,
      "loss": 1.4867,
      "mean_token_accuracy": 0.624810978770256,
      "step": 497
    },
    {
      "epoch": 2.21357063403782,
      "grad_norm": 1.1187487840652466,
      "learning_rate": 4.5350687159036e-06,
      "loss": 1.519,
      "mean_token_accuracy": 0.6047428697347641,
      "step": 498
    },
    {
      "epoch": 2.2180200222469413,
      "grad_norm": 1.2824865579605103,
      "learning_rate": 4.532234952533736e-06,
      "loss": 1.6732,
      "mean_token_accuracy": 0.5832688510417938,
      "step": 499
    },
    {
      "epoch": 2.2224694104560623,
      "grad_norm": 1.2200967073440552,
      "learning_rate": 4.5293934704765285e-06,
      "loss": 1.6848,
      "mean_token_accuracy": 0.5806451439857483,
      "step": 500
    },
    {
      "epoch": 2.2224694104560623,
      "eval_loss": 1.5648242235183716,
      "eval_mean_token_accuracy": 0.6064822155237198,
      "eval_runtime": 8.9185,
      "eval_samples_per_second": 11.213,
      "eval_steps_per_second": 11.213,
      "step": 500
    },
    {
      "epoch": 2.2269187986651837,
      "grad_norm": 1.1307055950164795,
      "learning_rate": 4.52654428052429e-06,
      "loss": 1.516,
      "mean_token_accuracy": 0.60659059882164,
      "step": 501
    },
    {
      "epoch": 2.2313681868743047,
      "grad_norm": 1.0880470275878906,
      "learning_rate": 4.523687393498605e-06,
      "loss": 1.5131,
      "mean_token_accuracy": 0.615935891866684,
      "step": 502
    },
    {
      "epoch": 2.235817575083426,
      "grad_norm": 1.1862108707427979,
      "learning_rate": 4.520822820250296e-06,
      "loss": 1.5652,
      "mean_token_accuracy": 0.6113032400608063,
      "step": 503
    },
    {
      "epoch": 2.240266963292547,
      "grad_norm": 1.290134310722351,
      "learning_rate": 4.517950571659376e-06,
      "loss": 1.5883,
      "mean_token_accuracy": 0.6096975654363632,
      "step": 504
    },
    {
      "epoch": 2.2447163515016686,
      "grad_norm": 1.1633638143539429,
      "learning_rate": 4.515070658635013e-06,
      "loss": 1.5188,
      "mean_token_accuracy": 0.6101801246404648,
      "step": 505
    },
    {
      "epoch": 2.2491657397107896,
      "grad_norm": 1.2640302181243896,
      "learning_rate": 4.512183092115482e-06,
      "loss": 1.559,
      "mean_token_accuracy": 0.603855088353157,
      "step": 506
    },
    {
      "epoch": 2.253615127919911,
      "grad_norm": 1.1884005069732666,
      "learning_rate": 4.50928788306813e-06,
      "loss": 1.5599,
      "mean_token_accuracy": 0.6063142865896225,
      "step": 507
    },
    {
      "epoch": 2.258064516129032,
      "grad_norm": 1.1211332082748413,
      "learning_rate": 4.506385042489329e-06,
      "loss": 1.4048,
      "mean_token_accuracy": 0.6329890042543411,
      "step": 508
    },
    {
      "epoch": 2.2625139043381535,
      "grad_norm": 1.074366807937622,
      "learning_rate": 4.503474581404436e-06,
      "loss": 1.4289,
      "mean_token_accuracy": 0.6175648272037506,
      "step": 509
    },
    {
      "epoch": 2.266963292547275,
      "grad_norm": 1.1191703081130981,
      "learning_rate": 4.500556510867756e-06,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6395286470651627,
      "step": 510
    },
    {
      "epoch": 2.271412680756396,
      "grad_norm": 1.2475416660308838,
      "learning_rate": 4.497630841962492e-06,
      "loss": 1.4643,
      "mean_token_accuracy": 0.619526743888855,
      "step": 511
    },
    {
      "epoch": 2.2758620689655173,
      "grad_norm": 1.179038166999817,
      "learning_rate": 4.4946975858007066e-06,
      "loss": 1.477,
      "mean_token_accuracy": 0.6213881820440292,
      "step": 512
    },
    {
      "epoch": 2.2803114571746383,
      "grad_norm": 1.126848578453064,
      "learning_rate": 4.491756753523281e-06,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6204730272293091,
      "step": 513
    },
    {
      "epoch": 2.28476084538376,
      "grad_norm": 1.1779385805130005,
      "learning_rate": 4.48880835629987e-06,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6178202331066132,
      "step": 514
    },
    {
      "epoch": 2.289210233592881,
      "grad_norm": 1.2159250974655151,
      "learning_rate": 4.4858524053288645e-06,
      "loss": 1.5545,
      "mean_token_accuracy": 0.6052863001823425,
      "step": 515
    },
    {
      "epoch": 2.2936596218020022,
      "grad_norm": 1.1181050539016724,
      "learning_rate": 4.4828889118373395e-06,
      "loss": 1.4945,
      "mean_token_accuracy": 0.6108341217041016,
      "step": 516
    },
    {
      "epoch": 2.2981090100111237,
      "grad_norm": 1.1802966594696045,
      "learning_rate": 4.479917887081024e-06,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6074635833501816,
      "step": 517
    },
    {
      "epoch": 2.3025583982202447,
      "grad_norm": 1.112356185913086,
      "learning_rate": 4.476939342344246e-06,
      "loss": 1.5147,
      "mean_token_accuracy": 0.6095165610313416,
      "step": 518
    },
    {
      "epoch": 2.307007786429366,
      "grad_norm": 1.1632835865020752,
      "learning_rate": 4.4739532889399015e-06,
      "loss": 1.5523,
      "mean_token_accuracy": 0.6076253056526184,
      "step": 519
    },
    {
      "epoch": 2.311457174638487,
      "grad_norm": 1.2622922658920288,
      "learning_rate": 4.470959738209399e-06,
      "loss": 1.5429,
      "mean_token_accuracy": 0.6086834371089935,
      "step": 520
    },
    {
      "epoch": 2.3159065628476085,
      "grad_norm": 1.2027714252471924,
      "learning_rate": 4.4679587015226255e-06,
      "loss": 1.5622,
      "mean_token_accuracy": 0.6019379496574402,
      "step": 521
    },
    {
      "epoch": 2.3203559510567295,
      "grad_norm": 1.1432569026947021,
      "learning_rate": 4.464950190277903e-06,
      "loss": 1.5349,
      "mean_token_accuracy": 0.6073268949985504,
      "step": 522
    },
    {
      "epoch": 2.324805339265851,
      "grad_norm": 1.2540661096572876,
      "learning_rate": 4.461934215901938e-06,
      "loss": 1.5684,
      "mean_token_accuracy": 0.6114919632673264,
      "step": 523
    },
    {
      "epoch": 2.3292547274749724,
      "grad_norm": 1.3104307651519775,
      "learning_rate": 4.458910789849789e-06,
      "loss": 1.5564,
      "mean_token_accuracy": 0.6124017089605331,
      "step": 524
    },
    {
      "epoch": 2.3337041156840934,
      "grad_norm": 1.3151109218597412,
      "learning_rate": 4.45587992360481e-06,
      "loss": 1.5153,
      "mean_token_accuracy": 0.6175103634595871,
      "step": 525
    },
    {
      "epoch": 2.3337041156840934,
      "eval_loss": 1.555202841758728,
      "eval_mean_token_accuracy": 0.6083876484632492,
      "eval_runtime": 8.8847,
      "eval_samples_per_second": 11.255,
      "eval_steps_per_second": 11.255,
      "step": 525
    },
    {
      "epoch": 2.338153503893215,
      "grad_norm": 1.206662654876709,
      "learning_rate": 4.452841628678619e-06,
      "loss": 1.5557,
      "mean_token_accuracy": 0.6095635294914246,
      "step": 526
    },
    {
      "epoch": 2.342602892102336,
      "grad_norm": 1.190606713294983,
      "learning_rate": 4.449795916611047e-06,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6278938204050064,
      "step": 527
    },
    {
      "epoch": 2.3470522803114573,
      "grad_norm": 1.1726162433624268,
      "learning_rate": 4.446742798970097e-06,
      "loss": 1.5013,
      "mean_token_accuracy": 0.624328687787056,
      "step": 528
    },
    {
      "epoch": 2.3515016685205783,
      "grad_norm": 1.2374931573867798,
      "learning_rate": 4.443682287351898e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.615247830748558,
      "step": 529
    },
    {
      "epoch": 2.3559510567296997,
      "grad_norm": 1.209316372871399,
      "learning_rate": 4.4406143933806646e-06,
      "loss": 1.5597,
      "mean_token_accuracy": 0.6041909009218216,
      "step": 530
    },
    {
      "epoch": 2.3604004449388207,
      "grad_norm": 1.3239002227783203,
      "learning_rate": 4.437539128708647e-06,
      "loss": 1.6557,
      "mean_token_accuracy": 0.5893605351448059,
      "step": 531
    },
    {
      "epoch": 2.364849833147942,
      "grad_norm": 1.2464797496795654,
      "learning_rate": 4.434456505016094e-06,
      "loss": 1.522,
      "mean_token_accuracy": 0.6128873080015182,
      "step": 532
    },
    {
      "epoch": 2.369299221357063,
      "grad_norm": 1.1746089458465576,
      "learning_rate": 4.431366534011203e-06,
      "loss": 1.4972,
      "mean_token_accuracy": 0.6206512451171875,
      "step": 533
    },
    {
      "epoch": 2.3737486095661846,
      "grad_norm": 1.3072869777679443,
      "learning_rate": 4.4282692274300775e-06,
      "loss": 1.5487,
      "mean_token_accuracy": 0.6094890385866165,
      "step": 534
    },
    {
      "epoch": 2.378197997775306,
      "grad_norm": 1.3832083940505981,
      "learning_rate": 4.425164597036682e-06,
      "loss": 1.6609,
      "mean_token_accuracy": 0.5863345414400101,
      "step": 535
    },
    {
      "epoch": 2.382647385984427,
      "grad_norm": 1.2606208324432373,
      "learning_rate": 4.4220526546228e-06,
      "loss": 1.5575,
      "mean_token_accuracy": 0.6104841828346252,
      "step": 536
    },
    {
      "epoch": 2.3870967741935485,
      "grad_norm": 1.3164806365966797,
      "learning_rate": 4.418933412007982e-06,
      "loss": 1.7047,
      "mean_token_accuracy": 0.5764038562774658,
      "step": 537
    },
    {
      "epoch": 2.3915461624026695,
      "grad_norm": 1.1909314393997192,
      "learning_rate": 4.415806881039513e-06,
      "loss": 1.5412,
      "mean_token_accuracy": 0.6044243276119232,
      "step": 538
    },
    {
      "epoch": 2.395995550611791,
      "grad_norm": 1.1408616304397583,
      "learning_rate": 4.412673073592354e-06,
      "loss": 1.582,
      "mean_token_accuracy": 0.6004138439893723,
      "step": 539
    },
    {
      "epoch": 2.400444938820912,
      "grad_norm": 1.2563881874084473,
      "learning_rate": 4.409532001569106e-06,
      "loss": 1.4956,
      "mean_token_accuracy": 0.6096209436655045,
      "step": 540
    },
    {
      "epoch": 2.4048943270300334,
      "grad_norm": 1.195757269859314,
      "learning_rate": 4.406383676899959e-06,
      "loss": 1.4668,
      "mean_token_accuracy": 0.6334167420864105,
      "step": 541
    },
    {
      "epoch": 2.409343715239155,
      "grad_norm": 1.2121111154556274,
      "learning_rate": 4.403228111542654e-06,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6409874707460403,
      "step": 542
    },
    {
      "epoch": 2.413793103448276,
      "grad_norm": 1.202501893043518,
      "learning_rate": 4.400065317482428e-06,
      "loss": 1.4751,
      "mean_token_accuracy": 0.6217656433582306,
      "step": 543
    },
    {
      "epoch": 2.4182424916573972,
      "grad_norm": 1.1780438423156738,
      "learning_rate": 4.396895306731978e-06,
      "loss": 1.4707,
      "mean_token_accuracy": 0.6158918887376785,
      "step": 544
    },
    {
      "epoch": 2.4226918798665182,
      "grad_norm": 1.1676321029663086,
      "learning_rate": 4.393718091331407e-06,
      "loss": 1.4822,
      "mean_token_accuracy": 0.6131009757518768,
      "step": 545
    },
    {
      "epoch": 2.4271412680756397,
      "grad_norm": 1.2021108865737915,
      "learning_rate": 4.390533683348184e-06,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6226028949022293,
      "step": 546
    },
    {
      "epoch": 2.4315906562847607,
      "grad_norm": 1.3526678085327148,
      "learning_rate": 4.387342094877098e-06,
      "loss": 1.5703,
      "mean_token_accuracy": 0.6013076305389404,
      "step": 547
    },
    {
      "epoch": 2.436040044493882,
      "grad_norm": 1.4585254192352295,
      "learning_rate": 4.384143338040207e-06,
      "loss": 1.6831,
      "mean_token_accuracy": 0.5819710046052933,
      "step": 548
    },
    {
      "epoch": 2.4404894327030036,
      "grad_norm": 1.2464536428451538,
      "learning_rate": 4.380937424986799e-06,
      "loss": 1.4607,
      "mean_token_accuracy": 0.6097383201122284,
      "step": 549
    },
    {
      "epoch": 2.4449388209121246,
      "grad_norm": 1.2634572982788086,
      "learning_rate": 4.37772436789334e-06,
      "loss": 1.6303,
      "mean_token_accuracy": 0.5980463474988937,
      "step": 550
    },
    {
      "epoch": 2.4449388209121246,
      "eval_loss": 1.544305682182312,
      "eval_mean_token_accuracy": 0.6100168424844742,
      "eval_runtime": 9.0364,
      "eval_samples_per_second": 11.066,
      "eval_steps_per_second": 11.066,
      "step": 550
    },
    {
      "epoch": 2.449388209121246,
      "grad_norm": 1.2968494892120361,
      "learning_rate": 4.374504178963428e-06,
      "loss": 1.5645,
      "mean_token_accuracy": 0.6136392056941986,
      "step": 551
    },
    {
      "epoch": 2.453837597330367,
      "grad_norm": 1.1793242692947388,
      "learning_rate": 4.3712768704277535e-06,
      "loss": 1.456,
      "mean_token_accuracy": 0.6358785033226013,
      "step": 552
    },
    {
      "epoch": 2.4582869855394884,
      "grad_norm": 1.2020326852798462,
      "learning_rate": 4.368042454544045e-06,
      "loss": 1.6405,
      "mean_token_accuracy": 0.5961906015872955,
      "step": 553
    },
    {
      "epoch": 2.4627363737486094,
      "grad_norm": 1.1757062673568726,
      "learning_rate": 4.364800943597024e-06,
      "loss": 1.5452,
      "mean_token_accuracy": 0.604716494679451,
      "step": 554
    },
    {
      "epoch": 2.467185761957731,
      "grad_norm": 1.1460204124450684,
      "learning_rate": 4.361552349898366e-06,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6094537675380707,
      "step": 555
    },
    {
      "epoch": 2.471635150166852,
      "grad_norm": 1.2245149612426758,
      "learning_rate": 4.35829668578664e-06,
      "loss": 1.5323,
      "mean_token_accuracy": 0.6116020530462265,
      "step": 556
    },
    {
      "epoch": 2.4760845383759733,
      "grad_norm": 1.3811933994293213,
      "learning_rate": 4.355033963627277e-06,
      "loss": 1.6196,
      "mean_token_accuracy": 0.5978200733661652,
      "step": 557
    },
    {
      "epoch": 2.4805339265850943,
      "grad_norm": 1.3141199350357056,
      "learning_rate": 4.35176419581251e-06,
      "loss": 1.4113,
      "mean_token_accuracy": 0.6359580904245377,
      "step": 558
    },
    {
      "epoch": 2.4849833147942157,
      "grad_norm": 1.0946940183639526,
      "learning_rate": 4.3484873947613324e-06,
      "loss": 1.4867,
      "mean_token_accuracy": 0.6178664267063141,
      "step": 559
    },
    {
      "epoch": 2.489432703003337,
      "grad_norm": 1.2795413732528687,
      "learning_rate": 4.3452035729194544e-06,
      "loss": 1.6742,
      "mean_token_accuracy": 0.5795917212963104,
      "step": 560
    },
    {
      "epoch": 2.493882091212458,
      "grad_norm": 1.127969741821289,
      "learning_rate": 4.341912742759248e-06,
      "loss": 1.4747,
      "mean_token_accuracy": 0.6209983676671982,
      "step": 561
    },
    {
      "epoch": 2.4983314794215796,
      "grad_norm": 1.2275316715240479,
      "learning_rate": 4.338614916779706e-06,
      "loss": 1.5061,
      "mean_token_accuracy": 0.61495541036129,
      "step": 562
    },
    {
      "epoch": 2.5027808676307006,
      "grad_norm": 1.2998749017715454,
      "learning_rate": 4.335310107506394e-06,
      "loss": 1.5011,
      "mean_token_accuracy": 0.6086430847644806,
      "step": 563
    },
    {
      "epoch": 2.507230255839822,
      "grad_norm": 1.2208348512649536,
      "learning_rate": 4.331998327491396e-06,
      "loss": 1.4187,
      "mean_token_accuracy": 0.6226557940244675,
      "step": 564
    },
    {
      "epoch": 2.511679644048943,
      "grad_norm": 1.3168361186981201,
      "learning_rate": 4.328679589313275e-06,
      "loss": 1.4889,
      "mean_token_accuracy": 0.6278006285429001,
      "step": 565
    },
    {
      "epoch": 2.5161290322580645,
      "grad_norm": 1.362894892692566,
      "learning_rate": 4.325353905577023e-06,
      "loss": 1.6665,
      "mean_token_accuracy": 0.5870815962553024,
      "step": 566
    },
    {
      "epoch": 2.520578420467186,
      "grad_norm": 1.1508997678756714,
      "learning_rate": 4.322021288914009e-06,
      "loss": 1.4853,
      "mean_token_accuracy": 0.6173164546489716,
      "step": 567
    },
    {
      "epoch": 2.525027808676307,
      "grad_norm": 1.250577449798584,
      "learning_rate": 4.318681751981937e-06,
      "loss": 1.5357,
      "mean_token_accuracy": 0.605605959892273,
      "step": 568
    },
    {
      "epoch": 2.5294771968854284,
      "grad_norm": 1.1534682512283325,
      "learning_rate": 4.315335307464793e-06,
      "loss": 1.5243,
      "mean_token_accuracy": 0.6070499569177628,
      "step": 569
    },
    {
      "epoch": 2.5339265850945494,
      "grad_norm": 1.2344404458999634,
      "learning_rate": 4.3119819680728e-06,
      "loss": 1.6285,
      "mean_token_accuracy": 0.5988679528236389,
      "step": 570
    },
    {
      "epoch": 2.538375973303671,
      "grad_norm": 1.2896919250488281,
      "learning_rate": 4.308621746542369e-06,
      "loss": 1.5218,
      "mean_token_accuracy": 0.6123199611902237,
      "step": 571
    },
    {
      "epoch": 2.542825361512792,
      "grad_norm": 1.189961552619934,
      "learning_rate": 4.305254655636049e-06,
      "loss": 1.5441,
      "mean_token_accuracy": 0.6135151088237762,
      "step": 572
    },
    {
      "epoch": 2.5472747497219133,
      "grad_norm": 1.0897823572158813,
      "learning_rate": 4.30188070814248e-06,
      "loss": 1.4787,
      "mean_token_accuracy": 0.6256213635206223,
      "step": 573
    },
    {
      "epoch": 2.5517241379310347,
      "grad_norm": 1.3141088485717773,
      "learning_rate": 4.298499916876347e-06,
      "loss": 1.5139,
      "mean_token_accuracy": 0.6137990653514862,
      "step": 574
    },
    {
      "epoch": 2.5561735261401557,
      "grad_norm": 1.2032331228256226,
      "learning_rate": 4.295112294678322e-06,
      "loss": 1.6314,
      "mean_token_accuracy": 0.5936857163906097,
      "step": 575
    },
    {
      "epoch": 2.5561735261401557,
      "eval_loss": 1.5361361503601074,
      "eval_mean_token_accuracy": 0.612508990764618,
      "eval_runtime": 8.9147,
      "eval_samples_per_second": 11.217,
      "eval_steps_per_second": 11.217,
      "step": 575
    },
    {
      "epoch": 2.560622914349277,
      "grad_norm": 1.4112361669540405,
      "learning_rate": 4.291717854415029e-06,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6153860837221146,
      "step": 576
    },
    {
      "epoch": 2.565072302558398,
      "grad_norm": 1.226495385169983,
      "learning_rate": 4.288316608978983e-06,
      "loss": 1.5253,
      "mean_token_accuracy": 0.6183367222547531,
      "step": 577
    },
    {
      "epoch": 2.5695216907675196,
      "grad_norm": 1.3466929197311401,
      "learning_rate": 4.2849085712885495e-06,
      "loss": 1.5961,
      "mean_token_accuracy": 0.6054501831531525,
      "step": 578
    },
    {
      "epoch": 2.5739710789766406,
      "grad_norm": 1.2622119188308716,
      "learning_rate": 4.2814937542878874e-06,
      "loss": 1.5119,
      "mean_token_accuracy": 0.6031987369060516,
      "step": 579
    },
    {
      "epoch": 2.578420467185762,
      "grad_norm": 1.4624300003051758,
      "learning_rate": 4.278072170946909e-06,
      "loss": 1.5061,
      "mean_token_accuracy": 0.6136020421981812,
      "step": 580
    },
    {
      "epoch": 2.5828698553948835,
      "grad_norm": 1.3817734718322754,
      "learning_rate": 4.274643834261224e-06,
      "loss": 1.5551,
      "mean_token_accuracy": 0.6022774428129196,
      "step": 581
    },
    {
      "epoch": 2.5873192436040044,
      "grad_norm": 1.2786518335342407,
      "learning_rate": 4.27120875725209e-06,
      "loss": 1.6216,
      "mean_token_accuracy": 0.605896919965744,
      "step": 582
    },
    {
      "epoch": 2.5917686318131254,
      "grad_norm": 1.2509310245513916,
      "learning_rate": 4.267766952966369e-06,
      "loss": 1.3972,
      "mean_token_accuracy": 0.64107845723629,
      "step": 583
    },
    {
      "epoch": 2.596218020022247,
      "grad_norm": 1.4426548480987549,
      "learning_rate": 4.264318434476472e-06,
      "loss": 1.6482,
      "mean_token_accuracy": 0.5855244994163513,
      "step": 584
    },
    {
      "epoch": 2.6006674082313683,
      "grad_norm": 1.3250254392623901,
      "learning_rate": 4.260863214880311e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.6308401674032211,
      "step": 585
    },
    {
      "epoch": 2.6051167964404893,
      "grad_norm": 1.1901476383209229,
      "learning_rate": 4.257401307301251e-06,
      "loss": 1.3808,
      "mean_token_accuracy": 0.6343472898006439,
      "step": 586
    },
    {
      "epoch": 2.6095661846496108,
      "grad_norm": 1.307956337928772,
      "learning_rate": 4.253932724888058e-06,
      "loss": 1.5163,
      "mean_token_accuracy": 0.6148754954338074,
      "step": 587
    },
    {
      "epoch": 2.6140155728587318,
      "grad_norm": 1.1937421560287476,
      "learning_rate": 4.25045748081485e-06,
      "loss": 1.4426,
      "mean_token_accuracy": 0.626294806599617,
      "step": 588
    },
    {
      "epoch": 2.618464961067853,
      "grad_norm": 1.3098571300506592,
      "learning_rate": 4.246975588281047e-06,
      "loss": 1.5168,
      "mean_token_accuracy": 0.6167326718568802,
      "step": 589
    },
    {
      "epoch": 2.622914349276974,
      "grad_norm": 1.2449450492858887,
      "learning_rate": 4.243487060511321e-06,
      "loss": 1.4133,
      "mean_token_accuracy": 0.62969970703125,
      "step": 590
    },
    {
      "epoch": 2.6273637374860956,
      "grad_norm": 1.2578994035720825,
      "learning_rate": 4.239991910755545e-06,
      "loss": 1.5784,
      "mean_token_accuracy": 0.6064907163381577,
      "step": 591
    },
    {
      "epoch": 2.631813125695217,
      "grad_norm": 1.2220408916473389,
      "learning_rate": 4.2364901522887415e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6271128058433533,
      "step": 592
    },
    {
      "epoch": 2.636262513904338,
      "grad_norm": 1.2802622318267822,
      "learning_rate": 4.232981798411037e-06,
      "loss": 1.6255,
      "mean_token_accuracy": 0.5853610634803772,
      "step": 593
    },
    {
      "epoch": 2.6407119021134595,
      "grad_norm": 1.1984983682632446,
      "learning_rate": 4.229466862447608e-06,
      "loss": 1.4407,
      "mean_token_accuracy": 0.6292014271020889,
      "step": 594
    },
    {
      "epoch": 2.6451612903225805,
      "grad_norm": 1.2010530233383179,
      "learning_rate": 4.225945357748626e-06,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6311783045530319,
      "step": 595
    },
    {
      "epoch": 2.649610678531702,
      "grad_norm": 1.2409939765930176,
      "learning_rate": 4.222417297689217e-06,
      "loss": 1.3879,
      "mean_token_accuracy": 0.6372261494398117,
      "step": 596
    },
    {
      "epoch": 2.654060066740823,
      "grad_norm": 1.4922012090682983,
      "learning_rate": 4.218882695669402e-06,
      "loss": 1.7156,
      "mean_token_accuracy": 0.5879213660955429,
      "step": 597
    },
    {
      "epoch": 2.6585094549499444,
      "grad_norm": 1.280476450920105,
      "learning_rate": 4.21534156511405e-06,
      "loss": 1.48,
      "mean_token_accuracy": 0.6187902241945267,
      "step": 598
    },
    {
      "epoch": 2.662958843159066,
      "grad_norm": 1.33431077003479,
      "learning_rate": 4.211793919472825e-06,
      "loss": 1.6142,
      "mean_token_accuracy": 0.5902949869632721,
      "step": 599
    },
    {
      "epoch": 2.667408231368187,
      "grad_norm": 1.357032299041748,
      "learning_rate": 4.208239772220139e-06,
      "loss": 1.5573,
      "mean_token_accuracy": 0.6141603142023087,
      "step": 600
    },
    {
      "epoch": 2.667408231368187,
      "eval_loss": 1.526387333869934,
      "eval_mean_token_accuracy": 0.6138018500804902,
      "eval_runtime": 8.8012,
      "eval_samples_per_second": 11.362,
      "eval_steps_per_second": 11.362,
      "step": 600
    },
    {
      "epoch": 2.6718576195773083,
      "grad_norm": 1.453622817993164,
      "learning_rate": 4.204679136855095e-06,
      "loss": 1.4844,
      "mean_token_accuracy": 0.6209945380687714,
      "step": 601
    },
    {
      "epoch": 2.6763070077864293,
      "grad_norm": 1.2311491966247559,
      "learning_rate": 4.201112026901442e-06,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6186342239379883,
      "step": 602
    },
    {
      "epoch": 2.6807563959955507,
      "grad_norm": 1.2531938552856445,
      "learning_rate": 4.197538455907516e-06,
      "loss": 1.5311,
      "mean_token_accuracy": 0.6176359504461288,
      "step": 603
    },
    {
      "epoch": 2.6852057842046717,
      "grad_norm": 1.1909551620483398,
      "learning_rate": 4.193958437446195e-06,
      "loss": 1.376,
      "mean_token_accuracy": 0.6374042481184006,
      "step": 604
    },
    {
      "epoch": 2.689655172413793,
      "grad_norm": 1.2062180042266846,
      "learning_rate": 4.190371985114847e-06,
      "loss": 1.4522,
      "mean_token_accuracy": 0.6278997212648392,
      "step": 605
    },
    {
      "epoch": 2.6941045606229146,
      "grad_norm": 1.350556492805481,
      "learning_rate": 4.186779112535273e-06,
      "loss": 1.5159,
      "mean_token_accuracy": 0.6037323325872421,
      "step": 606
    },
    {
      "epoch": 2.6985539488320356,
      "grad_norm": 1.225045919418335,
      "learning_rate": 4.183179833353663e-06,
      "loss": 1.5587,
      "mean_token_accuracy": 0.5965255051851273,
      "step": 607
    },
    {
      "epoch": 2.7030033370411566,
      "grad_norm": 1.2207129001617432,
      "learning_rate": 4.1795741612405365e-06,
      "loss": 1.4901,
      "mean_token_accuracy": 0.6252494007349014,
      "step": 608
    },
    {
      "epoch": 2.707452725250278,
      "grad_norm": 1.2904406785964966,
      "learning_rate": 4.175962109890697e-06,
      "loss": 1.4774,
      "mean_token_accuracy": 0.6206919252872467,
      "step": 609
    },
    {
      "epoch": 2.7119021134593995,
      "grad_norm": 1.2119946479797363,
      "learning_rate": 4.172343693023174e-06,
      "loss": 1.5042,
      "mean_token_accuracy": 0.6241937577724457,
      "step": 610
    },
    {
      "epoch": 2.7163515016685205,
      "grad_norm": 1.2463924884796143,
      "learning_rate": 4.168718924381178e-06,
      "loss": 1.6336,
      "mean_token_accuracy": 0.5931104123592377,
      "step": 611
    },
    {
      "epoch": 2.720800889877642,
      "grad_norm": 1.3287197351455688,
      "learning_rate": 4.165087817732041e-06,
      "loss": 1.5402,
      "mean_token_accuracy": 0.6226830184459686,
      "step": 612
    },
    {
      "epoch": 2.7252502780867633,
      "grad_norm": 1.329014778137207,
      "learning_rate": 4.161450386867169e-06,
      "loss": 1.5289,
      "mean_token_accuracy": 0.6088797152042389,
      "step": 613
    },
    {
      "epoch": 2.7296996662958843,
      "grad_norm": 1.3139331340789795,
      "learning_rate": 4.1578066456019885e-06,
      "loss": 1.5541,
      "mean_token_accuracy": 0.6017181128263474,
      "step": 614
    },
    {
      "epoch": 2.7341490545050053,
      "grad_norm": 1.4012911319732666,
      "learning_rate": 4.154156607775892e-06,
      "loss": 1.574,
      "mean_token_accuracy": 0.594977617263794,
      "step": 615
    },
    {
      "epoch": 2.738598442714127,
      "grad_norm": 1.3278251886367798,
      "learning_rate": 4.15050028725219e-06,
      "loss": 1.6276,
      "mean_token_accuracy": 0.596185639500618,
      "step": 616
    },
    {
      "epoch": 2.743047830923248,
      "grad_norm": 1.2991576194763184,
      "learning_rate": 4.146837697918052e-06,
      "loss": 1.4909,
      "mean_token_accuracy": 0.6097724139690399,
      "step": 617
    },
    {
      "epoch": 2.747497219132369,
      "grad_norm": 1.2408347129821777,
      "learning_rate": 4.143168853684461e-06,
      "loss": 1.3598,
      "mean_token_accuracy": 0.6361695677042007,
      "step": 618
    },
    {
      "epoch": 2.7519466073414907,
      "grad_norm": 1.2443091869354248,
      "learning_rate": 4.139493768486154e-06,
      "loss": 1.4789,
      "mean_token_accuracy": 0.6256013214588165,
      "step": 619
    },
    {
      "epoch": 2.7563959955506117,
      "grad_norm": 1.300546407699585,
      "learning_rate": 4.135812456281571e-06,
      "loss": 1.466,
      "mean_token_accuracy": 0.6227069050073624,
      "step": 620
    },
    {
      "epoch": 2.760845383759733,
      "grad_norm": 1.374688982963562,
      "learning_rate": 4.132124931052809e-06,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6230798214673996,
      "step": 621
    },
    {
      "epoch": 2.765294771968854,
      "grad_norm": 1.3326035737991333,
      "learning_rate": 4.128431206805556e-06,
      "loss": 1.5642,
      "mean_token_accuracy": 0.6068837344646454,
      "step": 622
    },
    {
      "epoch": 2.7697441601779755,
      "grad_norm": 1.6417229175567627,
      "learning_rate": 4.124731297569048e-06,
      "loss": 1.5564,
      "mean_token_accuracy": 0.6090000718832016,
      "step": 623
    },
    {
      "epoch": 2.774193548387097,
      "grad_norm": 1.3383350372314453,
      "learning_rate": 4.121025217396011e-06,
      "loss": 1.4832,
      "mean_token_accuracy": 0.623195081949234,
      "step": 624
    },
    {
      "epoch": 2.778642936596218,
      "grad_norm": 1.360694169998169,
      "learning_rate": 4.117312980362612e-06,
      "loss": 1.5564,
      "mean_token_accuracy": 0.6011054068803787,
      "step": 625
    },
    {
      "epoch": 2.778642936596218,
      "eval_loss": 1.5181199312210083,
      "eval_mean_token_accuracy": 0.6150005930662155,
      "eval_runtime": 8.9864,
      "eval_samples_per_second": 11.128,
      "eval_steps_per_second": 11.128,
      "step": 625
    },
    {
      "epoch": 2.7830923248053394,
      "grad_norm": 1.1974436044692993,
      "learning_rate": 4.113594600568398e-06,
      "loss": 1.6151,
      "mean_token_accuracy": 0.6051216870546341,
      "step": 626
    },
    {
      "epoch": 2.7875417130144604,
      "grad_norm": 1.2756450176239014,
      "learning_rate": 4.109870092136251e-06,
      "loss": 1.6721,
      "mean_token_accuracy": 0.5961787551641464,
      "step": 627
    },
    {
      "epoch": 2.791991101223582,
      "grad_norm": 1.154232382774353,
      "learning_rate": 4.106139469212327e-06,
      "loss": 1.5529,
      "mean_token_accuracy": 0.6115233451128006,
      "step": 628
    },
    {
      "epoch": 2.796440489432703,
      "grad_norm": 1.1625452041625977,
      "learning_rate": 4.102402745966009e-06,
      "loss": 1.562,
      "mean_token_accuracy": 0.603691890835762,
      "step": 629
    },
    {
      "epoch": 2.8008898776418243,
      "grad_norm": 1.3992685079574585,
      "learning_rate": 4.098659936589847e-06,
      "loss": 1.5629,
      "mean_token_accuracy": 0.6120084673166275,
      "step": 630
    },
    {
      "epoch": 2.8053392658509457,
      "grad_norm": 1.5641840696334839,
      "learning_rate": 4.094911055299509e-06,
      "loss": 1.6032,
      "mean_token_accuracy": 0.6019560247659683,
      "step": 631
    },
    {
      "epoch": 2.8097886540600667,
      "grad_norm": 1.2327851057052612,
      "learning_rate": 4.091156116333723e-06,
      "loss": 1.5173,
      "mean_token_accuracy": 0.61411452293396,
      "step": 632
    },
    {
      "epoch": 2.8142380422691877,
      "grad_norm": 1.3367046117782593,
      "learning_rate": 4.087395133954226e-06,
      "loss": 1.5647,
      "mean_token_accuracy": 0.6059548109769821,
      "step": 633
    },
    {
      "epoch": 2.818687430478309,
      "grad_norm": 1.2123167514801025,
      "learning_rate": 4.083628122445708e-06,
      "loss": 1.497,
      "mean_token_accuracy": 0.6167342811822891,
      "step": 634
    },
    {
      "epoch": 2.8231368186874306,
      "grad_norm": 1.1666975021362305,
      "learning_rate": 4.07985509611576e-06,
      "loss": 1.4358,
      "mean_token_accuracy": 0.616849347949028,
      "step": 635
    },
    {
      "epoch": 2.8275862068965516,
      "grad_norm": 1.254824161529541,
      "learning_rate": 4.076076069294817e-06,
      "loss": 1.3501,
      "mean_token_accuracy": 0.6446434855461121,
      "step": 636
    },
    {
      "epoch": 2.832035595105673,
      "grad_norm": 1.197668194770813,
      "learning_rate": 4.0722910563361015e-06,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6236407160758972,
      "step": 637
    },
    {
      "epoch": 2.8364849833147945,
      "grad_norm": 1.3287607431411743,
      "learning_rate": 4.068500071615578e-06,
      "loss": 1.4709,
      "mean_token_accuracy": 0.6153950989246368,
      "step": 638
    },
    {
      "epoch": 2.8409343715239155,
      "grad_norm": 1.356885313987732,
      "learning_rate": 4.064703129531889e-06,
      "loss": 1.5339,
      "mean_token_accuracy": 0.6258407235145569,
      "step": 639
    },
    {
      "epoch": 2.8453837597330365,
      "grad_norm": 1.314375638961792,
      "learning_rate": 4.060900244506304e-06,
      "loss": 1.5028,
      "mean_token_accuracy": 0.6129930466413498,
      "step": 640
    },
    {
      "epoch": 2.849833147942158,
      "grad_norm": 1.3835241794586182,
      "learning_rate": 4.057091430982665e-06,
      "loss": 1.6338,
      "mean_token_accuracy": 0.5913673937320709,
      "step": 641
    },
    {
      "epoch": 2.8542825361512794,
      "grad_norm": 1.3200032711029053,
      "learning_rate": 4.053276703427332e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6191297322511673,
      "step": 642
    },
    {
      "epoch": 2.8587319243604004,
      "grad_norm": 1.2352173328399658,
      "learning_rate": 4.049456076329124e-06,
      "loss": 1.5001,
      "mean_token_accuracy": 0.6205498278141022,
      "step": 643
    },
    {
      "epoch": 2.863181312569522,
      "grad_norm": 1.4416486024856567,
      "learning_rate": 4.045629564199274e-06,
      "loss": 1.4488,
      "mean_token_accuracy": 0.6286287754774094,
      "step": 644
    },
    {
      "epoch": 2.867630700778643,
      "grad_norm": 1.3711885213851929,
      "learning_rate": 4.041797181571358e-06,
      "loss": 1.5782,
      "mean_token_accuracy": 0.6085774600505829,
      "step": 645
    },
    {
      "epoch": 2.8720800889877642,
      "grad_norm": 1.3413231372833252,
      "learning_rate": 4.037958943001257e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6265358328819275,
      "step": 646
    },
    {
      "epoch": 2.8765294771968852,
      "grad_norm": 1.238254189491272,
      "learning_rate": 4.034114863067088e-06,
      "loss": 1.5653,
      "mean_token_accuracy": 0.6146376132965088,
      "step": 647
    },
    {
      "epoch": 2.8809788654060067,
      "grad_norm": 1.2219297885894775,
      "learning_rate": 4.030264956369158e-06,
      "loss": 1.4586,
      "mean_token_accuracy": 0.6245940178632736,
      "step": 648
    },
    {
      "epoch": 2.885428253615128,
      "grad_norm": 1.1976714134216309,
      "learning_rate": 4.026409237529903e-06,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6098507791757584,
      "step": 649
    },
    {
      "epoch": 2.889877641824249,
      "grad_norm": 1.2454932928085327,
      "learning_rate": 4.022547721193833e-06,
      "loss": 1.5101,
      "mean_token_accuracy": 0.6080519556999207,
      "step": 650
    },
    {
      "epoch": 2.889877641824249,
      "eval_loss": 1.5111949443817139,
      "eval_mean_token_accuracy": 0.6163418447971344,
      "eval_runtime": 8.938,
      "eval_samples_per_second": 11.188,
      "eval_steps_per_second": 11.188,
      "step": 650
    },
    {
      "epoch": 2.8943270300333706,
      "grad_norm": 1.4171223640441895,
      "learning_rate": 4.018680422027481e-06,
      "loss": 1.5737,
      "mean_token_accuracy": 0.6038402318954468,
      "step": 651
    },
    {
      "epoch": 2.8987764182424915,
      "grad_norm": 1.2819910049438477,
      "learning_rate": 4.014807354719342e-06,
      "loss": 1.4576,
      "mean_token_accuracy": 0.612992063164711,
      "step": 652
    },
    {
      "epoch": 2.903225806451613,
      "grad_norm": 1.3302119970321655,
      "learning_rate": 4.010928533979818e-06,
      "loss": 1.4521,
      "mean_token_accuracy": 0.6337192207574844,
      "step": 653
    },
    {
      "epoch": 2.907675194660734,
      "grad_norm": 1.3276035785675049,
      "learning_rate": 4.007043974541166e-06,
      "loss": 1.5664,
      "mean_token_accuracy": 0.6071250438690186,
      "step": 654
    },
    {
      "epoch": 2.9121245828698554,
      "grad_norm": 1.1696988344192505,
      "learning_rate": 4.003153691157437e-06,
      "loss": 1.4659,
      "mean_token_accuracy": 0.631630077958107,
      "step": 655
    },
    {
      "epoch": 2.916573971078977,
      "grad_norm": 1.2424863576889038,
      "learning_rate": 3.999257698604423e-06,
      "loss": 1.3447,
      "mean_token_accuracy": 0.6498888731002808,
      "step": 656
    },
    {
      "epoch": 2.921023359288098,
      "grad_norm": 1.2341773509979248,
      "learning_rate": 3.9953560116796e-06,
      "loss": 1.5098,
      "mean_token_accuracy": 0.6146224439144135,
      "step": 657
    },
    {
      "epoch": 2.925472747497219,
      "grad_norm": 1.276580810546875,
      "learning_rate": 3.991448645202073e-06,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6372010856866837,
      "step": 658
    },
    {
      "epoch": 2.9299221357063403,
      "grad_norm": 1.2386868000030518,
      "learning_rate": 3.987535614012518e-06,
      "loss": 1.4711,
      "mean_token_accuracy": 0.6234213709831238,
      "step": 659
    },
    {
      "epoch": 2.9343715239154617,
      "grad_norm": 1.3367726802825928,
      "learning_rate": 3.983616932973124e-06,
      "loss": 1.5299,
      "mean_token_accuracy": 0.605278491973877,
      "step": 660
    },
    {
      "epoch": 2.9388209121245827,
      "grad_norm": 1.32292902469635,
      "learning_rate": 3.979692616967543e-06,
      "loss": 1.5016,
      "mean_token_accuracy": 0.6071576774120331,
      "step": 661
    },
    {
      "epoch": 2.943270300333704,
      "grad_norm": 1.2363762855529785,
      "learning_rate": 3.9757626809008274e-06,
      "loss": 1.5348,
      "mean_token_accuracy": 0.6201454997062683,
      "step": 662
    },
    {
      "epoch": 2.9477196885428256,
      "grad_norm": 1.3374732732772827,
      "learning_rate": 3.971827139699375e-06,
      "loss": 1.5919,
      "mean_token_accuracy": 0.5929883122444153,
      "step": 663
    },
    {
      "epoch": 2.9521690767519466,
      "grad_norm": 1.337983250617981,
      "learning_rate": 3.967886008310872e-06,
      "loss": 1.4646,
      "mean_token_accuracy": 0.6323665231466293,
      "step": 664
    },
    {
      "epoch": 2.9566184649610676,
      "grad_norm": 1.2580842971801758,
      "learning_rate": 3.963939301704238e-06,
      "loss": 1.591,
      "mean_token_accuracy": 0.5956762433052063,
      "step": 665
    },
    {
      "epoch": 2.961067853170189,
      "grad_norm": 1.2223443984985352,
      "learning_rate": 3.959987034869568e-06,
      "loss": 1.4498,
      "mean_token_accuracy": 0.6210560947656631,
      "step": 666
    },
    {
      "epoch": 2.9655172413793105,
      "grad_norm": 1.5022144317626953,
      "learning_rate": 3.956029222818075e-06,
      "loss": 1.6374,
      "mean_token_accuracy": 0.6058375984430313,
      "step": 667
    },
    {
      "epoch": 2.9699666295884315,
      "grad_norm": 1.2791205644607544,
      "learning_rate": 3.952065880582034e-06,
      "loss": 1.4903,
      "mean_token_accuracy": 0.6195482909679413,
      "step": 668
    },
    {
      "epoch": 2.974416017797553,
      "grad_norm": 1.22518789768219,
      "learning_rate": 3.948097023214723e-06,
      "loss": 1.4022,
      "mean_token_accuracy": 0.6292854398488998,
      "step": 669
    },
    {
      "epoch": 2.978865406006674,
      "grad_norm": 1.2467808723449707,
      "learning_rate": 3.9441226657903686e-06,
      "loss": 1.4587,
      "mean_token_accuracy": 0.609704315662384,
      "step": 670
    },
    {
      "epoch": 2.9833147942157954,
      "grad_norm": 1.3315585851669312,
      "learning_rate": 3.940142823404087e-06,
      "loss": 1.443,
      "mean_token_accuracy": 0.6223563253879547,
      "step": 671
    },
    {
      "epoch": 2.9877641824249164,
      "grad_norm": 1.3582396507263184,
      "learning_rate": 3.936157511171827e-06,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6141450852155685,
      "step": 672
    },
    {
      "epoch": 2.992213570634038,
      "grad_norm": 1.284226894378662,
      "learning_rate": 3.93216674423031e-06,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6382388174533844,
      "step": 673
    },
    {
      "epoch": 2.9966629588431593,
      "grad_norm": 1.249004602432251,
      "learning_rate": 3.9281705377369814e-06,
      "loss": 1.5277,
      "mean_token_accuracy": 0.6143659800291061,
      "step": 674
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.4533061981201172,
      "learning_rate": 3.924168906869939e-06,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6180776158968607,
      "step": 675
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.5045031309127808,
      "eval_mean_token_accuracy": 0.6172537302970886,
      "eval_runtime": 8.9287,
      "eval_samples_per_second": 11.2,
      "eval_steps_per_second": 11.2,
      "step": 675
    },
    {
      "epoch": 3.0044493882091214,
      "grad_norm": 1.3001867532730103,
      "learning_rate": 3.92016186682789e-06,
      "loss": 1.5245,
      "mean_token_accuracy": 0.6170403063297272,
      "step": 676
    },
    {
      "epoch": 3.0088987764182424,
      "grad_norm": 1.289382815361023,
      "learning_rate": 3.916149432830081e-06,
      "loss": 1.5158,
      "mean_token_accuracy": 0.6145670115947723,
      "step": 677
    },
    {
      "epoch": 3.013348164627364,
      "grad_norm": 1.3708505630493164,
      "learning_rate": 3.912131620116249e-06,
      "loss": 1.5244,
      "mean_token_accuracy": 0.6168943047523499,
      "step": 678
    },
    {
      "epoch": 3.017797552836485,
      "grad_norm": 1.2497127056121826,
      "learning_rate": 3.908108443946557e-06,
      "loss": 1.4958,
      "mean_token_accuracy": 0.6120783388614655,
      "step": 679
    },
    {
      "epoch": 3.0222469410456063,
      "grad_norm": 1.178342342376709,
      "learning_rate": 3.904079919601543e-06,
      "loss": 1.3333,
      "mean_token_accuracy": 0.6440870016813278,
      "step": 680
    },
    {
      "epoch": 3.0266963292547273,
      "grad_norm": 1.2326266765594482,
      "learning_rate": 3.900046062382052e-06,
      "loss": 1.4714,
      "mean_token_accuracy": 0.6202490478754044,
      "step": 681
    },
    {
      "epoch": 3.0311457174638488,
      "grad_norm": 1.3899602890014648,
      "learning_rate": 3.896006887609193e-06,
      "loss": 1.484,
      "mean_token_accuracy": 0.613789826631546,
      "step": 682
    },
    {
      "epoch": 3.0355951056729698,
      "grad_norm": 1.1974327564239502,
      "learning_rate": 3.891962410624264e-06,
      "loss": 1.3191,
      "mean_token_accuracy": 0.6509203612804413,
      "step": 683
    },
    {
      "epoch": 3.040044493882091,
      "grad_norm": 1.2874209880828857,
      "learning_rate": 3.887912646788704e-06,
      "loss": 1.4435,
      "mean_token_accuracy": 0.6176508963108063,
      "step": 684
    },
    {
      "epoch": 3.0444938820912126,
      "grad_norm": 1.2528156042099,
      "learning_rate": 3.883857611484032e-06,
      "loss": 1.5906,
      "mean_token_accuracy": 0.5984600931406021,
      "step": 685
    },
    {
      "epoch": 3.0489432703003336,
      "grad_norm": 1.2077947854995728,
      "learning_rate": 3.879797320111788e-06,
      "loss": 1.4416,
      "mean_token_accuracy": 0.633995309472084,
      "step": 686
    },
    {
      "epoch": 3.053392658509455,
      "grad_norm": 1.275770902633667,
      "learning_rate": 3.875731788093478e-06,
      "loss": 1.4264,
      "mean_token_accuracy": 0.628296822309494,
      "step": 687
    },
    {
      "epoch": 3.057842046718576,
      "grad_norm": 1.274330735206604,
      "learning_rate": 3.871661030870512e-06,
      "loss": 1.4172,
      "mean_token_accuracy": 0.636260911822319,
      "step": 688
    },
    {
      "epoch": 3.0622914349276975,
      "grad_norm": 1.1649322509765625,
      "learning_rate": 3.8675850639041405e-06,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6380258053541183,
      "step": 689
    },
    {
      "epoch": 3.0667408231368185,
      "grad_norm": 1.198917269706726,
      "learning_rate": 3.8635039026754075e-06,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6330161839723587,
      "step": 690
    },
    {
      "epoch": 3.07119021134594,
      "grad_norm": 1.305565357208252,
      "learning_rate": 3.859417562685084e-06,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6188362538814545,
      "step": 691
    },
    {
      "epoch": 3.0756395995550614,
      "grad_norm": 1.5333666801452637,
      "learning_rate": 3.85532605945361e-06,
      "loss": 1.4661,
      "mean_token_accuracy": 0.6191939562559128,
      "step": 692
    },
    {
      "epoch": 3.0800889877641824,
      "grad_norm": 1.367364525794983,
      "learning_rate": 3.851229408521037e-06,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6398968547582626,
      "step": 693
    },
    {
      "epoch": 3.084538375973304,
      "grad_norm": 1.2382218837738037,
      "learning_rate": 3.847127625446964e-06,
      "loss": 1.4888,
      "mean_token_accuracy": 0.6196315437555313,
      "step": 694
    },
    {
      "epoch": 3.088987764182425,
      "grad_norm": 1.407523512840271,
      "learning_rate": 3.843020725810489e-06,
      "loss": 1.4935,
      "mean_token_accuracy": 0.6215382665395737,
      "step": 695
    },
    {
      "epoch": 3.0934371523915463,
      "grad_norm": 1.4003007411956787,
      "learning_rate": 3.8389087252101395e-06,
      "loss": 1.508,
      "mean_token_accuracy": 0.619849443435669,
      "step": 696
    },
    {
      "epoch": 3.0978865406006673,
      "grad_norm": 1.4002588987350464,
      "learning_rate": 3.834791639263818e-06,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6284961402416229,
      "step": 697
    },
    {
      "epoch": 3.1023359288097887,
      "grad_norm": 1.3807786703109741,
      "learning_rate": 3.830669483608741e-06,
      "loss": 1.3684,
      "mean_token_accuracy": 0.6329334527254105,
      "step": 698
    },
    {
      "epoch": 3.1067853170189097,
      "grad_norm": 1.2865239381790161,
      "learning_rate": 3.82654227390138e-06,
      "loss": 1.4353,
      "mean_token_accuracy": 0.6282947361469269,
      "step": 699
    },
    {
      "epoch": 3.111234705228031,
      "grad_norm": 1.2010236978530884,
      "learning_rate": 3.8224100258174066e-06,
      "loss": 1.4403,
      "mean_token_accuracy": 0.6283666491508484,
      "step": 700
    },
    {
      "epoch": 3.111234705228031,
      "eval_loss": 1.4987057447433472,
      "eval_mean_token_accuracy": 0.6181179577112198,
      "eval_runtime": 8.9325,
      "eval_samples_per_second": 11.195,
      "eval_steps_per_second": 11.195,
      "step": 700
    },
    {
      "epoch": 3.1156840934371526,
      "grad_norm": 1.2297048568725586,
      "learning_rate": 3.818272755051623e-06,
      "loss": 1.4591,
      "mean_token_accuracy": 0.6303979307413101,
      "step": 701
    },
    {
      "epoch": 3.1201334816462736,
      "grad_norm": 1.2291282415390015,
      "learning_rate": 3.814130477317911e-06,
      "loss": 1.4425,
      "mean_token_accuracy": 0.6220175623893738,
      "step": 702
    },
    {
      "epoch": 3.124582869855395,
      "grad_norm": 1.3818973302841187,
      "learning_rate": 3.809983208349171e-06,
      "loss": 1.6486,
      "mean_token_accuracy": 0.5898871272802353,
      "step": 703
    },
    {
      "epoch": 3.129032258064516,
      "grad_norm": 1.249699354171753,
      "learning_rate": 3.8058309638972567e-06,
      "loss": 1.5197,
      "mean_token_accuracy": 0.6144047379493713,
      "step": 704
    },
    {
      "epoch": 3.1334816462736375,
      "grad_norm": 1.3411898612976074,
      "learning_rate": 3.801673759732924e-06,
      "loss": 1.5431,
      "mean_token_accuracy": 0.6074299812316895,
      "step": 705
    },
    {
      "epoch": 3.1379310344827585,
      "grad_norm": 1.3580418825149536,
      "learning_rate": 3.7975116116457626e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6328472942113876,
      "step": 706
    },
    {
      "epoch": 3.14238042269188,
      "grad_norm": 1.24747633934021,
      "learning_rate": 3.793344535444142e-06,
      "loss": 1.4982,
      "mean_token_accuracy": 0.6203810572624207,
      "step": 707
    },
    {
      "epoch": 3.146829810901001,
      "grad_norm": 1.314562439918518,
      "learning_rate": 3.789172546955149e-06,
      "loss": 1.5453,
      "mean_token_accuracy": 0.6099386364221573,
      "step": 708
    },
    {
      "epoch": 3.1512791991101223,
      "grad_norm": 1.2501131296157837,
      "learning_rate": 3.7849956620245266e-06,
      "loss": 1.3636,
      "mean_token_accuracy": 0.6465650796890259,
      "step": 709
    },
    {
      "epoch": 3.1557285873192438,
      "grad_norm": 1.3719552755355835,
      "learning_rate": 3.7808138965166167e-06,
      "loss": 1.6384,
      "mean_token_accuracy": 0.6027136296033859,
      "step": 710
    },
    {
      "epoch": 3.1601779755283648,
      "grad_norm": 1.2251583337783813,
      "learning_rate": 3.776627266314298e-06,
      "loss": 1.3581,
      "mean_token_accuracy": 0.6427344977855682,
      "step": 711
    },
    {
      "epoch": 3.164627363737486,
      "grad_norm": 1.2183072566986084,
      "learning_rate": 3.772435787318925e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6423452347517014,
      "step": 712
    },
    {
      "epoch": 3.169076751946607,
      "grad_norm": 1.3691092729568481,
      "learning_rate": 3.7682394754502687e-06,
      "loss": 1.5006,
      "mean_token_accuracy": 0.6220023334026337,
      "step": 713
    },
    {
      "epoch": 3.1735261401557286,
      "grad_norm": 1.2921791076660156,
      "learning_rate": 3.764038346646457e-06,
      "loss": 1.488,
      "mean_token_accuracy": 0.6245092451572418,
      "step": 714
    },
    {
      "epoch": 3.1779755283648496,
      "grad_norm": 1.4691463708877563,
      "learning_rate": 3.759832416863913e-06,
      "loss": 1.4327,
      "mean_token_accuracy": 0.6305054426193237,
      "step": 715
    },
    {
      "epoch": 3.182424916573971,
      "grad_norm": 1.317900538444519,
      "learning_rate": 3.755621702077293e-06,
      "loss": 1.4706,
      "mean_token_accuracy": 0.6229382008314133,
      "step": 716
    },
    {
      "epoch": 3.1868743047830925,
      "grad_norm": 1.2868579626083374,
      "learning_rate": 3.7514062182794286e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.614018440246582,
      "step": 717
    },
    {
      "epoch": 3.1913236929922135,
      "grad_norm": 1.4562115669250488,
      "learning_rate": 3.747185981481265e-06,
      "loss": 1.4908,
      "mean_token_accuracy": 0.6245077252388,
      "step": 718
    },
    {
      "epoch": 3.195773081201335,
      "grad_norm": 1.3570588827133179,
      "learning_rate": 3.7429610077117983e-06,
      "loss": 1.5446,
      "mean_token_accuracy": 0.6021058708429337,
      "step": 719
    },
    {
      "epoch": 3.200222469410456,
      "grad_norm": 1.2984083890914917,
      "learning_rate": 3.7387313130180192e-06,
      "loss": 1.4584,
      "mean_token_accuracy": 0.6270044147968292,
      "step": 720
    },
    {
      "epoch": 3.2046718576195774,
      "grad_norm": 1.3582020998001099,
      "learning_rate": 3.734496913464846e-06,
      "loss": 1.4529,
      "mean_token_accuracy": 0.6248736083507538,
      "step": 721
    },
    {
      "epoch": 3.2091212458286984,
      "grad_norm": 1.2574937343597412,
      "learning_rate": 3.730257825135067e-06,
      "loss": 1.5693,
      "mean_token_accuracy": 0.5985975861549377,
      "step": 722
    },
    {
      "epoch": 3.21357063403782,
      "grad_norm": 1.2852613925933838,
      "learning_rate": 3.726014064129282e-06,
      "loss": 1.3623,
      "mean_token_accuracy": 0.6329676508903503,
      "step": 723
    },
    {
      "epoch": 3.2180200222469413,
      "grad_norm": 1.3637603521347046,
      "learning_rate": 3.7217656465658335e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6189270913600922,
      "step": 724
    },
    {
      "epoch": 3.2224694104560623,
      "grad_norm": 1.3872559070587158,
      "learning_rate": 3.7175125885807558e-06,
      "loss": 1.4756,
      "mean_token_accuracy": 0.6245623826980591,
      "step": 725
    },
    {
      "epoch": 3.2224694104560623,
      "eval_loss": 1.491971731185913,
      "eval_mean_token_accuracy": 0.6190719664096832,
      "eval_runtime": 8.9422,
      "eval_samples_per_second": 11.183,
      "eval_steps_per_second": 11.183,
      "step": 725
    },
    {
      "epoch": 3.2269187986651837,
      "grad_norm": 1.4327162504196167,
      "learning_rate": 3.7132549063277033e-06,
      "loss": 1.4632,
      "mean_token_accuracy": 0.6174753904342651,
      "step": 726
    },
    {
      "epoch": 3.2313681868743047,
      "grad_norm": 1.3214441537857056,
      "learning_rate": 3.7089926159778957e-06,
      "loss": 1.429,
      "mean_token_accuracy": 0.6297653913497925,
      "step": 727
    },
    {
      "epoch": 3.235817575083426,
      "grad_norm": 1.2897529602050781,
      "learning_rate": 3.7047257337200554e-06,
      "loss": 1.4265,
      "mean_token_accuracy": 0.6320213228464127,
      "step": 728
    },
    {
      "epoch": 3.240266963292547,
      "grad_norm": 1.2905291318893433,
      "learning_rate": 3.7004542757603457e-06,
      "loss": 1.6289,
      "mean_token_accuracy": 0.5944500714540482,
      "step": 729
    },
    {
      "epoch": 3.2447163515016686,
      "grad_norm": 1.3277173042297363,
      "learning_rate": 3.696178258322307e-06,
      "loss": 1.4601,
      "mean_token_accuracy": 0.6236559152603149,
      "step": 730
    },
    {
      "epoch": 3.2491657397107896,
      "grad_norm": 1.418276309967041,
      "learning_rate": 3.6918976976467996e-06,
      "loss": 1.5964,
      "mean_token_accuracy": 0.6021277159452438,
      "step": 731
    },
    {
      "epoch": 3.253615127919911,
      "grad_norm": 1.4220647811889648,
      "learning_rate": 3.687612609991938e-06,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6271747201681137,
      "step": 732
    },
    {
      "epoch": 3.258064516129032,
      "grad_norm": 1.4589018821716309,
      "learning_rate": 3.683323011633031e-06,
      "loss": 1.391,
      "mean_token_accuracy": 0.6230892837047577,
      "step": 733
    },
    {
      "epoch": 3.2625139043381535,
      "grad_norm": 1.2650338411331177,
      "learning_rate": 3.6790289188625196e-06,
      "loss": 1.5414,
      "mean_token_accuracy": 0.6113337874412537,
      "step": 734
    },
    {
      "epoch": 3.266963292547275,
      "grad_norm": 1.4270761013031006,
      "learning_rate": 3.6747303479899166e-06,
      "loss": 1.5267,
      "mean_token_accuracy": 0.6122326403856277,
      "step": 735
    },
    {
      "epoch": 3.271412680756396,
      "grad_norm": 1.3162667751312256,
      "learning_rate": 3.6704273153417407e-06,
      "loss": 1.5175,
      "mean_token_accuracy": 0.6158009171485901,
      "step": 736
    },
    {
      "epoch": 3.2758620689655173,
      "grad_norm": 1.267055869102478,
      "learning_rate": 3.6661198372614585e-06,
      "loss": 1.3984,
      "mean_token_accuracy": 0.6335120052099228,
      "step": 737
    },
    {
      "epoch": 3.2803114571746383,
      "grad_norm": 1.2592989206314087,
      "learning_rate": 3.661807930109422e-06,
      "loss": 1.3837,
      "mean_token_accuracy": 0.6268267333507538,
      "step": 738
    },
    {
      "epoch": 3.28476084538376,
      "grad_norm": 1.3165680170059204,
      "learning_rate": 3.657491610262802e-06,
      "loss": 1.4729,
      "mean_token_accuracy": 0.6131230592727661,
      "step": 739
    },
    {
      "epoch": 3.289210233592881,
      "grad_norm": 1.4572020769119263,
      "learning_rate": 3.6531708941155337e-06,
      "loss": 1.5628,
      "mean_token_accuracy": 0.6045007705688477,
      "step": 740
    },
    {
      "epoch": 3.2936596218020022,
      "grad_norm": 1.3913397789001465,
      "learning_rate": 3.6488457980782455e-06,
      "loss": 1.441,
      "mean_token_accuracy": 0.6223245710134506,
      "step": 741
    },
    {
      "epoch": 3.2981090100111237,
      "grad_norm": 1.3233983516693115,
      "learning_rate": 3.644516338578204e-06,
      "loss": 1.4705,
      "mean_token_accuracy": 0.6221894472837448,
      "step": 742
    },
    {
      "epoch": 3.3025583982202447,
      "grad_norm": 1.2884352207183838,
      "learning_rate": 3.640182532059249e-06,
      "loss": 1.4441,
      "mean_token_accuracy": 0.6218981295824051,
      "step": 743
    },
    {
      "epoch": 3.307007786429366,
      "grad_norm": 1.2280690670013428,
      "learning_rate": 3.635844394981729e-06,
      "loss": 1.4552,
      "mean_token_accuracy": 0.6266148537397385,
      "step": 744
    },
    {
      "epoch": 3.311457174638487,
      "grad_norm": 1.3685188293457031,
      "learning_rate": 3.631501943822443e-06,
      "loss": 1.5104,
      "mean_token_accuracy": 0.6023033708333969,
      "step": 745
    },
    {
      "epoch": 3.3159065628476085,
      "grad_norm": 1.3301002979278564,
      "learning_rate": 3.627155195074572e-06,
      "loss": 1.534,
      "mean_token_accuracy": 0.6076556444168091,
      "step": 746
    },
    {
      "epoch": 3.3203559510567295,
      "grad_norm": 1.3320295810699463,
      "learning_rate": 3.622804165247622e-06,
      "loss": 1.354,
      "mean_token_accuracy": 0.6397486180067062,
      "step": 747
    },
    {
      "epoch": 3.324805339265851,
      "grad_norm": 1.4944276809692383,
      "learning_rate": 3.6184488708673605e-06,
      "loss": 1.4821,
      "mean_token_accuracy": 0.6120557487010956,
      "step": 748
    },
    {
      "epoch": 3.3292547274749724,
      "grad_norm": 1.4523979425430298,
      "learning_rate": 3.6140893284757484e-06,
      "loss": 1.4563,
      "mean_token_accuracy": 0.6276322305202484,
      "step": 749
    },
    {
      "epoch": 3.3337041156840934,
      "grad_norm": 1.3251805305480957,
      "learning_rate": 3.609725554630884e-06,
      "loss": 1.4241,
      "mean_token_accuracy": 0.6328322291374207,
      "step": 750
    },
    {
      "epoch": 3.3337041156840934,
      "eval_loss": 1.4871693849563599,
      "eval_mean_token_accuracy": 0.6199757319688797,
      "eval_runtime": 8.9941,
      "eval_samples_per_second": 11.118,
      "eval_steps_per_second": 11.118,
      "step": 750
    },
    {
      "epoch": 3.338153503893215,
      "grad_norm": 1.2344064712524414,
      "learning_rate": 3.6053575659069384e-06,
      "loss": 1.442,
      "mean_token_accuracy": 0.6343691945075989,
      "step": 751
    },
    {
      "epoch": 3.342602892102336,
      "grad_norm": 1.3272593021392822,
      "learning_rate": 3.600985378894086e-06,
      "loss": 1.5094,
      "mean_token_accuracy": 0.6180321276187897,
      "step": 752
    },
    {
      "epoch": 3.3470522803114573,
      "grad_norm": 1.3296177387237549,
      "learning_rate": 3.596609010198453e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.632976770401001,
      "step": 753
    },
    {
      "epoch": 3.3515016685205783,
      "grad_norm": 1.2282191514968872,
      "learning_rate": 3.5922284764420445e-06,
      "loss": 1.2995,
      "mean_token_accuracy": 0.6494345217943192,
      "step": 754
    },
    {
      "epoch": 3.3559510567296997,
      "grad_norm": 1.2481977939605713,
      "learning_rate": 3.587843794262686e-06,
      "loss": 1.3129,
      "mean_token_accuracy": 0.647717148065567,
      "step": 755
    },
    {
      "epoch": 3.3604004449388207,
      "grad_norm": 1.256462812423706,
      "learning_rate": 3.583454980313959e-06,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6383693069219589,
      "step": 756
    },
    {
      "epoch": 3.364849833147942,
      "grad_norm": 1.3230171203613281,
      "learning_rate": 3.5790620512651385e-06,
      "loss": 1.4771,
      "mean_token_accuracy": 0.6294001489877701,
      "step": 757
    },
    {
      "epoch": 3.369299221357063,
      "grad_norm": 1.2994247674942017,
      "learning_rate": 3.574665023801129e-06,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6295391172170639,
      "step": 758
    },
    {
      "epoch": 3.3737486095661846,
      "grad_norm": 1.3662968873977661,
      "learning_rate": 3.5702639146224003e-06,
      "loss": 1.5695,
      "mean_token_accuracy": 0.6088806837797165,
      "step": 759
    },
    {
      "epoch": 3.378197997775306,
      "grad_norm": 1.2685333490371704,
      "learning_rate": 3.565858740444927e-06,
      "loss": 1.3985,
      "mean_token_accuracy": 0.6299720257520676,
      "step": 760
    },
    {
      "epoch": 3.382647385984427,
      "grad_norm": 1.3798270225524902,
      "learning_rate": 3.5614495180001226e-06,
      "loss": 1.559,
      "mean_token_accuracy": 0.6104665249586105,
      "step": 761
    },
    {
      "epoch": 3.3870967741935485,
      "grad_norm": 1.4988515377044678,
      "learning_rate": 3.5570362640347743e-06,
      "loss": 1.5555,
      "mean_token_accuracy": 0.6132089495658875,
      "step": 762
    },
    {
      "epoch": 3.3915461624026695,
      "grad_norm": 1.2253172397613525,
      "learning_rate": 3.5526189953109836e-06,
      "loss": 1.4904,
      "mean_token_accuracy": 0.6184875816106796,
      "step": 763
    },
    {
      "epoch": 3.395995550611791,
      "grad_norm": 1.2817317247390747,
      "learning_rate": 3.5481977286061e-06,
      "loss": 1.4322,
      "mean_token_accuracy": 0.6382844001054764,
      "step": 764
    },
    {
      "epoch": 3.400444938820912,
      "grad_norm": 1.334903359413147,
      "learning_rate": 3.5437724807126583e-06,
      "loss": 1.5304,
      "mean_token_accuracy": 0.6180018335580826,
      "step": 765
    },
    {
      "epoch": 3.4048943270300334,
      "grad_norm": 1.2599149942398071,
      "learning_rate": 3.5393432684383137e-06,
      "loss": 1.3178,
      "mean_token_accuracy": 0.6485119163990021,
      "step": 766
    },
    {
      "epoch": 3.409343715239155,
      "grad_norm": 1.3171049356460571,
      "learning_rate": 3.5349101086057785e-06,
      "loss": 1.5535,
      "mean_token_accuracy": 0.609021857380867,
      "step": 767
    },
    {
      "epoch": 3.413793103448276,
      "grad_norm": 1.4158369302749634,
      "learning_rate": 3.53047301805276e-06,
      "loss": 1.5733,
      "mean_token_accuracy": 0.5990633368492126,
      "step": 768
    },
    {
      "epoch": 3.4182424916573972,
      "grad_norm": 1.4466052055358887,
      "learning_rate": 3.5260320136318927e-06,
      "loss": 1.5425,
      "mean_token_accuracy": 0.6158123314380646,
      "step": 769
    },
    {
      "epoch": 3.4226918798665182,
      "grad_norm": 1.3217694759368896,
      "learning_rate": 3.5215871122106767e-06,
      "loss": 1.4855,
      "mean_token_accuracy": 0.6208092421293259,
      "step": 770
    },
    {
      "epoch": 3.4271412680756397,
      "grad_norm": 1.3520160913467407,
      "learning_rate": 3.5171383306714156e-06,
      "loss": 1.4716,
      "mean_token_accuracy": 0.6087585091590881,
      "step": 771
    },
    {
      "epoch": 3.4315906562847607,
      "grad_norm": 1.2726049423217773,
      "learning_rate": 3.512685685911147e-06,
      "loss": 1.4456,
      "mean_token_accuracy": 0.6278210431337357,
      "step": 772
    },
    {
      "epoch": 3.436040044493882,
      "grad_norm": 1.4404767751693726,
      "learning_rate": 3.5082291948415844e-06,
      "loss": 1.515,
      "mean_token_accuracy": 0.6040585041046143,
      "step": 773
    },
    {
      "epoch": 3.4404894327030036,
      "grad_norm": 1.285674810409546,
      "learning_rate": 3.5037688743890484e-06,
      "loss": 1.3282,
      "mean_token_accuracy": 0.6512709259986877,
      "step": 774
    },
    {
      "epoch": 3.4449388209121246,
      "grad_norm": 1.3459380865097046,
      "learning_rate": 3.499304741494405e-06,
      "loss": 1.5812,
      "mean_token_accuracy": 0.6085540354251862,
      "step": 775
    },
    {
      "epoch": 3.4449388209121246,
      "eval_loss": 1.4821704626083374,
      "eval_mean_token_accuracy": 0.6207375520467758,
      "eval_runtime": 9.1604,
      "eval_samples_per_second": 10.917,
      "eval_steps_per_second": 10.917,
      "step": 775
    },
    {
      "epoch": 3.449388209121246,
      "grad_norm": 1.2574952840805054,
      "learning_rate": 3.4948368131129984e-06,
      "loss": 1.4095,
      "mean_token_accuracy": 0.6354649662971497,
      "step": 776
    },
    {
      "epoch": 3.453837597330367,
      "grad_norm": 1.2991210222244263,
      "learning_rate": 3.4903651062145915e-06,
      "loss": 1.4161,
      "mean_token_accuracy": 0.6306871473789215,
      "step": 777
    },
    {
      "epoch": 3.4582869855394884,
      "grad_norm": 1.255966305732727,
      "learning_rate": 3.4858896377832966e-06,
      "loss": 1.441,
      "mean_token_accuracy": 0.6268826425075531,
      "step": 778
    },
    {
      "epoch": 3.4627363737486094,
      "grad_norm": 1.3377172946929932,
      "learning_rate": 3.481410424817513e-06,
      "loss": 1.5375,
      "mean_token_accuracy": 0.5934621393680573,
      "step": 779
    },
    {
      "epoch": 3.467185761957731,
      "grad_norm": 1.3269903659820557,
      "learning_rate": 3.476927484329863e-06,
      "loss": 1.5539,
      "mean_token_accuracy": 0.6073103696107864,
      "step": 780
    },
    {
      "epoch": 3.471635150166852,
      "grad_norm": 1.295162558555603,
      "learning_rate": 3.4724408333471245e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6410742849111557,
      "step": 781
    },
    {
      "epoch": 3.4760845383759733,
      "grad_norm": 1.4507522583007812,
      "learning_rate": 3.4679504889101704e-06,
      "loss": 1.4735,
      "mean_token_accuracy": 0.6230696439743042,
      "step": 782
    },
    {
      "epoch": 3.4805339265850943,
      "grad_norm": 1.319486379623413,
      "learning_rate": 3.463456468073902e-06,
      "loss": 1.4103,
      "mean_token_accuracy": 0.6306885033845901,
      "step": 783
    },
    {
      "epoch": 3.4849833147942157,
      "grad_norm": 1.3989475965499878,
      "learning_rate": 3.458958787907182e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.620980441570282,
      "step": 784
    },
    {
      "epoch": 3.489432703003337,
      "grad_norm": 1.2485102415084839,
      "learning_rate": 3.454457465492773e-06,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6169683635234833,
      "step": 785
    },
    {
      "epoch": 3.493882091212458,
      "grad_norm": 1.3020800352096558,
      "learning_rate": 3.449952517927272e-06,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6176892518997192,
      "step": 786
    },
    {
      "epoch": 3.4983314794215796,
      "grad_norm": 1.278550386428833,
      "learning_rate": 3.4454439623210434e-06,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6330640017986298,
      "step": 787
    },
    {
      "epoch": 3.5027808676307006,
      "grad_norm": 1.3846628665924072,
      "learning_rate": 3.4409318157981565e-06,
      "loss": 1.4626,
      "mean_token_accuracy": 0.6158357709646225,
      "step": 788
    },
    {
      "epoch": 3.507230255839822,
      "grad_norm": 1.406964659690857,
      "learning_rate": 3.4364160954963176e-06,
      "loss": 1.5166,
      "mean_token_accuracy": 0.6175454556941986,
      "step": 789
    },
    {
      "epoch": 3.511679644048943,
      "grad_norm": 1.2823123931884766,
      "learning_rate": 3.431896818566809e-06,
      "loss": 1.3454,
      "mean_token_accuracy": 0.6395893096923828,
      "step": 790
    },
    {
      "epoch": 3.5161290322580645,
      "grad_norm": 1.275961995124817,
      "learning_rate": 3.42737400217442e-06,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6231786012649536,
      "step": 791
    },
    {
      "epoch": 3.520578420467186,
      "grad_norm": 1.4065996408462524,
      "learning_rate": 3.422847663497384e-06,
      "loss": 1.5196,
      "mean_token_accuracy": 0.6249483972787857,
      "step": 792
    },
    {
      "epoch": 3.525027808676307,
      "grad_norm": 1.505054235458374,
      "learning_rate": 3.4183178197273115e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.6359420716762543,
      "step": 793
    },
    {
      "epoch": 3.5294771968854284,
      "grad_norm": 1.3728296756744385,
      "learning_rate": 3.4137844880691275e-06,
      "loss": 1.4088,
      "mean_token_accuracy": 0.623540461063385,
      "step": 794
    },
    {
      "epoch": 3.5339265850945494,
      "grad_norm": 1.2897552251815796,
      "learning_rate": 3.4092476857410018e-06,
      "loss": 1.4367,
      "mean_token_accuracy": 0.6279080212116241,
      "step": 795
    },
    {
      "epoch": 3.538375973303671,
      "grad_norm": 1.6240674257278442,
      "learning_rate": 3.4047074299742894e-06,
      "loss": 1.4676,
      "mean_token_accuracy": 0.6174398511648178,
      "step": 796
    },
    {
      "epoch": 3.542825361512792,
      "grad_norm": 1.3292880058288574,
      "learning_rate": 3.40016373801346e-06,
      "loss": 1.5296,
      "mean_token_accuracy": 0.6045943200588226,
      "step": 797
    },
    {
      "epoch": 3.5472747497219133,
      "grad_norm": 1.3818507194519043,
      "learning_rate": 3.395616627116033e-06,
      "loss": 1.4655,
      "mean_token_accuracy": 0.6274098008871078,
      "step": 798
    },
    {
      "epoch": 3.5517241379310347,
      "grad_norm": 1.333206295967102,
      "learning_rate": 3.391066114552518e-06,
      "loss": 1.4929,
      "mean_token_accuracy": 0.6145241111516953,
      "step": 799
    },
    {
      "epoch": 3.5561735261401557,
      "grad_norm": 1.3314377069473267,
      "learning_rate": 3.386512217606339e-06,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6225640028715134,
      "step": 800
    },
    {
      "epoch": 3.5561735261401557,
      "eval_loss": 1.4772155284881592,
      "eval_mean_token_accuracy": 0.6216042906045913,
      "eval_runtime": 9.1801,
      "eval_samples_per_second": 10.893,
      "eval_steps_per_second": 10.893,
      "step": 800
    },
    {
      "epoch": 3.560622914349277,
      "grad_norm": 1.366701364517212,
      "learning_rate": 3.3819549535737788e-06,
      "loss": 1.4995,
      "mean_token_accuracy": 0.6213537156581879,
      "step": 801
    },
    {
      "epoch": 3.565072302558398,
      "grad_norm": 1.3384475708007812,
      "learning_rate": 3.3773943397639068e-06,
      "loss": 1.5449,
      "mean_token_accuracy": 0.6071052253246307,
      "step": 802
    },
    {
      "epoch": 3.5695216907675196,
      "grad_norm": 1.3889409303665161,
      "learning_rate": 3.372830393498514e-06,
      "loss": 1.4898,
      "mean_token_accuracy": 0.6239419728517532,
      "step": 803
    },
    {
      "epoch": 3.5739710789766406,
      "grad_norm": 1.398087739944458,
      "learning_rate": 3.3682631321120507e-06,
      "loss": 1.4446,
      "mean_token_accuracy": 0.6253027021884918,
      "step": 804
    },
    {
      "epoch": 3.578420467185762,
      "grad_norm": 1.3309087753295898,
      "learning_rate": 3.3636925729515583e-06,
      "loss": 1.5782,
      "mean_token_accuracy": 0.6106320172548294,
      "step": 805
    },
    {
      "epoch": 3.5828698553948835,
      "grad_norm": 1.3620175123214722,
      "learning_rate": 3.359118733376603e-06,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6417205780744553,
      "step": 806
    },
    {
      "epoch": 3.5873192436040044,
      "grad_norm": 1.2622119188308716,
      "learning_rate": 3.35454163075921e-06,
      "loss": 1.415,
      "mean_token_accuracy": 0.6263445913791656,
      "step": 807
    },
    {
      "epoch": 3.5917686318131254,
      "grad_norm": 1.3050400018692017,
      "learning_rate": 3.3499612824837978e-06,
      "loss": 1.4021,
      "mean_token_accuracy": 0.6329808384180069,
      "step": 808
    },
    {
      "epoch": 3.596218020022247,
      "grad_norm": 1.4382596015930176,
      "learning_rate": 3.345377705947114e-06,
      "loss": 1.4568,
      "mean_token_accuracy": 0.6322656124830246,
      "step": 809
    },
    {
      "epoch": 3.6006674082313683,
      "grad_norm": 1.298964023590088,
      "learning_rate": 3.3407909185581656e-06,
      "loss": 1.4588,
      "mean_token_accuracy": 0.6243199706077576,
      "step": 810
    },
    {
      "epoch": 3.6051167964404893,
      "grad_norm": 1.307174801826477,
      "learning_rate": 3.3362009377381556e-06,
      "loss": 1.3117,
      "mean_token_accuracy": 0.6481267213821411,
      "step": 811
    },
    {
      "epoch": 3.6095661846496108,
      "grad_norm": 1.3287241458892822,
      "learning_rate": 3.3316077809204168e-06,
      "loss": 1.2681,
      "mean_token_accuracy": 0.654169887304306,
      "step": 812
    },
    {
      "epoch": 3.6140155728587318,
      "grad_norm": 1.4210877418518066,
      "learning_rate": 3.327011465550343e-06,
      "loss": 1.3695,
      "mean_token_accuracy": 0.6434392482042313,
      "step": 813
    },
    {
      "epoch": 3.618464961067853,
      "grad_norm": 1.43550705909729,
      "learning_rate": 3.3224120090853275e-06,
      "loss": 1.3323,
      "mean_token_accuracy": 0.6522606909275055,
      "step": 814
    },
    {
      "epoch": 3.622914349276974,
      "grad_norm": 1.3539106845855713,
      "learning_rate": 3.3178094289946904e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6247519552707672,
      "step": 815
    },
    {
      "epoch": 3.6273637374860956,
      "grad_norm": 1.3506640195846558,
      "learning_rate": 3.3132037427596193e-06,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6268022954463959,
      "step": 816
    },
    {
      "epoch": 3.631813125695217,
      "grad_norm": 1.3530985116958618,
      "learning_rate": 3.3085949678730953e-06,
      "loss": 1.4915,
      "mean_token_accuracy": 0.6110093742609024,
      "step": 817
    },
    {
      "epoch": 3.636262513904338,
      "grad_norm": 1.2555311918258667,
      "learning_rate": 3.3039831218398346e-06,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6351475268602371,
      "step": 818
    },
    {
      "epoch": 3.6407119021134595,
      "grad_norm": 1.3742610216140747,
      "learning_rate": 3.2993682221762153e-06,
      "loss": 1.4278,
      "mean_token_accuracy": 0.6301605999469757,
      "step": 819
    },
    {
      "epoch": 3.6451612903225805,
      "grad_norm": 1.271996259689331,
      "learning_rate": 3.294750286410214e-06,
      "loss": 1.4853,
      "mean_token_accuracy": 0.615157887339592,
      "step": 820
    },
    {
      "epoch": 3.649610678531702,
      "grad_norm": 1.3171477317810059,
      "learning_rate": 3.2901293320813403e-06,
      "loss": 1.4906,
      "mean_token_accuracy": 0.6250399649143219,
      "step": 821
    },
    {
      "epoch": 3.654060066740823,
      "grad_norm": 1.4191280603408813,
      "learning_rate": 3.2855053767405674e-06,
      "loss": 1.5311,
      "mean_token_accuracy": 0.6084456890821457,
      "step": 822
    },
    {
      "epoch": 3.6585094549499444,
      "grad_norm": 1.3076035976409912,
      "learning_rate": 3.280878437950266e-06,
      "loss": 1.5063,
      "mean_token_accuracy": 0.6111365854740143,
      "step": 823
    },
    {
      "epoch": 3.662958843159066,
      "grad_norm": 1.602339506149292,
      "learning_rate": 3.276248533284141e-06,
      "loss": 1.4477,
      "mean_token_accuracy": 0.6409669518470764,
      "step": 824
    },
    {
      "epoch": 3.667408231368187,
      "grad_norm": 1.3995816707611084,
      "learning_rate": 3.27161568032716e-06,
      "loss": 1.4836,
      "mean_token_accuracy": 0.6220409870147705,
      "step": 825
    },
    {
      "epoch": 3.667408231368187,
      "eval_loss": 1.4736008644104004,
      "eval_mean_token_accuracy": 0.6225891941785813,
      "eval_runtime": 8.9135,
      "eval_samples_per_second": 11.219,
      "eval_steps_per_second": 11.219,
      "step": 825
    },
    {
      "epoch": 3.6718576195773083,
      "grad_norm": 1.4713987112045288,
      "learning_rate": 3.266979896675487e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.6269731372594833,
      "step": 826
    },
    {
      "epoch": 3.6763070077864293,
      "grad_norm": 1.4389324188232422,
      "learning_rate": 3.262341199936421e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6423739790916443,
      "step": 827
    },
    {
      "epoch": 3.6807563959955507,
      "grad_norm": 1.3597275018692017,
      "learning_rate": 3.2576996077283222e-06,
      "loss": 1.5379,
      "mean_token_accuracy": 0.6220688372850418,
      "step": 828
    },
    {
      "epoch": 3.6852057842046717,
      "grad_norm": 1.3849555253982544,
      "learning_rate": 3.2530551376805508e-06,
      "loss": 1.5131,
      "mean_token_accuracy": 0.6108812987804413,
      "step": 829
    },
    {
      "epoch": 3.689655172413793,
      "grad_norm": 1.2999383211135864,
      "learning_rate": 3.248407807433396e-06,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6288584768772125,
      "step": 830
    },
    {
      "epoch": 3.6941045606229146,
      "grad_norm": 1.3491535186767578,
      "learning_rate": 3.2437576346380077e-06,
      "loss": 1.4559,
      "mean_token_accuracy": 0.6222598105669022,
      "step": 831
    },
    {
      "epoch": 3.6985539488320356,
      "grad_norm": 1.3205589056015015,
      "learning_rate": 3.2391046369563374e-06,
      "loss": 1.533,
      "mean_token_accuracy": 0.6185396015644073,
      "step": 832
    },
    {
      "epoch": 3.7030033370411566,
      "grad_norm": 1.4968533515930176,
      "learning_rate": 3.234448832061063e-06,
      "loss": 1.6016,
      "mean_token_accuracy": 0.6012061983346939,
      "step": 833
    },
    {
      "epoch": 3.707452725250278,
      "grad_norm": 1.493356466293335,
      "learning_rate": 3.2297902376355238e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.625240832567215,
      "step": 834
    },
    {
      "epoch": 3.7119021134593995,
      "grad_norm": 1.3976606130599976,
      "learning_rate": 3.2251288713736555e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6329947263002396,
      "step": 835
    },
    {
      "epoch": 3.7163515016685205,
      "grad_norm": 1.400974988937378,
      "learning_rate": 3.220464750979922e-06,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6249612271785736,
      "step": 836
    },
    {
      "epoch": 3.720800889877642,
      "grad_norm": 1.3896225690841675,
      "learning_rate": 3.2157978941692456e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6276284754276276,
      "step": 837
    },
    {
      "epoch": 3.7252502780867633,
      "grad_norm": 1.377658486366272,
      "learning_rate": 3.211128318666945e-06,
      "loss": 1.4678,
      "mean_token_accuracy": 0.6157313585281372,
      "step": 838
    },
    {
      "epoch": 3.7296996662958843,
      "grad_norm": 1.349295973777771,
      "learning_rate": 3.2064560422086616e-06,
      "loss": 1.433,
      "mean_token_accuracy": 0.6302774846553802,
      "step": 839
    },
    {
      "epoch": 3.7341490545050053,
      "grad_norm": 1.3004164695739746,
      "learning_rate": 3.201781082540297e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6322159469127655,
      "step": 840
    },
    {
      "epoch": 3.738598442714127,
      "grad_norm": 1.516890048980713,
      "learning_rate": 3.1971034574179443e-06,
      "loss": 1.423,
      "mean_token_accuracy": 0.6330448091030121,
      "step": 841
    },
    {
      "epoch": 3.743047830923248,
      "grad_norm": 1.3143501281738281,
      "learning_rate": 3.1924231846078198e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6282871216535568,
      "step": 842
    },
    {
      "epoch": 3.747497219132369,
      "grad_norm": 1.2124272584915161,
      "learning_rate": 3.1877402818861954e-06,
      "loss": 1.4122,
      "mean_token_accuracy": 0.6339535266160965,
      "step": 843
    },
    {
      "epoch": 3.7519466073414907,
      "grad_norm": 1.4596617221832275,
      "learning_rate": 3.1830547670393337e-06,
      "loss": 1.5429,
      "mean_token_accuracy": 0.6188531965017319,
      "step": 844
    },
    {
      "epoch": 3.7563959955506117,
      "grad_norm": 1.250224232673645,
      "learning_rate": 3.1783666578634167e-06,
      "loss": 1.4306,
      "mean_token_accuracy": 0.6291991174221039,
      "step": 845
    },
    {
      "epoch": 3.760845383759733,
      "grad_norm": 1.3536334037780762,
      "learning_rate": 3.173675972164479e-06,
      "loss": 1.4508,
      "mean_token_accuracy": 0.6051041632890701,
      "step": 846
    },
    {
      "epoch": 3.765294771968854,
      "grad_norm": 1.3014835119247437,
      "learning_rate": 3.168982727758345e-06,
      "loss": 1.4828,
      "mean_token_accuracy": 0.6085249483585358,
      "step": 847
    },
    {
      "epoch": 3.7697441601779755,
      "grad_norm": 1.2944732904434204,
      "learning_rate": 3.1642869424705537e-06,
      "loss": 1.4632,
      "mean_token_accuracy": 0.621716320514679,
      "step": 848
    },
    {
      "epoch": 3.774193548387097,
      "grad_norm": 1.2471309900283813,
      "learning_rate": 3.159588634136296e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.6171927452087402,
      "step": 849
    },
    {
      "epoch": 3.778642936596218,
      "grad_norm": 1.3040637969970703,
      "learning_rate": 3.1548878206003477e-06,
      "loss": 1.5377,
      "mean_token_accuracy": 0.605427160859108,
      "step": 850
    },
    {
      "epoch": 3.778642936596218,
      "eval_loss": 1.4690899848937988,
      "eval_mean_token_accuracy": 0.6232254856824875,
      "eval_runtime": 8.8805,
      "eval_samples_per_second": 11.261,
      "eval_steps_per_second": 11.261,
      "step": 850
    },
    {
      "epoch": 3.7830923248053394,
      "grad_norm": 1.407778263092041,
      "learning_rate": 3.1501845197169945e-06,
      "loss": 1.4733,
      "mean_token_accuracy": 0.6287918388843536,
      "step": 851
    },
    {
      "epoch": 3.7875417130144604,
      "grad_norm": 1.3354363441467285,
      "learning_rate": 3.1454787493499746e-06,
      "loss": 1.5223,
      "mean_token_accuracy": 0.6138171702623367,
      "step": 852
    },
    {
      "epoch": 3.791991101223582,
      "grad_norm": 1.59470796585083,
      "learning_rate": 3.140770527372403e-06,
      "loss": 1.4822,
      "mean_token_accuracy": 0.6231088042259216,
      "step": 853
    },
    {
      "epoch": 3.796440489432703,
      "grad_norm": 1.5191314220428467,
      "learning_rate": 3.136059871666708e-06,
      "loss": 1.4073,
      "mean_token_accuracy": 0.6332089304924011,
      "step": 854
    },
    {
      "epoch": 3.8008898776418243,
      "grad_norm": 1.288159728050232,
      "learning_rate": 3.1313468001245582e-06,
      "loss": 1.4223,
      "mean_token_accuracy": 0.6227719038724899,
      "step": 855
    },
    {
      "epoch": 3.8053392658509457,
      "grad_norm": 1.3145227432250977,
      "learning_rate": 3.1266313306468018e-06,
      "loss": 1.4283,
      "mean_token_accuracy": 0.6318281441926956,
      "step": 856
    },
    {
      "epoch": 3.8097886540600667,
      "grad_norm": 1.3292862176895142,
      "learning_rate": 3.1219134811433915e-06,
      "loss": 1.3599,
      "mean_token_accuracy": 0.6496651321649551,
      "step": 857
    },
    {
      "epoch": 3.8142380422691877,
      "grad_norm": 1.2735953330993652,
      "learning_rate": 3.1171932695333216e-06,
      "loss": 1.3395,
      "mean_token_accuracy": 0.6503351628780365,
      "step": 858
    },
    {
      "epoch": 3.818687430478309,
      "grad_norm": 1.4038699865341187,
      "learning_rate": 3.1124707137445574e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6390663087368011,
      "step": 859
    },
    {
      "epoch": 3.8231368186874306,
      "grad_norm": 1.5406421422958374,
      "learning_rate": 3.107745831713968e-06,
      "loss": 1.5711,
      "mean_token_accuracy": 0.6107521206140518,
      "step": 860
    },
    {
      "epoch": 3.8275862068965516,
      "grad_norm": 1.423933982849121,
      "learning_rate": 3.1030186413872566e-06,
      "loss": 1.5782,
      "mean_token_accuracy": 0.6047127693891525,
      "step": 861
    },
    {
      "epoch": 3.832035595105673,
      "grad_norm": 1.3393632173538208,
      "learning_rate": 3.0982891607188948e-06,
      "loss": 1.3458,
      "mean_token_accuracy": 0.6445200741291046,
      "step": 862
    },
    {
      "epoch": 3.8364849833147945,
      "grad_norm": 1.369373083114624,
      "learning_rate": 3.093557407672053e-06,
      "loss": 1.4537,
      "mean_token_accuracy": 0.6158395111560822,
      "step": 863
    },
    {
      "epoch": 3.8409343715239155,
      "grad_norm": 1.5065891742706299,
      "learning_rate": 3.088823400218533e-06,
      "loss": 1.5253,
      "mean_token_accuracy": 0.60528564453125,
      "step": 864
    },
    {
      "epoch": 3.8453837597330365,
      "grad_norm": 1.3461356163024902,
      "learning_rate": 3.084087156338697e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6321136355400085,
      "step": 865
    },
    {
      "epoch": 3.849833147942158,
      "grad_norm": 1.5418567657470703,
      "learning_rate": 3.0793486940214034e-06,
      "loss": 1.5661,
      "mean_token_accuracy": 0.6095156371593475,
      "step": 866
    },
    {
      "epoch": 3.8542825361512794,
      "grad_norm": 1.3492846488952637,
      "learning_rate": 3.0746080312639378e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6305338591337204,
      "step": 867
    },
    {
      "epoch": 3.8587319243604004,
      "grad_norm": 1.283610463142395,
      "learning_rate": 3.0698651860719387e-06,
      "loss": 1.4679,
      "mean_token_accuracy": 0.6252524554729462,
      "step": 868
    },
    {
      "epoch": 3.863181312569522,
      "grad_norm": 1.3792247772216797,
      "learning_rate": 3.0651201764593375e-06,
      "loss": 1.4185,
      "mean_token_accuracy": 0.6243063658475876,
      "step": 869
    },
    {
      "epoch": 3.867630700778643,
      "grad_norm": 1.359588384628296,
      "learning_rate": 3.060373020448286e-06,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6236139982938766,
      "step": 870
    },
    {
      "epoch": 3.8720800889877642,
      "grad_norm": 1.483677864074707,
      "learning_rate": 3.0556237360690875e-06,
      "loss": 1.4482,
      "mean_token_accuracy": 0.6239256262779236,
      "step": 871
    },
    {
      "epoch": 3.8765294771968852,
      "grad_norm": 1.4835344552993774,
      "learning_rate": 3.05087234136013e-06,
      "loss": 1.5645,
      "mean_token_accuracy": 0.5983052849769592,
      "step": 872
    },
    {
      "epoch": 3.8809788654060067,
      "grad_norm": 1.2600090503692627,
      "learning_rate": 3.0461188543678143e-06,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6350544542074203,
      "step": 873
    },
    {
      "epoch": 3.885428253615128,
      "grad_norm": 1.3107643127441406,
      "learning_rate": 3.041363293146491e-06,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6459749490022659,
      "step": 874
    },
    {
      "epoch": 3.889877641824249,
      "grad_norm": 1.3731975555419922,
      "learning_rate": 3.036605675758388e-06,
      "loss": 1.4476,
      "mean_token_accuracy": 0.6272085607051849,
      "step": 875
    },
    {
      "epoch": 3.889877641824249,
      "eval_loss": 1.4646291732788086,
      "eval_mean_token_accuracy": 0.624617593884468,
      "eval_runtime": 8.8474,
      "eval_samples_per_second": 11.303,
      "eval_steps_per_second": 11.303,
      "step": 875
    },
    {
      "epoch": 3.8943270300333706,
      "grad_norm": 1.453871250152588,
      "learning_rate": 3.0318460202735417e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.6449364870786667,
      "step": 876
    },
    {
      "epoch": 3.8987764182424915,
      "grad_norm": 1.4903640747070312,
      "learning_rate": 3.0270843447697308e-06,
      "loss": 1.4803,
      "mean_token_accuracy": 0.6267893314361572,
      "step": 877
    },
    {
      "epoch": 3.903225806451613,
      "grad_norm": 1.3388283252716064,
      "learning_rate": 3.022320667332406e-06,
      "loss": 1.4891,
      "mean_token_accuracy": 0.6164682954549789,
      "step": 878
    },
    {
      "epoch": 3.907675194660734,
      "grad_norm": 1.2510067224502563,
      "learning_rate": 3.01755500605462e-06,
      "loss": 1.3277,
      "mean_token_accuracy": 0.6444752663373947,
      "step": 879
    },
    {
      "epoch": 3.9121245828698554,
      "grad_norm": 1.2999125719070435,
      "learning_rate": 3.0127873790369627e-06,
      "loss": 1.3391,
      "mean_token_accuracy": 0.6402040719985962,
      "step": 880
    },
    {
      "epoch": 3.916573971078977,
      "grad_norm": 1.3083570003509521,
      "learning_rate": 3.0080178043874884e-06,
      "loss": 1.4383,
      "mean_token_accuracy": 0.6249510794878006,
      "step": 881
    },
    {
      "epoch": 3.921023359288098,
      "grad_norm": 1.4423112869262695,
      "learning_rate": 3.0032463002216504e-06,
      "loss": 1.5238,
      "mean_token_accuracy": 0.6162884831428528,
      "step": 882
    },
    {
      "epoch": 3.925472747497219,
      "grad_norm": 1.4777302742004395,
      "learning_rate": 2.998472884662229e-06,
      "loss": 1.5891,
      "mean_token_accuracy": 0.5967773944139481,
      "step": 883
    },
    {
      "epoch": 3.9299221357063403,
      "grad_norm": 1.4315178394317627,
      "learning_rate": 2.993697575839265e-06,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6104346513748169,
      "step": 884
    },
    {
      "epoch": 3.9343715239154617,
      "grad_norm": 1.4642090797424316,
      "learning_rate": 2.98892039188999e-06,
      "loss": 1.4864,
      "mean_token_accuracy": 0.6210186779499054,
      "step": 885
    },
    {
      "epoch": 3.9388209121245827,
      "grad_norm": 1.265564203262329,
      "learning_rate": 2.984141350958757e-06,
      "loss": 1.3441,
      "mean_token_accuracy": 0.6456088125705719,
      "step": 886
    },
    {
      "epoch": 3.943270300333704,
      "grad_norm": 1.3404345512390137,
      "learning_rate": 2.979360471196973e-06,
      "loss": 1.4026,
      "mean_token_accuracy": 0.6289451420307159,
      "step": 887
    },
    {
      "epoch": 3.9477196885428256,
      "grad_norm": 1.3372975587844849,
      "learning_rate": 2.9745777707630284e-06,
      "loss": 1.4317,
      "mean_token_accuracy": 0.6349262297153473,
      "step": 888
    },
    {
      "epoch": 3.9521690767519466,
      "grad_norm": 1.4595954418182373,
      "learning_rate": 2.969793267822229e-06,
      "loss": 1.4505,
      "mean_token_accuracy": 0.6330453902482986,
      "step": 889
    },
    {
      "epoch": 3.9566184649610676,
      "grad_norm": 1.3962739706039429,
      "learning_rate": 2.965006980546727e-06,
      "loss": 1.4195,
      "mean_token_accuracy": 0.6330950111150742,
      "step": 890
    },
    {
      "epoch": 3.961067853170189,
      "grad_norm": 1.3030070066452026,
      "learning_rate": 2.9602189271154504e-06,
      "loss": 1.409,
      "mean_token_accuracy": 0.6330859065055847,
      "step": 891
    },
    {
      "epoch": 3.9655172413793105,
      "grad_norm": 1.355879545211792,
      "learning_rate": 2.9554291257140384e-06,
      "loss": 1.4658,
      "mean_token_accuracy": 0.624253436923027,
      "step": 892
    },
    {
      "epoch": 3.9699666295884315,
      "grad_norm": 1.2543165683746338,
      "learning_rate": 2.950637594534765e-06,
      "loss": 1.3438,
      "mean_token_accuracy": 0.643984466791153,
      "step": 893
    },
    {
      "epoch": 3.974416017797553,
      "grad_norm": 1.3620420694351196,
      "learning_rate": 2.9458443517764767e-06,
      "loss": 1.4736,
      "mean_token_accuracy": 0.6237422525882721,
      "step": 894
    },
    {
      "epoch": 3.978865406006674,
      "grad_norm": 1.3344779014587402,
      "learning_rate": 2.941049415644522e-06,
      "loss": 1.3895,
      "mean_token_accuracy": 0.6302536875009537,
      "step": 895
    },
    {
      "epoch": 3.9833147942157954,
      "grad_norm": 1.4218497276306152,
      "learning_rate": 2.936252804350677e-06,
      "loss": 1.4366,
      "mean_token_accuracy": 0.6236633956432343,
      "step": 896
    },
    {
      "epoch": 3.9877641824249164,
      "grad_norm": 1.3612183332443237,
      "learning_rate": 2.931454536113084e-06,
      "loss": 1.5265,
      "mean_token_accuracy": 0.6212999522686005,
      "step": 897
    },
    {
      "epoch": 3.992213570634038,
      "grad_norm": 1.3235270977020264,
      "learning_rate": 2.926654629156178e-06,
      "loss": 1.4276,
      "mean_token_accuracy": 0.6285621821880341,
      "step": 898
    },
    {
      "epoch": 3.9966629588431593,
      "grad_norm": 1.2905325889587402,
      "learning_rate": 2.9218531017106157e-06,
      "loss": 1.4025,
      "mean_token_accuracy": 0.6255763620138168,
      "step": 899
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.5625642538070679,
      "learning_rate": 2.917049972013211e-06,
      "loss": 1.5474,
      "mean_token_accuracy": 0.61179252465566,
      "step": 900
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.4616731405258179,
      "eval_mean_token_accuracy": 0.6250038945674896,
      "eval_runtime": 8.9249,
      "eval_samples_per_second": 11.205,
      "eval_steps_per_second": 11.205,
      "step": 900
    },
    {
      "epoch": 4.004449388209121,
      "grad_norm": 1.4556958675384521,
      "learning_rate": 2.912245258306864e-06,
      "loss": 1.5328,
      "mean_token_accuracy": 0.607157438993454,
      "step": 901
    },
    {
      "epoch": 4.008898776418243,
      "grad_norm": 1.2979955673217773,
      "learning_rate": 2.9074389788404867e-06,
      "loss": 1.4176,
      "mean_token_accuracy": 0.6322702765464783,
      "step": 902
    },
    {
      "epoch": 4.013348164627364,
      "grad_norm": 1.4919700622558594,
      "learning_rate": 2.902631151868943e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6264549046754837,
      "step": 903
    },
    {
      "epoch": 4.017797552836485,
      "grad_norm": 1.3272838592529297,
      "learning_rate": 2.8978217956529726e-06,
      "loss": 1.4981,
      "mean_token_accuracy": 0.6212420612573624,
      "step": 904
    },
    {
      "epoch": 4.022246941045606,
      "grad_norm": 1.2953377962112427,
      "learning_rate": 2.8930109284591223e-06,
      "loss": 1.3021,
      "mean_token_accuracy": 0.651075080037117,
      "step": 905
    },
    {
      "epoch": 4.026696329254728,
      "grad_norm": 1.3823468685150146,
      "learning_rate": 2.888198568559681e-06,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6488292366266251,
      "step": 906
    },
    {
      "epoch": 4.031145717463849,
      "grad_norm": 1.3682618141174316,
      "learning_rate": 2.883384734232601e-06,
      "loss": 1.3756,
      "mean_token_accuracy": 0.6410456448793411,
      "step": 907
    },
    {
      "epoch": 4.03559510567297,
      "grad_norm": 1.54413640499115,
      "learning_rate": 2.878569443761442e-06,
      "loss": 1.4639,
      "mean_token_accuracy": 0.6267315149307251,
      "step": 908
    },
    {
      "epoch": 4.040044493882092,
      "grad_norm": 1.4769140481948853,
      "learning_rate": 2.8737527154352894e-06,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6291165500879288,
      "step": 909
    },
    {
      "epoch": 4.044493882091213,
      "grad_norm": 1.2994427680969238,
      "learning_rate": 2.8689345675486917e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6334405690431595,
      "step": 910
    },
    {
      "epoch": 4.048943270300334,
      "grad_norm": 1.4744772911071777,
      "learning_rate": 2.8641150184015888e-06,
      "loss": 1.461,
      "mean_token_accuracy": 0.631529301404953,
      "step": 911
    },
    {
      "epoch": 4.053392658509455,
      "grad_norm": 1.326202154159546,
      "learning_rate": 2.8592940862992417e-06,
      "loss": 1.3688,
      "mean_token_accuracy": 0.640955924987793,
      "step": 912
    },
    {
      "epoch": 4.0578420467185765,
      "grad_norm": 1.5133670568466187,
      "learning_rate": 2.8544717895521655e-06,
      "loss": 1.5397,
      "mean_token_accuracy": 0.6161824315786362,
      "step": 913
    },
    {
      "epoch": 4.0622914349276975,
      "grad_norm": 1.3414238691329956,
      "learning_rate": 2.8496481464760585e-06,
      "loss": 1.3784,
      "mean_token_accuracy": 0.6294386237859726,
      "step": 914
    },
    {
      "epoch": 4.0667408231368185,
      "grad_norm": 1.2947523593902588,
      "learning_rate": 2.8448231753917305e-06,
      "loss": 1.3846,
      "mean_token_accuracy": 0.63115194439888,
      "step": 915
    },
    {
      "epoch": 4.0711902113459395,
      "grad_norm": 1.5398353338241577,
      "learning_rate": 2.8399968946250373e-06,
      "loss": 1.396,
      "mean_token_accuracy": 0.6339802443981171,
      "step": 916
    },
    {
      "epoch": 4.075639599555061,
      "grad_norm": 1.462833285331726,
      "learning_rate": 2.8351693225068076e-06,
      "loss": 1.4097,
      "mean_token_accuracy": 0.6374285519123077,
      "step": 917
    },
    {
      "epoch": 4.080088987764182,
      "grad_norm": 1.648092269897461,
      "learning_rate": 2.830340477372777e-06,
      "loss": 1.4977,
      "mean_token_accuracy": 0.6140586733818054,
      "step": 918
    },
    {
      "epoch": 4.084538375973303,
      "grad_norm": 1.3235955238342285,
      "learning_rate": 2.825510377563513e-06,
      "loss": 1.2305,
      "mean_token_accuracy": 0.6643581241369247,
      "step": 919
    },
    {
      "epoch": 4.088987764182425,
      "grad_norm": 1.3630486726760864,
      "learning_rate": 2.8206790414243525e-06,
      "loss": 1.3168,
      "mean_token_accuracy": 0.6382305026054382,
      "step": 920
    },
    {
      "epoch": 4.093437152391546,
      "grad_norm": 1.335949420928955,
      "learning_rate": 2.8158464873053236e-06,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6216167062520981,
      "step": 921
    },
    {
      "epoch": 4.097886540600667,
      "grad_norm": 1.499025821685791,
      "learning_rate": 2.8110127335610833e-06,
      "loss": 1.3376,
      "mean_token_accuracy": 0.6359208226203918,
      "step": 922
    },
    {
      "epoch": 4.102335928809788,
      "grad_norm": 1.5592235326766968,
      "learning_rate": 2.8061777985508455e-06,
      "loss": 1.4324,
      "mean_token_accuracy": 0.6291655600070953,
      "step": 923
    },
    {
      "epoch": 4.10678531701891,
      "grad_norm": 1.3771636486053467,
      "learning_rate": 2.8013417006383078e-06,
      "loss": 1.4069,
      "mean_token_accuracy": 0.6435400694608688,
      "step": 924
    },
    {
      "epoch": 4.111234705228031,
      "grad_norm": 1.4101674556732178,
      "learning_rate": 2.796504458191588e-06,
      "loss": 1.4662,
      "mean_token_accuracy": 0.6232722997665405,
      "step": 925
    },
    {
      "epoch": 4.111234705228031,
      "eval_loss": 1.4586299657821655,
      "eval_mean_token_accuracy": 0.6260835075378418,
      "eval_runtime": 8.9997,
      "eval_samples_per_second": 11.112,
      "eval_steps_per_second": 11.112,
      "step": 925
    },
    {
      "epoch": 4.115684093437152,
      "grad_norm": 1.4851775169372559,
      "learning_rate": 2.7916660895831487e-06,
      "loss": 1.4358,
      "mean_token_accuracy": 0.6397834420204163,
      "step": 926
    },
    {
      "epoch": 4.120133481646274,
      "grad_norm": 1.4639383554458618,
      "learning_rate": 2.78682661318973e-06,
      "loss": 1.4685,
      "mean_token_accuracy": 0.619548887014389,
      "step": 927
    },
    {
      "epoch": 4.124582869855395,
      "grad_norm": 1.2789028882980347,
      "learning_rate": 2.7819860473922805e-06,
      "loss": 1.4263,
      "mean_token_accuracy": 0.6375247985124588,
      "step": 928
    },
    {
      "epoch": 4.129032258064516,
      "grad_norm": 1.3252969980239868,
      "learning_rate": 2.777144410575886e-06,
      "loss": 1.3105,
      "mean_token_accuracy": 0.6518160998821259,
      "step": 929
    },
    {
      "epoch": 4.133481646273637,
      "grad_norm": 1.5162503719329834,
      "learning_rate": 2.7723017211297006e-06,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6137334108352661,
      "step": 930
    },
    {
      "epoch": 4.137931034482759,
      "grad_norm": 1.439955472946167,
      "learning_rate": 2.7674579974468753e-06,
      "loss": 1.539,
      "mean_token_accuracy": 0.6087592393159866,
      "step": 931
    },
    {
      "epoch": 4.14238042269188,
      "grad_norm": 1.443037748336792,
      "learning_rate": 2.7626132579244896e-06,
      "loss": 1.391,
      "mean_token_accuracy": 0.6324562132358551,
      "step": 932
    },
    {
      "epoch": 4.146829810901001,
      "grad_norm": 1.3420920372009277,
      "learning_rate": 2.757767520963483e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6443870812654495,
      "step": 933
    },
    {
      "epoch": 4.151279199110123,
      "grad_norm": 1.3843176364898682,
      "learning_rate": 2.752920804968581e-06,
      "loss": 1.4777,
      "mean_token_accuracy": 0.6159683614969254,
      "step": 934
    },
    {
      "epoch": 4.155728587319244,
      "grad_norm": 1.3772494792938232,
      "learning_rate": 2.7480731283482287e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6316632181406021,
      "step": 935
    },
    {
      "epoch": 4.160177975528365,
      "grad_norm": 1.4403952360153198,
      "learning_rate": 2.7432245095145193e-06,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6343447715044022,
      "step": 936
    },
    {
      "epoch": 4.164627363737486,
      "grad_norm": 1.4475266933441162,
      "learning_rate": 2.7383749668831267e-06,
      "loss": 1.4774,
      "mean_token_accuracy": 0.6229804009199142,
      "step": 937
    },
    {
      "epoch": 4.169076751946608,
      "grad_norm": 1.404620885848999,
      "learning_rate": 2.73352451887323e-06,
      "loss": 1.5528,
      "mean_token_accuracy": 0.6087951511144638,
      "step": 938
    },
    {
      "epoch": 4.173526140155729,
      "grad_norm": 1.277916669845581,
      "learning_rate": 2.7286731839074497e-06,
      "loss": 1.4424,
      "mean_token_accuracy": 0.630152553319931,
      "step": 939
    },
    {
      "epoch": 4.17797552836485,
      "grad_norm": 1.3635573387145996,
      "learning_rate": 2.7238209804117744e-06,
      "loss": 1.4496,
      "mean_token_accuracy": 0.618989571928978,
      "step": 940
    },
    {
      "epoch": 4.1824249165739715,
      "grad_norm": 1.2727038860321045,
      "learning_rate": 2.718967926815491e-06,
      "loss": 1.4838,
      "mean_token_accuracy": 0.6224116086959839,
      "step": 941
    },
    {
      "epoch": 4.1868743047830925,
      "grad_norm": 1.346274733543396,
      "learning_rate": 2.714114041551115e-06,
      "loss": 1.5292,
      "mean_token_accuracy": 0.612297922372818,
      "step": 942
    },
    {
      "epoch": 4.1913236929922135,
      "grad_norm": 1.4229986667633057,
      "learning_rate": 2.7092593430543237e-06,
      "loss": 1.3731,
      "mean_token_accuracy": 0.6429265886545181,
      "step": 943
    },
    {
      "epoch": 4.1957730812013345,
      "grad_norm": 1.4867477416992188,
      "learning_rate": 2.7044038497638782e-06,
      "loss": 1.4952,
      "mean_token_accuracy": 0.6105793416500092,
      "step": 944
    },
    {
      "epoch": 4.200222469410456,
      "grad_norm": 1.492950201034546,
      "learning_rate": 2.69954758012156e-06,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6311521828174591,
      "step": 945
    },
    {
      "epoch": 4.204671857619577,
      "grad_norm": 1.592221736907959,
      "learning_rate": 2.694690552572104e-06,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6296382993459702,
      "step": 946
    },
    {
      "epoch": 4.209121245828698,
      "grad_norm": 1.3365243673324585,
      "learning_rate": 2.689832785563116e-06,
      "loss": 1.5014,
      "mean_token_accuracy": 0.6231062710285187,
      "step": 947
    },
    {
      "epoch": 4.213570634037819,
      "grad_norm": 1.3929015398025513,
      "learning_rate": 2.6849742975450165e-06,
      "loss": 1.548,
      "mean_token_accuracy": 0.6110574901103973,
      "step": 948
    },
    {
      "epoch": 4.218020022246941,
      "grad_norm": 1.4281272888183594,
      "learning_rate": 2.680115106970961e-06,
      "loss": 1.4312,
      "mean_token_accuracy": 0.6305239349603653,
      "step": 949
    },
    {
      "epoch": 4.222469410456062,
      "grad_norm": 1.414077877998352,
      "learning_rate": 2.675255232296774e-06,
      "loss": 1.3875,
      "mean_token_accuracy": 0.6421293616294861,
      "step": 950
    },
    {
      "epoch": 4.222469410456062,
      "eval_loss": 1.4546942710876465,
      "eval_mean_token_accuracy": 0.6267784893512726,
      "eval_runtime": 9.1392,
      "eval_samples_per_second": 10.942,
      "eval_steps_per_second": 10.942,
      "step": 950
    },
    {
      "epoch": 4.226918798665183,
      "grad_norm": 1.5567259788513184,
      "learning_rate": 2.670394691980881e-06,
      "loss": 1.4288,
      "mean_token_accuracy": 0.6295541822910309,
      "step": 951
    },
    {
      "epoch": 4.231368186874305,
      "grad_norm": 1.4574825763702393,
      "learning_rate": 2.665533504484231e-06,
      "loss": 1.446,
      "mean_token_accuracy": 0.6242824345827103,
      "step": 952
    },
    {
      "epoch": 4.235817575083426,
      "grad_norm": 1.3034626245498657,
      "learning_rate": 2.660671688270236e-06,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6412942856550217,
      "step": 953
    },
    {
      "epoch": 4.240266963292547,
      "grad_norm": 1.533519983291626,
      "learning_rate": 2.655809261804693e-06,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6518679261207581,
      "step": 954
    },
    {
      "epoch": 4.244716351501668,
      "grad_norm": 1.3466922044754028,
      "learning_rate": 2.6509462435557155e-06,
      "loss": 1.4199,
      "mean_token_accuracy": 0.6421057283878326,
      "step": 955
    },
    {
      "epoch": 4.24916573971079,
      "grad_norm": 1.4733433723449707,
      "learning_rate": 2.646082651993668e-06,
      "loss": 1.3819,
      "mean_token_accuracy": 0.6386833190917969,
      "step": 956
    },
    {
      "epoch": 4.253615127919911,
      "grad_norm": 1.3342736959457397,
      "learning_rate": 2.641218505591092e-06,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6296200752258301,
      "step": 957
    },
    {
      "epoch": 4.258064516129032,
      "grad_norm": 1.3637712001800537,
      "learning_rate": 2.636353822822635e-06,
      "loss": 1.5434,
      "mean_token_accuracy": 0.6153106987476349,
      "step": 958
    },
    {
      "epoch": 4.262513904338154,
      "grad_norm": 1.4684233665466309,
      "learning_rate": 2.6314886221649806e-06,
      "loss": 1.4052,
      "mean_token_accuracy": 0.6392182260751724,
      "step": 959
    },
    {
      "epoch": 4.266963292547275,
      "grad_norm": 1.2464599609375,
      "learning_rate": 2.626622922096782e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6278168261051178,
      "step": 960
    },
    {
      "epoch": 4.271412680756396,
      "grad_norm": 1.3415189981460571,
      "learning_rate": 2.6217567410985884e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6368537396192551,
      "step": 961
    },
    {
      "epoch": 4.275862068965517,
      "grad_norm": 1.3232388496398926,
      "learning_rate": 2.616890097652775e-06,
      "loss": 1.431,
      "mean_token_accuracy": 0.6372534185647964,
      "step": 962
    },
    {
      "epoch": 4.280311457174639,
      "grad_norm": 1.2770500183105469,
      "learning_rate": 2.612023010243474e-06,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6335680335760117,
      "step": 963
    },
    {
      "epoch": 4.28476084538376,
      "grad_norm": 1.4567725658416748,
      "learning_rate": 2.607155497356504e-06,
      "loss": 1.3894,
      "mean_token_accuracy": 0.6337054818868637,
      "step": 964
    },
    {
      "epoch": 4.289210233592881,
      "grad_norm": 1.2754117250442505,
      "learning_rate": 2.6022875774792985e-06,
      "loss": 1.3338,
      "mean_token_accuracy": 0.6433571428060532,
      "step": 965
    },
    {
      "epoch": 4.293659621802002,
      "grad_norm": 1.333798885345459,
      "learning_rate": 2.597419269100838e-06,
      "loss": 1.3639,
      "mean_token_accuracy": 0.6389866024255753,
      "step": 966
    },
    {
      "epoch": 4.298109010011124,
      "grad_norm": 1.3259224891662598,
      "learning_rate": 2.5925505907115772e-06,
      "loss": 1.4384,
      "mean_token_accuracy": 0.6302531808614731,
      "step": 967
    },
    {
      "epoch": 4.302558398220245,
      "grad_norm": 1.3865647315979004,
      "learning_rate": 2.5876815608033797e-06,
      "loss": 1.3881,
      "mean_token_accuracy": 0.6442639827728271,
      "step": 968
    },
    {
      "epoch": 4.307007786429366,
      "grad_norm": 1.5570787191390991,
      "learning_rate": 2.582812197869439e-06,
      "loss": 1.4057,
      "mean_token_accuracy": 0.6299348622560501,
      "step": 969
    },
    {
      "epoch": 4.3114571746384875,
      "grad_norm": 1.3845804929733276,
      "learning_rate": 2.577942520404216e-06,
      "loss": 1.4405,
      "mean_token_accuracy": 0.6312866508960724,
      "step": 970
    },
    {
      "epoch": 4.3159065628476085,
      "grad_norm": 1.350125789642334,
      "learning_rate": 2.5730725469033692e-06,
      "loss": 1.4663,
      "mean_token_accuracy": 0.6208587437868118,
      "step": 971
    },
    {
      "epoch": 4.3203559510567295,
      "grad_norm": 1.5868535041809082,
      "learning_rate": 2.5682022958636752e-06,
      "loss": 1.4012,
      "mean_token_accuracy": 0.6336061805486679,
      "step": 972
    },
    {
      "epoch": 4.3248053392658505,
      "grad_norm": 1.3661977052688599,
      "learning_rate": 2.56333178578297e-06,
      "loss": 1.4806,
      "mean_token_accuracy": 0.620085746049881,
      "step": 973
    },
    {
      "epoch": 4.329254727474972,
      "grad_norm": 1.354546308517456,
      "learning_rate": 2.558461035160072e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6380477547645569,
      "step": 974
    },
    {
      "epoch": 4.333704115684093,
      "grad_norm": 1.4194303750991821,
      "learning_rate": 2.5535900624947106e-06,
      "loss": 1.4419,
      "mean_token_accuracy": 0.6213251948356628,
      "step": 975
    },
    {
      "epoch": 4.333704115684093,
      "eval_loss": 1.4517451524734497,
      "eval_mean_token_accuracy": 0.6273957699537277,
      "eval_runtime": 8.9066,
      "eval_samples_per_second": 11.228,
      "eval_steps_per_second": 11.228,
      "step": 975
    },
    {
      "epoch": 4.338153503893214,
      "grad_norm": 1.3445515632629395,
      "learning_rate": 2.5487188862874635e-06,
      "loss": 1.4531,
      "mean_token_accuracy": 0.6157264858484268,
      "step": 976
    },
    {
      "epoch": 4.342602892102336,
      "grad_norm": 1.4729031324386597,
      "learning_rate": 2.543847525039677e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.6443063467741013,
      "step": 977
    },
    {
      "epoch": 4.347052280311457,
      "grad_norm": 1.5069278478622437,
      "learning_rate": 2.5389759972534024e-06,
      "loss": 1.478,
      "mean_token_accuracy": 0.6227242946624756,
      "step": 978
    },
    {
      "epoch": 4.351501668520578,
      "grad_norm": 1.3585178852081299,
      "learning_rate": 2.5341043214313226e-06,
      "loss": 1.4198,
      "mean_token_accuracy": 0.6370718330144882,
      "step": 979
    },
    {
      "epoch": 4.355951056729699,
      "grad_norm": 1.3063783645629883,
      "learning_rate": 2.529232516076684e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6490467339754105,
      "step": 980
    },
    {
      "epoch": 4.360400444938821,
      "grad_norm": 1.3608819246292114,
      "learning_rate": 2.5243605996932243e-06,
      "loss": 1.4964,
      "mean_token_accuracy": 0.6076978445053101,
      "step": 981
    },
    {
      "epoch": 4.364849833147942,
      "grad_norm": 1.3192894458770752,
      "learning_rate": 2.519488590785102e-06,
      "loss": 1.3532,
      "mean_token_accuracy": 0.6455021500587463,
      "step": 982
    },
    {
      "epoch": 4.369299221357063,
      "grad_norm": 1.4806727170944214,
      "learning_rate": 2.514616507856828e-06,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6603970378637314,
      "step": 983
    },
    {
      "epoch": 4.373748609566185,
      "grad_norm": 1.4554437398910522,
      "learning_rate": 2.5097443694131947e-06,
      "loss": 1.448,
      "mean_token_accuracy": 0.6261647939682007,
      "step": 984
    },
    {
      "epoch": 4.378197997775306,
      "grad_norm": 1.3859320878982544,
      "learning_rate": 2.504872193959204e-06,
      "loss": 1.4034,
      "mean_token_accuracy": 0.629136398434639,
      "step": 985
    },
    {
      "epoch": 4.382647385984427,
      "grad_norm": 1.3901805877685547,
      "learning_rate": 2.5e-06,
      "loss": 1.526,
      "mean_token_accuracy": 0.6073214411735535,
      "step": 986
    },
    {
      "epoch": 4.387096774193548,
      "grad_norm": 1.3413960933685303,
      "learning_rate": 2.495127806040796e-06,
      "loss": 1.363,
      "mean_token_accuracy": 0.6393878310918808,
      "step": 987
    },
    {
      "epoch": 4.39154616240267,
      "grad_norm": 1.4866615533828735,
      "learning_rate": 2.4902556305868065e-06,
      "loss": 1.4566,
      "mean_token_accuracy": 0.6192284226417542,
      "step": 988
    },
    {
      "epoch": 4.395995550611791,
      "grad_norm": 1.4483487606048584,
      "learning_rate": 2.4853834921431725e-06,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6340898424386978,
      "step": 989
    },
    {
      "epoch": 4.400444938820912,
      "grad_norm": 1.394589900970459,
      "learning_rate": 2.480511409214899e-06,
      "loss": 1.4639,
      "mean_token_accuracy": 0.637216717004776,
      "step": 990
    },
    {
      "epoch": 4.404894327030034,
      "grad_norm": 1.3941491842269897,
      "learning_rate": 2.4756394003067774e-06,
      "loss": 1.4567,
      "mean_token_accuracy": 0.6238001585006714,
      "step": 991
    },
    {
      "epoch": 4.409343715239155,
      "grad_norm": 1.3343712091445923,
      "learning_rate": 2.4707674839233168e-06,
      "loss": 1.3248,
      "mean_token_accuracy": 0.6406282931566238,
      "step": 992
    },
    {
      "epoch": 4.413793103448276,
      "grad_norm": 1.3553135395050049,
      "learning_rate": 2.465895678568678e-06,
      "loss": 1.4934,
      "mean_token_accuracy": 0.6244173794984818,
      "step": 993
    },
    {
      "epoch": 4.418242491657397,
      "grad_norm": 1.4825347661972046,
      "learning_rate": 2.461024002746598e-06,
      "loss": 1.575,
      "mean_token_accuracy": 0.5956248342990875,
      "step": 994
    },
    {
      "epoch": 4.422691879866519,
      "grad_norm": 1.4402953386306763,
      "learning_rate": 2.4561524749603237e-06,
      "loss": 1.3093,
      "mean_token_accuracy": 0.6449950933456421,
      "step": 995
    },
    {
      "epoch": 4.42714126807564,
      "grad_norm": 1.4689921140670776,
      "learning_rate": 2.4512811137125374e-06,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6191542893648148,
      "step": 996
    },
    {
      "epoch": 4.431590656284761,
      "grad_norm": 1.406639814376831,
      "learning_rate": 2.4464099375052894e-06,
      "loss": 1.4436,
      "mean_token_accuracy": 0.6193910837173462,
      "step": 997
    },
    {
      "epoch": 4.436040044493883,
      "grad_norm": 1.2974958419799805,
      "learning_rate": 2.4415389648399294e-06,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6474632918834686,
      "step": 998
    },
    {
      "epoch": 4.440489432703004,
      "grad_norm": 1.4552390575408936,
      "learning_rate": 2.436668214217031e-06,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6229791939258575,
      "step": 999
    },
    {
      "epoch": 4.4449388209121246,
      "grad_norm": 1.4680904150009155,
      "learning_rate": 2.431797704136325e-06,
      "loss": 1.3917,
      "mean_token_accuracy": 0.6409575045108795,
      "step": 1000
    },
    {
      "epoch": 4.4449388209121246,
      "eval_loss": 1.4485938549041748,
      "eval_mean_token_accuracy": 0.6271167463064193,
      "eval_runtime": 8.8818,
      "eval_samples_per_second": 11.259,
      "eval_steps_per_second": 11.259,
      "step": 1000
    },
    {
      "epoch": 4.4493882091212456,
      "grad_norm": 1.4230782985687256,
      "learning_rate": 2.4269274530966324e-06,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6196030378341675,
      "step": 1001
    },
    {
      "epoch": 4.453837597330367,
      "grad_norm": 1.3185368776321411,
      "learning_rate": 2.4220574795957844e-06,
      "loss": 1.4105,
      "mean_token_accuracy": 0.6316261142492294,
      "step": 1002
    },
    {
      "epoch": 4.458286985539488,
      "grad_norm": 1.3967249393463135,
      "learning_rate": 2.4171878021305624e-06,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6373886913061142,
      "step": 1003
    },
    {
      "epoch": 4.462736373748609,
      "grad_norm": 1.3610807657241821,
      "learning_rate": 2.4123184391966216e-06,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6340912878513336,
      "step": 1004
    },
    {
      "epoch": 4.46718576195773,
      "grad_norm": 1.6995806694030762,
      "learning_rate": 2.4074494092884236e-06,
      "loss": 1.4999,
      "mean_token_accuracy": 0.621942862868309,
      "step": 1005
    },
    {
      "epoch": 4.471635150166852,
      "grad_norm": 1.447019100189209,
      "learning_rate": 2.402580730899163e-06,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6294323801994324,
      "step": 1006
    },
    {
      "epoch": 4.476084538375973,
      "grad_norm": 1.3392395973205566,
      "learning_rate": 2.3977124225207024e-06,
      "loss": 1.4438,
      "mean_token_accuracy": 0.617564931511879,
      "step": 1007
    },
    {
      "epoch": 4.480533926585094,
      "grad_norm": 1.534779667854309,
      "learning_rate": 2.3928445026434973e-06,
      "loss": 1.3886,
      "mean_token_accuracy": 0.632117360830307,
      "step": 1008
    },
    {
      "epoch": 4.484983314794216,
      "grad_norm": 1.3034288883209229,
      "learning_rate": 2.3879769897565263e-06,
      "loss": 1.4158,
      "mean_token_accuracy": 0.6402613818645477,
      "step": 1009
    },
    {
      "epoch": 4.489432703003337,
      "grad_norm": 1.4364956617355347,
      "learning_rate": 2.3831099023472253e-06,
      "loss": 1.4663,
      "mean_token_accuracy": 0.625498965382576,
      "step": 1010
    },
    {
      "epoch": 4.493882091212458,
      "grad_norm": 1.337644100189209,
      "learning_rate": 2.378243258901413e-06,
      "loss": 1.42,
      "mean_token_accuracy": 0.636091485619545,
      "step": 1011
    },
    {
      "epoch": 4.498331479421579,
      "grad_norm": 1.428518295288086,
      "learning_rate": 2.3733770779032185e-06,
      "loss": 1.4385,
      "mean_token_accuracy": 0.6329591125249863,
      "step": 1012
    },
    {
      "epoch": 4.502780867630701,
      "grad_norm": 1.3520982265472412,
      "learning_rate": 2.3685113778350203e-06,
      "loss": 1.3734,
      "mean_token_accuracy": 0.6404082030057907,
      "step": 1013
    },
    {
      "epoch": 4.507230255839822,
      "grad_norm": 1.4158692359924316,
      "learning_rate": 2.3636461771773655e-06,
      "loss": 1.419,
      "mean_token_accuracy": 0.6298444867134094,
      "step": 1014
    },
    {
      "epoch": 4.511679644048943,
      "grad_norm": 1.4743738174438477,
      "learning_rate": 2.3587814944089087e-06,
      "loss": 1.5765,
      "mean_token_accuracy": 0.5993230044841766,
      "step": 1015
    },
    {
      "epoch": 4.516129032258064,
      "grad_norm": 1.469037413597107,
      "learning_rate": 2.3539173480063323e-06,
      "loss": 1.3973,
      "mean_token_accuracy": 0.6258081197738647,
      "step": 1016
    },
    {
      "epoch": 4.520578420467186,
      "grad_norm": 1.3886280059814453,
      "learning_rate": 2.349053756444285e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6310226172208786,
      "step": 1017
    },
    {
      "epoch": 4.525027808676307,
      "grad_norm": 1.4024040699005127,
      "learning_rate": 2.3441907381953084e-06,
      "loss": 1.5063,
      "mean_token_accuracy": 0.6171918213367462,
      "step": 1018
    },
    {
      "epoch": 4.529477196885428,
      "grad_norm": 1.3073526620864868,
      "learning_rate": 2.339328311729765e-06,
      "loss": 1.3497,
      "mean_token_accuracy": 0.6431452631950378,
      "step": 1019
    },
    {
      "epoch": 4.53392658509455,
      "grad_norm": 1.3435732126235962,
      "learning_rate": 2.334466495515769e-06,
      "loss": 1.3269,
      "mean_token_accuracy": 0.6482873558998108,
      "step": 1020
    },
    {
      "epoch": 4.538375973303671,
      "grad_norm": 1.4791333675384521,
      "learning_rate": 2.3296053080191204e-06,
      "loss": 1.4801,
      "mean_token_accuracy": 0.6244622319936752,
      "step": 1021
    },
    {
      "epoch": 4.542825361512792,
      "grad_norm": 1.4260475635528564,
      "learning_rate": 2.324744767703227e-06,
      "loss": 1.4931,
      "mean_token_accuracy": 0.6165415346622467,
      "step": 1022
    },
    {
      "epoch": 4.547274749721913,
      "grad_norm": 1.577222466468811,
      "learning_rate": 2.31988489302904e-06,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6445208191871643,
      "step": 1023
    },
    {
      "epoch": 4.551724137931035,
      "grad_norm": 1.4082074165344238,
      "learning_rate": 2.3150257024549847e-06,
      "loss": 1.3658,
      "mean_token_accuracy": 0.6459590643644333,
      "step": 1024
    },
    {
      "epoch": 4.556173526140156,
      "grad_norm": 1.3698099851608276,
      "learning_rate": 2.310167214436885e-06,
      "loss": 1.3923,
      "mean_token_accuracy": 0.6381664723157883,
      "step": 1025
    },
    {
      "epoch": 4.556173526140156,
      "eval_loss": 1.4459010362625122,
      "eval_mean_token_accuracy": 0.6280953752994537,
      "eval_runtime": 8.8462,
      "eval_samples_per_second": 11.304,
      "eval_steps_per_second": 11.304,
      "step": 1025
    },
    {
      "epoch": 4.560622914349277,
      "grad_norm": 1.3494709730148315,
      "learning_rate": 2.3053094474278967e-06,
      "loss": 1.3448,
      "mean_token_accuracy": 0.6491279006004333,
      "step": 1026
    },
    {
      "epoch": 4.565072302558399,
      "grad_norm": 1.4832276105880737,
      "learning_rate": 2.3004524198784398e-06,
      "loss": 1.6408,
      "mean_token_accuracy": 0.59421406686306,
      "step": 1027
    },
    {
      "epoch": 4.56952169076752,
      "grad_norm": 1.3864957094192505,
      "learning_rate": 2.2955961502361235e-06,
      "loss": 1.4423,
      "mean_token_accuracy": 0.6290372908115387,
      "step": 1028
    },
    {
      "epoch": 4.573971078976641,
      "grad_norm": 1.6002944707870483,
      "learning_rate": 2.2907406569456767e-06,
      "loss": 1.5089,
      "mean_token_accuracy": 0.6148520708084106,
      "step": 1029
    },
    {
      "epoch": 4.578420467185762,
      "grad_norm": 1.5570122003555298,
      "learning_rate": 2.2858859584488848e-06,
      "loss": 1.5202,
      "mean_token_accuracy": 0.6108065545558929,
      "step": 1030
    },
    {
      "epoch": 4.5828698553948835,
      "grad_norm": 1.4322688579559326,
      "learning_rate": 2.28103207318451e-06,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6311174929141998,
      "step": 1031
    },
    {
      "epoch": 4.5873192436040044,
      "grad_norm": 1.3400806188583374,
      "learning_rate": 2.2761790195882264e-06,
      "loss": 1.4641,
      "mean_token_accuracy": 0.6204663664102554,
      "step": 1032
    },
    {
      "epoch": 4.5917686318131254,
      "grad_norm": 1.3721749782562256,
      "learning_rate": 2.2713268160925507e-06,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6444333046674728,
      "step": 1033
    },
    {
      "epoch": 4.596218020022247,
      "grad_norm": 1.4900238513946533,
      "learning_rate": 2.2664754811267713e-06,
      "loss": 1.4827,
      "mean_token_accuracy": 0.6196302473545074,
      "step": 1034
    },
    {
      "epoch": 4.600667408231368,
      "grad_norm": 1.490678310394287,
      "learning_rate": 2.261625033116874e-06,
      "loss": 1.2931,
      "mean_token_accuracy": 0.63261479139328,
      "step": 1035
    },
    {
      "epoch": 4.605116796440489,
      "grad_norm": 1.4368762969970703,
      "learning_rate": 2.256775490485481e-06,
      "loss": 1.4277,
      "mean_token_accuracy": 0.6332278847694397,
      "step": 1036
    },
    {
      "epoch": 4.60956618464961,
      "grad_norm": 1.4213407039642334,
      "learning_rate": 2.2519268716517717e-06,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6207419037818909,
      "step": 1037
    },
    {
      "epoch": 4.614015572858732,
      "grad_norm": 1.5021350383758545,
      "learning_rate": 2.24707919503142e-06,
      "loss": 1.4132,
      "mean_token_accuracy": 0.6261924356222153,
      "step": 1038
    },
    {
      "epoch": 4.618464961067853,
      "grad_norm": 1.4251534938812256,
      "learning_rate": 2.2422324790365178e-06,
      "loss": 1.4641,
      "mean_token_accuracy": 0.63194939494133,
      "step": 1039
    },
    {
      "epoch": 4.622914349276974,
      "grad_norm": 1.62216055393219,
      "learning_rate": 2.2373867420755104e-06,
      "loss": 1.4817,
      "mean_token_accuracy": 0.6230089068412781,
      "step": 1040
    },
    {
      "epoch": 4.627363737486096,
      "grad_norm": 1.356418490409851,
      "learning_rate": 2.2325420025531256e-06,
      "loss": 1.4216,
      "mean_token_accuracy": 0.6285290569067001,
      "step": 1041
    },
    {
      "epoch": 4.631813125695217,
      "grad_norm": 1.3999552726745605,
      "learning_rate": 2.2276982788703003e-06,
      "loss": 1.3934,
      "mean_token_accuracy": 0.638763815164566,
      "step": 1042
    },
    {
      "epoch": 4.636262513904338,
      "grad_norm": 1.4783780574798584,
      "learning_rate": 2.2228555894241137e-06,
      "loss": 1.4168,
      "mean_token_accuracy": 0.6259894818067551,
      "step": 1043
    },
    {
      "epoch": 4.640711902113459,
      "grad_norm": 1.5474021434783936,
      "learning_rate": 2.2180139526077203e-06,
      "loss": 1.5148,
      "mean_token_accuracy": 0.6239013671875,
      "step": 1044
    },
    {
      "epoch": 4.645161290322581,
      "grad_norm": 1.4286746978759766,
      "learning_rate": 2.213173386810271e-06,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6358987838029861,
      "step": 1045
    },
    {
      "epoch": 4.649610678531702,
      "grad_norm": 1.4872241020202637,
      "learning_rate": 2.208333910416852e-06,
      "loss": 1.3635,
      "mean_token_accuracy": 0.6427652835845947,
      "step": 1046
    },
    {
      "epoch": 4.654060066740823,
      "grad_norm": 1.4034548997879028,
      "learning_rate": 2.2034955418084125e-06,
      "loss": 1.3381,
      "mean_token_accuracy": 0.6505720615386963,
      "step": 1047
    },
    {
      "epoch": 4.658509454949945,
      "grad_norm": 1.4822748899459839,
      "learning_rate": 2.1986582993616926e-06,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6498641967773438,
      "step": 1048
    },
    {
      "epoch": 4.662958843159066,
      "grad_norm": 1.4906667470932007,
      "learning_rate": 2.1938222014491553e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6306474804878235,
      "step": 1049
    },
    {
      "epoch": 4.667408231368187,
      "grad_norm": 1.5891146659851074,
      "learning_rate": 2.188987266438917e-06,
      "loss": 1.4835,
      "mean_token_accuracy": 0.6267343014478683,
      "step": 1050
    },
    {
      "epoch": 4.667408231368187,
      "eval_loss": 1.443597674369812,
      "eval_mean_token_accuracy": 0.6284709274768829,
      "eval_runtime": 8.8385,
      "eval_samples_per_second": 11.314,
      "eval_steps_per_second": 11.314,
      "step": 1050
    },
    {
      "epoch": 4.671857619577308,
      "grad_norm": 1.4759039878845215,
      "learning_rate": 2.1841535126946777e-06,
      "loss": 1.3753,
      "mean_token_accuracy": 0.6310221254825592,
      "step": 1051
    },
    {
      "epoch": 4.67630700778643,
      "grad_norm": 1.4908243417739868,
      "learning_rate": 2.1793209585756483e-06,
      "loss": 1.415,
      "mean_token_accuracy": 0.6241522282361984,
      "step": 1052
    },
    {
      "epoch": 4.680756395995551,
      "grad_norm": 1.456032395362854,
      "learning_rate": 2.174489622436487e-06,
      "loss": 1.4357,
      "mean_token_accuracy": 0.6264388710260391,
      "step": 1053
    },
    {
      "epoch": 4.685205784204672,
      "grad_norm": 1.4268605709075928,
      "learning_rate": 2.169659522627224e-06,
      "loss": 1.4034,
      "mean_token_accuracy": 0.6307962238788605,
      "step": 1054
    },
    {
      "epoch": 4.689655172413794,
      "grad_norm": 1.3471349477767944,
      "learning_rate": 2.1648306774931928e-06,
      "loss": 1.2613,
      "mean_token_accuracy": 0.6615156829357147,
      "step": 1055
    },
    {
      "epoch": 4.694104560622915,
      "grad_norm": 1.4322576522827148,
      "learning_rate": 2.160003105374964e-06,
      "loss": 1.4752,
      "mean_token_accuracy": 0.6257922500371933,
      "step": 1056
    },
    {
      "epoch": 4.698553948832036,
      "grad_norm": 1.3777865171432495,
      "learning_rate": 2.15517682460827e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.620783731341362,
      "step": 1057
    },
    {
      "epoch": 4.703003337041157,
      "grad_norm": 1.4875468015670776,
      "learning_rate": 2.1503518535239427e-06,
      "loss": 1.5386,
      "mean_token_accuracy": 0.6157424449920654,
      "step": 1058
    },
    {
      "epoch": 4.7074527252502785,
      "grad_norm": 1.4036985635757446,
      "learning_rate": 2.145528210447835e-06,
      "loss": 1.4006,
      "mean_token_accuracy": 0.6317362487316132,
      "step": 1059
    },
    {
      "epoch": 4.7119021134593995,
      "grad_norm": 1.4081860780715942,
      "learning_rate": 2.1407059137007587e-06,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6402474641799927,
      "step": 1060
    },
    {
      "epoch": 4.7163515016685205,
      "grad_norm": 1.354199767112732,
      "learning_rate": 2.135884981598412e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6393818855285645,
      "step": 1061
    },
    {
      "epoch": 4.7208008898776415,
      "grad_norm": 1.4386605024337769,
      "learning_rate": 2.1310654324513087e-06,
      "loss": 1.4833,
      "mean_token_accuracy": 0.623088151216507,
      "step": 1062
    },
    {
      "epoch": 4.725250278086763,
      "grad_norm": 1.3535685539245605,
      "learning_rate": 2.1262472845647106e-06,
      "loss": 1.4232,
      "mean_token_accuracy": 0.6255764216184616,
      "step": 1063
    },
    {
      "epoch": 4.729699666295884,
      "grad_norm": 1.4610899686813354,
      "learning_rate": 2.1214305562385592e-06,
      "loss": 1.4206,
      "mean_token_accuracy": 0.6322309821844101,
      "step": 1064
    },
    {
      "epoch": 4.734149054505005,
      "grad_norm": 1.3164139986038208,
      "learning_rate": 2.1166152657673996e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6393297761678696,
      "step": 1065
    },
    {
      "epoch": 4.738598442714126,
      "grad_norm": 1.3697295188903809,
      "learning_rate": 2.11180143144032e-06,
      "loss": 1.2907,
      "mean_token_accuracy": 0.6592230200767517,
      "step": 1066
    },
    {
      "epoch": 4.743047830923248,
      "grad_norm": 1.619278907775879,
      "learning_rate": 2.1069890715408786e-06,
      "loss": 1.4923,
      "mean_token_accuracy": 0.6161549538373947,
      "step": 1067
    },
    {
      "epoch": 4.747497219132369,
      "grad_norm": 1.4191138744354248,
      "learning_rate": 2.1021782043470282e-06,
      "loss": 1.3994,
      "mean_token_accuracy": 0.6260323226451874,
      "step": 1068
    },
    {
      "epoch": 4.75194660734149,
      "grad_norm": 1.480904221534729,
      "learning_rate": 2.0973688481310577e-06,
      "loss": 1.51,
      "mean_token_accuracy": 0.6104995906352997,
      "step": 1069
    },
    {
      "epoch": 4.756395995550612,
      "grad_norm": 1.5102876424789429,
      "learning_rate": 2.0925610211595137e-06,
      "loss": 1.3686,
      "mean_token_accuracy": 0.6415753364562988,
      "step": 1070
    },
    {
      "epoch": 4.760845383759733,
      "grad_norm": 1.4568121433258057,
      "learning_rate": 2.087754741693138e-06,
      "loss": 1.518,
      "mean_token_accuracy": 0.615211546421051,
      "step": 1071
    },
    {
      "epoch": 4.765294771968854,
      "grad_norm": 1.4148482084274292,
      "learning_rate": 2.0829500279867895e-06,
      "loss": 1.4822,
      "mean_token_accuracy": 0.6125135570764542,
      "step": 1072
    },
    {
      "epoch": 4.769744160177975,
      "grad_norm": 1.312067985534668,
      "learning_rate": 2.0781468982893847e-06,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6503988653421402,
      "step": 1073
    },
    {
      "epoch": 4.774193548387097,
      "grad_norm": 1.4086284637451172,
      "learning_rate": 2.0733453708438233e-06,
      "loss": 1.5118,
      "mean_token_accuracy": 0.6163511276245117,
      "step": 1074
    },
    {
      "epoch": 4.778642936596218,
      "grad_norm": 1.3378933668136597,
      "learning_rate": 2.068545463886917e-06,
      "loss": 1.38,
      "mean_token_accuracy": 0.6418501287698746,
      "step": 1075
    },
    {
      "epoch": 4.778642936596218,
      "eval_loss": 1.4413760900497437,
      "eval_mean_token_accuracy": 0.6287460070848465,
      "eval_runtime": 8.8586,
      "eval_samples_per_second": 11.288,
      "eval_steps_per_second": 11.288,
      "step": 1075
    },
    {
      "epoch": 4.783092324805339,
      "grad_norm": 1.3855006694793701,
      "learning_rate": 2.0637471956493236e-06,
      "loss": 1.4335,
      "mean_token_accuracy": 0.6268202364444733,
      "step": 1076
    },
    {
      "epoch": 4.787541713014461,
      "grad_norm": 1.35313081741333,
      "learning_rate": 2.05895058435548e-06,
      "loss": 1.4142,
      "mean_token_accuracy": 0.621479257941246,
      "step": 1077
    },
    {
      "epoch": 4.791991101223582,
      "grad_norm": 1.4241018295288086,
      "learning_rate": 2.054155648223524e-06,
      "loss": 1.4421,
      "mean_token_accuracy": 0.6243376731872559,
      "step": 1078
    },
    {
      "epoch": 4.796440489432703,
      "grad_norm": 1.4421473741531372,
      "learning_rate": 2.049362405465236e-06,
      "loss": 1.3834,
      "mean_token_accuracy": 0.6428014039993286,
      "step": 1079
    },
    {
      "epoch": 4.800889877641824,
      "grad_norm": 1.400287389755249,
      "learning_rate": 2.044570874285963e-06,
      "loss": 1.3343,
      "mean_token_accuracy": 0.6478152126073837,
      "step": 1080
    },
    {
      "epoch": 4.805339265850946,
      "grad_norm": 1.449123740196228,
      "learning_rate": 2.03978107288455e-06,
      "loss": 1.4652,
      "mean_token_accuracy": 0.6238210946321487,
      "step": 1081
    },
    {
      "epoch": 4.809788654060067,
      "grad_norm": 1.4066038131713867,
      "learning_rate": 2.0349930194532734e-06,
      "loss": 1.4664,
      "mean_token_accuracy": 0.6157786846160889,
      "step": 1082
    },
    {
      "epoch": 4.814238042269188,
      "grad_norm": 1.3752309083938599,
      "learning_rate": 2.0302067321777714e-06,
      "loss": 1.3082,
      "mean_token_accuracy": 0.6452727615833282,
      "step": 1083
    },
    {
      "epoch": 4.81868743047831,
      "grad_norm": 1.4799870252609253,
      "learning_rate": 2.0254222292369725e-06,
      "loss": 1.5048,
      "mean_token_accuracy": 0.620245486497879,
      "step": 1084
    },
    {
      "epoch": 4.823136818687431,
      "grad_norm": 1.4559657573699951,
      "learning_rate": 2.0206395288030275e-06,
      "loss": 1.3857,
      "mean_token_accuracy": 0.6356319338083267,
      "step": 1085
    },
    {
      "epoch": 4.827586206896552,
      "grad_norm": 1.4407358169555664,
      "learning_rate": 2.0158586490412436e-06,
      "loss": 1.3762,
      "mean_token_accuracy": 0.647450864315033,
      "step": 1086
    },
    {
      "epoch": 4.832035595105673,
      "grad_norm": 1.38750422000885,
      "learning_rate": 2.011079608110011e-06,
      "loss": 1.3718,
      "mean_token_accuracy": 0.6392789930105209,
      "step": 1087
    },
    {
      "epoch": 4.8364849833147945,
      "grad_norm": 1.4834526777267456,
      "learning_rate": 2.0063024241607356e-06,
      "loss": 1.4046,
      "mean_token_accuracy": 0.6301906108856201,
      "step": 1088
    },
    {
      "epoch": 4.8409343715239155,
      "grad_norm": 1.3804787397384644,
      "learning_rate": 2.0015271153377718e-06,
      "loss": 1.4239,
      "mean_token_accuracy": 0.6276222467422485,
      "step": 1089
    },
    {
      "epoch": 4.8453837597330365,
      "grad_norm": 1.3548438549041748,
      "learning_rate": 1.9967536997783495e-06,
      "loss": 1.2653,
      "mean_token_accuracy": 0.6656319797039032,
      "step": 1090
    },
    {
      "epoch": 4.849833147942158,
      "grad_norm": 1.437615156173706,
      "learning_rate": 1.991982195612512e-06,
      "loss": 1.3786,
      "mean_token_accuracy": 0.6344511955976486,
      "step": 1091
    },
    {
      "epoch": 4.854282536151279,
      "grad_norm": 1.375343680381775,
      "learning_rate": 1.987212620963038e-06,
      "loss": 1.3946,
      "mean_token_accuracy": 0.6328548341989517,
      "step": 1092
    },
    {
      "epoch": 4.8587319243604,
      "grad_norm": 1.3983144760131836,
      "learning_rate": 1.9824449939453806e-06,
      "loss": 1.4215,
      "mean_token_accuracy": 0.6410597711801529,
      "step": 1093
    },
    {
      "epoch": 4.863181312569521,
      "grad_norm": 1.4128906726837158,
      "learning_rate": 1.977679332667595e-06,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6251962780952454,
      "step": 1094
    },
    {
      "epoch": 4.867630700778643,
      "grad_norm": 1.3063693046569824,
      "learning_rate": 1.9729156552302696e-06,
      "loss": 1.261,
      "mean_token_accuracy": 0.6588679403066635,
      "step": 1095
    },
    {
      "epoch": 4.872080088987764,
      "grad_norm": 1.4856126308441162,
      "learning_rate": 1.9681539797264583e-06,
      "loss": 1.3937,
      "mean_token_accuracy": 0.6416017562150955,
      "step": 1096
    },
    {
      "epoch": 4.876529477196885,
      "grad_norm": 1.4301409721374512,
      "learning_rate": 1.963394324241613e-06,
      "loss": 1.2831,
      "mean_token_accuracy": 0.6549485921859741,
      "step": 1097
    },
    {
      "epoch": 4.880978865406007,
      "grad_norm": 1.583937644958496,
      "learning_rate": 1.95863670685351e-06,
      "loss": 1.3486,
      "mean_token_accuracy": 0.6492387652397156,
      "step": 1098
    },
    {
      "epoch": 4.885428253615128,
      "grad_norm": 1.458127498626709,
      "learning_rate": 1.953881145632186e-06,
      "loss": 1.5093,
      "mean_token_accuracy": 0.6195242553949356,
      "step": 1099
    },
    {
      "epoch": 4.889877641824249,
      "grad_norm": 1.4559516906738281,
      "learning_rate": 1.949127658639872e-06,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6266076564788818,
      "step": 1100
    },
    {
      "epoch": 4.889877641824249,
      "eval_loss": 1.4391270875930786,
      "eval_mean_token_accuracy": 0.6286399030685424,
      "eval_runtime": 8.917,
      "eval_samples_per_second": 11.214,
      "eval_steps_per_second": 11.214,
      "step": 1100
    },
    {
      "epoch": 4.89432703003337,
      "grad_norm": 1.4589821100234985,
      "learning_rate": 1.9443762639309133e-06,
      "loss": 1.4087,
      "mean_token_accuracy": 0.6306812763214111,
      "step": 1101
    },
    {
      "epoch": 4.898776418242492,
      "grad_norm": 1.396584153175354,
      "learning_rate": 1.9396269795517147e-06,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6444522589445114,
      "step": 1102
    },
    {
      "epoch": 4.903225806451613,
      "grad_norm": 1.3747659921646118,
      "learning_rate": 1.934879823540663e-06,
      "loss": 1.4269,
      "mean_token_accuracy": 0.6378608793020248,
      "step": 1103
    },
    {
      "epoch": 4.907675194660734,
      "grad_norm": 1.4360921382904053,
      "learning_rate": 1.930134813928063e-06,
      "loss": 1.3254,
      "mean_token_accuracy": 0.6434519588947296,
      "step": 1104
    },
    {
      "epoch": 4.912124582869856,
      "grad_norm": 1.399388074874878,
      "learning_rate": 1.9253919687360635e-06,
      "loss": 1.3411,
      "mean_token_accuracy": 0.6533085852861404,
      "step": 1105
    },
    {
      "epoch": 4.916573971078977,
      "grad_norm": 1.3366321325302124,
      "learning_rate": 1.9206513059785966e-06,
      "loss": 1.3333,
      "mean_token_accuracy": 0.6512489169836044,
      "step": 1106
    },
    {
      "epoch": 4.921023359288098,
      "grad_norm": 1.3706505298614502,
      "learning_rate": 1.9159128436613043e-06,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6406411826610565,
      "step": 1107
    },
    {
      "epoch": 4.925472747497219,
      "grad_norm": 1.4522511959075928,
      "learning_rate": 1.911176599781468e-06,
      "loss": 1.414,
      "mean_token_accuracy": 0.6387536823749542,
      "step": 1108
    },
    {
      "epoch": 4.929922135706341,
      "grad_norm": 1.3578518629074097,
      "learning_rate": 1.9064425923279474e-06,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6291380673646927,
      "step": 1109
    },
    {
      "epoch": 4.934371523915462,
      "grad_norm": 1.4008076190948486,
      "learning_rate": 1.9017108392811065e-06,
      "loss": 1.5228,
      "mean_token_accuracy": 0.6198727935552597,
      "step": 1110
    },
    {
      "epoch": 4.938820912124583,
      "grad_norm": 1.3859456777572632,
      "learning_rate": 1.8969813586127442e-06,
      "loss": 1.3772,
      "mean_token_accuracy": 0.6426565945148468,
      "step": 1111
    },
    {
      "epoch": 4.943270300333704,
      "grad_norm": 1.582524299621582,
      "learning_rate": 1.892254168286033e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6390699744224548,
      "step": 1112
    },
    {
      "epoch": 4.947719688542826,
      "grad_norm": 1.5258139371871948,
      "learning_rate": 1.8875292862554423e-06,
      "loss": 1.5244,
      "mean_token_accuracy": 0.6118292510509491,
      "step": 1113
    },
    {
      "epoch": 4.952169076751947,
      "grad_norm": 1.6024365425109863,
      "learning_rate": 1.8828067304666788e-06,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6333537697792053,
      "step": 1114
    },
    {
      "epoch": 4.956618464961068,
      "grad_norm": 1.3414292335510254,
      "learning_rate": 1.8780865188566092e-06,
      "loss": 1.2821,
      "mean_token_accuracy": 0.6537080407142639,
      "step": 1115
    },
    {
      "epoch": 4.961067853170189,
      "grad_norm": 1.4863402843475342,
      "learning_rate": 1.8733686693531986e-06,
      "loss": 1.4548,
      "mean_token_accuracy": 0.620814248919487,
      "step": 1116
    },
    {
      "epoch": 4.9655172413793105,
      "grad_norm": 1.5285265445709229,
      "learning_rate": 1.8686531998754424e-06,
      "loss": 1.327,
      "mean_token_accuracy": 0.6525489538908005,
      "step": 1117
    },
    {
      "epoch": 4.9699666295884315,
      "grad_norm": 1.5461699962615967,
      "learning_rate": 1.863940128333293e-06,
      "loss": 1.4155,
      "mean_token_accuracy": 0.6397548019886017,
      "step": 1118
    },
    {
      "epoch": 4.9744160177975525,
      "grad_norm": 1.3586652278900146,
      "learning_rate": 1.8592294726275967e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.648034080862999,
      "step": 1119
    },
    {
      "epoch": 4.978865406006674,
      "grad_norm": 1.412989616394043,
      "learning_rate": 1.854521250650026e-06,
      "loss": 1.4302,
      "mean_token_accuracy": 0.6282944679260254,
      "step": 1120
    },
    {
      "epoch": 4.983314794215795,
      "grad_norm": 1.609427809715271,
      "learning_rate": 1.8498154802830065e-06,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6258207559585571,
      "step": 1121
    },
    {
      "epoch": 4.987764182424916,
      "grad_norm": 1.6858981847763062,
      "learning_rate": 1.8451121793996534e-06,
      "loss": 1.4539,
      "mean_token_accuracy": 0.6198161244392395,
      "step": 1122
    },
    {
      "epoch": 4.992213570634037,
      "grad_norm": 1.4579153060913086,
      "learning_rate": 1.840411365863704e-06,
      "loss": 1.4331,
      "mean_token_accuracy": 0.6282163709402084,
      "step": 1123
    },
    {
      "epoch": 4.996662958843159,
      "grad_norm": 1.6296547651290894,
      "learning_rate": 1.8357130575294474e-06,
      "loss": 1.4565,
      "mean_token_accuracy": 0.6231774240732193,
      "step": 1124
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.6782939434051514,
      "learning_rate": 1.8310172722416559e-06,
      "loss": 1.4843,
      "mean_token_accuracy": 0.6124964952468872,
      "step": 1125
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.4380593299865723,
      "eval_mean_token_accuracy": 0.6291966563463212,
      "eval_runtime": 8.8515,
      "eval_samples_per_second": 11.298,
      "eval_steps_per_second": 11.298,
      "step": 1125
    },
    {
      "epoch": 5.004449388209121,
      "grad_norm": 1.4536935091018677,
      "learning_rate": 1.8263240278355216e-06,
      "loss": 1.4011,
      "mean_token_accuracy": 0.6423300504684448,
      "step": 1126
    },
    {
      "epoch": 5.008898776418243,
      "grad_norm": 1.337996482849121,
      "learning_rate": 1.821633342136585e-06,
      "loss": 1.3394,
      "mean_token_accuracy": 0.6496383845806122,
      "step": 1127
    },
    {
      "epoch": 5.013348164627364,
      "grad_norm": 1.3125864267349243,
      "learning_rate": 1.8169452329606667e-06,
      "loss": 1.2997,
      "mean_token_accuracy": 0.6529726684093475,
      "step": 1128
    },
    {
      "epoch": 5.017797552836485,
      "grad_norm": 1.4360504150390625,
      "learning_rate": 1.812259718113805e-06,
      "loss": 1.4028,
      "mean_token_accuracy": 0.6339297592639923,
      "step": 1129
    },
    {
      "epoch": 5.022246941045606,
      "grad_norm": 1.4211170673370361,
      "learning_rate": 1.8075768153921813e-06,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6196760535240173,
      "step": 1130
    },
    {
      "epoch": 5.026696329254728,
      "grad_norm": 1.4763022661209106,
      "learning_rate": 1.8028965425820561e-06,
      "loss": 1.4115,
      "mean_token_accuracy": 0.637964129447937,
      "step": 1131
    },
    {
      "epoch": 5.031145717463849,
      "grad_norm": 1.4524635076522827,
      "learning_rate": 1.7982189174597037e-06,
      "loss": 1.4403,
      "mean_token_accuracy": 0.622582420706749,
      "step": 1132
    },
    {
      "epoch": 5.03559510567297,
      "grad_norm": 1.5396240949630737,
      "learning_rate": 1.7935439577913396e-06,
      "loss": 1.3787,
      "mean_token_accuracy": 0.6372232884168625,
      "step": 1133
    },
    {
      "epoch": 5.040044493882092,
      "grad_norm": 1.325992226600647,
      "learning_rate": 1.788871681333056e-06,
      "loss": 1.3639,
      "mean_token_accuracy": 0.639217808842659,
      "step": 1134
    },
    {
      "epoch": 5.044493882091213,
      "grad_norm": 1.4038143157958984,
      "learning_rate": 1.7842021058307546e-06,
      "loss": 1.47,
      "mean_token_accuracy": 0.6231822371482849,
      "step": 1135
    },
    {
      "epoch": 5.048943270300334,
      "grad_norm": 1.4248028993606567,
      "learning_rate": 1.7795352490200782e-06,
      "loss": 1.4374,
      "mean_token_accuracy": 0.6280654668807983,
      "step": 1136
    },
    {
      "epoch": 5.053392658509455,
      "grad_norm": 1.329683542251587,
      "learning_rate": 1.7748711286263449e-06,
      "loss": 1.3407,
      "mean_token_accuracy": 0.6490415036678314,
      "step": 1137
    },
    {
      "epoch": 5.0578420467185765,
      "grad_norm": 1.361337423324585,
      "learning_rate": 1.770209762364477e-06,
      "loss": 1.447,
      "mean_token_accuracy": 0.6223952770233154,
      "step": 1138
    },
    {
      "epoch": 5.0622914349276975,
      "grad_norm": 1.4231442213058472,
      "learning_rate": 1.7655511679389376e-06,
      "loss": 1.3101,
      "mean_token_accuracy": 0.6486489325761795,
      "step": 1139
    },
    {
      "epoch": 5.0667408231368185,
      "grad_norm": 1.3958848714828491,
      "learning_rate": 1.7608953630436632e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6407648772001266,
      "step": 1140
    },
    {
      "epoch": 5.0711902113459395,
      "grad_norm": 1.3888442516326904,
      "learning_rate": 1.7562423653619931e-06,
      "loss": 1.3493,
      "mean_token_accuracy": 0.6424442827701569,
      "step": 1141
    },
    {
      "epoch": 5.075639599555061,
      "grad_norm": 1.4581398963928223,
      "learning_rate": 1.7515921925666053e-06,
      "loss": 1.437,
      "mean_token_accuracy": 0.6286485493183136,
      "step": 1142
    },
    {
      "epoch": 5.080088987764182,
      "grad_norm": 1.5036630630493164,
      "learning_rate": 1.74694486231945e-06,
      "loss": 1.4371,
      "mean_token_accuracy": 0.6204336881637573,
      "step": 1143
    },
    {
      "epoch": 5.084538375973303,
      "grad_norm": 1.4441039562225342,
      "learning_rate": 1.7423003922716784e-06,
      "loss": 1.4081,
      "mean_token_accuracy": 0.6354535073041916,
      "step": 1144
    },
    {
      "epoch": 5.088987764182425,
      "grad_norm": 1.4602407217025757,
      "learning_rate": 1.7376588000635797e-06,
      "loss": 1.2556,
      "mean_token_accuracy": 0.6624271869659424,
      "step": 1145
    },
    {
      "epoch": 5.093437152391546,
      "grad_norm": 1.3558813333511353,
      "learning_rate": 1.7330201033245137e-06,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6334853768348694,
      "step": 1146
    },
    {
      "epoch": 5.097886540600667,
      "grad_norm": 1.4137325286865234,
      "learning_rate": 1.7283843196728417e-06,
      "loss": 1.4397,
      "mean_token_accuracy": 0.6419506818056107,
      "step": 1147
    },
    {
      "epoch": 5.102335928809788,
      "grad_norm": 1.6010733842849731,
      "learning_rate": 1.7237514667158598e-06,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6262051314115524,
      "step": 1148
    },
    {
      "epoch": 5.10678531701891,
      "grad_norm": 1.4391422271728516,
      "learning_rate": 1.7191215620497336e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6396862119436264,
      "step": 1149
    },
    {
      "epoch": 5.111234705228031,
      "grad_norm": 1.5205984115600586,
      "learning_rate": 1.7144946232594334e-06,
      "loss": 1.3928,
      "mean_token_accuracy": 0.6338726133108139,
      "step": 1150
    },
    {
      "epoch": 5.111234705228031,
      "eval_loss": 1.436403512954712,
      "eval_mean_token_accuracy": 0.6295550465583801,
      "eval_runtime": 8.8287,
      "eval_samples_per_second": 11.327,
      "eval_steps_per_second": 11.327,
      "step": 1150
    },
    {
      "epoch": 5.115684093437152,
      "grad_norm": 1.4518264532089233,
      "learning_rate": 1.7098706679186605e-06,
      "loss": 1.3792,
      "mean_token_accuracy": 0.6381098031997681,
      "step": 1151
    },
    {
      "epoch": 5.120133481646274,
      "grad_norm": 1.3955994844436646,
      "learning_rate": 1.705249713589786e-06,
      "loss": 1.4389,
      "mean_token_accuracy": 0.6325900703668594,
      "step": 1152
    },
    {
      "epoch": 5.124582869855395,
      "grad_norm": 1.655855417251587,
      "learning_rate": 1.7006317778237857e-06,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6330010145902634,
      "step": 1153
    },
    {
      "epoch": 5.129032258064516,
      "grad_norm": 1.342572569847107,
      "learning_rate": 1.6960168781601665e-06,
      "loss": 1.3338,
      "mean_token_accuracy": 0.6479085385799408,
      "step": 1154
    },
    {
      "epoch": 5.133481646273637,
      "grad_norm": 1.5341312885284424,
      "learning_rate": 1.6914050321269049e-06,
      "loss": 1.4259,
      "mean_token_accuracy": 0.621738076210022,
      "step": 1155
    },
    {
      "epoch": 5.137931034482759,
      "grad_norm": 1.3983253240585327,
      "learning_rate": 1.6867962572403811e-06,
      "loss": 1.3138,
      "mean_token_accuracy": 0.651883989572525,
      "step": 1156
    },
    {
      "epoch": 5.14238042269188,
      "grad_norm": 1.2974989414215088,
      "learning_rate": 1.6821905710053102e-06,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6335832476615906,
      "step": 1157
    },
    {
      "epoch": 5.146829810901001,
      "grad_norm": 1.6222871541976929,
      "learning_rate": 1.677587990914673e-06,
      "loss": 1.4349,
      "mean_token_accuracy": 0.6176121234893799,
      "step": 1158
    },
    {
      "epoch": 5.151279199110123,
      "grad_norm": 1.3819750547409058,
      "learning_rate": 1.6729885344496572e-06,
      "loss": 1.3941,
      "mean_token_accuracy": 0.6358573883771896,
      "step": 1159
    },
    {
      "epoch": 5.155728587319244,
      "grad_norm": 1.3898223638534546,
      "learning_rate": 1.668392219079585e-06,
      "loss": 1.2744,
      "mean_token_accuracy": 0.655645415186882,
      "step": 1160
    },
    {
      "epoch": 5.160177975528365,
      "grad_norm": 1.6593555212020874,
      "learning_rate": 1.6637990622618452e-06,
      "loss": 1.3201,
      "mean_token_accuracy": 0.6509044915437698,
      "step": 1161
    },
    {
      "epoch": 5.164627363737486,
      "grad_norm": 1.4871222972869873,
      "learning_rate": 1.6592090814418354e-06,
      "loss": 1.3806,
      "mean_token_accuracy": 0.638726681470871,
      "step": 1162
    },
    {
      "epoch": 5.169076751946608,
      "grad_norm": 1.4903556108474731,
      "learning_rate": 1.6546222940528875e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6304880529642105,
      "step": 1163
    },
    {
      "epoch": 5.173526140155729,
      "grad_norm": 1.6011995077133179,
      "learning_rate": 1.650038717516203e-06,
      "loss": 1.4771,
      "mean_token_accuracy": 0.6169419139623642,
      "step": 1164
    },
    {
      "epoch": 5.17797552836485,
      "grad_norm": 1.3483448028564453,
      "learning_rate": 1.645458369240791e-06,
      "loss": 1.246,
      "mean_token_accuracy": 0.6589774787425995,
      "step": 1165
    },
    {
      "epoch": 5.1824249165739715,
      "grad_norm": 1.3464094400405884,
      "learning_rate": 1.640881266623397e-06,
      "loss": 1.2368,
      "mean_token_accuracy": 0.669596791267395,
      "step": 1166
    },
    {
      "epoch": 5.1868743047830925,
      "grad_norm": 1.511987566947937,
      "learning_rate": 1.6363074270484419e-06,
      "loss": 1.4656,
      "mean_token_accuracy": 0.6221459656953812,
      "step": 1167
    },
    {
      "epoch": 5.1913236929922135,
      "grad_norm": 1.4006452560424805,
      "learning_rate": 1.6317368678879497e-06,
      "loss": 1.3779,
      "mean_token_accuracy": 0.6314581781625748,
      "step": 1168
    },
    {
      "epoch": 5.1957730812013345,
      "grad_norm": 1.480686068534851,
      "learning_rate": 1.6271696065014864e-06,
      "loss": 1.3207,
      "mean_token_accuracy": 0.6523209065198898,
      "step": 1169
    },
    {
      "epoch": 5.200222469410456,
      "grad_norm": 1.4198940992355347,
      "learning_rate": 1.6226056602360945e-06,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6349529027938843,
      "step": 1170
    },
    {
      "epoch": 5.204671857619577,
      "grad_norm": 1.3889515399932861,
      "learning_rate": 1.6180450464262218e-06,
      "loss": 1.4393,
      "mean_token_accuracy": 0.6287663280963898,
      "step": 1171
    },
    {
      "epoch": 5.209121245828698,
      "grad_norm": 1.5088657140731812,
      "learning_rate": 1.613487782393661e-06,
      "loss": 1.3978,
      "mean_token_accuracy": 0.6281774342060089,
      "step": 1172
    },
    {
      "epoch": 5.213570634037819,
      "grad_norm": 1.4539204835891724,
      "learning_rate": 1.6089338854474828e-06,
      "loss": 1.4098,
      "mean_token_accuracy": 0.6331267356872559,
      "step": 1173
    },
    {
      "epoch": 5.218020022246941,
      "grad_norm": 1.41041100025177,
      "learning_rate": 1.6043833728839675e-06,
      "loss": 1.4372,
      "mean_token_accuracy": 0.6284562200307846,
      "step": 1174
    },
    {
      "epoch": 5.222469410456062,
      "grad_norm": 1.5153776407241821,
      "learning_rate": 1.599836261986541e-06,
      "loss": 1.3503,
      "mean_token_accuracy": 0.6508511304855347,
      "step": 1175
    },
    {
      "epoch": 5.222469410456062,
      "eval_loss": 1.4344677925109863,
      "eval_mean_token_accuracy": 0.6297285914421081,
      "eval_runtime": 8.8458,
      "eval_samples_per_second": 11.305,
      "eval_steps_per_second": 11.305,
      "step": 1175
    },
    {
      "epoch": 5.226918798665183,
      "grad_norm": 1.34357488155365,
      "learning_rate": 1.5952925700257116e-06,
      "loss": 1.3766,
      "mean_token_accuracy": 0.635092630982399,
      "step": 1176
    },
    {
      "epoch": 5.231368186874305,
      "grad_norm": 1.4515491724014282,
      "learning_rate": 1.5907523142589993e-06,
      "loss": 1.3604,
      "mean_token_accuracy": 0.649158239364624,
      "step": 1177
    },
    {
      "epoch": 5.235817575083426,
      "grad_norm": 1.4744104146957397,
      "learning_rate": 1.5862155119308737e-06,
      "loss": 1.6208,
      "mean_token_accuracy": 0.5945912003517151,
      "step": 1178
    },
    {
      "epoch": 5.240266963292547,
      "grad_norm": 1.7589776515960693,
      "learning_rate": 1.581682180272689e-06,
      "loss": 1.4248,
      "mean_token_accuracy": 0.6325291991233826,
      "step": 1179
    },
    {
      "epoch": 5.244716351501668,
      "grad_norm": 1.4232295751571655,
      "learning_rate": 1.5771523365026175e-06,
      "loss": 1.3761,
      "mean_token_accuracy": 0.6387334614992142,
      "step": 1180
    },
    {
      "epoch": 5.24916573971079,
      "grad_norm": 1.5856443643569946,
      "learning_rate": 1.572625997825581e-06,
      "loss": 1.4873,
      "mean_token_accuracy": 0.6190501898527145,
      "step": 1181
    },
    {
      "epoch": 5.253615127919911,
      "grad_norm": 1.3909435272216797,
      "learning_rate": 1.5681031814331918e-06,
      "loss": 1.3716,
      "mean_token_accuracy": 0.6442335546016693,
      "step": 1182
    },
    {
      "epoch": 5.258064516129032,
      "grad_norm": 1.5991840362548828,
      "learning_rate": 1.5635839045036837e-06,
      "loss": 1.4226,
      "mean_token_accuracy": 0.6299068033695221,
      "step": 1183
    },
    {
      "epoch": 5.262513904338154,
      "grad_norm": 1.5437990427017212,
      "learning_rate": 1.5590681842018446e-06,
      "loss": 1.2673,
      "mean_token_accuracy": 0.6610785573720932,
      "step": 1184
    },
    {
      "epoch": 5.266963292547275,
      "grad_norm": 1.4639688730239868,
      "learning_rate": 1.554556037678957e-06,
      "loss": 1.4837,
      "mean_token_accuracy": 0.6275453716516495,
      "step": 1185
    },
    {
      "epoch": 5.271412680756396,
      "grad_norm": 1.3905552625656128,
      "learning_rate": 1.550047482072729e-06,
      "loss": 1.4184,
      "mean_token_accuracy": 0.6417065411806107,
      "step": 1186
    },
    {
      "epoch": 5.275862068965517,
      "grad_norm": 1.664312481880188,
      "learning_rate": 1.5455425345072275e-06,
      "loss": 1.4864,
      "mean_token_accuracy": 0.6261992156505585,
      "step": 1187
    },
    {
      "epoch": 5.280311457174639,
      "grad_norm": 1.4205832481384277,
      "learning_rate": 1.5410412120928189e-06,
      "loss": 1.3668,
      "mean_token_accuracy": 0.6500124037265778,
      "step": 1188
    },
    {
      "epoch": 5.28476084538376,
      "grad_norm": 1.3766804933547974,
      "learning_rate": 1.5365435319260985e-06,
      "loss": 1.3963,
      "mean_token_accuracy": 0.6374784708023071,
      "step": 1189
    },
    {
      "epoch": 5.289210233592881,
      "grad_norm": 1.4362562894821167,
      "learning_rate": 1.5320495110898304e-06,
      "loss": 1.4142,
      "mean_token_accuracy": 0.6356034278869629,
      "step": 1190
    },
    {
      "epoch": 5.293659621802002,
      "grad_norm": 1.526465654373169,
      "learning_rate": 1.5275591666528766e-06,
      "loss": 1.3855,
      "mean_token_accuracy": 0.6359889060258865,
      "step": 1191
    },
    {
      "epoch": 5.298109010011124,
      "grad_norm": 1.498304009437561,
      "learning_rate": 1.5230725156701375e-06,
      "loss": 1.4623,
      "mean_token_accuracy": 0.621251717209816,
      "step": 1192
    },
    {
      "epoch": 5.302558398220245,
      "grad_norm": 1.4521523714065552,
      "learning_rate": 1.5185895751824875e-06,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6187909841537476,
      "step": 1193
    },
    {
      "epoch": 5.307007786429366,
      "grad_norm": 1.5804831981658936,
      "learning_rate": 1.5141103622167042e-06,
      "loss": 1.403,
      "mean_token_accuracy": 0.6288553029298782,
      "step": 1194
    },
    {
      "epoch": 5.3114571746384875,
      "grad_norm": 1.5806691646575928,
      "learning_rate": 1.5096348937854085e-06,
      "loss": 1.4688,
      "mean_token_accuracy": 0.6297870725393295,
      "step": 1195
    },
    {
      "epoch": 5.3159065628476085,
      "grad_norm": 1.4617387056350708,
      "learning_rate": 1.505163186887002e-06,
      "loss": 1.2765,
      "mean_token_accuracy": 0.6571577340364456,
      "step": 1196
    },
    {
      "epoch": 5.3203559510567295,
      "grad_norm": 1.6052312850952148,
      "learning_rate": 1.5006952585055961e-06,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6210413873195648,
      "step": 1197
    },
    {
      "epoch": 5.3248053392658505,
      "grad_norm": 1.4948418140411377,
      "learning_rate": 1.4962311256109518e-06,
      "loss": 1.43,
      "mean_token_accuracy": 0.6320369243621826,
      "step": 1198
    },
    {
      "epoch": 5.329254727474972,
      "grad_norm": 1.4326566457748413,
      "learning_rate": 1.4917708051584158e-06,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6272772997617722,
      "step": 1199
    },
    {
      "epoch": 5.333704115684093,
      "grad_norm": 1.510759949684143,
      "learning_rate": 1.4873143140888537e-06,
      "loss": 1.5434,
      "mean_token_accuracy": 0.6192728132009506,
      "step": 1200
    },
    {
      "epoch": 5.333704115684093,
      "eval_loss": 1.4328067302703857,
      "eval_mean_token_accuracy": 0.6301464581489563,
      "eval_runtime": 8.7363,
      "eval_samples_per_second": 11.446,
      "eval_steps_per_second": 11.446,
      "step": 1200
    },
    {
      "epoch": 5.338153503893214,
      "grad_norm": 1.649781584739685,
      "learning_rate": 1.4828616693285853e-06,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6140452176332474,
      "step": 1201
    },
    {
      "epoch": 5.342602892102336,
      "grad_norm": 1.5040901899337769,
      "learning_rate": 1.4784128877893237e-06,
      "loss": 1.3284,
      "mean_token_accuracy": 0.6442093402147293,
      "step": 1202
    },
    {
      "epoch": 5.347052280311457,
      "grad_norm": 1.4934051036834717,
      "learning_rate": 1.4739679863681086e-06,
      "loss": 1.3827,
      "mean_token_accuracy": 0.6377817094326019,
      "step": 1203
    },
    {
      "epoch": 5.351501668520578,
      "grad_norm": 1.724202275276184,
      "learning_rate": 1.4695269819472406e-06,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6391748785972595,
      "step": 1204
    },
    {
      "epoch": 5.355951056729699,
      "grad_norm": 1.4903331995010376,
      "learning_rate": 1.4650898913942217e-06,
      "loss": 1.4532,
      "mean_token_accuracy": 0.6306236684322357,
      "step": 1205
    },
    {
      "epoch": 5.360400444938821,
      "grad_norm": 1.5306452512741089,
      "learning_rate": 1.4606567315616876e-06,
      "loss": 1.3648,
      "mean_token_accuracy": 0.6341184675693512,
      "step": 1206
    },
    {
      "epoch": 5.364849833147942,
      "grad_norm": 1.5818990468978882,
      "learning_rate": 1.456227519287343e-06,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6047951132059097,
      "step": 1207
    },
    {
      "epoch": 5.369299221357063,
      "grad_norm": 1.4545035362243652,
      "learning_rate": 1.4518022713939e-06,
      "loss": 1.2882,
      "mean_token_accuracy": 0.6510030329227448,
      "step": 1208
    },
    {
      "epoch": 5.373748609566185,
      "grad_norm": 1.5203365087509155,
      "learning_rate": 1.4473810046890177e-06,
      "loss": 1.5616,
      "mean_token_accuracy": 0.613398402929306,
      "step": 1209
    },
    {
      "epoch": 5.378197997775306,
      "grad_norm": 1.4205540418624878,
      "learning_rate": 1.4429637359652271e-06,
      "loss": 1.3888,
      "mean_token_accuracy": 0.6332745403051376,
      "step": 1210
    },
    {
      "epoch": 5.382647385984427,
      "grad_norm": 1.396052598953247,
      "learning_rate": 1.4385504819998774e-06,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6274658292531967,
      "step": 1211
    },
    {
      "epoch": 5.387096774193548,
      "grad_norm": 1.3926198482513428,
      "learning_rate": 1.4341412595550724e-06,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6416020840406418,
      "step": 1212
    },
    {
      "epoch": 5.39154616240267,
      "grad_norm": 1.3655714988708496,
      "learning_rate": 1.4297360853776005e-06,
      "loss": 1.3359,
      "mean_token_accuracy": 0.640062615275383,
      "step": 1213
    },
    {
      "epoch": 5.395995550611791,
      "grad_norm": 1.453804612159729,
      "learning_rate": 1.4253349761988714e-06,
      "loss": 1.3326,
      "mean_token_accuracy": 0.649537593126297,
      "step": 1214
    },
    {
      "epoch": 5.400444938820912,
      "grad_norm": 1.5296380519866943,
      "learning_rate": 1.420937948734862e-06,
      "loss": 1.3585,
      "mean_token_accuracy": 0.6403686255216599,
      "step": 1215
    },
    {
      "epoch": 5.404894327030034,
      "grad_norm": 1.4203795194625854,
      "learning_rate": 1.4165450196860423e-06,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6400536149740219,
      "step": 1216
    },
    {
      "epoch": 5.409343715239155,
      "grad_norm": 1.529260277748108,
      "learning_rate": 1.4121562057373145e-06,
      "loss": 1.4359,
      "mean_token_accuracy": 0.6347286254167557,
      "step": 1217
    },
    {
      "epoch": 5.413793103448276,
      "grad_norm": 1.3671709299087524,
      "learning_rate": 1.4077715235579559e-06,
      "loss": 1.3463,
      "mean_token_accuracy": 0.6429520696401596,
      "step": 1218
    },
    {
      "epoch": 5.418242491657397,
      "grad_norm": 1.4245496988296509,
      "learning_rate": 1.4033909898015483e-06,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6390140354633331,
      "step": 1219
    },
    {
      "epoch": 5.422691879866519,
      "grad_norm": 1.3985910415649414,
      "learning_rate": 1.3990146211059141e-06,
      "loss": 1.3937,
      "mean_token_accuracy": 0.6469191610813141,
      "step": 1220
    },
    {
      "epoch": 5.42714126807564,
      "grad_norm": 1.5134562253952026,
      "learning_rate": 1.3946424340930626e-06,
      "loss": 1.4464,
      "mean_token_accuracy": 0.6215404719114304,
      "step": 1221
    },
    {
      "epoch": 5.431590656284761,
      "grad_norm": 1.4695323705673218,
      "learning_rate": 1.3902744453691158e-06,
      "loss": 1.322,
      "mean_token_accuracy": 0.6609323024749756,
      "step": 1222
    },
    {
      "epoch": 5.436040044493883,
      "grad_norm": 1.5982568264007568,
      "learning_rate": 1.385910671524252e-06,
      "loss": 1.489,
      "mean_token_accuracy": 0.6107919812202454,
      "step": 1223
    },
    {
      "epoch": 5.440489432703004,
      "grad_norm": 1.5129743814468384,
      "learning_rate": 1.3815511291326404e-06,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6284685879945755,
      "step": 1224
    },
    {
      "epoch": 5.4449388209121246,
      "grad_norm": 1.478493332862854,
      "learning_rate": 1.3771958347523781e-06,
      "loss": 1.4834,
      "mean_token_accuracy": 0.6201208233833313,
      "step": 1225
    },
    {
      "epoch": 5.4449388209121246,
      "eval_loss": 1.4313925504684448,
      "eval_mean_token_accuracy": 0.630802041888237,
      "eval_runtime": 8.899,
      "eval_samples_per_second": 11.237,
      "eval_steps_per_second": 11.237,
      "step": 1225
    },
    {
      "epoch": 5.4493882091212456,
      "grad_norm": 1.50336492061615,
      "learning_rate": 1.3728448049254296e-06,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6246602982282639,
      "step": 1226
    },
    {
      "epoch": 5.453837597330367,
      "grad_norm": 1.5328547954559326,
      "learning_rate": 1.3684980561775576e-06,
      "loss": 1.4971,
      "mean_token_accuracy": 0.6146593689918518,
      "step": 1227
    },
    {
      "epoch": 5.458286985539488,
      "grad_norm": 1.5848002433776855,
      "learning_rate": 1.364155605018271e-06,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6166725903749466,
      "step": 1228
    },
    {
      "epoch": 5.462736373748609,
      "grad_norm": 1.5584181547164917,
      "learning_rate": 1.3598174679407523e-06,
      "loss": 1.429,
      "mean_token_accuracy": 0.6305750459432602,
      "step": 1229
    },
    {
      "epoch": 5.46718576195773,
      "grad_norm": 1.4541314840316772,
      "learning_rate": 1.3554836614217963e-06,
      "loss": 1.4696,
      "mean_token_accuracy": 0.6247691214084625,
      "step": 1230
    },
    {
      "epoch": 5.471635150166852,
      "grad_norm": 1.57817542552948,
      "learning_rate": 1.3511542019217553e-06,
      "loss": 1.492,
      "mean_token_accuracy": 0.6247707307338715,
      "step": 1231
    },
    {
      "epoch": 5.476084538375973,
      "grad_norm": 1.4643337726593018,
      "learning_rate": 1.3468291058844673e-06,
      "loss": 1.4912,
      "mean_token_accuracy": 0.6185734272003174,
      "step": 1232
    },
    {
      "epoch": 5.480533926585094,
      "grad_norm": 1.5718791484832764,
      "learning_rate": 1.3425083897371983e-06,
      "loss": 1.3529,
      "mean_token_accuracy": 0.6400183737277985,
      "step": 1233
    },
    {
      "epoch": 5.484983314794216,
      "grad_norm": 1.3687760829925537,
      "learning_rate": 1.3381920698905788e-06,
      "loss": 1.3559,
      "mean_token_accuracy": 0.6429040879011154,
      "step": 1234
    },
    {
      "epoch": 5.489432703003337,
      "grad_norm": 1.4917548894882202,
      "learning_rate": 1.3338801627385417e-06,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6334143131971359,
      "step": 1235
    },
    {
      "epoch": 5.493882091212458,
      "grad_norm": 1.4828907251358032,
      "learning_rate": 1.3295726846582602e-06,
      "loss": 1.4146,
      "mean_token_accuracy": 0.628970131278038,
      "step": 1236
    },
    {
      "epoch": 5.498331479421579,
      "grad_norm": 1.4281747341156006,
      "learning_rate": 1.3252696520100844e-06,
      "loss": 1.3698,
      "mean_token_accuracy": 0.6407557427883148,
      "step": 1237
    },
    {
      "epoch": 5.502780867630701,
      "grad_norm": 1.4572534561157227,
      "learning_rate": 1.320971081137481e-06,
      "loss": 1.5059,
      "mean_token_accuracy": 0.612849771976471,
      "step": 1238
    },
    {
      "epoch": 5.507230255839822,
      "grad_norm": 1.3460314273834229,
      "learning_rate": 1.31667698836697e-06,
      "loss": 1.2993,
      "mean_token_accuracy": 0.6455414891242981,
      "step": 1239
    },
    {
      "epoch": 5.511679644048943,
      "grad_norm": 1.4241235256195068,
      "learning_rate": 1.312387390008063e-06,
      "loss": 1.2748,
      "mean_token_accuracy": 0.6477838307619095,
      "step": 1240
    },
    {
      "epoch": 5.516129032258064,
      "grad_norm": 1.4263551235198975,
      "learning_rate": 1.308102302353201e-06,
      "loss": 1.3397,
      "mean_token_accuracy": 0.650828093290329,
      "step": 1241
    },
    {
      "epoch": 5.520578420467186,
      "grad_norm": 1.640860676765442,
      "learning_rate": 1.3038217416776936e-06,
      "loss": 1.3505,
      "mean_token_accuracy": 0.6466261744499207,
      "step": 1242
    },
    {
      "epoch": 5.525027808676307,
      "grad_norm": 1.6939523220062256,
      "learning_rate": 1.2995457242396553e-06,
      "loss": 1.4659,
      "mean_token_accuracy": 0.6297556459903717,
      "step": 1243
    },
    {
      "epoch": 5.529477196885428,
      "grad_norm": 1.466705322265625,
      "learning_rate": 1.295274266279945e-06,
      "loss": 1.4177,
      "mean_token_accuracy": 0.6214900016784668,
      "step": 1244
    },
    {
      "epoch": 5.53392658509455,
      "grad_norm": 1.390588641166687,
      "learning_rate": 1.2910073840221051e-06,
      "loss": 1.363,
      "mean_token_accuracy": 0.6449103951454163,
      "step": 1245
    },
    {
      "epoch": 5.538375973303671,
      "grad_norm": 1.3385263681411743,
      "learning_rate": 1.286745093672298e-06,
      "loss": 1.275,
      "mean_token_accuracy": 0.6574697345495224,
      "step": 1246
    },
    {
      "epoch": 5.542825361512792,
      "grad_norm": 1.5963438749313354,
      "learning_rate": 1.2824874114192453e-06,
      "loss": 1.4755,
      "mean_token_accuracy": 0.6217504590749741,
      "step": 1247
    },
    {
      "epoch": 5.547274749721913,
      "grad_norm": 1.522935152053833,
      "learning_rate": 1.2782343534341667e-06,
      "loss": 1.3293,
      "mean_token_accuracy": 0.6488699615001678,
      "step": 1248
    },
    {
      "epoch": 5.551724137931035,
      "grad_norm": 1.427404522895813,
      "learning_rate": 1.2739859358707197e-06,
      "loss": 1.382,
      "mean_token_accuracy": 0.6377750784158707,
      "step": 1249
    },
    {
      "epoch": 5.556173526140156,
      "grad_norm": 1.3279385566711426,
      "learning_rate": 1.269742174864934e-06,
      "loss": 1.3621,
      "mean_token_accuracy": 0.6411754190921783,
      "step": 1250
    },
    {
      "epoch": 5.556173526140156,
      "eval_loss": 1.4298139810562134,
      "eval_mean_token_accuracy": 0.6306443518400192,
      "eval_runtime": 8.9035,
      "eval_samples_per_second": 11.232,
      "eval_steps_per_second": 11.232,
      "step": 1250
    },
    {
      "epoch": 5.560622914349277,
      "grad_norm": 1.6251482963562012,
      "learning_rate": 1.2655030865351554e-06,
      "loss": 1.4975,
      "mean_token_accuracy": 0.6155316233634949,
      "step": 1251
    },
    {
      "epoch": 5.565072302558399,
      "grad_norm": 1.478108286857605,
      "learning_rate": 1.2612686869819818e-06,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6436335891485214,
      "step": 1252
    },
    {
      "epoch": 5.56952169076752,
      "grad_norm": 1.5010590553283691,
      "learning_rate": 1.2570389922882023e-06,
      "loss": 1.3993,
      "mean_token_accuracy": 0.6413170248270035,
      "step": 1253
    },
    {
      "epoch": 5.573971078976641,
      "grad_norm": 1.4111782312393188,
      "learning_rate": 1.2528140185187362e-06,
      "loss": 1.4009,
      "mean_token_accuracy": 0.637735441327095,
      "step": 1254
    },
    {
      "epoch": 5.578420467185762,
      "grad_norm": 1.470508098602295,
      "learning_rate": 1.2485937817205716e-06,
      "loss": 1.4229,
      "mean_token_accuracy": 0.6280938535928726,
      "step": 1255
    },
    {
      "epoch": 5.5828698553948835,
      "grad_norm": 1.4037350416183472,
      "learning_rate": 1.2443782979227084e-06,
      "loss": 1.3713,
      "mean_token_accuracy": 0.632011204957962,
      "step": 1256
    },
    {
      "epoch": 5.5873192436040044,
      "grad_norm": 1.479841947555542,
      "learning_rate": 1.2401675831360882e-06,
      "loss": 1.4789,
      "mean_token_accuracy": 0.6104806512594223,
      "step": 1257
    },
    {
      "epoch": 5.5917686318131254,
      "grad_norm": 1.4317779541015625,
      "learning_rate": 1.235961653353543e-06,
      "loss": 1.3421,
      "mean_token_accuracy": 0.6446691155433655,
      "step": 1258
    },
    {
      "epoch": 5.596218020022247,
      "grad_norm": 1.5091692209243774,
      "learning_rate": 1.2317605245497324e-06,
      "loss": 1.4699,
      "mean_token_accuracy": 0.6270788758993149,
      "step": 1259
    },
    {
      "epoch": 5.600667408231368,
      "grad_norm": 1.3276079893112183,
      "learning_rate": 1.2275642126810764e-06,
      "loss": 1.24,
      "mean_token_accuracy": 0.6672940105199814,
      "step": 1260
    },
    {
      "epoch": 5.605116796440489,
      "grad_norm": 1.7011007070541382,
      "learning_rate": 1.223372733685702e-06,
      "loss": 1.423,
      "mean_token_accuracy": 0.6377881914377213,
      "step": 1261
    },
    {
      "epoch": 5.60956618464961,
      "grad_norm": 1.608406901359558,
      "learning_rate": 1.2191861034833841e-06,
      "loss": 1.457,
      "mean_token_accuracy": 0.6174481064081192,
      "step": 1262
    },
    {
      "epoch": 5.614015572858732,
      "grad_norm": 1.5341094732284546,
      "learning_rate": 1.2150043379754745e-06,
      "loss": 1.4141,
      "mean_token_accuracy": 0.6324803084135056,
      "step": 1263
    },
    {
      "epoch": 5.618464961067853,
      "grad_norm": 1.5333646535873413,
      "learning_rate": 1.2108274530448513e-06,
      "loss": 1.352,
      "mean_token_accuracy": 0.6484585106372833,
      "step": 1264
    },
    {
      "epoch": 5.622914349276974,
      "grad_norm": 1.534414291381836,
      "learning_rate": 1.2066554645558578e-06,
      "loss": 1.3677,
      "mean_token_accuracy": 0.6431746780872345,
      "step": 1265
    },
    {
      "epoch": 5.627363737486096,
      "grad_norm": 1.610482931137085,
      "learning_rate": 1.2024883883542384e-06,
      "loss": 1.3567,
      "mean_token_accuracy": 0.6479342728853226,
      "step": 1266
    },
    {
      "epoch": 5.631813125695217,
      "grad_norm": 1.551954746246338,
      "learning_rate": 1.1983262402670762e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6271034926176071,
      "step": 1267
    },
    {
      "epoch": 5.636262513904338,
      "grad_norm": 1.5453516244888306,
      "learning_rate": 1.1941690361027432e-06,
      "loss": 1.5217,
      "mean_token_accuracy": 0.6121285557746887,
      "step": 1268
    },
    {
      "epoch": 5.640711902113459,
      "grad_norm": 1.4656833410263062,
      "learning_rate": 1.1900167916508308e-06,
      "loss": 1.4188,
      "mean_token_accuracy": 0.6364872008562088,
      "step": 1269
    },
    {
      "epoch": 5.645161290322581,
      "grad_norm": 1.4372608661651611,
      "learning_rate": 1.185869522682089e-06,
      "loss": 1.4117,
      "mean_token_accuracy": 0.6306439191102982,
      "step": 1270
    },
    {
      "epoch": 5.649610678531702,
      "grad_norm": 1.601457118988037,
      "learning_rate": 1.1817272449483775e-06,
      "loss": 1.4514,
      "mean_token_accuracy": 0.6255040615797043,
      "step": 1271
    },
    {
      "epoch": 5.654060066740823,
      "grad_norm": 1.5742416381835938,
      "learning_rate": 1.1775899741825947e-06,
      "loss": 1.3512,
      "mean_token_accuracy": 0.6435282975435257,
      "step": 1272
    },
    {
      "epoch": 5.658509454949945,
      "grad_norm": 1.4140424728393555,
      "learning_rate": 1.1734577260986197e-06,
      "loss": 1.4045,
      "mean_token_accuracy": 0.6346904188394547,
      "step": 1273
    },
    {
      "epoch": 5.662958843159066,
      "grad_norm": 1.3788982629776,
      "learning_rate": 1.1693305163912597e-06,
      "loss": 1.3969,
      "mean_token_accuracy": 0.6370354443788528,
      "step": 1274
    },
    {
      "epoch": 5.667408231368187,
      "grad_norm": 1.3497974872589111,
      "learning_rate": 1.1652083607361825e-06,
      "loss": 1.3729,
      "mean_token_accuracy": 0.634155809879303,
      "step": 1275
    },
    {
      "epoch": 5.667408231368187,
      "eval_loss": 1.428598165512085,
      "eval_mean_token_accuracy": 0.6308686900138855,
      "eval_runtime": 8.8525,
      "eval_samples_per_second": 11.296,
      "eval_steps_per_second": 11.296,
      "step": 1275
    },
    {
      "epoch": 5.671857619577308,
      "grad_norm": 1.3950986862182617,
      "learning_rate": 1.1610912747898607e-06,
      "loss": 1.3134,
      "mean_token_accuracy": 0.6526321619749069,
      "step": 1276
    },
    {
      "epoch": 5.67630700778643,
      "grad_norm": 1.7175837755203247,
      "learning_rate": 1.1569792741895108e-06,
      "loss": 1.4171,
      "mean_token_accuracy": 0.6214556097984314,
      "step": 1277
    },
    {
      "epoch": 5.680756395995551,
      "grad_norm": 1.4622570276260376,
      "learning_rate": 1.1528723745530362e-06,
      "loss": 1.3908,
      "mean_token_accuracy": 0.6370172947645187,
      "step": 1278
    },
    {
      "epoch": 5.685205784204672,
      "grad_norm": 1.590685248374939,
      "learning_rate": 1.1487705914789644e-06,
      "loss": 1.4305,
      "mean_token_accuracy": 0.6399143785238266,
      "step": 1279
    },
    {
      "epoch": 5.689655172413794,
      "grad_norm": 1.4770026206970215,
      "learning_rate": 1.14467394054639e-06,
      "loss": 1.3747,
      "mean_token_accuracy": 0.6313470751047134,
      "step": 1280
    },
    {
      "epoch": 5.694104560622915,
      "grad_norm": 1.5352388620376587,
      "learning_rate": 1.1405824373149161e-06,
      "loss": 1.3673,
      "mean_token_accuracy": 0.6459927260875702,
      "step": 1281
    },
    {
      "epoch": 5.698553948832036,
      "grad_norm": 1.3509966135025024,
      "learning_rate": 1.1364960973245927e-06,
      "loss": 1.2585,
      "mean_token_accuracy": 0.6642160564661026,
      "step": 1282
    },
    {
      "epoch": 5.703003337041157,
      "grad_norm": 1.6155226230621338,
      "learning_rate": 1.1324149360958605e-06,
      "loss": 1.3309,
      "mean_token_accuracy": 0.6479890644550323,
      "step": 1283
    },
    {
      "epoch": 5.7074527252502785,
      "grad_norm": 1.4708702564239502,
      "learning_rate": 1.1283389691294894e-06,
      "loss": 1.5181,
      "mean_token_accuracy": 0.6167572438716888,
      "step": 1284
    },
    {
      "epoch": 5.7119021134593995,
      "grad_norm": 1.3781944513320923,
      "learning_rate": 1.1242682119065217e-06,
      "loss": 1.2498,
      "mean_token_accuracy": 0.6676377356052399,
      "step": 1285
    },
    {
      "epoch": 5.7163515016685205,
      "grad_norm": 1.4447109699249268,
      "learning_rate": 1.120202679888212e-06,
      "loss": 1.3163,
      "mean_token_accuracy": 0.6559259444475174,
      "step": 1286
    },
    {
      "epoch": 5.7208008898776415,
      "grad_norm": 1.4522044658660889,
      "learning_rate": 1.116142388515969e-06,
      "loss": 1.3712,
      "mean_token_accuracy": 0.641617551445961,
      "step": 1287
    },
    {
      "epoch": 5.725250278086763,
      "grad_norm": 1.5349023342132568,
      "learning_rate": 1.1120873532112971e-06,
      "loss": 1.5647,
      "mean_token_accuracy": 0.6066092699766159,
      "step": 1288
    },
    {
      "epoch": 5.729699666295884,
      "grad_norm": 1.5081716775894165,
      "learning_rate": 1.108037589375737e-06,
      "loss": 1.4615,
      "mean_token_accuracy": 0.6142619699239731,
      "step": 1289
    },
    {
      "epoch": 5.734149054505005,
      "grad_norm": 1.5787122249603271,
      "learning_rate": 1.1039931123908074e-06,
      "loss": 1.3149,
      "mean_token_accuracy": 0.6476747840642929,
      "step": 1290
    },
    {
      "epoch": 5.738598442714126,
      "grad_norm": 1.4959737062454224,
      "learning_rate": 1.099953937617948e-06,
      "loss": 1.309,
      "mean_token_accuracy": 0.6477872431278229,
      "step": 1291
    },
    {
      "epoch": 5.743047830923248,
      "grad_norm": 1.5140445232391357,
      "learning_rate": 1.095920080398459e-06,
      "loss": 1.392,
      "mean_token_accuracy": 0.6319801360368729,
      "step": 1292
    },
    {
      "epoch": 5.747497219132369,
      "grad_norm": 1.5456784963607788,
      "learning_rate": 1.0918915560534443e-06,
      "loss": 1.4329,
      "mean_token_accuracy": 0.6159811019897461,
      "step": 1293
    },
    {
      "epoch": 5.75194660734149,
      "grad_norm": 1.4614962339401245,
      "learning_rate": 1.0878683798837524e-06,
      "loss": 1.2943,
      "mean_token_accuracy": 0.6613195091485977,
      "step": 1294
    },
    {
      "epoch": 5.756395995550612,
      "grad_norm": 1.5070098638534546,
      "learning_rate": 1.0838505671699197e-06,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6477756649255753,
      "step": 1295
    },
    {
      "epoch": 5.760845383759733,
      "grad_norm": 1.4018715620040894,
      "learning_rate": 1.079838133172111e-06,
      "loss": 1.3194,
      "mean_token_accuracy": 0.6441274285316467,
      "step": 1296
    },
    {
      "epoch": 5.765294771968854,
      "grad_norm": 1.5025677680969238,
      "learning_rate": 1.0758310931300614e-06,
      "loss": 1.506,
      "mean_token_accuracy": 0.6070453375577927,
      "step": 1297
    },
    {
      "epoch": 5.769744160177975,
      "grad_norm": 1.3964465856552124,
      "learning_rate": 1.0718294622630188e-06,
      "loss": 1.296,
      "mean_token_accuracy": 0.6590261906385422,
      "step": 1298
    },
    {
      "epoch": 5.774193548387097,
      "grad_norm": 1.4987257719039917,
      "learning_rate": 1.0678332557696902e-06,
      "loss": 1.391,
      "mean_token_accuracy": 0.6440283209085464,
      "step": 1299
    },
    {
      "epoch": 5.778642936596218,
      "grad_norm": 1.5198073387145996,
      "learning_rate": 1.0638424888281744e-06,
      "loss": 1.4304,
      "mean_token_accuracy": 0.6251171827316284,
      "step": 1300
    },
    {
      "epoch": 5.778642936596218,
      "eval_loss": 1.4276618957519531,
      "eval_mean_token_accuracy": 0.6313771730661393,
      "eval_runtime": 8.8454,
      "eval_samples_per_second": 11.305,
      "eval_steps_per_second": 11.305,
      "step": 1300
    },
    {
      "epoch": 5.783092324805339,
      "grad_norm": 1.5300794839859009,
      "learning_rate": 1.0598571765959132e-06,
      "loss": 1.3617,
      "mean_token_accuracy": 0.6361745297908783,
      "step": 1301
    },
    {
      "epoch": 5.787541713014461,
      "grad_norm": 1.5034358501434326,
      "learning_rate": 1.055877334209632e-06,
      "loss": 1.3634,
      "mean_token_accuracy": 0.6423677504062653,
      "step": 1302
    },
    {
      "epoch": 5.791991101223582,
      "grad_norm": 1.473520278930664,
      "learning_rate": 1.051902976785278e-06,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6381459385156631,
      "step": 1303
    },
    {
      "epoch": 5.796440489432703,
      "grad_norm": 1.3278635740280151,
      "learning_rate": 1.047934119417966e-06,
      "loss": 1.2174,
      "mean_token_accuracy": 0.6627566069364548,
      "step": 1304
    },
    {
      "epoch": 5.800889877641824,
      "grad_norm": 1.4999808073043823,
      "learning_rate": 1.0439707771819258e-06,
      "loss": 1.4677,
      "mean_token_accuracy": 0.6238383054733276,
      "step": 1305
    },
    {
      "epoch": 5.805339265850946,
      "grad_norm": 1.5030620098114014,
      "learning_rate": 1.0400129651304328e-06,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6218113601207733,
      "step": 1306
    },
    {
      "epoch": 5.809788654060067,
      "grad_norm": 1.4380940198898315,
      "learning_rate": 1.036060698295762e-06,
      "loss": 1.4054,
      "mean_token_accuracy": 0.6385959386825562,
      "step": 1307
    },
    {
      "epoch": 5.814238042269188,
      "grad_norm": 1.3385862112045288,
      "learning_rate": 1.032113991689128e-06,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6453606486320496,
      "step": 1308
    },
    {
      "epoch": 5.81868743047831,
      "grad_norm": 1.416990876197815,
      "learning_rate": 1.0281728603006262e-06,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6280874460935593,
      "step": 1309
    },
    {
      "epoch": 5.823136818687431,
      "grad_norm": 1.4276134967803955,
      "learning_rate": 1.0242373190991734e-06,
      "loss": 1.4317,
      "mean_token_accuracy": 0.638725757598877,
      "step": 1310
    },
    {
      "epoch": 5.827586206896552,
      "grad_norm": 1.4201334714889526,
      "learning_rate": 1.0203073830324566e-06,
      "loss": 1.3566,
      "mean_token_accuracy": 0.6486687809228897,
      "step": 1311
    },
    {
      "epoch": 5.832035595105673,
      "grad_norm": 1.43080472946167,
      "learning_rate": 1.0163830670268768e-06,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6419577598571777,
      "step": 1312
    },
    {
      "epoch": 5.8364849833147945,
      "grad_norm": 1.507946252822876,
      "learning_rate": 1.0124643859874838e-06,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6326857656240463,
      "step": 1313
    },
    {
      "epoch": 5.8409343715239155,
      "grad_norm": 1.5751131772994995,
      "learning_rate": 1.0085513547979272e-06,
      "loss": 1.3335,
      "mean_token_accuracy": 0.6398375928401947,
      "step": 1314
    },
    {
      "epoch": 5.8453837597330365,
      "grad_norm": 1.3531321287155151,
      "learning_rate": 1.004643988320401e-06,
      "loss": 1.3583,
      "mean_token_accuracy": 0.6468089818954468,
      "step": 1315
    },
    {
      "epoch": 5.849833147942158,
      "grad_norm": 1.5004150867462158,
      "learning_rate": 1.0007423013955784e-06,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6225553154945374,
      "step": 1316
    },
    {
      "epoch": 5.854282536151279,
      "grad_norm": 1.4416836500167847,
      "learning_rate": 9.968463088425633e-07,
      "loss": 1.387,
      "mean_token_accuracy": 0.6274789720773697,
      "step": 1317
    },
    {
      "epoch": 5.8587319243604,
      "grad_norm": 1.5358936786651611,
      "learning_rate": 9.929560254588353e-07,
      "loss": 1.4557,
      "mean_token_accuracy": 0.6176303029060364,
      "step": 1318
    },
    {
      "epoch": 5.863181312569521,
      "grad_norm": 1.4245587587356567,
      "learning_rate": 9.890714660201827e-07,
      "loss": 1.3923,
      "mean_token_accuracy": 0.6393154412508011,
      "step": 1319
    },
    {
      "epoch": 5.867630700778643,
      "grad_norm": 1.4391398429870605,
      "learning_rate": 9.851926452806584e-07,
      "loss": 1.3646,
      "mean_token_accuracy": 0.6390640288591385,
      "step": 1320
    },
    {
      "epoch": 5.872080088987764,
      "grad_norm": 1.7477319240570068,
      "learning_rate": 9.813195779725194e-07,
      "loss": 1.5639,
      "mean_token_accuracy": 0.6053747534751892,
      "step": 1321
    },
    {
      "epoch": 5.876529477196885,
      "grad_norm": 1.3912755250930786,
      "learning_rate": 9.774522788061685e-07,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6410995870828629,
      "step": 1322
    },
    {
      "epoch": 5.880978865406007,
      "grad_norm": 1.4779304265975952,
      "learning_rate": 9.735907624700982e-07,
      "loss": 1.4136,
      "mean_token_accuracy": 0.6478434801101685,
      "step": 1323
    },
    {
      "epoch": 5.885428253615128,
      "grad_norm": 1.4555182456970215,
      "learning_rate": 9.697350436308428e-07,
      "loss": 1.3711,
      "mean_token_accuracy": 0.626241460442543,
      "step": 1324
    },
    {
      "epoch": 5.889877641824249,
      "grad_norm": 1.4348458051681519,
      "learning_rate": 9.658851369329136e-07,
      "loss": 1.3926,
      "mean_token_accuracy": 0.6316049546003342,
      "step": 1325
    },
    {
      "epoch": 5.889877641824249,
      "eval_loss": 1.426326036453247,
      "eval_mean_token_accuracy": 0.631558855175972,
      "eval_runtime": 8.9347,
      "eval_samples_per_second": 11.192,
      "eval_steps_per_second": 11.192,
      "step": 1325
    },
    {
      "epoch": 5.89432703003337,
      "grad_norm": 1.3533194065093994,
      "learning_rate": 9.62041056998744e-07,
      "loss": 1.3265,
      "mean_token_accuracy": 0.6583540290594101,
      "step": 1326
    },
    {
      "epoch": 5.898776418242492,
      "grad_norm": 1.5027965307235718,
      "learning_rate": 9.582028184286423e-07,
      "loss": 1.5083,
      "mean_token_accuracy": 0.6146398484706879,
      "step": 1327
    },
    {
      "epoch": 5.903225806451613,
      "grad_norm": 1.4516702890396118,
      "learning_rate": 9.543704358007281e-07,
      "loss": 1.3359,
      "mean_token_accuracy": 0.6430761218070984,
      "step": 1328
    },
    {
      "epoch": 5.907675194660734,
      "grad_norm": 1.3567311763763428,
      "learning_rate": 9.505439236708755e-07,
      "loss": 1.3933,
      "mean_token_accuracy": 0.6304226517677307,
      "step": 1329
    },
    {
      "epoch": 5.912124582869856,
      "grad_norm": 1.4019889831542969,
      "learning_rate": 9.467232965726689e-07,
      "loss": 1.5103,
      "mean_token_accuracy": 0.6200925707817078,
      "step": 1330
    },
    {
      "epoch": 5.916573971078977,
      "grad_norm": 1.468505620956421,
      "learning_rate": 9.429085690173353e-07,
      "loss": 1.4173,
      "mean_token_accuracy": 0.6364719420671463,
      "step": 1331
    },
    {
      "epoch": 5.921023359288098,
      "grad_norm": 1.5009328126907349,
      "learning_rate": 9.390997554936964e-07,
      "loss": 1.4015,
      "mean_token_accuracy": 0.6247324794530869,
      "step": 1332
    },
    {
      "epoch": 5.925472747497219,
      "grad_norm": 1.5403542518615723,
      "learning_rate": 9.352968704681114e-07,
      "loss": 1.3913,
      "mean_token_accuracy": 0.64291912317276,
      "step": 1333
    },
    {
      "epoch": 5.929922135706341,
      "grad_norm": 1.462306261062622,
      "learning_rate": 9.314999283844223e-07,
      "loss": 1.4051,
      "mean_token_accuracy": 0.6269732117652893,
      "step": 1334
    },
    {
      "epoch": 5.934371523915462,
      "grad_norm": 1.43793785572052,
      "learning_rate": 9.277089436638989e-07,
      "loss": 1.428,
      "mean_token_accuracy": 0.6386674493551254,
      "step": 1335
    },
    {
      "epoch": 5.938820912124583,
      "grad_norm": 1.5811727046966553,
      "learning_rate": 9.239239307051842e-07,
      "loss": 1.4884,
      "mean_token_accuracy": 0.6228224188089371,
      "step": 1336
    },
    {
      "epoch": 5.943270300333704,
      "grad_norm": 1.5492905378341675,
      "learning_rate": 9.201449038842403e-07,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6164949983358383,
      "step": 1337
    },
    {
      "epoch": 5.947719688542826,
      "grad_norm": 1.5053061246871948,
      "learning_rate": 9.163718775542921e-07,
      "loss": 1.3699,
      "mean_token_accuracy": 0.639981597661972,
      "step": 1338
    },
    {
      "epoch": 5.952169076751947,
      "grad_norm": 1.5219805240631104,
      "learning_rate": 9.126048660457745e-07,
      "loss": 1.4382,
      "mean_token_accuracy": 0.6326714754104614,
      "step": 1339
    },
    {
      "epoch": 5.956618464961068,
      "grad_norm": 1.4926714897155762,
      "learning_rate": 9.088438836662777e-07,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6352131813764572,
      "step": 1340
    },
    {
      "epoch": 5.961067853170189,
      "grad_norm": 1.3641728162765503,
      "learning_rate": 9.050889447004918e-07,
      "loss": 1.3067,
      "mean_token_accuracy": 0.6571685969829559,
      "step": 1341
    },
    {
      "epoch": 5.9655172413793105,
      "grad_norm": 1.447458028793335,
      "learning_rate": 9.013400634101535e-07,
      "loss": 1.3174,
      "mean_token_accuracy": 0.6580853909254074,
      "step": 1342
    },
    {
      "epoch": 5.9699666295884315,
      "grad_norm": 1.4635698795318604,
      "learning_rate": 8.975972540339919e-07,
      "loss": 1.4439,
      "mean_token_accuracy": 0.6209308505058289,
      "step": 1343
    },
    {
      "epoch": 5.9744160177975525,
      "grad_norm": 1.6202799081802368,
      "learning_rate": 8.938605307876738e-07,
      "loss": 1.4843,
      "mean_token_accuracy": 0.6267635375261307,
      "step": 1344
    },
    {
      "epoch": 5.978865406006674,
      "grad_norm": 1.5512815713882446,
      "learning_rate": 8.901299078637504e-07,
      "loss": 1.3418,
      "mean_token_accuracy": 0.6391959637403488,
      "step": 1345
    },
    {
      "epoch": 5.983314794215795,
      "grad_norm": 1.4879202842712402,
      "learning_rate": 8.86405399431603e-07,
      "loss": 1.4573,
      "mean_token_accuracy": 0.6173740476369858,
      "step": 1346
    },
    {
      "epoch": 5.987764182424916,
      "grad_norm": 1.479856014251709,
      "learning_rate": 8.826870196373891e-07,
      "loss": 1.3571,
      "mean_token_accuracy": 0.644014373421669,
      "step": 1347
    },
    {
      "epoch": 5.992213570634037,
      "grad_norm": 1.4447447061538696,
      "learning_rate": 8.789747826039893e-07,
      "loss": 1.3934,
      "mean_token_accuracy": 0.6351887136697769,
      "step": 1348
    },
    {
      "epoch": 5.996662958843159,
      "grad_norm": 1.5300238132476807,
      "learning_rate": 8.752687024309531e-07,
      "loss": 1.314,
      "mean_token_accuracy": 0.6561861634254456,
      "step": 1349
    },
    {
      "epoch": 6.0,
      "grad_norm": 1.5580432415008545,
      "learning_rate": 8.71568793194445e-07,
      "loss": 1.3315,
      "mean_token_accuracy": 0.6434639692306519,
      "step": 1350
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.4257917404174805,
      "eval_mean_token_accuracy": 0.6315908497571945,
      "eval_runtime": 9.1179,
      "eval_samples_per_second": 10.967,
      "eval_steps_per_second": 10.967,
      "step": 1350
    },
    {
      "epoch": 6.004449388209121,
      "grad_norm": 1.397455096244812,
      "learning_rate": 8.67875068947191e-07,
      "loss": 1.4303,
      "mean_token_accuracy": 0.6294017732143402,
      "step": 1351
    },
    {
      "epoch": 6.008898776418243,
      "grad_norm": 1.4062145948410034,
      "learning_rate": 8.641875437184288e-07,
      "loss": 1.481,
      "mean_token_accuracy": 0.6242086887359619,
      "step": 1352
    },
    {
      "epoch": 6.013348164627364,
      "grad_norm": 1.6063237190246582,
      "learning_rate": 8.605062315138474e-07,
      "loss": 1.3883,
      "mean_token_accuracy": 0.6402446627616882,
      "step": 1353
    },
    {
      "epoch": 6.017797552836485,
      "grad_norm": 1.4634156227111816,
      "learning_rate": 8.56831146315539e-07,
      "loss": 1.3521,
      "mean_token_accuracy": 0.6470947712659836,
      "step": 1354
    },
    {
      "epoch": 6.022246941045606,
      "grad_norm": 1.5872416496276855,
      "learning_rate": 8.531623020819485e-07,
      "loss": 1.4924,
      "mean_token_accuracy": 0.6208926290273666,
      "step": 1355
    },
    {
      "epoch": 6.026696329254728,
      "grad_norm": 1.3799400329589844,
      "learning_rate": 8.494997127478111e-07,
      "loss": 1.2482,
      "mean_token_accuracy": 0.6596227437257767,
      "step": 1356
    },
    {
      "epoch": 6.031145717463849,
      "grad_norm": 1.4772471189498901,
      "learning_rate": 8.458433922241077e-07,
      "loss": 1.4,
      "mean_token_accuracy": 0.6460206210613251,
      "step": 1357
    },
    {
      "epoch": 6.03559510567297,
      "grad_norm": 1.3948988914489746,
      "learning_rate": 8.421933543980126e-07,
      "loss": 1.4499,
      "mean_token_accuracy": 0.6274704784154892,
      "step": 1358
    },
    {
      "epoch": 6.040044493882092,
      "grad_norm": 1.5711761713027954,
      "learning_rate": 8.385496131328316e-07,
      "loss": 1.4126,
      "mean_token_accuracy": 0.6302893310785294,
      "step": 1359
    },
    {
      "epoch": 6.044493882091213,
      "grad_norm": 1.4267836809158325,
      "learning_rate": 8.34912182267959e-07,
      "loss": 1.4032,
      "mean_token_accuracy": 0.6294014304876328,
      "step": 1360
    },
    {
      "epoch": 6.048943270300334,
      "grad_norm": 1.4907538890838623,
      "learning_rate": 8.312810756188227e-07,
      "loss": 1.3266,
      "mean_token_accuracy": 0.6510687917470932,
      "step": 1361
    },
    {
      "epoch": 6.053392658509455,
      "grad_norm": 1.5121501684188843,
      "learning_rate": 8.276563069768267e-07,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6422837227582932,
      "step": 1362
    },
    {
      "epoch": 6.0578420467185765,
      "grad_norm": 1.411612868309021,
      "learning_rate": 8.240378901093035e-07,
      "loss": 1.3896,
      "mean_token_accuracy": 0.6315139979124069,
      "step": 1363
    },
    {
      "epoch": 6.0622914349276975,
      "grad_norm": 1.4744919538497925,
      "learning_rate": 8.204258387594635e-07,
      "loss": 1.3877,
      "mean_token_accuracy": 0.6459615081548691,
      "step": 1364
    },
    {
      "epoch": 6.0667408231368185,
      "grad_norm": 1.5691344738006592,
      "learning_rate": 8.168201666463383e-07,
      "loss": 1.5078,
      "mean_token_accuracy": 0.6227228045463562,
      "step": 1365
    },
    {
      "epoch": 6.0711902113459395,
      "grad_norm": 1.4606133699417114,
      "learning_rate": 8.132208874647271e-07,
      "loss": 1.4507,
      "mean_token_accuracy": 0.6202490627765656,
      "step": 1366
    },
    {
      "epoch": 6.075639599555061,
      "grad_norm": 1.4970284700393677,
      "learning_rate": 8.096280148851538e-07,
      "loss": 1.4078,
      "mean_token_accuracy": 0.6367291808128357,
      "step": 1367
    },
    {
      "epoch": 6.080088987764182,
      "grad_norm": 1.674681305885315,
      "learning_rate": 8.060415625538059e-07,
      "loss": 1.51,
      "mean_token_accuracy": 0.6220812499523163,
      "step": 1368
    },
    {
      "epoch": 6.084538375973303,
      "grad_norm": 1.8271896839141846,
      "learning_rate": 8.024615440924847e-07,
      "loss": 1.3124,
      "mean_token_accuracy": 0.6476710438728333,
      "step": 1369
    },
    {
      "epoch": 6.088987764182425,
      "grad_norm": 1.5439916849136353,
      "learning_rate": 7.988879730985585e-07,
      "loss": 1.3843,
      "mean_token_accuracy": 0.6326534152030945,
      "step": 1370
    },
    {
      "epoch": 6.093437152391546,
      "grad_norm": 1.5058510303497314,
      "learning_rate": 7.953208631449055e-07,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6413963735103607,
      "step": 1371
    },
    {
      "epoch": 6.097886540600667,
      "grad_norm": 1.3588712215423584,
      "learning_rate": 7.917602277798613e-07,
      "loss": 1.2652,
      "mean_token_accuracy": 0.6618644893169403,
      "step": 1372
    },
    {
      "epoch": 6.102335928809788,
      "grad_norm": 1.6250109672546387,
      "learning_rate": 7.882060805271755e-07,
      "loss": 1.2992,
      "mean_token_accuracy": 0.6578385680913925,
      "step": 1373
    },
    {
      "epoch": 6.10678531701891,
      "grad_norm": 1.5503268241882324,
      "learning_rate": 7.846584348859512e-07,
      "loss": 1.4344,
      "mean_token_accuracy": 0.6247449666261673,
      "step": 1374
    },
    {
      "epoch": 6.111234705228031,
      "grad_norm": 1.5368362665176392,
      "learning_rate": 7.811173043305989e-07,
      "loss": 1.3674,
      "mean_token_accuracy": 0.643490344285965,
      "step": 1375
    },
    {
      "epoch": 6.111234705228031,
      "eval_loss": 1.425178050994873,
      "eval_mean_token_accuracy": 0.6322092002630234,
      "eval_runtime": 8.9177,
      "eval_samples_per_second": 11.214,
      "eval_steps_per_second": 11.214,
      "step": 1375
    },
    {
      "epoch": 6.115684093437152,
      "grad_norm": 1.5100685358047485,
      "learning_rate": 7.775827023107835e-07,
      "loss": 1.4042,
      "mean_token_accuracy": 0.6410306841135025,
      "step": 1376
    },
    {
      "epoch": 6.120133481646274,
      "grad_norm": 1.5013107061386108,
      "learning_rate": 7.740546422513742e-07,
      "loss": 1.364,
      "mean_token_accuracy": 0.6411839425563812,
      "step": 1377
    },
    {
      "epoch": 6.124582869855395,
      "grad_norm": 1.5783052444458008,
      "learning_rate": 7.705331375523928e-07,
      "loss": 1.4434,
      "mean_token_accuracy": 0.6328938156366348,
      "step": 1378
    },
    {
      "epoch": 6.129032258064516,
      "grad_norm": 1.5991194248199463,
      "learning_rate": 7.670182015889626e-07,
      "loss": 1.3845,
      "mean_token_accuracy": 0.6318888813257217,
      "step": 1379
    },
    {
      "epoch": 6.133481646273637,
      "grad_norm": 1.5660068988800049,
      "learning_rate": 7.635098477112588e-07,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6387487202882767,
      "step": 1380
    },
    {
      "epoch": 6.137931034482759,
      "grad_norm": 1.4947208166122437,
      "learning_rate": 7.600080892444559e-07,
      "loss": 1.4291,
      "mean_token_accuracy": 0.6296955794095993,
      "step": 1381
    },
    {
      "epoch": 6.14238042269188,
      "grad_norm": 1.4310506582260132,
      "learning_rate": 7.565129394886792e-07,
      "loss": 1.3241,
      "mean_token_accuracy": 0.6489324122667313,
      "step": 1382
    },
    {
      "epoch": 6.146829810901001,
      "grad_norm": 1.5906347036361694,
      "learning_rate": 7.530244117189528e-07,
      "loss": 1.3767,
      "mean_token_accuracy": 0.6305438876152039,
      "step": 1383
    },
    {
      "epoch": 6.151279199110123,
      "grad_norm": 1.3961163759231567,
      "learning_rate": 7.495425191851502e-07,
      "loss": 1.4035,
      "mean_token_accuracy": 0.6395100951194763,
      "step": 1384
    },
    {
      "epoch": 6.155728587319244,
      "grad_norm": 1.4114394187927246,
      "learning_rate": 7.460672751119424e-07,
      "loss": 1.3226,
      "mean_token_accuracy": 0.6368847787380219,
      "step": 1385
    },
    {
      "epoch": 6.160177975528365,
      "grad_norm": 1.553015112876892,
      "learning_rate": 7.425986926987494e-07,
      "loss": 1.3916,
      "mean_token_accuracy": 0.6309589892625809,
      "step": 1386
    },
    {
      "epoch": 6.164627363737486,
      "grad_norm": 1.4686113595962524,
      "learning_rate": 7.391367851196895e-07,
      "loss": 1.3812,
      "mean_token_accuracy": 0.6448506414890289,
      "step": 1387
    },
    {
      "epoch": 6.169076751946608,
      "grad_norm": 1.4801756143569946,
      "learning_rate": 7.356815655235286e-07,
      "loss": 1.3436,
      "mean_token_accuracy": 0.6392099410295486,
      "step": 1388
    },
    {
      "epoch": 6.173526140155729,
      "grad_norm": 1.472254991531372,
      "learning_rate": 7.322330470336314e-07,
      "loss": 1.3473,
      "mean_token_accuracy": 0.6427400559186935,
      "step": 1389
    },
    {
      "epoch": 6.17797552836485,
      "grad_norm": 1.4875283241271973,
      "learning_rate": 7.287912427479105e-07,
      "loss": 1.3306,
      "mean_token_accuracy": 0.6483492851257324,
      "step": 1390
    },
    {
      "epoch": 6.1824249165739715,
      "grad_norm": 1.3660345077514648,
      "learning_rate": 7.253561657387767e-07,
      "loss": 1.4598,
      "mean_token_accuracy": 0.622684583067894,
      "step": 1391
    },
    {
      "epoch": 6.1868743047830925,
      "grad_norm": 1.6555347442626953,
      "learning_rate": 7.219278290530909e-07,
      "loss": 1.3976,
      "mean_token_accuracy": 0.624094158411026,
      "step": 1392
    },
    {
      "epoch": 6.1913236929922135,
      "grad_norm": 1.521854281425476,
      "learning_rate": 7.185062457121128e-07,
      "loss": 1.4897,
      "mean_token_accuracy": 0.6307065635919571,
      "step": 1393
    },
    {
      "epoch": 6.1957730812013345,
      "grad_norm": 1.4450526237487793,
      "learning_rate": 7.150914287114513e-07,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6394242197275162,
      "step": 1394
    },
    {
      "epoch": 6.200222469410456,
      "grad_norm": 1.6956415176391602,
      "learning_rate": 7.116833910210172e-07,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6373387724161148,
      "step": 1395
    },
    {
      "epoch": 6.204671857619577,
      "grad_norm": 1.4497549533843994,
      "learning_rate": 7.082821455849717e-07,
      "loss": 1.4531,
      "mean_token_accuracy": 0.625353142619133,
      "step": 1396
    },
    {
      "epoch": 6.209121245828698,
      "grad_norm": 1.5650886297225952,
      "learning_rate": 7.048877053216785e-07,
      "loss": 1.3564,
      "mean_token_accuracy": 0.6443080753087997,
      "step": 1397
    },
    {
      "epoch": 6.213570634037819,
      "grad_norm": 1.4409035444259644,
      "learning_rate": 7.015000831236543e-07,
      "loss": 1.2323,
      "mean_token_accuracy": 0.6582183837890625,
      "step": 1398
    },
    {
      "epoch": 6.218020022246941,
      "grad_norm": 1.5309683084487915,
      "learning_rate": 6.9811929185752e-07,
      "loss": 1.4144,
      "mean_token_accuracy": 0.6370106637477875,
      "step": 1399
    },
    {
      "epoch": 6.222469410456062,
      "grad_norm": 1.5562567710876465,
      "learning_rate": 6.947453443639515e-07,
      "loss": 1.3705,
      "mean_token_accuracy": 0.6284903734922409,
      "step": 1400
    },
    {
      "epoch": 6.222469410456062,
      "eval_loss": 1.4247262477874756,
      "eval_mean_token_accuracy": 0.6320297914743424,
      "eval_runtime": 8.9966,
      "eval_samples_per_second": 11.115,
      "eval_steps_per_second": 11.115,
      "step": 1400
    },
    {
      "epoch": 6.226918798665183,
      "grad_norm": 1.481066107749939,
      "learning_rate": 6.913782534576316e-07,
      "loss": 1.4436,
      "mean_token_accuracy": 0.63198621571064,
      "step": 1401
    },
    {
      "epoch": 6.231368186874305,
      "grad_norm": 1.4924771785736084,
      "learning_rate": 6.880180319272006e-07,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6424178034067154,
      "step": 1402
    },
    {
      "epoch": 6.235817575083426,
      "grad_norm": 1.4197953939437866,
      "learning_rate": 6.84664692535208e-07,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6443773359060287,
      "step": 1403
    },
    {
      "epoch": 6.240266963292547,
      "grad_norm": 1.615602731704712,
      "learning_rate": 6.813182480180641e-07,
      "loss": 1.4191,
      "mean_token_accuracy": 0.6286876648664474,
      "step": 1404
    },
    {
      "epoch": 6.244716351501668,
      "grad_norm": 1.6647517681121826,
      "learning_rate": 6.77978711085992e-07,
      "loss": 1.4341,
      "mean_token_accuracy": 0.6296736299991608,
      "step": 1405
    },
    {
      "epoch": 6.24916573971079,
      "grad_norm": 1.4354274272918701,
      "learning_rate": 6.746460944229783e-07,
      "loss": 1.3788,
      "mean_token_accuracy": 0.6388193368911743,
      "step": 1406
    },
    {
      "epoch": 6.253615127919911,
      "grad_norm": 1.6015726327896118,
      "learning_rate": 6.713204106867249e-07,
      "loss": 1.3847,
      "mean_token_accuracy": 0.6434274464845657,
      "step": 1407
    },
    {
      "epoch": 6.258064516129032,
      "grad_norm": 1.4807785749435425,
      "learning_rate": 6.680016725086053e-07,
      "loss": 1.322,
      "mean_token_accuracy": 0.6546338349580765,
      "step": 1408
    },
    {
      "epoch": 6.262513904338154,
      "grad_norm": 1.463917851448059,
      "learning_rate": 6.646898924936071e-07,
      "loss": 1.3405,
      "mean_token_accuracy": 0.6364247649908066,
      "step": 1409
    },
    {
      "epoch": 6.266963292547275,
      "grad_norm": 1.4548873901367188,
      "learning_rate": 6.613850832202934e-07,
      "loss": 1.2906,
      "mean_token_accuracy": 0.6489612609148026,
      "step": 1410
    },
    {
      "epoch": 6.271412680756396,
      "grad_norm": 1.596712350845337,
      "learning_rate": 6.580872572407529e-07,
      "loss": 1.4921,
      "mean_token_accuracy": 0.6064020693302155,
      "step": 1411
    },
    {
      "epoch": 6.275862068965517,
      "grad_norm": 1.4178262948989868,
      "learning_rate": 6.547964270805468e-07,
      "loss": 1.3387,
      "mean_token_accuracy": 0.6455594897270203,
      "step": 1412
    },
    {
      "epoch": 6.280311457174639,
      "grad_norm": 1.4428939819335938,
      "learning_rate": 6.515126052386677e-07,
      "loss": 1.3681,
      "mean_token_accuracy": 0.6416269093751907,
      "step": 1413
    },
    {
      "epoch": 6.28476084538376,
      "grad_norm": 1.4885427951812744,
      "learning_rate": 6.482358041874914e-07,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6442750692367554,
      "step": 1414
    },
    {
      "epoch": 6.289210233592881,
      "grad_norm": 1.4536961317062378,
      "learning_rate": 6.449660363727236e-07,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6470102667808533,
      "step": 1415
    },
    {
      "epoch": 6.293659621802002,
      "grad_norm": 1.5656979084014893,
      "learning_rate": 6.417033142133594e-07,
      "loss": 1.4631,
      "mean_token_accuracy": 0.6208974719047546,
      "step": 1416
    },
    {
      "epoch": 6.298109010011124,
      "grad_norm": 1.4706330299377441,
      "learning_rate": 6.384476501016348e-07,
      "loss": 1.3516,
      "mean_token_accuracy": 0.6458914428949356,
      "step": 1417
    },
    {
      "epoch": 6.302558398220245,
      "grad_norm": 1.4513705968856812,
      "learning_rate": 6.351990564029767e-07,
      "loss": 1.3259,
      "mean_token_accuracy": 0.6376019567251205,
      "step": 1418
    },
    {
      "epoch": 6.307007786429366,
      "grad_norm": 1.6981589794158936,
      "learning_rate": 6.319575454559562e-07,
      "loss": 1.4253,
      "mean_token_accuracy": 0.6256521940231323,
      "step": 1419
    },
    {
      "epoch": 6.3114571746384875,
      "grad_norm": 1.4178975820541382,
      "learning_rate": 6.28723129572247e-07,
      "loss": 1.4428,
      "mean_token_accuracy": 0.6296116709709167,
      "step": 1420
    },
    {
      "epoch": 6.3159065628476085,
      "grad_norm": 1.4691441059112549,
      "learning_rate": 6.25495821036573e-07,
      "loss": 1.4399,
      "mean_token_accuracy": 0.621179386973381,
      "step": 1421
    },
    {
      "epoch": 6.3203559510567295,
      "grad_norm": 1.5552293062210083,
      "learning_rate": 6.222756321066609e-07,
      "loss": 1.4203,
      "mean_token_accuracy": 0.6329961121082306,
      "step": 1422
    },
    {
      "epoch": 6.3248053392658505,
      "grad_norm": 1.3847298622131348,
      "learning_rate": 6.190625750132009e-07,
      "loss": 1.3661,
      "mean_token_accuracy": 0.6423301547765732,
      "step": 1423
    },
    {
      "epoch": 6.329254727474972,
      "grad_norm": 1.5509151220321655,
      "learning_rate": 6.158566619597933e-07,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6286559104919434,
      "step": 1424
    },
    {
      "epoch": 6.333704115684093,
      "grad_norm": 1.5198397636413574,
      "learning_rate": 6.12657905122902e-07,
      "loss": 1.3609,
      "mean_token_accuracy": 0.6449938863515854,
      "step": 1425
    },
    {
      "epoch": 6.333704115684093,
      "eval_loss": 1.4233884811401367,
      "eval_mean_token_accuracy": 0.6321878212690354,
      "eval_runtime": 8.8612,
      "eval_samples_per_second": 11.285,
      "eval_steps_per_second": 11.285,
      "step": 1425
    },
    {
      "epoch": 6.338153503893214,
      "grad_norm": 1.4918714761734009,
      "learning_rate": 6.094663166518161e-07,
      "loss": 1.3927,
      "mean_token_accuracy": 0.6324483007192612,
      "step": 1426
    },
    {
      "epoch": 6.342602892102336,
      "grad_norm": 1.6186556816101074,
      "learning_rate": 6.062819086685945e-07,
      "loss": 1.5254,
      "mean_token_accuracy": 0.6203466802835464,
      "step": 1427
    },
    {
      "epoch": 6.347052280311457,
      "grad_norm": 1.5117939710617065,
      "learning_rate": 6.031046932680229e-07,
      "loss": 1.3361,
      "mean_token_accuracy": 0.6491797417402267,
      "step": 1428
    },
    {
      "epoch": 6.351501668520578,
      "grad_norm": 1.5341242551803589,
      "learning_rate": 5.99934682517572e-07,
      "loss": 1.3965,
      "mean_token_accuracy": 0.6275193244218826,
      "step": 1429
    },
    {
      "epoch": 6.355951056729699,
      "grad_norm": 1.4633057117462158,
      "learning_rate": 5.967718884573465e-07,
      "loss": 1.3464,
      "mean_token_accuracy": 0.649927482008934,
      "step": 1430
    },
    {
      "epoch": 6.360400444938821,
      "grad_norm": 1.6357494592666626,
      "learning_rate": 5.936163231000408e-07,
      "loss": 1.4055,
      "mean_token_accuracy": 0.6355754882097244,
      "step": 1431
    },
    {
      "epoch": 6.364849833147942,
      "grad_norm": 1.4339208602905273,
      "learning_rate": 5.904679984308947e-07,
      "loss": 1.4658,
      "mean_token_accuracy": 0.6225008219480515,
      "step": 1432
    },
    {
      "epoch": 6.369299221357063,
      "grad_norm": 1.5476534366607666,
      "learning_rate": 5.873269264076462e-07,
      "loss": 1.4245,
      "mean_token_accuracy": 0.6351538151502609,
      "step": 1433
    },
    {
      "epoch": 6.373748609566185,
      "grad_norm": 1.5425907373428345,
      "learning_rate": 5.841931189604874e-07,
      "loss": 1.4159,
      "mean_token_accuracy": 0.6310716867446899,
      "step": 1434
    },
    {
      "epoch": 6.378197997775306,
      "grad_norm": 1.839476466178894,
      "learning_rate": 5.810665879920179e-07,
      "loss": 1.5534,
      "mean_token_accuracy": 0.6077283918857574,
      "step": 1435
    },
    {
      "epoch": 6.382647385984427,
      "grad_norm": 1.4620699882507324,
      "learning_rate": 5.779473453772017e-07,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6494565308094025,
      "step": 1436
    },
    {
      "epoch": 6.387096774193548,
      "grad_norm": 1.5477632284164429,
      "learning_rate": 5.748354029633188e-07,
      "loss": 1.3664,
      "mean_token_accuracy": 0.6422964632511139,
      "step": 1437
    },
    {
      "epoch": 6.39154616240267,
      "grad_norm": 1.4758188724517822,
      "learning_rate": 5.717307725699234e-07,
      "loss": 1.4518,
      "mean_token_accuracy": 0.6243294775485992,
      "step": 1438
    },
    {
      "epoch": 6.395995550611791,
      "grad_norm": 1.4139432907104492,
      "learning_rate": 5.686334659887977e-07,
      "loss": 1.3561,
      "mean_token_accuracy": 0.6450997143983841,
      "step": 1439
    },
    {
      "epoch": 6.400444938820912,
      "grad_norm": 1.521164059638977,
      "learning_rate": 5.655434949839061e-07,
      "loss": 1.4194,
      "mean_token_accuracy": 0.6291891187429428,
      "step": 1440
    },
    {
      "epoch": 6.404894327030034,
      "grad_norm": 1.4694836139678955,
      "learning_rate": 5.624608712913531e-07,
      "loss": 1.3715,
      "mean_token_accuracy": 0.6404877454042435,
      "step": 1441
    },
    {
      "epoch": 6.409343715239155,
      "grad_norm": 1.5002261400222778,
      "learning_rate": 5.593856066193362e-07,
      "loss": 1.4587,
      "mean_token_accuracy": 0.62244713306427,
      "step": 1442
    },
    {
      "epoch": 6.413793103448276,
      "grad_norm": 1.453671932220459,
      "learning_rate": 5.56317712648102e-07,
      "loss": 1.3709,
      "mean_token_accuracy": 0.6461219787597656,
      "step": 1443
    },
    {
      "epoch": 6.418242491657397,
      "grad_norm": 1.5633399486541748,
      "learning_rate": 5.532572010299034e-07,
      "loss": 1.4123,
      "mean_token_accuracy": 0.6228586435317993,
      "step": 1444
    },
    {
      "epoch": 6.422691879866519,
      "grad_norm": 1.4777312278747559,
      "learning_rate": 5.50204083388953e-07,
      "loss": 1.3369,
      "mean_token_accuracy": 0.6413799226284027,
      "step": 1445
    },
    {
      "epoch": 6.42714126807564,
      "grad_norm": 1.582250952720642,
      "learning_rate": 5.471583713213812e-07,
      "loss": 1.3713,
      "mean_token_accuracy": 0.6371764987707138,
      "step": 1446
    },
    {
      "epoch": 6.431590656284761,
      "grad_norm": 1.4703013896942139,
      "learning_rate": 5.441200763951904e-07,
      "loss": 1.3913,
      "mean_token_accuracy": 0.6294511258602142,
      "step": 1447
    },
    {
      "epoch": 6.436040044493883,
      "grad_norm": 1.5128239393234253,
      "learning_rate": 5.410892101502119e-07,
      "loss": 1.2701,
      "mean_token_accuracy": 0.6409321874380112,
      "step": 1448
    },
    {
      "epoch": 6.440489432703004,
      "grad_norm": 1.4598469734191895,
      "learning_rate": 5.380657840980619e-07,
      "loss": 1.4621,
      "mean_token_accuracy": 0.621395468711853,
      "step": 1449
    },
    {
      "epoch": 6.4449388209121246,
      "grad_norm": 1.5588932037353516,
      "learning_rate": 5.350498097220972e-07,
      "loss": 1.516,
      "mean_token_accuracy": 0.6038047224283218,
      "step": 1450
    },
    {
      "epoch": 6.4449388209121246,
      "eval_loss": 1.422914981842041,
      "eval_mean_token_accuracy": 0.6319479018449783,
      "eval_runtime": 9.1406,
      "eval_samples_per_second": 10.94,
      "eval_steps_per_second": 10.94,
      "step": 1450
    },
    {
      "epoch": 6.4493882091212456,
      "grad_norm": 1.4171643257141113,
      "learning_rate": 5.320412984773749e-07,
      "loss": 1.45,
      "mean_token_accuracy": 0.6370815187692642,
      "step": 1451
    },
    {
      "epoch": 6.453837597330367,
      "grad_norm": 1.3826327323913574,
      "learning_rate": 5.290402617906021e-07,
      "loss": 1.3228,
      "mean_token_accuracy": 0.6486800611019135,
      "step": 1452
    },
    {
      "epoch": 6.458286985539488,
      "grad_norm": 1.4737180471420288,
      "learning_rate": 5.26046711060099e-07,
      "loss": 1.3525,
      "mean_token_accuracy": 0.6398346871137619,
      "step": 1453
    },
    {
      "epoch": 6.462736373748609,
      "grad_norm": 1.4281593561172485,
      "learning_rate": 5.23060657655754e-07,
      "loss": 1.3612,
      "mean_token_accuracy": 0.6420828253030777,
      "step": 1454
    },
    {
      "epoch": 6.46718576195773,
      "grad_norm": 1.4483674764633179,
      "learning_rate": 5.20082112918977e-07,
      "loss": 1.4042,
      "mean_token_accuracy": 0.6422804743051529,
      "step": 1455
    },
    {
      "epoch": 6.471635150166852,
      "grad_norm": 1.4719246625900269,
      "learning_rate": 5.171110881626604e-07,
      "loss": 1.4074,
      "mean_token_accuracy": 0.6389439851045609,
      "step": 1456
    },
    {
      "epoch": 6.476084538375973,
      "grad_norm": 1.4779449701309204,
      "learning_rate": 5.141475946711369e-07,
      "loss": 1.5001,
      "mean_token_accuracy": 0.6116603165864944,
      "step": 1457
    },
    {
      "epoch": 6.480533926585094,
      "grad_norm": 1.483306646347046,
      "learning_rate": 5.111916437001302e-07,
      "loss": 1.3751,
      "mean_token_accuracy": 0.6372592002153397,
      "step": 1458
    },
    {
      "epoch": 6.484983314794216,
      "grad_norm": 1.4481213092803955,
      "learning_rate": 5.082432464767193e-07,
      "loss": 1.4347,
      "mean_token_accuracy": 0.6292093396186829,
      "step": 1459
    },
    {
      "epoch": 6.489432703003337,
      "grad_norm": 1.4273269176483154,
      "learning_rate": 5.053024141992935e-07,
      "loss": 1.3869,
      "mean_token_accuracy": 0.637951210141182,
      "step": 1460
    },
    {
      "epoch": 6.493882091212458,
      "grad_norm": 1.4340115785598755,
      "learning_rate": 5.023691580375087e-07,
      "loss": 1.3463,
      "mean_token_accuracy": 0.6348742544651031,
      "step": 1461
    },
    {
      "epoch": 6.498331479421579,
      "grad_norm": 1.431151270866394,
      "learning_rate": 4.994434891322436e-07,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6445408761501312,
      "step": 1462
    },
    {
      "epoch": 6.502780867630701,
      "grad_norm": 1.4777053594589233,
      "learning_rate": 4.965254185955637e-07,
      "loss": 1.369,
      "mean_token_accuracy": 0.639686182141304,
      "step": 1463
    },
    {
      "epoch": 6.507230255839822,
      "grad_norm": 1.4716546535491943,
      "learning_rate": 4.936149575106727e-07,
      "loss": 1.2922,
      "mean_token_accuracy": 0.6494455486536026,
      "step": 1464
    },
    {
      "epoch": 6.511679644048943,
      "grad_norm": 1.5307658910751343,
      "learning_rate": 4.907121169318707e-07,
      "loss": 1.501,
      "mean_token_accuracy": 0.6252382099628448,
      "step": 1465
    },
    {
      "epoch": 6.516129032258064,
      "grad_norm": 1.608070969581604,
      "learning_rate": 4.87816907884518e-07,
      "loss": 1.4301,
      "mean_token_accuracy": 0.6315825581550598,
      "step": 1466
    },
    {
      "epoch": 6.520578420467186,
      "grad_norm": 1.4375643730163574,
      "learning_rate": 4.84929341364988e-07,
      "loss": 1.4088,
      "mean_token_accuracy": 0.6417786329984665,
      "step": 1467
    },
    {
      "epoch": 6.525027808676307,
      "grad_norm": 1.3832885026931763,
      "learning_rate": 4.820494283406238e-07,
      "loss": 1.3846,
      "mean_token_accuracy": 0.6310902684926987,
      "step": 1468
    },
    {
      "epoch": 6.529477196885428,
      "grad_norm": 1.5442488193511963,
      "learning_rate": 4.791771797497044e-07,
      "loss": 1.3807,
      "mean_token_accuracy": 0.6370522081851959,
      "step": 1469
    },
    {
      "epoch": 6.53392658509455,
      "grad_norm": 1.5722665786743164,
      "learning_rate": 4.7631260650139595e-07,
      "loss": 1.5137,
      "mean_token_accuracy": 0.6162304133176804,
      "step": 1470
    },
    {
      "epoch": 6.538375973303671,
      "grad_norm": 1.5270426273345947,
      "learning_rate": 4.7345571947571137e-07,
      "loss": 1.33,
      "mean_token_accuracy": 0.6457525491714478,
      "step": 1471
    },
    {
      "epoch": 6.542825361512792,
      "grad_norm": 1.4543670415878296,
      "learning_rate": 4.706065295234719e-07,
      "loss": 1.2864,
      "mean_token_accuracy": 0.6529543250799179,
      "step": 1472
    },
    {
      "epoch": 6.547274749721913,
      "grad_norm": 1.4009928703308105,
      "learning_rate": 4.6776504746626484e-07,
      "loss": 1.3198,
      "mean_token_accuracy": 0.6516888439655304,
      "step": 1473
    },
    {
      "epoch": 6.551724137931035,
      "grad_norm": 1.5433239936828613,
      "learning_rate": 4.6493128409640153e-07,
      "loss": 1.4107,
      "mean_token_accuracy": 0.6272226274013519,
      "step": 1474
    },
    {
      "epoch": 6.556173526140156,
      "grad_norm": 1.5503349304199219,
      "learning_rate": 4.621052501768747e-07,
      "loss": 1.4401,
      "mean_token_accuracy": 0.6295250803232193,
      "step": 1475
    },
    {
      "epoch": 6.556173526140156,
      "eval_loss": 1.4226363897323608,
      "eval_mean_token_accuracy": 0.632375608086586,
      "eval_runtime": 8.863,
      "eval_samples_per_second": 11.283,
      "eval_steps_per_second": 11.283,
      "step": 1475
    },
    {
      "epoch": 6.560622914349277,
      "grad_norm": 1.5757932662963867,
      "learning_rate": 4.592869564413227e-07,
      "loss": 1.5046,
      "mean_token_accuracy": 0.6241772323846817,
      "step": 1476
    },
    {
      "epoch": 6.565072302558399,
      "grad_norm": 1.5421161651611328,
      "learning_rate": 4.5647641359398475e-07,
      "loss": 1.3657,
      "mean_token_accuracy": 0.6427178233861923,
      "step": 1477
    },
    {
      "epoch": 6.56952169076752,
      "grad_norm": 1.6755980253219604,
      "learning_rate": 4.536736323096586e-07,
      "loss": 1.4079,
      "mean_token_accuracy": 0.6331861317157745,
      "step": 1478
    },
    {
      "epoch": 6.573971078976641,
      "grad_norm": 1.520509123802185,
      "learning_rate": 4.5087862323366675e-07,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6378039717674255,
      "step": 1479
    },
    {
      "epoch": 6.578420467185762,
      "grad_norm": 1.388497233390808,
      "learning_rate": 4.480913969818099e-07,
      "loss": 1.346,
      "mean_token_accuracy": 0.6458738595247269,
      "step": 1480
    },
    {
      "epoch": 6.5828698553948835,
      "grad_norm": 1.480156660079956,
      "learning_rate": 4.4531196414032666e-07,
      "loss": 1.3804,
      "mean_token_accuracy": 0.6452940851449966,
      "step": 1481
    },
    {
      "epoch": 6.5873192436040044,
      "grad_norm": 1.3911583423614502,
      "learning_rate": 4.4254033526585917e-07,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6333415508270264,
      "step": 1482
    },
    {
      "epoch": 6.5917686318131254,
      "grad_norm": 1.5145050287246704,
      "learning_rate": 4.397765208854063e-07,
      "loss": 1.2658,
      "mean_token_accuracy": 0.6616923958063126,
      "step": 1483
    },
    {
      "epoch": 6.596218020022247,
      "grad_norm": 1.517917275428772,
      "learning_rate": 4.370205314962872e-07,
      "loss": 1.3296,
      "mean_token_accuracy": 0.6416096538305283,
      "step": 1484
    },
    {
      "epoch": 6.600667408231368,
      "grad_norm": 1.4095664024353027,
      "learning_rate": 4.342723775661012e-07,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6380327641963959,
      "step": 1485
    },
    {
      "epoch": 6.605116796440489,
      "grad_norm": 1.6311438083648682,
      "learning_rate": 4.3153206953268715e-07,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6233521848917007,
      "step": 1486
    },
    {
      "epoch": 6.60956618464961,
      "grad_norm": 1.5850639343261719,
      "learning_rate": 4.2879961780408373e-07,
      "loss": 1.3602,
      "mean_token_accuracy": 0.6383883208036423,
      "step": 1487
    },
    {
      "epoch": 6.614015572858732,
      "grad_norm": 1.559414267539978,
      "learning_rate": 4.2607503275849116e-07,
      "loss": 1.3879,
      "mean_token_accuracy": 0.631654217839241,
      "step": 1488
    },
    {
      "epoch": 6.618464961067853,
      "grad_norm": 1.4458551406860352,
      "learning_rate": 4.2335832474423047e-07,
      "loss": 1.2468,
      "mean_token_accuracy": 0.6658211797475815,
      "step": 1489
    },
    {
      "epoch": 6.622914349276974,
      "grad_norm": 1.431897521018982,
      "learning_rate": 4.206495040797051e-07,
      "loss": 1.3193,
      "mean_token_accuracy": 0.6459860801696777,
      "step": 1490
    },
    {
      "epoch": 6.627363737486096,
      "grad_norm": 1.4369759559631348,
      "learning_rate": 4.179485810533612e-07,
      "loss": 1.3243,
      "mean_token_accuracy": 0.6508724838495255,
      "step": 1491
    },
    {
      "epoch": 6.631813125695217,
      "grad_norm": 1.4338257312774658,
      "learning_rate": 4.152555659236485e-07,
      "loss": 1.3558,
      "mean_token_accuracy": 0.6503326445817947,
      "step": 1492
    },
    {
      "epoch": 6.636262513904338,
      "grad_norm": 1.391212821006775,
      "learning_rate": 4.125704689189819e-07,
      "loss": 1.3794,
      "mean_token_accuracy": 0.6369931995868683,
      "step": 1493
    },
    {
      "epoch": 6.640711902113459,
      "grad_norm": 1.5065999031066895,
      "learning_rate": 4.0989330023770146e-07,
      "loss": 1.3219,
      "mean_token_accuracy": 0.6427704840898514,
      "step": 1494
    },
    {
      "epoch": 6.645161290322581,
      "grad_norm": 1.4071263074874878,
      "learning_rate": 4.0722407004803567e-07,
      "loss": 1.4388,
      "mean_token_accuracy": 0.6315575987100601,
      "step": 1495
    },
    {
      "epoch": 6.649610678531702,
      "grad_norm": 1.7007728815078735,
      "learning_rate": 4.0456278848806067e-07,
      "loss": 1.5186,
      "mean_token_accuracy": 0.6092693656682968,
      "step": 1496
    },
    {
      "epoch": 6.654060066740823,
      "grad_norm": 1.4929633140563965,
      "learning_rate": 4.0190946566566275e-07,
      "loss": 1.4019,
      "mean_token_accuracy": 0.6420727372169495,
      "step": 1497
    },
    {
      "epoch": 6.658509454949945,
      "grad_norm": 1.413386344909668,
      "learning_rate": 3.9926411165850054e-07,
      "loss": 1.4525,
      "mean_token_accuracy": 0.6196020692586899,
      "step": 1498
    },
    {
      "epoch": 6.662958843159066,
      "grad_norm": 1.5155723094940186,
      "learning_rate": 3.966267365139656e-07,
      "loss": 1.4224,
      "mean_token_accuracy": 0.6347207427024841,
      "step": 1499
    },
    {
      "epoch": 6.667408231368187,
      "grad_norm": 1.4880372285842896,
      "learning_rate": 3.939973502491448e-07,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6323777586221695,
      "step": 1500
    },
    {
      "epoch": 6.667408231368187,
      "eval_loss": 1.42209792137146,
      "eval_mean_token_accuracy": 0.63245181620121,
      "eval_runtime": 8.9008,
      "eval_samples_per_second": 11.235,
      "eval_steps_per_second": 11.235,
      "step": 1500
    },
    {
      "epoch": 6.671857619577308,
      "grad_norm": 1.4414201974868774,
      "learning_rate": 3.913759628507821e-07,
      "loss": 1.3292,
      "mean_token_accuracy": 0.6542750746011734,
      "step": 1501
    },
    {
      "epoch": 6.67630700778643,
      "grad_norm": 1.4280017614364624,
      "learning_rate": 3.887625842752413e-07,
      "loss": 1.2648,
      "mean_token_accuracy": 0.6591671109199524,
      "step": 1502
    },
    {
      "epoch": 6.680756395995551,
      "grad_norm": 1.5317491292953491,
      "learning_rate": 3.8615722444846684e-07,
      "loss": 1.3906,
      "mean_token_accuracy": 0.6260375678539276,
      "step": 1503
    },
    {
      "epoch": 6.685205784204672,
      "grad_norm": 1.428501009941101,
      "learning_rate": 3.835598932659476e-07,
      "loss": 1.3854,
      "mean_token_accuracy": 0.6377438455820084,
      "step": 1504
    },
    {
      "epoch": 6.689655172413794,
      "grad_norm": 1.612993836402893,
      "learning_rate": 3.809706005926786e-07,
      "loss": 1.2685,
      "mean_token_accuracy": 0.6567389965057373,
      "step": 1505
    },
    {
      "epoch": 6.694104560622915,
      "grad_norm": 1.352658987045288,
      "learning_rate": 3.7838935626312246e-07,
      "loss": 1.2541,
      "mean_token_accuracy": 0.6687124073505402,
      "step": 1506
    },
    {
      "epoch": 6.698553948832036,
      "grad_norm": 1.4364101886749268,
      "learning_rate": 3.7581617008117605e-07,
      "loss": 1.3081,
      "mean_token_accuracy": 0.6476958394050598,
      "step": 1507
    },
    {
      "epoch": 6.703003337041157,
      "grad_norm": 1.5376663208007812,
      "learning_rate": 3.7325105182012656e-07,
      "loss": 1.4071,
      "mean_token_accuracy": 0.6288268119096756,
      "step": 1508
    },
    {
      "epoch": 6.7074527252502785,
      "grad_norm": 1.4561630487442017,
      "learning_rate": 3.706940112226201e-07,
      "loss": 1.4282,
      "mean_token_accuracy": 0.6408223807811737,
      "step": 1509
    },
    {
      "epoch": 6.7119021134593995,
      "grad_norm": 1.4495524168014526,
      "learning_rate": 3.681450580006246e-07,
      "loss": 1.2521,
      "mean_token_accuracy": 0.656073272228241,
      "step": 1510
    },
    {
      "epoch": 6.7163515016685205,
      "grad_norm": 1.445773959159851,
      "learning_rate": 3.6560420183538755e-07,
      "loss": 1.3554,
      "mean_token_accuracy": 0.6277506947517395,
      "step": 1511
    },
    {
      "epoch": 6.7208008898776415,
      "grad_norm": 1.499528169631958,
      "learning_rate": 3.6307145237740427e-07,
      "loss": 1.2551,
      "mean_token_accuracy": 0.6551808416843414,
      "step": 1512
    },
    {
      "epoch": 6.725250278086763,
      "grad_norm": 1.5485849380493164,
      "learning_rate": 3.6054681924638154e-07,
      "loss": 1.3252,
      "mean_token_accuracy": 0.6468542665243149,
      "step": 1513
    },
    {
      "epoch": 6.729699666295884,
      "grad_norm": 1.3869826793670654,
      "learning_rate": 3.580303120311965e-07,
      "loss": 1.3722,
      "mean_token_accuracy": 0.6479015648365021,
      "step": 1514
    },
    {
      "epoch": 6.734149054505005,
      "grad_norm": 1.5807476043701172,
      "learning_rate": 3.555219402898641e-07,
      "loss": 1.325,
      "mean_token_accuracy": 0.6423078924417496,
      "step": 1515
    },
    {
      "epoch": 6.738598442714126,
      "grad_norm": 1.4815796613693237,
      "learning_rate": 3.5302171354950065e-07,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6349452137947083,
      "step": 1516
    },
    {
      "epoch": 6.743047830923248,
      "grad_norm": 1.524269461631775,
      "learning_rate": 3.505296413062864e-07,
      "loss": 1.3865,
      "mean_token_accuracy": 0.6372606456279755,
      "step": 1517
    },
    {
      "epoch": 6.747497219132369,
      "grad_norm": 1.6012378931045532,
      "learning_rate": 3.480457330254275e-07,
      "loss": 1.5376,
      "mean_token_accuracy": 0.6094193607568741,
      "step": 1518
    },
    {
      "epoch": 6.75194660734149,
      "grad_norm": 1.643444299697876,
      "learning_rate": 3.455699981411259e-07,
      "loss": 1.4546,
      "mean_token_accuracy": 0.6238197982311249,
      "step": 1519
    },
    {
      "epoch": 6.756395995550612,
      "grad_norm": 1.5200653076171875,
      "learning_rate": 3.43102446056538e-07,
      "loss": 1.4491,
      "mean_token_accuracy": 0.6179964989423752,
      "step": 1520
    },
    {
      "epoch": 6.760845383759733,
      "grad_norm": 1.5645883083343506,
      "learning_rate": 3.4064308614373957e-07,
      "loss": 1.4179,
      "mean_token_accuracy": 0.6264339685440063,
      "step": 1521
    },
    {
      "epoch": 6.765294771968854,
      "grad_norm": 1.4804589748382568,
      "learning_rate": 3.381919277436946e-07,
      "loss": 1.3236,
      "mean_token_accuracy": 0.6496755927801132,
      "step": 1522
    },
    {
      "epoch": 6.769744160177975,
      "grad_norm": 1.3906340599060059,
      "learning_rate": 3.3574898016621505e-07,
      "loss": 1.2821,
      "mean_token_accuracy": 0.6574409008026123,
      "step": 1523
    },
    {
      "epoch": 6.774193548387097,
      "grad_norm": 1.4812902212142944,
      "learning_rate": 3.333142526899255e-07,
      "loss": 1.3871,
      "mean_token_accuracy": 0.6429736614227295,
      "step": 1524
    },
    {
      "epoch": 6.778642936596218,
      "grad_norm": 1.5212442874908447,
      "learning_rate": 3.3088775456223297e-07,
      "loss": 1.3467,
      "mean_token_accuracy": 0.652989074587822,
      "step": 1525
    },
    {
      "epoch": 6.778642936596218,
      "eval_loss": 1.4217075109481812,
      "eval_mean_token_accuracy": 0.6325944411754608,
      "eval_runtime": 8.9059,
      "eval_samples_per_second": 11.229,
      "eval_steps_per_second": 11.229,
      "step": 1525
    },
    {
      "epoch": 6.783092324805339,
      "grad_norm": 1.5863549709320068,
      "learning_rate": 3.2846949499928616e-07,
      "loss": 1.4622,
      "mean_token_accuracy": 0.6290006935596466,
      "step": 1526
    },
    {
      "epoch": 6.787541713014461,
      "grad_norm": 1.5668214559555054,
      "learning_rate": 3.260594831859426e-07,
      "loss": 1.3471,
      "mean_token_accuracy": 0.6489663124084473,
      "step": 1527
    },
    {
      "epoch": 6.791991101223582,
      "grad_norm": 1.5380573272705078,
      "learning_rate": 3.2365772827573473e-07,
      "loss": 1.3795,
      "mean_token_accuracy": 0.6413847655057907,
      "step": 1528
    },
    {
      "epoch": 6.796440489432703,
      "grad_norm": 1.583189845085144,
      "learning_rate": 3.212642393908336e-07,
      "loss": 1.4255,
      "mean_token_accuracy": 0.6371680051088333,
      "step": 1529
    },
    {
      "epoch": 6.800889877641824,
      "grad_norm": 1.3904333114624023,
      "learning_rate": 3.1887902562201506e-07,
      "loss": 1.3006,
      "mean_token_accuracy": 0.6479147672653198,
      "step": 1530
    },
    {
      "epoch": 6.805339265850946,
      "grad_norm": 1.428275227546692,
      "learning_rate": 3.16502096028625e-07,
      "loss": 1.33,
      "mean_token_accuracy": 0.6443920731544495,
      "step": 1531
    },
    {
      "epoch": 6.809788654060067,
      "grad_norm": 1.4798531532287598,
      "learning_rate": 3.141334596385448e-07,
      "loss": 1.3492,
      "mean_token_accuracy": 0.6371439397335052,
      "step": 1532
    },
    {
      "epoch": 6.814238042269188,
      "grad_norm": 1.5642845630645752,
      "learning_rate": 3.1177312544815735e-07,
      "loss": 1.4244,
      "mean_token_accuracy": 0.6327198445796967,
      "step": 1533
    },
    {
      "epoch": 6.81868743047831,
      "grad_norm": 1.6192699670791626,
      "learning_rate": 3.0942110242231316e-07,
      "loss": 1.3722,
      "mean_token_accuracy": 0.633192703127861,
      "step": 1534
    },
    {
      "epoch": 6.823136818687431,
      "grad_norm": 1.3850759267807007,
      "learning_rate": 3.070773994942949e-07,
      "loss": 1.3597,
      "mean_token_accuracy": 0.6410220861434937,
      "step": 1535
    },
    {
      "epoch": 6.827586206896552,
      "grad_norm": 1.4212311506271362,
      "learning_rate": 3.0474202556578513e-07,
      "loss": 1.343,
      "mean_token_accuracy": 0.6483237743377686,
      "step": 1536
    },
    {
      "epoch": 6.832035595105673,
      "grad_norm": 1.4540588855743408,
      "learning_rate": 3.024149895068318e-07,
      "loss": 1.3066,
      "mean_token_accuracy": 0.6608219742774963,
      "step": 1537
    },
    {
      "epoch": 6.8364849833147945,
      "grad_norm": 1.5389790534973145,
      "learning_rate": 3.000963001558141e-07,
      "loss": 1.3406,
      "mean_token_accuracy": 0.6418070793151855,
      "step": 1538
    },
    {
      "epoch": 6.8409343715239155,
      "grad_norm": 1.5714751482009888,
      "learning_rate": 2.9778596631940993e-07,
      "loss": 1.4038,
      "mean_token_accuracy": 0.6334587037563324,
      "step": 1539
    },
    {
      "epoch": 6.8453837597330365,
      "grad_norm": 1.4626363515853882,
      "learning_rate": 2.9548399677256174e-07,
      "loss": 1.3166,
      "mean_token_accuracy": 0.6530186384916306,
      "step": 1540
    },
    {
      "epoch": 6.849833147942158,
      "grad_norm": 1.3656796216964722,
      "learning_rate": 2.931904002584432e-07,
      "loss": 1.3778,
      "mean_token_accuracy": 0.6503431349992752,
      "step": 1541
    },
    {
      "epoch": 6.854282536151279,
      "grad_norm": 1.4797381162643433,
      "learning_rate": 2.9090518548842594e-07,
      "loss": 1.3328,
      "mean_token_accuracy": 0.6568173170089722,
      "step": 1542
    },
    {
      "epoch": 6.8587319243604,
      "grad_norm": 1.4540326595306396,
      "learning_rate": 2.8862836114204705e-07,
      "loss": 1.2616,
      "mean_token_accuracy": 0.6599301695823669,
      "step": 1543
    },
    {
      "epoch": 6.863181312569521,
      "grad_norm": 1.6023187637329102,
      "learning_rate": 2.8635993586697555e-07,
      "loss": 1.4355,
      "mean_token_accuracy": 0.6284476965665817,
      "step": 1544
    },
    {
      "epoch": 6.867630700778643,
      "grad_norm": 1.5703648328781128,
      "learning_rate": 2.840999182789797e-07,
      "loss": 1.3981,
      "mean_token_accuracy": 0.6376590877771378,
      "step": 1545
    },
    {
      "epoch": 6.872080088987764,
      "grad_norm": 1.4329166412353516,
      "learning_rate": 2.818483169618941e-07,
      "loss": 1.4011,
      "mean_token_accuracy": 0.630432590842247,
      "step": 1546
    },
    {
      "epoch": 6.876529477196885,
      "grad_norm": 1.4203892946243286,
      "learning_rate": 2.7960514046758813e-07,
      "loss": 1.4905,
      "mean_token_accuracy": 0.6102717369794846,
      "step": 1547
    },
    {
      "epoch": 6.880978865406007,
      "grad_norm": 1.4418010711669922,
      "learning_rate": 2.773703973159314e-07,
      "loss": 1.3703,
      "mean_token_accuracy": 0.6347636729478836,
      "step": 1548
    },
    {
      "epoch": 6.885428253615128,
      "grad_norm": 1.4422110319137573,
      "learning_rate": 2.7514409599476295e-07,
      "loss": 1.3373,
      "mean_token_accuracy": 0.6448874920606613,
      "step": 1549
    },
    {
      "epoch": 6.889877641824249,
      "grad_norm": 1.4225119352340698,
      "learning_rate": 2.729262449598602e-07,
      "loss": 1.3911,
      "mean_token_accuracy": 0.6349071711301804,
      "step": 1550
    },
    {
      "epoch": 6.889877641824249,
      "eval_loss": 1.4215081930160522,
      "eval_mean_token_accuracy": 0.6326001703739166,
      "eval_runtime": 8.8903,
      "eval_samples_per_second": 11.248,
      "eval_steps_per_second": 11.248,
      "step": 1550
    },
    {
      "epoch": 6.89432703003337,
      "grad_norm": 1.534454107284546,
      "learning_rate": 2.70716852634903e-07,
      "loss": 1.4418,
      "mean_token_accuracy": 0.6215706765651703,
      "step": 1551
    },
    {
      "epoch": 6.898776418242492,
      "grad_norm": 1.4569412469863892,
      "learning_rate": 2.685159274114443e-07,
      "loss": 1.3187,
      "mean_token_accuracy": 0.6429640501737595,
      "step": 1552
    },
    {
      "epoch": 6.903225806451613,
      "grad_norm": 1.7203960418701172,
      "learning_rate": 2.6632347764888074e-07,
      "loss": 1.4676,
      "mean_token_accuracy": 0.6261927932500839,
      "step": 1553
    },
    {
      "epoch": 6.907675194660734,
      "grad_norm": 1.5339531898498535,
      "learning_rate": 2.6413951167441415e-07,
      "loss": 1.3971,
      "mean_token_accuracy": 0.6285471469163895,
      "step": 1554
    },
    {
      "epoch": 6.912124582869856,
      "grad_norm": 1.4839109182357788,
      "learning_rate": 2.6196403778302625e-07,
      "loss": 1.3286,
      "mean_token_accuracy": 0.6429278999567032,
      "step": 1555
    },
    {
      "epoch": 6.916573971078977,
      "grad_norm": 1.6222838163375854,
      "learning_rate": 2.5979706423744396e-07,
      "loss": 1.3676,
      "mean_token_accuracy": 0.6342654675245285,
      "step": 1556
    },
    {
      "epoch": 6.921023359288098,
      "grad_norm": 1.4955143928527832,
      "learning_rate": 2.576385992681088e-07,
      "loss": 1.3699,
      "mean_token_accuracy": 0.6363892555236816,
      "step": 1557
    },
    {
      "epoch": 6.925472747497219,
      "grad_norm": 1.4425042867660522,
      "learning_rate": 2.5548865107314606e-07,
      "loss": 1.3988,
      "mean_token_accuracy": 0.6500852555036545,
      "step": 1558
    },
    {
      "epoch": 6.929922135706341,
      "grad_norm": 1.6194429397583008,
      "learning_rate": 2.533472278183327e-07,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6374335885047913,
      "step": 1559
    },
    {
      "epoch": 6.934371523915462,
      "grad_norm": 1.5010225772857666,
      "learning_rate": 2.512143376370682e-07,
      "loss": 1.4402,
      "mean_token_accuracy": 0.6266821324825287,
      "step": 1560
    },
    {
      "epoch": 6.938820912124583,
      "grad_norm": 1.4854103326797485,
      "learning_rate": 2.4908998863034e-07,
      "loss": 1.3764,
      "mean_token_accuracy": 0.6379626542329788,
      "step": 1561
    },
    {
      "epoch": 6.943270300333704,
      "grad_norm": 1.4232349395751953,
      "learning_rate": 2.4697418886669654e-07,
      "loss": 1.3944,
      "mean_token_accuracy": 0.6330949664115906,
      "step": 1562
    },
    {
      "epoch": 6.947719688542826,
      "grad_norm": 1.4359863996505737,
      "learning_rate": 2.448669463822162e-07,
      "loss": 1.3771,
      "mean_token_accuracy": 0.6354117542505264,
      "step": 1563
    },
    {
      "epoch": 6.952169076751947,
      "grad_norm": 1.3691062927246094,
      "learning_rate": 2.4276826918047283e-07,
      "loss": 1.4427,
      "mean_token_accuracy": 0.6261312663555145,
      "step": 1564
    },
    {
      "epoch": 6.956618464961068,
      "grad_norm": 1.572664499282837,
      "learning_rate": 2.4067816523251046e-07,
      "loss": 1.3166,
      "mean_token_accuracy": 0.642179399728775,
      "step": 1565
    },
    {
      "epoch": 6.961067853170189,
      "grad_norm": 1.5918961763381958,
      "learning_rate": 2.38596642476811e-07,
      "loss": 1.4989,
      "mean_token_accuracy": 0.6237870752811432,
      "step": 1566
    },
    {
      "epoch": 6.9655172413793105,
      "grad_norm": 1.5704745054244995,
      "learning_rate": 2.365237088192626e-07,
      "loss": 1.4346,
      "mean_token_accuracy": 0.6276487708091736,
      "step": 1567
    },
    {
      "epoch": 6.9699666295884315,
      "grad_norm": 1.5009183883666992,
      "learning_rate": 2.3445937213313062e-07,
      "loss": 1.4134,
      "mean_token_accuracy": 0.6322197020053864,
      "step": 1568
    },
    {
      "epoch": 6.9744160177975525,
      "grad_norm": 1.5739420652389526,
      "learning_rate": 2.3240364025903044e-07,
      "loss": 1.3702,
      "mean_token_accuracy": 0.642254576086998,
      "step": 1569
    },
    {
      "epoch": 6.978865406006674,
      "grad_norm": 1.4342682361602783,
      "learning_rate": 2.303565210048933e-07,
      "loss": 1.3637,
      "mean_token_accuracy": 0.6472483426332474,
      "step": 1570
    },
    {
      "epoch": 6.983314794215795,
      "grad_norm": 1.5518262386322021,
      "learning_rate": 2.2831802214593774e-07,
      "loss": 1.2722,
      "mean_token_accuracy": 0.6506609320640564,
      "step": 1571
    },
    {
      "epoch": 6.987764182424916,
      "grad_norm": 1.4026908874511719,
      "learning_rate": 2.2628815142464344e-07,
      "loss": 1.3571,
      "mean_token_accuracy": 0.6421372145414352,
      "step": 1572
    },
    {
      "epoch": 6.992213570634037,
      "grad_norm": 1.3418904542922974,
      "learning_rate": 2.2426691655071858e-07,
      "loss": 1.4008,
      "mean_token_accuracy": 0.6279148310422897,
      "step": 1573
    },
    {
      "epoch": 6.996662958843159,
      "grad_norm": 1.4134478569030762,
      "learning_rate": 2.222543252010692e-07,
      "loss": 1.2879,
      "mean_token_accuracy": 0.6705437451601028,
      "step": 1574
    },
    {
      "epoch": 7.0,
      "grad_norm": 1.7554689645767212,
      "learning_rate": 2.2025038501977485e-07,
      "loss": 1.4648,
      "mean_token_accuracy": 0.6331682999928793,
      "step": 1575
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.4212192296981812,
      "eval_mean_token_accuracy": 0.6328791797161102,
      "eval_runtime": 8.9182,
      "eval_samples_per_second": 11.213,
      "eval_steps_per_second": 11.213,
      "step": 1575
    },
    {
      "epoch": 7.004449388209121,
      "grad_norm": 1.3590458631515503,
      "learning_rate": 2.182551036180558e-07,
      "loss": 1.2848,
      "mean_token_accuracy": 0.657853439450264,
      "step": 1576
    },
    {
      "epoch": 7.008898776418243,
      "grad_norm": 1.5016130208969116,
      "learning_rate": 2.1626848857424415e-07,
      "loss": 1.3483,
      "mean_token_accuracy": 0.6447664797306061,
      "step": 1577
    },
    {
      "epoch": 7.013348164627364,
      "grad_norm": 1.7117867469787598,
      "learning_rate": 2.142905474337578e-07,
      "loss": 1.4286,
      "mean_token_accuracy": 0.6271067708730698,
      "step": 1578
    },
    {
      "epoch": 7.017797552836485,
      "grad_norm": 1.4279242753982544,
      "learning_rate": 2.1232128770906967e-07,
      "loss": 1.3126,
      "mean_token_accuracy": 0.6497395038604736,
      "step": 1579
    },
    {
      "epoch": 7.022246941045606,
      "grad_norm": 1.4753674268722534,
      "learning_rate": 2.1036071687967785e-07,
      "loss": 1.3012,
      "mean_token_accuracy": 0.6552134454250336,
      "step": 1580
    },
    {
      "epoch": 7.026696329254728,
      "grad_norm": 1.3559296131134033,
      "learning_rate": 2.0840884239208102e-07,
      "loss": 1.3652,
      "mean_token_accuracy": 0.6364179849624634,
      "step": 1581
    },
    {
      "epoch": 7.031145717463849,
      "grad_norm": 1.4450068473815918,
      "learning_rate": 2.064656716597474e-07,
      "loss": 1.3942,
      "mean_token_accuracy": 0.6386158466339111,
      "step": 1582
    },
    {
      "epoch": 7.03559510567297,
      "grad_norm": 1.5096631050109863,
      "learning_rate": 2.0453121206308685e-07,
      "loss": 1.4187,
      "mean_token_accuracy": 0.628806471824646,
      "step": 1583
    },
    {
      "epoch": 7.040044493882092,
      "grad_norm": 1.565904140472412,
      "learning_rate": 2.026054709494235e-07,
      "loss": 1.3264,
      "mean_token_accuracy": 0.6386735588312149,
      "step": 1584
    },
    {
      "epoch": 7.044493882091213,
      "grad_norm": 1.461426019668579,
      "learning_rate": 2.0068845563296746e-07,
      "loss": 1.3164,
      "mean_token_accuracy": 0.6521951705217361,
      "step": 1585
    },
    {
      "epoch": 7.048943270300334,
      "grad_norm": 1.4405392408370972,
      "learning_rate": 1.9878017339478695e-07,
      "loss": 1.3859,
      "mean_token_accuracy": 0.6369698345661163,
      "step": 1586
    },
    {
      "epoch": 7.053392658509455,
      "grad_norm": 1.388171672821045,
      "learning_rate": 1.9688063148278174e-07,
      "loss": 1.3414,
      "mean_token_accuracy": 0.6551808416843414,
      "step": 1587
    },
    {
      "epoch": 7.0578420467185765,
      "grad_norm": 1.4609870910644531,
      "learning_rate": 1.9498983711165347e-07,
      "loss": 1.4002,
      "mean_token_accuracy": 0.641605019569397,
      "step": 1588
    },
    {
      "epoch": 7.0622914349276975,
      "grad_norm": 1.506204605102539,
      "learning_rate": 1.9310779746288033e-07,
      "loss": 1.3975,
      "mean_token_accuracy": 0.6408757865428925,
      "step": 1589
    },
    {
      "epoch": 7.0667408231368185,
      "grad_norm": 1.4487820863723755,
      "learning_rate": 1.9123451968468903e-07,
      "loss": 1.5079,
      "mean_token_accuracy": 0.6156322658061981,
      "step": 1590
    },
    {
      "epoch": 7.0711902113459395,
      "grad_norm": 1.3243247270584106,
      "learning_rate": 1.8937001089202683e-07,
      "loss": 1.3211,
      "mean_token_accuracy": 0.6523690521717072,
      "step": 1591
    },
    {
      "epoch": 7.075639599555061,
      "grad_norm": 1.6002131700515747,
      "learning_rate": 1.8751427816653623e-07,
      "loss": 1.3642,
      "mean_token_accuracy": 0.6414693146944046,
      "step": 1592
    },
    {
      "epoch": 7.080088987764182,
      "grad_norm": 1.4938867092132568,
      "learning_rate": 1.8566732855652636e-07,
      "loss": 1.3922,
      "mean_token_accuracy": 0.6368381232023239,
      "step": 1593
    },
    {
      "epoch": 7.084538375973303,
      "grad_norm": 1.4032964706420898,
      "learning_rate": 1.8382916907694725e-07,
      "loss": 1.4734,
      "mean_token_accuracy": 0.6166456788778305,
      "step": 1594
    },
    {
      "epoch": 7.088987764182425,
      "grad_norm": 1.4119701385498047,
      "learning_rate": 1.8199980670936286e-07,
      "loss": 1.3545,
      "mean_token_accuracy": 0.6478683948516846,
      "step": 1595
    },
    {
      "epoch": 7.093437152391546,
      "grad_norm": 1.614211082458496,
      "learning_rate": 1.8017924840192435e-07,
      "loss": 1.4723,
      "mean_token_accuracy": 0.6246064454317093,
      "step": 1596
    },
    {
      "epoch": 7.097886540600667,
      "grad_norm": 1.5276309251785278,
      "learning_rate": 1.7836750106934475e-07,
      "loss": 1.4316,
      "mean_token_accuracy": 0.6248265504837036,
      "step": 1597
    },
    {
      "epoch": 7.102335928809788,
      "grad_norm": 1.5324000120162964,
      "learning_rate": 1.76564571592871e-07,
      "loss": 1.4693,
      "mean_token_accuracy": 0.6271371245384216,
      "step": 1598
    },
    {
      "epoch": 7.10678531701891,
      "grad_norm": 1.703586459159851,
      "learning_rate": 1.7477046682025878e-07,
      "loss": 1.4686,
      "mean_token_accuracy": 0.6265581101179123,
      "step": 1599
    },
    {
      "epoch": 7.111234705228031,
      "grad_norm": 1.5822428464889526,
      "learning_rate": 1.7298519356574728e-07,
      "loss": 1.2803,
      "mean_token_accuracy": 0.6499188840389252,
      "step": 1600
    },
    {
      "epoch": 7.111234705228031,
      "eval_loss": 1.4211505651474,
      "eval_mean_token_accuracy": 0.6329204356670379,
      "eval_runtime": 9.0509,
      "eval_samples_per_second": 11.049,
      "eval_steps_per_second": 11.049,
      "step": 1600
    },
    {
      "epoch": 7.115684093437152,
      "grad_norm": 1.4900089502334595,
      "learning_rate": 1.7120875861003112e-07,
      "loss": 1.386,
      "mean_token_accuracy": 0.6394679397344589,
      "step": 1601
    },
    {
      "epoch": 7.120133481646274,
      "grad_norm": 1.4887654781341553,
      "learning_rate": 1.6944116870023675e-07,
      "loss": 1.3312,
      "mean_token_accuracy": 0.6366062164306641,
      "step": 1602
    },
    {
      "epoch": 7.124582869855395,
      "grad_norm": 1.7190709114074707,
      "learning_rate": 1.6768243054989697e-07,
      "loss": 1.4445,
      "mean_token_accuracy": 0.6418318301439285,
      "step": 1603
    },
    {
      "epoch": 7.129032258064516,
      "grad_norm": 1.654673457145691,
      "learning_rate": 1.6593255083892228e-07,
      "loss": 1.3918,
      "mean_token_accuracy": 0.6389376223087311,
      "step": 1604
    },
    {
      "epoch": 7.133481646273637,
      "grad_norm": 1.4289830923080444,
      "learning_rate": 1.6419153621357875e-07,
      "loss": 1.477,
      "mean_token_accuracy": 0.6227893382310867,
      "step": 1605
    },
    {
      "epoch": 7.137931034482759,
      "grad_norm": 1.4914698600769043,
      "learning_rate": 1.6245939328646322e-07,
      "loss": 1.3385,
      "mean_token_accuracy": 0.6407981365919113,
      "step": 1606
    },
    {
      "epoch": 7.14238042269188,
      "grad_norm": 1.5136497020721436,
      "learning_rate": 1.6073612863647364e-07,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6408511847257614,
      "step": 1607
    },
    {
      "epoch": 7.146829810901001,
      "grad_norm": 1.5677764415740967,
      "learning_rate": 1.590217488087892e-07,
      "loss": 1.2938,
      "mean_token_accuracy": 0.6472368240356445,
      "step": 1608
    },
    {
      "epoch": 7.151279199110123,
      "grad_norm": 1.448771357536316,
      "learning_rate": 1.573162603148437e-07,
      "loss": 1.3182,
      "mean_token_accuracy": 0.6575302183628082,
      "step": 1609
    },
    {
      "epoch": 7.155728587319244,
      "grad_norm": 1.4496896266937256,
      "learning_rate": 1.5561966963229925e-07,
      "loss": 1.4215,
      "mean_token_accuracy": 0.628329262137413,
      "step": 1610
    },
    {
      "epoch": 7.160177975528365,
      "grad_norm": 1.4929190874099731,
      "learning_rate": 1.539319832050229e-07,
      "loss": 1.315,
      "mean_token_accuracy": 0.6556594371795654,
      "step": 1611
    },
    {
      "epoch": 7.164627363737486,
      "grad_norm": 1.5299460887908936,
      "learning_rate": 1.522532074430641e-07,
      "loss": 1.4852,
      "mean_token_accuracy": 0.6181591302156448,
      "step": 1612
    },
    {
      "epoch": 7.169076751946608,
      "grad_norm": 1.4172511100769043,
      "learning_rate": 1.5058334872262603e-07,
      "loss": 1.307,
      "mean_token_accuracy": 0.652186319231987,
      "step": 1613
    },
    {
      "epoch": 7.173526140155729,
      "grad_norm": 1.4044189453125,
      "learning_rate": 1.4892241338604506e-07,
      "loss": 1.3267,
      "mean_token_accuracy": 0.6408603489398956,
      "step": 1614
    },
    {
      "epoch": 7.17797552836485,
      "grad_norm": 1.754745364189148,
      "learning_rate": 1.4727040774176583e-07,
      "loss": 1.5642,
      "mean_token_accuracy": 0.5997357815504074,
      "step": 1615
    },
    {
      "epoch": 7.1824249165739715,
      "grad_norm": 1.616767168045044,
      "learning_rate": 1.4562733806431666e-07,
      "loss": 1.4205,
      "mean_token_accuracy": 0.6287451982498169,
      "step": 1616
    },
    {
      "epoch": 7.1868743047830925,
      "grad_norm": 1.6575329303741455,
      "learning_rate": 1.43993210594284e-07,
      "loss": 1.3375,
      "mean_token_accuracy": 0.6337753385305405,
      "step": 1617
    },
    {
      "epoch": 7.1913236929922135,
      "grad_norm": 1.4833285808563232,
      "learning_rate": 1.423680315382933e-07,
      "loss": 1.2028,
      "mean_token_accuracy": 0.6657184362411499,
      "step": 1618
    },
    {
      "epoch": 7.1957730812013345,
      "grad_norm": 1.4051110744476318,
      "learning_rate": 1.407518070689823e-07,
      "loss": 1.2803,
      "mean_token_accuracy": 0.6544965356588364,
      "step": 1619
    },
    {
      "epoch": 7.200222469410456,
      "grad_norm": 1.4684345722198486,
      "learning_rate": 1.3914454332497608e-07,
      "loss": 1.4564,
      "mean_token_accuracy": 0.6275642216205597,
      "step": 1620
    },
    {
      "epoch": 7.204671857619577,
      "grad_norm": 1.5879138708114624,
      "learning_rate": 1.3754624641086818e-07,
      "loss": 1.3462,
      "mean_token_accuracy": 0.640575185418129,
      "step": 1621
    },
    {
      "epoch": 7.209121245828698,
      "grad_norm": 1.4154325723648071,
      "learning_rate": 1.3595692239719404e-07,
      "loss": 1.3481,
      "mean_token_accuracy": 0.6446164399385452,
      "step": 1622
    },
    {
      "epoch": 7.213570634037819,
      "grad_norm": 1.5628461837768555,
      "learning_rate": 1.3437657732040783e-07,
      "loss": 1.4399,
      "mean_token_accuracy": 0.625982791185379,
      "step": 1623
    },
    {
      "epoch": 7.218020022246941,
      "grad_norm": 1.6230748891830444,
      "learning_rate": 1.3280521718286255e-07,
      "loss": 1.5774,
      "mean_token_accuracy": 0.6081243753433228,
      "step": 1624
    },
    {
      "epoch": 7.222469410456062,
      "grad_norm": 1.5033226013183594,
      "learning_rate": 1.3124284795278385e-07,
      "loss": 1.4146,
      "mean_token_accuracy": 0.6301916837692261,
      "step": 1625
    },
    {
      "epoch": 7.222469410456062,
      "eval_loss": 1.4210699796676636,
      "eval_mean_token_accuracy": 0.6328899204730988,
      "eval_runtime": 8.8657,
      "eval_samples_per_second": 11.279,
      "eval_steps_per_second": 11.279,
      "step": 1625
    },
    {
      "epoch": 7.226918798665183,
      "grad_norm": 1.4166864156723022,
      "learning_rate": 1.2968947556424943e-07,
      "loss": 1.2838,
      "mean_token_accuracy": 0.6600220054388046,
      "step": 1626
    },
    {
      "epoch": 7.231368186874305,
      "grad_norm": 1.4604251384735107,
      "learning_rate": 1.281451059171651e-07,
      "loss": 1.2928,
      "mean_token_accuracy": 0.6613204181194305,
      "step": 1627
    },
    {
      "epoch": 7.235817575083426,
      "grad_norm": 1.401129126548767,
      "learning_rate": 1.266097448772441e-07,
      "loss": 1.411,
      "mean_token_accuracy": 0.6413391679525375,
      "step": 1628
    },
    {
      "epoch": 7.240266963292547,
      "grad_norm": 1.4719172716140747,
      "learning_rate": 1.2508339827598358e-07,
      "loss": 1.3838,
      "mean_token_accuracy": 0.6377867609262466,
      "step": 1629
    },
    {
      "epoch": 7.244716351501668,
      "grad_norm": 1.5011779069900513,
      "learning_rate": 1.2356607191064102e-07,
      "loss": 1.2994,
      "mean_token_accuracy": 0.654145672917366,
      "step": 1630
    },
    {
      "epoch": 7.24916573971079,
      "grad_norm": 1.5245798826217651,
      "learning_rate": 1.2205777154421698e-07,
      "loss": 1.4369,
      "mean_token_accuracy": 0.6371579617261887,
      "step": 1631
    },
    {
      "epoch": 7.253615127919911,
      "grad_norm": 1.4920449256896973,
      "learning_rate": 1.205585029054279e-07,
      "loss": 1.4747,
      "mean_token_accuracy": 0.6294444352388382,
      "step": 1632
    },
    {
      "epoch": 7.258064516129032,
      "grad_norm": 1.450805425643921,
      "learning_rate": 1.1906827168868651e-07,
      "loss": 1.3776,
      "mean_token_accuracy": 0.6392008811235428,
      "step": 1633
    },
    {
      "epoch": 7.262513904338154,
      "grad_norm": 1.5616661310195923,
      "learning_rate": 1.1758708355408155e-07,
      "loss": 1.3858,
      "mean_token_accuracy": 0.6408691257238388,
      "step": 1634
    },
    {
      "epoch": 7.266963292547275,
      "grad_norm": 1.476807951927185,
      "learning_rate": 1.161149441273543e-07,
      "loss": 1.3959,
      "mean_token_accuracy": 0.6406394094228745,
      "step": 1635
    },
    {
      "epoch": 7.271412680756396,
      "grad_norm": 1.5030497312545776,
      "learning_rate": 1.1465185899987797e-07,
      "loss": 1.31,
      "mean_token_accuracy": 0.6508469581604004,
      "step": 1636
    },
    {
      "epoch": 7.275862068965517,
      "grad_norm": 1.4741418361663818,
      "learning_rate": 1.1319783372863601e-07,
      "loss": 1.3322,
      "mean_token_accuracy": 0.6441056281328201,
      "step": 1637
    },
    {
      "epoch": 7.280311457174639,
      "grad_norm": 1.5766879320144653,
      "learning_rate": 1.1175287383620197e-07,
      "loss": 1.3578,
      "mean_token_accuracy": 0.634767472743988,
      "step": 1638
    },
    {
      "epoch": 7.28476084538376,
      "grad_norm": 1.5557055473327637,
      "learning_rate": 1.1031698481071746e-07,
      "loss": 1.3909,
      "mean_token_accuracy": 0.6410964280366898,
      "step": 1639
    },
    {
      "epoch": 7.289210233592881,
      "grad_norm": 1.58371901512146,
      "learning_rate": 1.0889017210587216e-07,
      "loss": 1.3663,
      "mean_token_accuracy": 0.6366177052259445,
      "step": 1640
    },
    {
      "epoch": 7.293659621802002,
      "grad_norm": 1.4878615140914917,
      "learning_rate": 1.0747244114088229e-07,
      "loss": 1.2987,
      "mean_token_accuracy": 0.6541534811258316,
      "step": 1641
    },
    {
      "epoch": 7.298109010011124,
      "grad_norm": 1.4757156372070312,
      "learning_rate": 1.0606379730047134e-07,
      "loss": 1.4274,
      "mean_token_accuracy": 0.6302584707736969,
      "step": 1642
    },
    {
      "epoch": 7.302558398220245,
      "grad_norm": 1.4809741973876953,
      "learning_rate": 1.0466424593484736e-07,
      "loss": 1.4004,
      "mean_token_accuracy": 0.6345303505659103,
      "step": 1643
    },
    {
      "epoch": 7.307007786429366,
      "grad_norm": 1.495180606842041,
      "learning_rate": 1.0327379235968549e-07,
      "loss": 1.3694,
      "mean_token_accuracy": 0.6389007419347763,
      "step": 1644
    },
    {
      "epoch": 7.3114571746384875,
      "grad_norm": 1.4651904106140137,
      "learning_rate": 1.0189244185610514e-07,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6492394357919693,
      "step": 1645
    },
    {
      "epoch": 7.3159065628476085,
      "grad_norm": 1.5508837699890137,
      "learning_rate": 1.0052019967065174e-07,
      "loss": 1.3075,
      "mean_token_accuracy": 0.642899751663208,
      "step": 1646
    },
    {
      "epoch": 7.3203559510567295,
      "grad_norm": 1.4093694686889648,
      "learning_rate": 9.915707101527616e-08,
      "loss": 1.359,
      "mean_token_accuracy": 0.6436711102724075,
      "step": 1647
    },
    {
      "epoch": 7.3248053392658505,
      "grad_norm": 1.5437602996826172,
      "learning_rate": 9.780306106731419e-08,
      "loss": 1.4398,
      "mean_token_accuracy": 0.627861350774765,
      "step": 1648
    },
    {
      "epoch": 7.329254727474972,
      "grad_norm": 1.5030357837677002,
      "learning_rate": 9.645817496946902e-08,
      "loss": 1.4356,
      "mean_token_accuracy": 0.6289239078760147,
      "step": 1649
    },
    {
      "epoch": 7.333704115684093,
      "grad_norm": 1.4311007261276245,
      "learning_rate": 9.512241782978853e-08,
      "loss": 1.3924,
      "mean_token_accuracy": 0.6406189352273941,
      "step": 1650
    },
    {
      "epoch": 7.333704115684093,
      "eval_loss": 1.4209994077682495,
      "eval_mean_token_accuracy": 0.6328168588876725,
      "eval_runtime": 8.8803,
      "eval_samples_per_second": 11.261,
      "eval_steps_per_second": 11.261,
      "step": 1650
    },
    {
      "epoch": 7.338153503893214,
      "grad_norm": 1.6260755062103271,
      "learning_rate": 9.379579472164946e-08,
      "loss": 1.3417,
      "mean_token_accuracy": 0.653412252664566,
      "step": 1651
    },
    {
      "epoch": 7.342602892102336,
      "grad_norm": 1.4792145490646362,
      "learning_rate": 9.247831068373458e-08,
      "loss": 1.364,
      "mean_token_accuracy": 0.6447604894638062,
      "step": 1652
    },
    {
      "epoch": 7.347052280311457,
      "grad_norm": 1.5329736471176147,
      "learning_rate": 9.116997072001698e-08,
      "loss": 1.4145,
      "mean_token_accuracy": 0.6306851655244827,
      "step": 1653
    },
    {
      "epoch": 7.351501668520578,
      "grad_norm": 1.4320818185806274,
      "learning_rate": 8.987077979973807e-08,
      "loss": 1.4072,
      "mean_token_accuracy": 0.6324963718652725,
      "step": 1654
    },
    {
      "epoch": 7.355951056729699,
      "grad_norm": 1.5561280250549316,
      "learning_rate": 8.858074285739038e-08,
      "loss": 1.4084,
      "mean_token_accuracy": 0.6357878297567368,
      "step": 1655
    },
    {
      "epoch": 7.360400444938821,
      "grad_norm": 1.5861245393753052,
      "learning_rate": 8.729986479269926e-08,
      "loss": 1.4536,
      "mean_token_accuracy": 0.625807985663414,
      "step": 1656
    },
    {
      "epoch": 7.364849833147942,
      "grad_norm": 1.5680431127548218,
      "learning_rate": 8.602815047060232e-08,
      "loss": 1.3844,
      "mean_token_accuracy": 0.6401973217725754,
      "step": 1657
    },
    {
      "epoch": 7.369299221357063,
      "grad_norm": 1.4275472164154053,
      "learning_rate": 8.476560472123251e-08,
      "loss": 1.2893,
      "mean_token_accuracy": 0.6523967236280441,
      "step": 1658
    },
    {
      "epoch": 7.373748609566185,
      "grad_norm": 1.6489789485931396,
      "learning_rate": 8.351223233990041e-08,
      "loss": 1.4663,
      "mean_token_accuracy": 0.6127151995897293,
      "step": 1659
    },
    {
      "epoch": 7.378197997775306,
      "grad_norm": 1.453810453414917,
      "learning_rate": 8.226803808707301e-08,
      "loss": 1.3714,
      "mean_token_accuracy": 0.6461917459964752,
      "step": 1660
    },
    {
      "epoch": 7.382647385984427,
      "grad_norm": 1.4473062753677368,
      "learning_rate": 8.103302668835883e-08,
      "loss": 1.4184,
      "mean_token_accuracy": 0.638768345117569,
      "step": 1661
    },
    {
      "epoch": 7.387096774193548,
      "grad_norm": 1.4942295551300049,
      "learning_rate": 7.980720283448957e-08,
      "loss": 1.3556,
      "mean_token_accuracy": 0.6346392929553986,
      "step": 1662
    },
    {
      "epoch": 7.39154616240267,
      "grad_norm": 1.3288767337799072,
      "learning_rate": 7.859057118129898e-08,
      "loss": 1.3682,
      "mean_token_accuracy": 0.6407298743724823,
      "step": 1663
    },
    {
      "epoch": 7.395995550611791,
      "grad_norm": 1.6310275793075562,
      "learning_rate": 7.738313634970962e-08,
      "loss": 1.4744,
      "mean_token_accuracy": 0.6226602494716644,
      "step": 1664
    },
    {
      "epoch": 7.400444938820912,
      "grad_norm": 1.5444117784500122,
      "learning_rate": 7.61849029257139e-08,
      "loss": 1.3977,
      "mean_token_accuracy": 0.6412971615791321,
      "step": 1665
    },
    {
      "epoch": 7.404894327030034,
      "grad_norm": 1.5048730373382568,
      "learning_rate": 7.499587546035358e-08,
      "loss": 1.3396,
      "mean_token_accuracy": 0.6516029685735703,
      "step": 1666
    },
    {
      "epoch": 7.409343715239155,
      "grad_norm": 1.4902209043502808,
      "learning_rate": 7.381605846970702e-08,
      "loss": 1.3264,
      "mean_token_accuracy": 0.659338653087616,
      "step": 1667
    },
    {
      "epoch": 7.413793103448276,
      "grad_norm": 1.4951238632202148,
      "learning_rate": 7.264545643486997e-08,
      "loss": 1.2885,
      "mean_token_accuracy": 0.6542831808328629,
      "step": 1668
    },
    {
      "epoch": 7.418242491657397,
      "grad_norm": 1.483941674232483,
      "learning_rate": 7.148407380193789e-08,
      "loss": 1.3741,
      "mean_token_accuracy": 0.6297214329242706,
      "step": 1669
    },
    {
      "epoch": 7.422691879866519,
      "grad_norm": 1.5206888914108276,
      "learning_rate": 7.033191498198949e-08,
      "loss": 1.3437,
      "mean_token_accuracy": 0.647957369685173,
      "step": 1670
    },
    {
      "epoch": 7.42714126807564,
      "grad_norm": 1.5292928218841553,
      "learning_rate": 6.918898435107153e-08,
      "loss": 1.3207,
      "mean_token_accuracy": 0.648166298866272,
      "step": 1671
    },
    {
      "epoch": 7.431590656284761,
      "grad_norm": 1.5543951988220215,
      "learning_rate": 6.805528625018016e-08,
      "loss": 1.4086,
      "mean_token_accuracy": 0.6295341551303864,
      "step": 1672
    },
    {
      "epoch": 7.436040044493883,
      "grad_norm": 1.496779203414917,
      "learning_rate": 6.693082498524461e-08,
      "loss": 1.3938,
      "mean_token_accuracy": 0.6342631280422211,
      "step": 1673
    },
    {
      "epoch": 7.440489432703004,
      "grad_norm": 1.492136836051941,
      "learning_rate": 6.581560482711247e-08,
      "loss": 1.4264,
      "mean_token_accuracy": 0.6277123391628265,
      "step": 1674
    },
    {
      "epoch": 7.4449388209121246,
      "grad_norm": 1.3477691411972046,
      "learning_rate": 6.470963001153268e-08,
      "loss": 1.2525,
      "mean_token_accuracy": 0.6667362749576569,
      "step": 1675
    },
    {
      "epoch": 7.4449388209121246,
      "eval_loss": 1.4208626747131348,
      "eval_mean_token_accuracy": 0.6328765332698822,
      "eval_runtime": 8.8102,
      "eval_samples_per_second": 11.35,
      "eval_steps_per_second": 11.35,
      "step": 1675
    },
    {
      "epoch": 7.4493882091212456,
      "grad_norm": 1.6625967025756836,
      "learning_rate": 6.361290473913705e-08,
      "loss": 1.3891,
      "mean_token_accuracy": 0.6368768662214279,
      "step": 1676
    },
    {
      "epoch": 7.453837597330367,
      "grad_norm": 1.471605658531189,
      "learning_rate": 6.252543317542908e-08,
      "loss": 1.3438,
      "mean_token_accuracy": 0.646777331829071,
      "step": 1677
    },
    {
      "epoch": 7.458286985539488,
      "grad_norm": 1.482542872428894,
      "learning_rate": 6.144721945076426e-08,
      "loss": 1.4029,
      "mean_token_accuracy": 0.6346065700054169,
      "step": 1678
    },
    {
      "epoch": 7.462736373748609,
      "grad_norm": 1.4620026350021362,
      "learning_rate": 6.037826766033539e-08,
      "loss": 1.2915,
      "mean_token_accuracy": 0.6504009664058685,
      "step": 1679
    },
    {
      "epoch": 7.46718576195773,
      "grad_norm": 1.5408132076263428,
      "learning_rate": 5.9318581864157563e-08,
      "loss": 1.351,
      "mean_token_accuracy": 0.6435303092002869,
      "step": 1680
    },
    {
      "epoch": 7.471635150166852,
      "grad_norm": 1.4416038990020752,
      "learning_rate": 5.8268166087052934e-08,
      "loss": 1.461,
      "mean_token_accuracy": 0.6229246407747269,
      "step": 1681
    },
    {
      "epoch": 7.476084538375973,
      "grad_norm": 1.4673290252685547,
      "learning_rate": 5.722702431863403e-08,
      "loss": 1.3047,
      "mean_token_accuracy": 0.6476821154356003,
      "step": 1682
    },
    {
      "epoch": 7.480533926585094,
      "grad_norm": 1.4304078817367554,
      "learning_rate": 5.619516051329016e-08,
      "loss": 1.3195,
      "mean_token_accuracy": 0.6475525051355362,
      "step": 1683
    },
    {
      "epoch": 7.484983314794216,
      "grad_norm": 1.7358938455581665,
      "learning_rate": 5.517257859017161e-08,
      "loss": 1.5548,
      "mean_token_accuracy": 0.6143165826797485,
      "step": 1684
    },
    {
      "epoch": 7.489432703003337,
      "grad_norm": 1.5763490200042725,
      "learning_rate": 5.415928243317464e-08,
      "loss": 1.405,
      "mean_token_accuracy": 0.6321515440940857,
      "step": 1685
    },
    {
      "epoch": 7.493882091212458,
      "grad_norm": 1.3903521299362183,
      "learning_rate": 5.315527589092762e-08,
      "loss": 1.3283,
      "mean_token_accuracy": 0.6486406624317169,
      "step": 1686
    },
    {
      "epoch": 7.498331479421579,
      "grad_norm": 1.4655112028121948,
      "learning_rate": 5.216056277677489e-08,
      "loss": 1.3311,
      "mean_token_accuracy": 0.6308734863996506,
      "step": 1687
    },
    {
      "epoch": 7.502780867630701,
      "grad_norm": 1.6374263763427734,
      "learning_rate": 5.117514686876379e-08,
      "loss": 1.3925,
      "mean_token_accuracy": 0.6337891221046448,
      "step": 1688
    },
    {
      "epoch": 7.507230255839822,
      "grad_norm": 1.5955842733383179,
      "learning_rate": 5.01990319096296e-08,
      "loss": 1.4816,
      "mean_token_accuracy": 0.6248529106378555,
      "step": 1689
    },
    {
      "epoch": 7.511679644048943,
      "grad_norm": 1.4607080221176147,
      "learning_rate": 4.923222160678115e-08,
      "loss": 1.3084,
      "mean_token_accuracy": 0.6574302911758423,
      "step": 1690
    },
    {
      "epoch": 7.516129032258064,
      "grad_norm": 1.6194801330566406,
      "learning_rate": 4.827471963228747e-08,
      "loss": 1.4259,
      "mean_token_accuracy": 0.6297587156295776,
      "step": 1691
    },
    {
      "epoch": 7.520578420467186,
      "grad_norm": 1.8137863874435425,
      "learning_rate": 4.732652962286283e-08,
      "loss": 1.4657,
      "mean_token_accuracy": 0.6216724961996078,
      "step": 1692
    },
    {
      "epoch": 7.525027808676307,
      "grad_norm": 1.7818033695220947,
      "learning_rate": 4.6387655179853944e-08,
      "loss": 1.5286,
      "mean_token_accuracy": 0.6215572953224182,
      "step": 1693
    },
    {
      "epoch": 7.529477196885428,
      "grad_norm": 1.546032190322876,
      "learning_rate": 4.545809986922528e-08,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6459407359361649,
      "step": 1694
    },
    {
      "epoch": 7.53392658509455,
      "grad_norm": 1.6469489336013794,
      "learning_rate": 4.453786722154657e-08,
      "loss": 1.4167,
      "mean_token_accuracy": 0.6317883133888245,
      "step": 1695
    },
    {
      "epoch": 7.538375973303671,
      "grad_norm": 1.7207845449447632,
      "learning_rate": 4.362696073197864e-08,
      "loss": 1.5112,
      "mean_token_accuracy": 0.6177582293748856,
      "step": 1696
    },
    {
      "epoch": 7.542825361512792,
      "grad_norm": 1.4516643285751343,
      "learning_rate": 4.272538386026065e-08,
      "loss": 1.3389,
      "mean_token_accuracy": 0.6464377492666245,
      "step": 1697
    },
    {
      "epoch": 7.547274749721913,
      "grad_norm": 1.445441722869873,
      "learning_rate": 4.1833140030696216e-08,
      "loss": 1.3979,
      "mean_token_accuracy": 0.6368113607168198,
      "step": 1698
    },
    {
      "epoch": 7.551724137931035,
      "grad_norm": 1.6449822187423706,
      "learning_rate": 4.0950232632141205e-08,
      "loss": 1.3816,
      "mean_token_accuracy": 0.6316156834363937,
      "step": 1699
    },
    {
      "epoch": 7.556173526140156,
      "grad_norm": 1.502471685409546,
      "learning_rate": 4.0076665017990124e-08,
      "loss": 1.3579,
      "mean_token_accuracy": 0.6326722204685211,
      "step": 1700
    },
    {
      "epoch": 7.556173526140156,
      "eval_loss": 1.4208004474639893,
      "eval_mean_token_accuracy": 0.6330102872848511,
      "eval_runtime": 8.8228,
      "eval_samples_per_second": 11.334,
      "eval_steps_per_second": 11.334,
      "step": 1700
    },
    {
      "epoch": 7.560622914349277,
      "grad_norm": 1.4137297868728638,
      "learning_rate": 3.9212440506164465e-08,
      "loss": 1.3058,
      "mean_token_accuracy": 0.6524346768856049,
      "step": 1701
    },
    {
      "epoch": 7.565072302558399,
      "grad_norm": 1.4222463369369507,
      "learning_rate": 3.835756237909938e-08,
      "loss": 1.3016,
      "mean_token_accuracy": 0.6564546823501587,
      "step": 1702
    },
    {
      "epoch": 7.56952169076752,
      "grad_norm": 1.438339352607727,
      "learning_rate": 3.751203388373009e-08,
      "loss": 1.4234,
      "mean_token_accuracy": 0.6363275051116943,
      "step": 1703
    },
    {
      "epoch": 7.573971078976641,
      "grad_norm": 1.4575285911560059,
      "learning_rate": 3.667585823148218e-08,
      "loss": 1.4147,
      "mean_token_accuracy": 0.6279226243495941,
      "step": 1704
    },
    {
      "epoch": 7.578420467185762,
      "grad_norm": 1.50782310962677,
      "learning_rate": 3.584903859825739e-08,
      "loss": 1.3547,
      "mean_token_accuracy": 0.6441124677658081,
      "step": 1705
    },
    {
      "epoch": 7.5828698553948835,
      "grad_norm": 1.4590781927108765,
      "learning_rate": 3.503157812442148e-08,
      "loss": 1.3735,
      "mean_token_accuracy": 0.6490018516778946,
      "step": 1706
    },
    {
      "epoch": 7.5873192436040044,
      "grad_norm": 1.4392048120498657,
      "learning_rate": 3.4223479914793914e-08,
      "loss": 1.3167,
      "mean_token_accuracy": 0.6504593193531036,
      "step": 1707
    },
    {
      "epoch": 7.5917686318131254,
      "grad_norm": 1.4475817680358887,
      "learning_rate": 3.342474703863508e-08,
      "loss": 1.3098,
      "mean_token_accuracy": 0.6482030004262924,
      "step": 1708
    },
    {
      "epoch": 7.596218020022247,
      "grad_norm": 1.4226038455963135,
      "learning_rate": 3.263538252963355e-08,
      "loss": 1.4157,
      "mean_token_accuracy": 0.6335863173007965,
      "step": 1709
    },
    {
      "epoch": 7.600667408231368,
      "grad_norm": 1.5618715286254883,
      "learning_rate": 3.1855389385896383e-08,
      "loss": 1.3221,
      "mean_token_accuracy": 0.6437021046876907,
      "step": 1710
    },
    {
      "epoch": 7.605116796440489,
      "grad_norm": 1.5154454708099365,
      "learning_rate": 3.108477056993742e-08,
      "loss": 1.2794,
      "mean_token_accuracy": 0.6525855958461761,
      "step": 1711
    },
    {
      "epoch": 7.60956618464961,
      "grad_norm": 1.5476934909820557,
      "learning_rate": 3.032352900866481e-08,
      "loss": 1.4827,
      "mean_token_accuracy": 0.6206969320774078,
      "step": 1712
    },
    {
      "epoch": 7.614015572858732,
      "grad_norm": 1.5865660905838013,
      "learning_rate": 2.9571667593371046e-08,
      "loss": 1.3255,
      "mean_token_accuracy": 0.6480269432067871,
      "step": 1713
    },
    {
      "epoch": 7.618464961067853,
      "grad_norm": 1.659289002418518,
      "learning_rate": 2.8829189179721552e-08,
      "loss": 1.2563,
      "mean_token_accuracy": 0.6517286598682404,
      "step": 1714
    },
    {
      "epoch": 7.622914349276974,
      "grad_norm": 1.4861103296279907,
      "learning_rate": 2.8096096587744148e-08,
      "loss": 1.4449,
      "mean_token_accuracy": 0.630355104804039,
      "step": 1715
    },
    {
      "epoch": 7.627363737486096,
      "grad_norm": 1.5221129655838013,
      "learning_rate": 2.7372392601817678e-08,
      "loss": 1.3349,
      "mean_token_accuracy": 0.6319369226694107,
      "step": 1716
    },
    {
      "epoch": 7.631813125695217,
      "grad_norm": 1.5382953882217407,
      "learning_rate": 2.6658079970662275e-08,
      "loss": 1.4917,
      "mean_token_accuracy": 0.6043891757726669,
      "step": 1717
    },
    {
      "epoch": 7.636262513904338,
      "grad_norm": 1.6617544889450073,
      "learning_rate": 2.5953161407328565e-08,
      "loss": 1.4431,
      "mean_token_accuracy": 0.6339407116174698,
      "step": 1718
    },
    {
      "epoch": 7.640711902113459,
      "grad_norm": 1.5353741645812988,
      "learning_rate": 2.5257639589186534e-08,
      "loss": 1.4438,
      "mean_token_accuracy": 0.6272290050983429,
      "step": 1719
    },
    {
      "epoch": 7.645161290322581,
      "grad_norm": 1.6185762882232666,
      "learning_rate": 2.4571517157916946e-08,
      "loss": 1.3929,
      "mean_token_accuracy": 0.6432500630617142,
      "step": 1720
    },
    {
      "epoch": 7.649610678531702,
      "grad_norm": 1.4102133512496948,
      "learning_rate": 2.389479671950051e-08,
      "loss": 1.2429,
      "mean_token_accuracy": 0.6609351336956024,
      "step": 1721
    },
    {
      "epoch": 7.654060066740823,
      "grad_norm": 1.4701967239379883,
      "learning_rate": 2.322748084420734e-08,
      "loss": 1.3498,
      "mean_token_accuracy": 0.6484346836805344,
      "step": 1722
    },
    {
      "epoch": 7.658509454949945,
      "grad_norm": 1.5033491849899292,
      "learning_rate": 2.256957206658833e-08,
      "loss": 1.4474,
      "mean_token_accuracy": 0.6240669190883636,
      "step": 1723
    },
    {
      "epoch": 7.662958843159066,
      "grad_norm": 1.554303765296936,
      "learning_rate": 2.1921072885464633e-08,
      "loss": 1.4889,
      "mean_token_accuracy": 0.6205145865678787,
      "step": 1724
    },
    {
      "epoch": 7.667408231368187,
      "grad_norm": 1.582550287246704,
      "learning_rate": 2.1281985763919322e-08,
      "loss": 1.4017,
      "mean_token_accuracy": 0.6306467205286026,
      "step": 1725
    },
    {
      "epoch": 7.667408231368187,
      "eval_loss": 1.4207528829574585,
      "eval_mean_token_accuracy": 0.6329619580507279,
      "eval_runtime": 8.8401,
      "eval_samples_per_second": 11.312,
      "eval_steps_per_second": 11.312,
      "step": 1725
    },
    {
      "epoch": 7.671857619577308,
      "grad_norm": 1.5343049764633179,
      "learning_rate": 2.0652313129286284e-08,
      "loss": 1.5098,
      "mean_token_accuracy": 0.6265010833740234,
      "step": 1726
    },
    {
      "epoch": 7.67630700778643,
      "grad_norm": 1.4481596946716309,
      "learning_rate": 2.0032057373142453e-08,
      "loss": 1.3189,
      "mean_token_accuracy": 0.6453523933887482,
      "step": 1727
    },
    {
      "epoch": 7.680756395995551,
      "grad_norm": 1.4093210697174072,
      "learning_rate": 1.942122085129866e-08,
      "loss": 1.4467,
      "mean_token_accuracy": 0.6294991821050644,
      "step": 1728
    },
    {
      "epoch": 7.685205784204672,
      "grad_norm": 1.5932533740997314,
      "learning_rate": 1.8819805883789065e-08,
      "loss": 1.5654,
      "mean_token_accuracy": 0.6106799989938736,
      "step": 1729
    },
    {
      "epoch": 7.689655172413794,
      "grad_norm": 1.6186350584030151,
      "learning_rate": 1.822781475486507e-08,
      "loss": 1.3693,
      "mean_token_accuracy": 0.66199591755867,
      "step": 1730
    },
    {
      "epoch": 7.694104560622915,
      "grad_norm": 1.7907278537750244,
      "learning_rate": 1.7645249712984203e-08,
      "loss": 1.4509,
      "mean_token_accuracy": 0.6179310530424118,
      "step": 1731
    },
    {
      "epoch": 7.698553948832036,
      "grad_norm": 1.4603002071380615,
      "learning_rate": 1.7072112970802634e-08,
      "loss": 1.4495,
      "mean_token_accuracy": 0.6305078417062759,
      "step": 1732
    },
    {
      "epoch": 7.703003337041157,
      "grad_norm": 1.5220855474472046,
      "learning_rate": 1.6508406705166845e-08,
      "loss": 1.4212,
      "mean_token_accuracy": 0.631919801235199,
      "step": 1733
    },
    {
      "epoch": 7.7074527252502785,
      "grad_norm": 1.574659824371338,
      "learning_rate": 1.5954133057105027e-08,
      "loss": 1.3841,
      "mean_token_accuracy": 0.6283309757709503,
      "step": 1734
    },
    {
      "epoch": 7.7119021134593995,
      "grad_norm": 1.5619031190872192,
      "learning_rate": 1.5409294131819298e-08,
      "loss": 1.4485,
      "mean_token_accuracy": 0.6244819015264511,
      "step": 1735
    },
    {
      "epoch": 7.7163515016685205,
      "grad_norm": 1.5280723571777344,
      "learning_rate": 1.4873891998677115e-08,
      "loss": 1.3914,
      "mean_token_accuracy": 0.6410911083221436,
      "step": 1736
    },
    {
      "epoch": 7.7208008898776415,
      "grad_norm": 1.4571888446807861,
      "learning_rate": 1.434792869120405e-08,
      "loss": 1.3717,
      "mean_token_accuracy": 0.6459265947341919,
      "step": 1737
    },
    {
      "epoch": 7.725250278086763,
      "grad_norm": 1.535320520401001,
      "learning_rate": 1.3831406207076014e-08,
      "loss": 1.4969,
      "mean_token_accuracy": 0.6181455999612808,
      "step": 1738
    },
    {
      "epoch": 7.729699666295884,
      "grad_norm": 1.534178614616394,
      "learning_rate": 1.332432650811094e-08,
      "loss": 1.3885,
      "mean_token_accuracy": 0.6426519602537155,
      "step": 1739
    },
    {
      "epoch": 7.734149054505005,
      "grad_norm": 1.7426763772964478,
      "learning_rate": 1.2826691520262114e-08,
      "loss": 1.4296,
      "mean_token_accuracy": 0.6227102130651474,
      "step": 1740
    },
    {
      "epoch": 7.738598442714126,
      "grad_norm": 1.430253505706787,
      "learning_rate": 1.2338503133610956e-08,
      "loss": 1.405,
      "mean_token_accuracy": 0.6397494673728943,
      "step": 1741
    },
    {
      "epoch": 7.743047830923248,
      "grad_norm": 1.5909794569015503,
      "learning_rate": 1.1859763202358987e-08,
      "loss": 1.3692,
      "mean_token_accuracy": 0.6348027884960175,
      "step": 1742
    },
    {
      "epoch": 7.747497219132369,
      "grad_norm": 1.5700314044952393,
      "learning_rate": 1.1390473544821424e-08,
      "loss": 1.3263,
      "mean_token_accuracy": 0.6507014334201813,
      "step": 1743
    },
    {
      "epoch": 7.75194660734149,
      "grad_norm": 1.6088165044784546,
      "learning_rate": 1.0930635943420254e-08,
      "loss": 1.3795,
      "mean_token_accuracy": 0.6414220035076141,
      "step": 1744
    },
    {
      "epoch": 7.756395995550612,
      "grad_norm": 1.5013564825057983,
      "learning_rate": 1.0480252144677295e-08,
      "loss": 1.2971,
      "mean_token_accuracy": 0.6456151604652405,
      "step": 1745
    },
    {
      "epoch": 7.760845383759733,
      "grad_norm": 1.4775440692901611,
      "learning_rate": 1.0039323859207529e-08,
      "loss": 1.3737,
      "mean_token_accuracy": 0.6455109566450119,
      "step": 1746
    },
    {
      "epoch": 7.765294771968854,
      "grad_norm": 1.4293675422668457,
      "learning_rate": 9.607852761713e-09,
      "loss": 1.3533,
      "mean_token_accuracy": 0.6386697441339493,
      "step": 1747
    },
    {
      "epoch": 7.769744160177975,
      "grad_norm": 1.6229079961776733,
      "learning_rate": 9.185840490975594e-09,
      "loss": 1.4717,
      "mean_token_accuracy": 0.6239472478628159,
      "step": 1748
    },
    {
      "epoch": 7.774193548387097,
      "grad_norm": 1.4919989109039307,
      "learning_rate": 8.773288649852053e-09,
      "loss": 1.3723,
      "mean_token_accuracy": 0.6368873864412308,
      "step": 1749
    },
    {
      "epoch": 7.778642936596218,
      "grad_norm": 1.622385859489441,
      "learning_rate": 8.370198805266739e-09,
      "loss": 1.4824,
      "mean_token_accuracy": 0.618325799703598,
      "step": 1750
    },
    {
      "epoch": 7.778642936596218,
      "eval_loss": 1.4207253456115723,
      "eval_mean_token_accuracy": 0.6328979784250259,
      "eval_runtime": 8.8452,
      "eval_samples_per_second": 11.306,
      "eval_steps_per_second": 11.306,
      "step": 1750
    },
    {
      "epoch": 7.783092324805339,
      "grad_norm": 1.5393073558807373,
      "learning_rate": 7.976572488206102e-09,
      "loss": 1.3987,
      "mean_token_accuracy": 0.6270527690649033,
      "step": 1751
    },
    {
      "epoch": 7.787541713014461,
      "grad_norm": 1.4425491094589233,
      "learning_rate": 7.592411193713123e-09,
      "loss": 1.288,
      "mean_token_accuracy": 0.656895324587822,
      "step": 1752
    },
    {
      "epoch": 7.791991101223582,
      "grad_norm": 1.4837727546691895,
      "learning_rate": 7.217716380881479e-09,
      "loss": 1.3839,
      "mean_token_accuracy": 0.6415816992521286,
      "step": 1753
    },
    {
      "epoch": 7.796440489432703,
      "grad_norm": 1.5448219776153564,
      "learning_rate": 6.852489472849444e-09,
      "loss": 1.3746,
      "mean_token_accuracy": 0.6438314914703369,
      "step": 1754
    },
    {
      "epoch": 7.800889877641824,
      "grad_norm": 1.491942048072815,
      "learning_rate": 6.496731856796002e-09,
      "loss": 1.3218,
      "mean_token_accuracy": 0.6375002861022949,
      "step": 1755
    },
    {
      "epoch": 7.805339265850946,
      "grad_norm": 1.6609587669372559,
      "learning_rate": 6.150444883933348e-09,
      "loss": 1.448,
      "mean_token_accuracy": 0.6324364393949509,
      "step": 1756
    },
    {
      "epoch": 7.809788654060067,
      "grad_norm": 1.5471932888031006,
      "learning_rate": 5.8136298695035675e-09,
      "loss": 1.3428,
      "mean_token_accuracy": 0.6429927200078964,
      "step": 1757
    },
    {
      "epoch": 7.814238042269188,
      "grad_norm": 1.3904894590377808,
      "learning_rate": 5.486288092773628e-09,
      "loss": 1.2975,
      "mean_token_accuracy": 0.6517857313156128,
      "step": 1758
    },
    {
      "epoch": 7.81868743047831,
      "grad_norm": 1.6595736742019653,
      "learning_rate": 5.168420797028728e-09,
      "loss": 1.3864,
      "mean_token_accuracy": 0.6312279403209686,
      "step": 1759
    },
    {
      "epoch": 7.823136818687431,
      "grad_norm": 1.4635809659957886,
      "learning_rate": 4.860029189569237e-09,
      "loss": 1.4041,
      "mean_token_accuracy": 0.6379037946462631,
      "step": 1760
    },
    {
      "epoch": 7.827586206896552,
      "grad_norm": 1.414007306098938,
      "learning_rate": 4.56111444170626e-09,
      "loss": 1.3876,
      "mean_token_accuracy": 0.6383445411920547,
      "step": 1761
    },
    {
      "epoch": 7.832035595105673,
      "grad_norm": 1.6078945398330688,
      "learning_rate": 4.271677688756082e-09,
      "loss": 1.4076,
      "mean_token_accuracy": 0.6393958479166031,
      "step": 1762
    },
    {
      "epoch": 7.8364849833147945,
      "grad_norm": 1.534049153327942,
      "learning_rate": 3.991720030036006e-09,
      "loss": 1.3815,
      "mean_token_accuracy": 0.6508161276578903,
      "step": 1763
    },
    {
      "epoch": 7.8409343715239155,
      "grad_norm": 1.4623284339904785,
      "learning_rate": 3.721242528861024e-09,
      "loss": 1.2619,
      "mean_token_accuracy": 0.6576677560806274,
      "step": 1764
    },
    {
      "epoch": 7.8453837597330365,
      "grad_norm": 1.6401008367538452,
      "learning_rate": 3.4602462125393756e-09,
      "loss": 1.3482,
      "mean_token_accuracy": 0.6418741643428802,
      "step": 1765
    },
    {
      "epoch": 7.849833147942158,
      "grad_norm": 1.57766854763031,
      "learning_rate": 3.208732072368104e-09,
      "loss": 1.4339,
      "mean_token_accuracy": 0.6219468265771866,
      "step": 1766
    },
    {
      "epoch": 7.854282536151279,
      "grad_norm": 1.4366259574890137,
      "learning_rate": 2.9667010636300063e-09,
      "loss": 1.3507,
      "mean_token_accuracy": 0.6458510458469391,
      "step": 1767
    },
    {
      "epoch": 7.8587319243604,
      "grad_norm": 1.5244600772857666,
      "learning_rate": 2.734154105589748e-09,
      "loss": 1.3753,
      "mean_token_accuracy": 0.635633647441864,
      "step": 1768
    },
    {
      "epoch": 7.863181312569521,
      "grad_norm": 1.476997971534729,
      "learning_rate": 2.511092081490252e-09,
      "loss": 1.3038,
      "mean_token_accuracy": 0.656947523355484,
      "step": 1769
    },
    {
      "epoch": 7.867630700778643,
      "grad_norm": 1.4501826763153076,
      "learning_rate": 2.2975158385496466e-09,
      "loss": 1.3954,
      "mean_token_accuracy": 0.6249595582485199,
      "step": 1770
    },
    {
      "epoch": 7.872080088987764,
      "grad_norm": 1.462496280670166,
      "learning_rate": 2.093426187957659e-09,
      "loss": 1.2827,
      "mean_token_accuracy": 0.6589979827404022,
      "step": 1771
    },
    {
      "epoch": 7.876529477196885,
      "grad_norm": 1.436872959136963,
      "learning_rate": 1.8988239048725598e-09,
      "loss": 1.2847,
      "mean_token_accuracy": 0.6570441126823425,
      "step": 1772
    },
    {
      "epoch": 7.880978865406007,
      "grad_norm": 1.5393073558807373,
      "learning_rate": 1.713709728418944e-09,
      "loss": 1.338,
      "mean_token_accuracy": 0.6371165066957474,
      "step": 1773
    },
    {
      "epoch": 7.885428253615128,
      "grad_norm": 1.5284533500671387,
      "learning_rate": 1.5380843616841223e-09,
      "loss": 1.4104,
      "mean_token_accuracy": 0.624643474817276,
      "step": 1774
    },
    {
      "epoch": 7.889877641824249,
      "grad_norm": 1.430409550666809,
      "learning_rate": 1.3719484717150678e-09,
      "loss": 1.3629,
      "mean_token_accuracy": 0.6385654956102371,
      "step": 1775
    },
    {
      "epoch": 7.889877641824249,
      "eval_loss": 1.4207348823547363,
      "eval_mean_token_accuracy": 0.6329618030786515,
      "eval_runtime": 8.9868,
      "eval_samples_per_second": 11.127,
      "eval_steps_per_second": 11.127,
      "step": 1775
    },
    {
      "epoch": 7.89432703003337,
      "grad_norm": 1.4434826374053955,
      "learning_rate": 1.215302689517861e-09,
      "loss": 1.4102,
      "mean_token_accuracy": 0.6312686204910278,
      "step": 1776
    },
    {
      "epoch": 7.898776418242492,
      "grad_norm": 1.5423476696014404,
      "learning_rate": 1.0681476100524168e-09,
      "loss": 1.4501,
      "mean_token_accuracy": 0.6198398917913437,
      "step": 1777
    },
    {
      "epoch": 7.903225806451613,
      "grad_norm": 1.4618138074874878,
      "learning_rate": 9.304837922327614e-10,
      "loss": 1.3345,
      "mean_token_accuracy": 0.6402617692947388,
      "step": 1778
    },
    {
      "epoch": 7.907675194660734,
      "grad_norm": 1.3647912740707397,
      "learning_rate": 8.023117589237017e-10,
      "loss": 1.3202,
      "mean_token_accuracy": 0.6570856124162674,
      "step": 1779
    },
    {
      "epoch": 7.912124582869856,
      "grad_norm": 1.5976084470748901,
      "learning_rate": 6.836319969388828e-10,
      "loss": 1.4771,
      "mean_token_accuracy": 0.6190269738435745,
      "step": 1780
    },
    {
      "epoch": 7.916573971078977,
      "grad_norm": 1.4518721103668213,
      "learning_rate": 5.74444957039122e-10,
      "loss": 1.3005,
      "mean_token_accuracy": 0.6457533538341522,
      "step": 1781
    },
    {
      "epoch": 7.921023359288098,
      "grad_norm": 1.5466468334197998,
      "learning_rate": 4.747510539307442e-10,
      "loss": 1.3531,
      "mean_token_accuracy": 0.6444897800683975,
      "step": 1782
    },
    {
      "epoch": 7.925472747497219,
      "grad_norm": 1.410116195678711,
      "learning_rate": 3.8455066626391646e-10,
      "loss": 1.4235,
      "mean_token_accuracy": 0.612121969461441,
      "step": 1783
    },
    {
      "epoch": 7.929922135706341,
      "grad_norm": 1.4990606307983398,
      "learning_rate": 3.0384413663125944e-10,
      "loss": 1.3823,
      "mean_token_accuracy": 0.6308721899986267,
      "step": 1784
    },
    {
      "epoch": 7.934371523915462,
      "grad_norm": 1.4593759775161743,
      "learning_rate": 2.3263177156646054e-10,
      "loss": 1.3733,
      "mean_token_accuracy": 0.6341280937194824,
      "step": 1785
    },
    {
      "epoch": 7.938820912124583,
      "grad_norm": 1.4947582483291626,
      "learning_rate": 1.7091384154288571e-10,
      "loss": 1.375,
      "mean_token_accuracy": 0.6321492940187454,
      "step": 1786
    },
    {
      "epoch": 7.943270300333704,
      "grad_norm": 1.4157261848449707,
      "learning_rate": 1.1869058097357944e-10,
      "loss": 1.3326,
      "mean_token_accuracy": 0.642204761505127,
      "step": 1787
    },
    {
      "epoch": 7.947719688542826,
      "grad_norm": 1.536372184753418,
      "learning_rate": 7.596218820876688e-11,
      "loss": 1.4053,
      "mean_token_accuracy": 0.6358101814985275,
      "step": 1788
    },
    {
      "epoch": 7.952169076751947,
      "grad_norm": 1.3676254749298096,
      "learning_rate": 4.2728825536131334e-11,
      "loss": 1.2692,
      "mean_token_accuracy": 0.6604742258787155,
      "step": 1789
    },
    {
      "epoch": 7.956618464961068,
      "grad_norm": 1.5876669883728027,
      "learning_rate": 1.899061918081424e-11,
      "loss": 1.4237,
      "mean_token_accuracy": 0.6332593709230423,
      "step": 1790
    },
    {
      "epoch": 7.961067853170189,
      "grad_norm": 1.4967901706695557,
      "learning_rate": 4.747659303194763e-12,
      "loss": 1.3614,
      "mean_token_accuracy": 0.6440084874629974,
      "step": 1791
    },
    {
      "epoch": 7.9655172413793105,
      "grad_norm": 1.4899622201919556,
      "learning_rate": 0.0,
      "loss": 1.3478,
      "mean_token_accuracy": 0.643056184053421,
      "step": 1792
    }
  ],
  "logging_steps": 1,
  "max_steps": 1792,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.108959650717614e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}