{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 625,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0032,
      "grad_norm": 4.003398418426514,
      "learning_rate": 3.1746031746031746e-06,
      "loss": 5.5134,
      "step": 2
    },
    {
      "epoch": 0.0064,
      "grad_norm": 3.8787970542907715,
      "learning_rate": 6.349206349206349e-06,
      "loss": 5.4188,
      "step": 4
    },
    {
      "epoch": 0.0096,
      "grad_norm": 3.35233998298645,
      "learning_rate": 9.523809523809523e-06,
      "loss": 5.3959,
      "step": 6
    },
    {
      "epoch": 0.0128,
      "grad_norm": 3.181354284286499,
      "learning_rate": 1.2698412698412699e-05,
      "loss": 5.0182,
      "step": 8
    },
    {
      "epoch": 0.016,
      "grad_norm": 3.267594575881958,
      "learning_rate": 1.5873015873015872e-05,
      "loss": 5.165,
      "step": 10
    },
    {
      "epoch": 0.0192,
      "grad_norm": 2.943314552307129,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 5.1724,
      "step": 12
    },
    {
      "epoch": 0.0224,
      "grad_norm": 3.0775997638702393,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 4.8787,
      "step": 14
    },
    {
      "epoch": 0.0256,
      "grad_norm": 2.813080310821533,
      "learning_rate": 2.5396825396825397e-05,
      "loss": 4.5059,
      "step": 16
    },
    {
      "epoch": 0.0288,
      "grad_norm": 2.7912418842315674,
      "learning_rate": 2.857142857142857e-05,
      "loss": 4.6671,
      "step": 18
    },
    {
      "epoch": 0.032,
      "grad_norm": 2.867560863494873,
      "learning_rate": 3.1746031746031745e-05,
      "loss": 4.5925,
      "step": 20
    },
    {
      "epoch": 0.0352,
      "grad_norm": 2.8513073921203613,
      "learning_rate": 3.492063492063492e-05,
      "loss": 4.5635,
      "step": 22
    },
    {
      "epoch": 0.0384,
      "grad_norm": 2.993715763092041,
      "learning_rate": 3.809523809523809e-05,
      "loss": 4.3602,
      "step": 24
    },
    {
      "epoch": 0.0416,
      "grad_norm": 2.7365496158599854,
      "learning_rate": 4.126984126984127e-05,
      "loss": 4.1892,
      "step": 26
    },
    {
      "epoch": 0.0448,
      "grad_norm": 2.8025388717651367,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 4.3073,
      "step": 28
    },
    {
      "epoch": 0.048,
      "grad_norm": 2.6050753593444824,
      "learning_rate": 4.761904761904762e-05,
      "loss": 4.2166,
      "step": 30
    },
    {
      "epoch": 0.0512,
      "grad_norm": 2.508267641067505,
      "learning_rate": 5.0793650793650794e-05,
      "loss": 4.1197,
      "step": 32
    },
    {
      "epoch": 0.0544,
      "grad_norm": 2.948679208755493,
      "learning_rate": 5.396825396825397e-05,
      "loss": 4.1424,
      "step": 34
    },
    {
      "epoch": 0.0576,
      "grad_norm": 2.48990797996521,
      "learning_rate": 5.714285714285714e-05,
      "loss": 3.9339,
      "step": 36
    },
    {
      "epoch": 0.0608,
      "grad_norm": 2.398798704147339,
      "learning_rate": 6.0317460317460316e-05,
      "loss": 3.9288,
      "step": 38
    },
    {
      "epoch": 0.064,
      "grad_norm": 2.53415846824646,
      "learning_rate": 6.349206349206349e-05,
      "loss": 3.8331,
      "step": 40
    },
    {
      "epoch": 0.0672,
      "grad_norm": 2.3072428703308105,
      "learning_rate": 6.666666666666667e-05,
      "loss": 3.8144,
      "step": 42
    },
    {
      "epoch": 0.0704,
      "grad_norm": 3.534005880355835,
      "learning_rate": 6.984126984126984e-05,
      "loss": 3.9028,
      "step": 44
    },
    {
      "epoch": 0.0736,
      "grad_norm": 2.3161308765411377,
      "learning_rate": 7.301587301587302e-05,
      "loss": 3.7529,
      "step": 46
    },
    {
      "epoch": 0.0768,
      "grad_norm": 2.167263984680176,
      "learning_rate": 7.619047619047618e-05,
      "loss": 3.7126,
      "step": 48
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.315884828567505,
      "learning_rate": 7.936507936507937e-05,
      "loss": 3.7618,
      "step": 50
    },
    {
      "epoch": 0.0832,
      "grad_norm": 2.3544087409973145,
      "learning_rate": 8.253968253968255e-05,
      "loss": 3.6104,
      "step": 52
    },
    {
      "epoch": 0.0864,
      "grad_norm": 2.661454677581787,
      "learning_rate": 8.571428571428571e-05,
      "loss": 3.7892,
      "step": 54
    },
    {
      "epoch": 0.0896,
      "grad_norm": 2.5542845726013184,
      "learning_rate": 8.888888888888889e-05,
      "loss": 3.688,
      "step": 56
    },
    {
      "epoch": 0.0928,
      "grad_norm": 2.400275468826294,
      "learning_rate": 9.206349206349206e-05,
      "loss": 3.6655,
      "step": 58
    },
    {
      "epoch": 0.096,
      "grad_norm": 2.3451530933380127,
      "learning_rate": 9.523809523809524e-05,
      "loss": 3.6182,
      "step": 60
    },
    {
      "epoch": 0.0992,
      "grad_norm": 2.333653688430786,
      "learning_rate": 9.841269841269841e-05,
      "loss": 3.6381,
      "step": 62
    },
    {
      "epoch": 0.1024,
      "grad_norm": 2.3389267921447754,
      "learning_rate": 9.99998248790669e-05,
      "loss": 3.6195,
      "step": 64
    },
    {
      "epoch": 0.1056,
      "grad_norm": 2.3507606983184814,
      "learning_rate": 9.999842391896222e-05,
      "loss": 3.5574,
      "step": 66
    },
    {
      "epoch": 0.1088,
      "grad_norm": 2.16170072555542,
      "learning_rate": 9.999562203800676e-05,
      "loss": 3.3756,
      "step": 68
    },
    {
      "epoch": 0.112,
      "grad_norm": 2.787811517715454,
      "learning_rate": 9.999141931470729e-05,
      "loss": 3.5216,
      "step": 70
    },
    {
      "epoch": 0.1152,
      "grad_norm": 2.2712697982788086,
      "learning_rate": 9.998581586682116e-05,
      "loss": 3.4603,
      "step": 72
    },
    {
      "epoch": 0.1184,
      "grad_norm": 2.1623542308807373,
      "learning_rate": 9.997881185135307e-05,
      "loss": 3.4121,
      "step": 74
    },
    {
      "epoch": 0.1216,
      "grad_norm": 2.287978410720825,
      "learning_rate": 9.997040746455062e-05,
      "loss": 3.4531,
      "step": 76
    },
    {
      "epoch": 0.1248,
      "grad_norm": 2.1039929389953613,
      "learning_rate": 9.996060294189887e-05,
      "loss": 3.3915,
      "step": 78
    },
    {
      "epoch": 0.128,
      "grad_norm": 2.21728253364563,
      "learning_rate": 9.994939855811362e-05,
      "loss": 3.4692,
      "step": 80
    },
    {
      "epoch": 0.1312,
      "grad_norm": 2.0638415813446045,
      "learning_rate": 9.993679462713395e-05,
      "loss": 3.3755,
      "step": 82
    },
    {
      "epoch": 0.1344,
      "grad_norm": 2.0473437309265137,
      "learning_rate": 9.992279150211314e-05,
      "loss": 3.3397,
      "step": 84
    },
    {
      "epoch": 0.1376,
      "grad_norm": 2.1701149940490723,
      "learning_rate": 9.990738957540896e-05,
      "loss": 3.4977,
      "step": 86
    },
    {
      "epoch": 0.1408,
      "grad_norm": 1.9672938585281372,
      "learning_rate": 9.989058927857263e-05,
      "loss": 3.4766,
      "step": 88
    },
    {
      "epoch": 0.144,
      "grad_norm": 2.3225531578063965,
      "learning_rate": 9.987239108233668e-05,
      "loss": 3.5298,
      "step": 90
    },
    {
      "epoch": 0.1472,
      "grad_norm": 2.101745128631592,
      "learning_rate": 9.985279549660185e-05,
      "loss": 3.4614,
      "step": 92
    },
    {
      "epoch": 0.1504,
      "grad_norm": 2.306628704071045,
      "learning_rate": 9.983180307042274e-05,
      "loss": 3.476,
      "step": 94
    },
    {
      "epoch": 0.1536,
      "grad_norm": 2.1449179649353027,
      "learning_rate": 9.980941439199246e-05,
      "loss": 3.4462,
      "step": 96
    },
    {
      "epoch": 0.1568,
      "grad_norm": 2.0078611373901367,
      "learning_rate": 9.97856300886261e-05,
      "loss": 3.3294,
      "step": 98
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.0719003677368164,
      "learning_rate": 9.976045082674319e-05,
      "loss": 3.2774,
      "step": 100
    },
    {
      "epoch": 0.1632,
      "grad_norm": 2.0790517330169678,
      "learning_rate": 9.973387731184902e-05,
      "loss": 3.431,
      "step": 102
    },
    {
      "epoch": 0.1664,
      "grad_norm": 2.0894367694854736,
      "learning_rate": 9.97059102885149e-05,
      "loss": 3.3713,
      "step": 104
    },
    {
      "epoch": 0.1696,
      "grad_norm": 2.070286273956299,
      "learning_rate": 9.967655054035727e-05,
      "loss": 3.3801,
      "step": 106
    },
    {
      "epoch": 0.1728,
      "grad_norm": 2.164044141769409,
      "learning_rate": 9.964579889001569e-05,
      "loss": 3.2616,
      "step": 108
    },
    {
      "epoch": 0.176,
      "grad_norm": 1.8794784545898438,
      "learning_rate": 9.961365619912989e-05,
      "loss": 3.2527,
      "step": 110
    },
    {
      "epoch": 0.1792,
      "grad_norm": 2.0790045261383057,
      "learning_rate": 9.95801233683156e-05,
      "loss": 3.3401,
      "step": 112
    },
    {
      "epoch": 0.1824,
      "grad_norm": 2.0568065643310547,
      "learning_rate": 9.954520133713924e-05,
      "loss": 3.2555,
      "step": 114
    },
    {
      "epoch": 0.1856,
      "grad_norm": 2.0765480995178223,
      "learning_rate": 9.950889108409172e-05,
      "loss": 3.2756,
      "step": 116
    },
    {
      "epoch": 0.1888,
      "grad_norm": 2.1741421222686768,
      "learning_rate": 9.947119362656092e-05,
      "loss": 3.3175,
      "step": 118
    },
    {
      "epoch": 0.192,
      "grad_norm": 2.1725833415985107,
      "learning_rate": 9.94321100208032e-05,
      "loss": 3.1731,
      "step": 120
    },
    {
      "epoch": 0.1952,
      "grad_norm": 1.999140977859497,
      "learning_rate": 9.939164136191384e-05,
      "loss": 3.3227,
      "step": 122
    },
    {
      "epoch": 0.1984,
      "grad_norm": 1.921294093132019,
      "learning_rate": 9.934978878379636e-05,
      "loss": 3.2256,
      "step": 124
    },
    {
      "epoch": 0.2016,
      "grad_norm": 1.9529492855072021,
      "learning_rate": 9.930655345913071e-05,
      "loss": 3.0883,
      "step": 126
    },
    {
      "epoch": 0.2048,
      "grad_norm": 2.150303363800049,
      "learning_rate": 9.926193659934043e-05,
      "loss": 3.3573,
      "step": 128
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.9806243181228638,
      "learning_rate": 9.921593945455869e-05,
      "loss": 3.2768,
      "step": 130
    },
    {
      "epoch": 0.2112,
      "grad_norm": 1.9807746410369873,
      "learning_rate": 9.916856331359335e-05,
      "loss": 3.2648,
      "step": 132
    },
    {
      "epoch": 0.2144,
      "grad_norm": 2.076587438583374,
      "learning_rate": 9.911980950389067e-05,
      "loss": 3.1512,
      "step": 134
    },
    {
      "epoch": 0.2176,
      "grad_norm": 2.1034469604492188,
      "learning_rate": 9.906967939149831e-05,
      "loss": 3.3036,
      "step": 136
    },
    {
      "epoch": 0.2208,
      "grad_norm": 1.9899942874908447,
      "learning_rate": 9.901817438102695e-05,
      "loss": 3.2006,
      "step": 138
    },
    {
      "epoch": 0.224,
      "grad_norm": 2.0270800590515137,
      "learning_rate": 9.896529591561093e-05,
      "loss": 3.2763,
      "step": 140
    },
    {
      "epoch": 0.2272,
      "grad_norm": 1.8766114711761475,
      "learning_rate": 9.891104547686782e-05,
      "loss": 3.0938,
      "step": 142
    },
    {
      "epoch": 0.2304,
      "grad_norm": 1.9455324411392212,
      "learning_rate": 9.8855424584857e-05,
      "loss": 3.1446,
      "step": 144
    },
    {
      "epoch": 0.2336,
      "grad_norm": 1.9816287755966187,
      "learning_rate": 9.879843479803691e-05,
      "loss": 3.2033,
      "step": 146
    },
    {
      "epoch": 0.2368,
      "grad_norm": 1.91851806640625,
      "learning_rate": 9.874007771322151e-05,
      "loss": 3.1401,
      "step": 148
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.0787765979766846,
      "learning_rate": 9.868035496553546e-05,
      "loss": 3.1416,
      "step": 150
    },
    {
      "epoch": 0.2432,
      "grad_norm": 2.0181703567504883,
      "learning_rate": 9.86192682283684e-05,
      "loss": 3.2667,
      "step": 152
    },
    {
      "epoch": 0.2464,
      "grad_norm": 1.9094109535217285,
      "learning_rate": 9.855681921332793e-05,
      "loss": 3.1518,
      "step": 154
    },
    {
      "epoch": 0.2496,
      "grad_norm": 2.0122427940368652,
      "learning_rate": 9.849300967019175e-05,
      "loss": 3.1154,
      "step": 156
    },
    {
      "epoch": 0.2528,
      "grad_norm": 1.7713487148284912,
      "learning_rate": 9.84278413868586e-05,
      "loss": 3.1363,
      "step": 158
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.1463325023651123,
      "learning_rate": 9.836131618929819e-05,
      "loss": 3.2497,
      "step": 160
    },
    {
      "epoch": 0.2592,
      "grad_norm": 2.0216422080993652,
      "learning_rate": 9.82934359415e-05,
      "loss": 3.1458,
      "step": 162
    },
    {
      "epoch": 0.2624,
      "grad_norm": 2.222799062728882,
      "learning_rate": 9.822420254542108e-05,
      "loss": 3.1471,
      "step": 164
    },
    {
      "epoch": 0.2656,
      "grad_norm": 1.9343550205230713,
      "learning_rate": 9.815361794093272e-05,
      "loss": 3.0356,
      "step": 166
    },
    {
      "epoch": 0.2688,
      "grad_norm": 2.1593821048736572,
      "learning_rate": 9.808168410576617e-05,
      "loss": 3.0745,
      "step": 168
    },
    {
      "epoch": 0.272,
      "grad_norm": 2.0401506423950195,
      "learning_rate": 9.800840305545715e-05,
      "loss": 3.1736,
      "step": 170
    },
    {
      "epoch": 0.2752,
      "grad_norm": 2.0636751651763916,
      "learning_rate": 9.793377684328939e-05,
      "loss": 3.2168,
      "step": 172
    },
    {
      "epoch": 0.2784,
      "grad_norm": 1.866654396057129,
      "learning_rate": 9.785780756023714e-05,
      "loss": 3.0503,
      "step": 174
    },
    {
      "epoch": 0.2816,
      "grad_norm": 1.9127966165542603,
      "learning_rate": 9.778049733490655e-05,
      "loss": 2.9383,
      "step": 176
    },
    {
      "epoch": 0.2848,
      "grad_norm": 2.457305908203125,
      "learning_rate": 9.770184833347606e-05,
      "loss": 3.1299,
      "step": 178
    },
    {
      "epoch": 0.288,
      "grad_norm": 1.8926254510879517,
      "learning_rate": 9.762186275963563e-05,
      "loss": 3.1366,
      "step": 180
    },
    {
      "epoch": 0.2912,
      "grad_norm": 2.1072804927825928,
      "learning_rate": 9.754054285452506e-05,
      "loss": 3.1647,
      "step": 182
    },
    {
      "epoch": 0.2944,
      "grad_norm": 1.8649822473526,
      "learning_rate": 9.745789089667121e-05,
      "loss": 2.9485,
      "step": 184
    },
    {
      "epoch": 0.2976,
      "grad_norm": 1.9484585523605347,
      "learning_rate": 9.737390920192408e-05,
      "loss": 3.1584,
      "step": 186
    },
    {
      "epoch": 0.3008,
      "grad_norm": 1.9346860647201538,
      "learning_rate": 9.7288600123392e-05,
      "loss": 3.0228,
      "step": 188
    },
    {
      "epoch": 0.304,
      "grad_norm": 1.9476735591888428,
      "learning_rate": 9.720196605137565e-05,
      "loss": 3.0083,
      "step": 190
    },
    {
      "epoch": 0.3072,
      "grad_norm": 1.9774948358535767,
      "learning_rate": 9.71140094133011e-05,
      "loss": 3.1391,
      "step": 192
    },
    {
      "epoch": 0.3104,
      "grad_norm": 2.0223560333251953,
      "learning_rate": 9.702473267365182e-05,
      "loss": 3.0401,
      "step": 194
    },
    {
      "epoch": 0.3136,
      "grad_norm": 1.967708706855774,
      "learning_rate": 9.693413833389956e-05,
      "loss": 3.1106,
      "step": 196
    },
    {
      "epoch": 0.3168,
      "grad_norm": 1.7389135360717773,
      "learning_rate": 9.684222893243431e-05,
      "loss": 2.8857,
      "step": 198
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.6217007637023926,
      "learning_rate": 9.674900704449324e-05,
      "loss": 3.0643,
      "step": 200
    },
    {
      "epoch": 0.3232,
      "grad_norm": 1.8339524269104004,
      "learning_rate": 9.665447528208836e-05,
      "loss": 3.0672,
      "step": 202
    },
    {
      "epoch": 0.3264,
      "grad_norm": 1.8506875038146973,
      "learning_rate": 9.655863629393351e-05,
      "loss": 3.1428,
      "step": 204
    },
    {
      "epoch": 0.3296,
      "grad_norm": 1.7913798093795776,
      "learning_rate": 9.64614927653701e-05,
      "loss": 3.0137,
      "step": 206
    },
    {
      "epoch": 0.3328,
      "grad_norm": 1.8941457271575928,
      "learning_rate": 9.636304741829181e-05,
      "loss": 3.0868,
      "step": 208
    },
    {
      "epoch": 0.336,
      "grad_norm": 1.9125800132751465,
      "learning_rate": 9.626330301106837e-05,
      "loss": 2.9557,
      "step": 210
    },
    {
      "epoch": 0.3392,
      "grad_norm": 2.106065034866333,
      "learning_rate": 9.616226233846828e-05,
      "loss": 2.9097,
      "step": 212
    },
    {
      "epoch": 0.3424,
      "grad_norm": 1.9358118772506714,
      "learning_rate": 9.605992823158046e-05,
      "loss": 3.0299,
      "step": 214
    },
    {
      "epoch": 0.3456,
      "grad_norm": 1.9801294803619385,
      "learning_rate": 9.595630355773501e-05,
      "loss": 3.0912,
      "step": 216
    },
    {
      "epoch": 0.3488,
      "grad_norm": 1.8373034000396729,
      "learning_rate": 9.585139122042274e-05,
      "loss": 3.1476,
      "step": 218
    },
    {
      "epoch": 0.352,
      "grad_norm": 1.9596655368804932,
      "learning_rate": 9.574519415921396e-05,
      "loss": 3.0575,
      "step": 220
    },
    {
      "epoch": 0.3552,
      "grad_norm": 1.934034824371338,
      "learning_rate": 9.5637715349676e-05,
      "loss": 3.0976,
      "step": 222
    },
    {
      "epoch": 0.3584,
      "grad_norm": 1.8657301664352417,
      "learning_rate": 9.552895780328987e-05,
      "loss": 2.9733,
      "step": 224
    },
    {
      "epoch": 0.3616,
      "grad_norm": 1.9132601022720337,
      "learning_rate": 9.541892456736595e-05,
      "loss": 3.1279,
      "step": 226
    },
    {
      "epoch": 0.3648,
      "grad_norm": 1.8330072164535522,
      "learning_rate": 9.530761872495849e-05,
      "loss": 2.9559,
      "step": 228
    },
    {
      "epoch": 0.368,
      "grad_norm": 2.041616678237915,
      "learning_rate": 9.519504339477932e-05,
      "loss": 3.0841,
      "step": 230
    },
    {
      "epoch": 0.3712,
      "grad_norm": 1.8589662313461304,
      "learning_rate": 9.508120173111039e-05,
      "loss": 2.9321,
      "step": 232
    },
    {
      "epoch": 0.3744,
      "grad_norm": 1.97813880443573,
      "learning_rate": 9.496609692371548e-05,
      "loss": 3.1256,
      "step": 234
    },
    {
      "epoch": 0.3776,
      "grad_norm": 1.8815686702728271,
      "learning_rate": 9.484973219775074e-05,
      "loss": 3.2303,
      "step": 236
    },
    {
      "epoch": 0.3808,
      "grad_norm": 1.9288252592086792,
      "learning_rate": 9.473211081367436e-05,
      "loss": 2.9839,
      "step": 238
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.7643146514892578,
      "learning_rate": 9.46132360671552e-05,
      "loss": 2.9845,
      "step": 240
    },
    {
      "epoch": 0.3872,
      "grad_norm": 1.967948079109192,
      "learning_rate": 9.449311128898049e-05,
      "loss": 3.0456,
      "step": 242
    },
    {
      "epoch": 0.3904,
      "grad_norm": 2.1590418815612793,
      "learning_rate": 9.437173984496246e-05,
      "loss": 3.0971,
      "step": 244
    },
    {
      "epoch": 0.3936,
      "grad_norm": 1.902346134185791,
      "learning_rate": 9.424912513584401e-05,
      "loss": 3.1142,
      "step": 246
    },
    {
      "epoch": 0.3968,
      "grad_norm": 1.8942574262619019,
      "learning_rate": 9.412527059720352e-05,
      "loss": 2.9314,
      "step": 248
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8770538568496704,
      "learning_rate": 9.400017969935848e-05,
      "loss": 2.9072,
      "step": 250
    },
    {
      "epoch": 0.4032,
      "grad_norm": 1.9126331806182861,
      "learning_rate": 9.387385594726829e-05,
      "loss": 2.9921,
      "step": 252
    },
    {
      "epoch": 0.4064,
      "grad_norm": 1.9200276136398315,
      "learning_rate": 9.374630288043614e-05,
      "loss": 3.0628,
      "step": 254
    },
    {
      "epoch": 0.4096,
      "grad_norm": 1.7787516117095947,
      "learning_rate": 9.361752407280965e-05,
      "loss": 2.924,
      "step": 256
    },
    {
      "epoch": 0.4128,
      "grad_norm": 1.9036502838134766,
      "learning_rate": 9.348752313268093e-05,
      "loss": 2.8902,
      "step": 258
    },
    {
      "epoch": 0.416,
      "grad_norm": 2.0081849098205566,
      "learning_rate": 9.335630370258533e-05,
      "loss": 3.0701,
      "step": 260
    },
    {
      "epoch": 0.4192,
      "grad_norm": 1.8589926958084106,
      "learning_rate": 9.322386945919946e-05,
      "loss": 3.1093,
      "step": 262
    },
    {
      "epoch": 0.4224,
      "grad_norm": 1.831310749053955,
      "learning_rate": 9.309022411323816e-05,
      "loss": 3.0417,
      "step": 264
    },
    {
      "epoch": 0.4256,
      "grad_norm": 1.7675327062606812,
      "learning_rate": 9.295537140935049e-05,
      "loss": 3.1065,
      "step": 266
    },
    {
      "epoch": 0.4288,
      "grad_norm": 1.665867567062378,
      "learning_rate": 9.281931512601485e-05,
      "loss": 2.8235,
      "step": 268
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.939916968345642,
      "learning_rate": 9.26820590754331e-05,
      "loss": 2.9509,
      "step": 270
    },
    {
      "epoch": 0.4352,
      "grad_norm": 1.7796070575714111,
      "learning_rate": 9.254360710342371e-05,
      "loss": 3.0179,
      "step": 272
    },
    {
      "epoch": 0.4384,
      "grad_norm": 1.840404987335205,
      "learning_rate": 9.240396308931407e-05,
      "loss": 2.9426,
      "step": 274
    },
    {
      "epoch": 0.4416,
      "grad_norm": 1.8405535221099854,
      "learning_rate": 9.226313094583173e-05,
      "loss": 2.9816,
      "step": 276
    },
    {
      "epoch": 0.4448,
      "grad_norm": 1.8010540008544922,
      "learning_rate": 9.212111461899479e-05,
      "loss": 2.9579,
      "step": 278
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.8512399196624756,
      "learning_rate": 9.197791808800135e-05,
      "loss": 3.0131,
      "step": 280
    },
    {
      "epoch": 0.4512,
      "grad_norm": 1.9153982400894165,
      "learning_rate": 9.183354536511803e-05,
      "loss": 2.933,
      "step": 282
    },
    {
      "epoch": 0.4544,
      "grad_norm": 1.8727631568908691,
      "learning_rate": 9.168800049556747e-05,
      "loss": 2.9235,
      "step": 284
    },
    {
      "epoch": 0.4576,
      "grad_norm": 1.7501890659332275,
      "learning_rate": 9.154128755741509e-05,
      "loss": 2.9414,
      "step": 286
    },
    {
      "epoch": 0.4608,
      "grad_norm": 1.8701766729354858,
      "learning_rate": 9.139341066145472e-05,
      "loss": 2.9738,
      "step": 288
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.7928165197372437,
      "learning_rate": 9.124437395109353e-05,
      "loss": 2.9772,
      "step": 290
    },
    {
      "epoch": 0.4672,
      "grad_norm": 1.8052245378494263,
      "learning_rate": 9.109418160223585e-05,
      "loss": 2.9038,
      "step": 292
    },
    {
      "epoch": 0.4704,
      "grad_norm": 1.9089561700820923,
      "learning_rate": 9.094283782316619e-05,
      "loss": 2.9152,
      "step": 294
    },
    {
      "epoch": 0.4736,
      "grad_norm": 2.1660711765289307,
      "learning_rate": 9.079034685443133e-05,
      "loss": 2.7458,
      "step": 296
    },
    {
      "epoch": 0.4768,
      "grad_norm": 1.9131355285644531,
      "learning_rate": 9.063671296872149e-05,
      "loss": 2.9412,
      "step": 298
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9271899461746216,
      "learning_rate": 9.048194047075069e-05,
      "loss": 2.9115,
      "step": 300
    },
    {
      "epoch": 0.4832,
      "grad_norm": 1.8905324935913086,
      "learning_rate": 9.032603369713596e-05,
      "loss": 2.8301,
      "step": 302
    },
    {
      "epoch": 0.4864,
      "grad_norm": 1.7488939762115479,
      "learning_rate": 9.016899701627604e-05,
      "loss": 2.9444,
      "step": 304
    },
    {
      "epoch": 0.4896,
      "grad_norm": 1.8300458192825317,
      "learning_rate": 9.00108348282288e-05,
      "loss": 2.9926,
      "step": 306
    },
    {
      "epoch": 0.4928,
      "grad_norm": 1.8565089702606201,
      "learning_rate": 8.985155156458811e-05,
      "loss": 2.9621,
      "step": 308
    },
    {
      "epoch": 0.496,
      "grad_norm": 2.1201281547546387,
      "learning_rate": 8.969115168835954e-05,
      "loss": 2.8511,
      "step": 310
    },
    {
      "epoch": 0.4992,
      "grad_norm": 1.7473756074905396,
      "learning_rate": 8.952963969383538e-05,
      "loss": 2.9506,
      "step": 312
    },
    {
      "epoch": 0.5024,
      "grad_norm": 1.9129459857940674,
      "learning_rate": 8.93670201064687e-05,
      "loss": 2.8627,
      "step": 314
    },
    {
      "epoch": 0.5056,
      "grad_norm": 1.7804704904556274,
      "learning_rate": 8.920329748274649e-05,
      "loss": 2.882,
      "step": 316
    },
    {
      "epoch": 0.5088,
      "grad_norm": 1.7791669368743896,
      "learning_rate": 8.903847641006218e-05,
      "loss": 2.9053,
      "step": 318
    },
    {
      "epoch": 0.512,
      "grad_norm": 1.9882534742355347,
      "learning_rate": 8.887256150658684e-05,
      "loss": 2.9013,
      "step": 320
    },
    {
      "epoch": 0.5152,
      "grad_norm": 1.805882453918457,
      "learning_rate": 8.870555742113998e-05,
      "loss": 2.9622,
      "step": 322
    },
    {
      "epoch": 0.5184,
      "grad_norm": 1.8282790184020996,
      "learning_rate": 8.85374688330592e-05,
      "loss": 2.9903,
      "step": 324
    },
    {
      "epoch": 0.5216,
      "grad_norm": 1.883791208267212,
      "learning_rate": 8.836830045206911e-05,
      "loss": 2.8879,
      "step": 326
    },
    {
      "epoch": 0.5248,
      "grad_norm": 1.7376691102981567,
      "learning_rate": 8.81980570181494e-05,
      "loss": 2.8411,
      "step": 328
    },
    {
      "epoch": 0.528,
      "grad_norm": 2.169440746307373,
      "learning_rate": 8.802674330140192e-05,
      "loss": 2.8932,
      "step": 330
    },
    {
      "epoch": 0.5312,
      "grad_norm": 1.7894519567489624,
      "learning_rate": 8.785436410191714e-05,
      "loss": 2.9507,
      "step": 332
    },
    {
      "epoch": 0.5344,
      "grad_norm": 1.698020339012146,
      "learning_rate": 8.76809242496396e-05,
      "loss": 2.7783,
      "step": 334
    },
    {
      "epoch": 0.5376,
      "grad_norm": 1.780211091041565,
      "learning_rate": 8.750642860423262e-05,
      "loss": 2.9119,
      "step": 336
    },
    {
      "epoch": 0.5408,
      "grad_norm": 1.8312267065048218,
      "learning_rate": 8.733088205494205e-05,
      "loss": 2.9223,
      "step": 338
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.8164184093475342,
      "learning_rate": 8.715428952045936e-05,
      "loss": 2.8617,
      "step": 340
    },
    {
      "epoch": 0.5472,
      "grad_norm": 1.798584222793579,
      "learning_rate": 8.697665594878382e-05,
      "loss": 2.9142,
      "step": 342
    },
    {
      "epoch": 0.5504,
      "grad_norm": 1.8862686157226562,
      "learning_rate": 8.679798631708375e-05,
      "loss": 2.7877,
      "step": 344
    },
    {
      "epoch": 0.5536,
      "grad_norm": 1.7563902139663696,
      "learning_rate": 8.661828563155727e-05,
      "loss": 2.8431,
      "step": 346
    },
    {
      "epoch": 0.5568,
      "grad_norm": 1.822016716003418,
      "learning_rate": 8.643755892729179e-05,
      "loss": 2.795,
      "step": 348
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9240450859069824,
      "learning_rate": 8.625581126812312e-05,
      "loss": 2.9757,
      "step": 350
    },
    {
      "epoch": 0.5632,
      "grad_norm": 1.857042670249939,
      "learning_rate": 8.607304774649349e-05,
      "loss": 2.8828,
      "step": 352
    },
    {
      "epoch": 0.5664,
      "grad_norm": 1.8214458227157593,
      "learning_rate": 8.588927348330887e-05,
      "loss": 2.7545,
      "step": 354
    },
    {
      "epoch": 0.5696,
      "grad_norm": 1.7683740854263306,
      "learning_rate": 8.57044936277955e-05,
      "loss": 2.718,
      "step": 356
    },
    {
      "epoch": 0.5728,
      "grad_norm": 1.812766194343567,
      "learning_rate": 8.551871335735565e-05,
      "loss": 2.8056,
      "step": 358
    },
    {
      "epoch": 0.576,
      "grad_norm": 1.953468680381775,
      "learning_rate": 8.533193787742251e-05,
      "loss": 2.8261,
      "step": 360
    },
    {
      "epoch": 0.5792,
      "grad_norm": 1.8633900880813599,
      "learning_rate": 8.51441724213143e-05,
      "loss": 2.8443,
      "step": 362
    },
    {
      "epoch": 0.5824,
      "grad_norm": 1.8928310871124268,
      "learning_rate": 8.495542225008771e-05,
      "loss": 2.792,
      "step": 364
    },
    {
      "epoch": 0.5856,
      "grad_norm": 1.7386835813522339,
      "learning_rate": 8.476569265239046e-05,
      "loss": 2.8218,
      "step": 366
    },
    {
      "epoch": 0.5888,
      "grad_norm": 1.7460798025131226,
      "learning_rate": 8.457498894431311e-05,
      "loss": 2.7093,
      "step": 368
    },
    {
      "epoch": 0.592,
      "grad_norm": 1.7657406330108643,
      "learning_rate": 8.438331646924013e-05,
      "loss": 2.8211,
      "step": 370
    },
    {
      "epoch": 0.5952,
      "grad_norm": 1.8802350759506226,
      "learning_rate": 8.419068059770011e-05,
      "loss": 2.7532,
      "step": 372
    },
    {
      "epoch": 0.5984,
      "grad_norm": 1.8003642559051514,
      "learning_rate": 8.399708672721539e-05,
      "loss": 2.9169,
      "step": 374
    },
    {
      "epoch": 0.6016,
      "grad_norm": 1.9424893856048584,
      "learning_rate": 8.380254028215076e-05,
      "loss": 2.9093,
      "step": 376
    },
    {
      "epoch": 0.6048,
      "grad_norm": 1.645732045173645,
      "learning_rate": 8.360704671356145e-05,
      "loss": 2.7269,
      "step": 378
    },
    {
      "epoch": 0.608,
      "grad_norm": 1.7652631998062134,
      "learning_rate": 8.341061149904045e-05,
      "loss": 2.8412,
      "step": 380
    },
    {
      "epoch": 0.6112,
      "grad_norm": 1.8672796487808228,
      "learning_rate": 8.321324014256504e-05,
      "loss": 2.7986,
      "step": 382
    },
    {
      "epoch": 0.6144,
      "grad_norm": 1.8350838422775269,
      "learning_rate": 8.30149381743425e-05,
      "loss": 2.7803,
      "step": 384
    },
    {
      "epoch": 0.6176,
      "grad_norm": 1.6410598754882812,
      "learning_rate": 8.28157111506552e-05,
      "loss": 2.7751,
      "step": 386
    },
    {
      "epoch": 0.6208,
      "grad_norm": 1.8046494722366333,
      "learning_rate": 8.261556465370493e-05,
      "loss": 2.8643,
      "step": 388
    },
    {
      "epoch": 0.624,
      "grad_norm": 1.7875089645385742,
      "learning_rate": 8.24145042914565e-05,
      "loss": 2.758,
      "step": 390
    },
    {
      "epoch": 0.6272,
      "grad_norm": 1.9629615545272827,
      "learning_rate": 8.221253569748055e-05,
      "loss": 2.9177,
      "step": 392
    },
    {
      "epoch": 0.6304,
      "grad_norm": 1.8236562013626099,
      "learning_rate": 8.200966453079575e-05,
      "loss": 2.7827,
      "step": 394
    },
    {
      "epoch": 0.6336,
      "grad_norm": 1.764949083328247,
      "learning_rate": 8.180589647571023e-05,
      "loss": 2.8513,
      "step": 396
    },
    {
      "epoch": 0.6368,
      "grad_norm": 1.8231624364852905,
      "learning_rate": 8.16012372416623e-05,
      "loss": 2.8772,
      "step": 398
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8316044807434082,
      "learning_rate": 8.13956925630605e-05,
      "loss": 2.7835,
      "step": 400
    },
    {
      "epoch": 0.6432,
      "grad_norm": 1.7803317308425903,
      "learning_rate": 8.118926819912287e-05,
      "loss": 2.7796,
      "step": 402
    },
    {
      "epoch": 0.6464,
      "grad_norm": 1.8900505304336548,
      "learning_rate": 8.098196993371565e-05,
      "loss": 2.6863,
      "step": 404
    },
    {
      "epoch": 0.6496,
      "grad_norm": 1.746497631072998,
      "learning_rate": 8.077380357519115e-05,
      "loss": 2.7656,
      "step": 406
    },
    {
      "epoch": 0.6528,
      "grad_norm": 1.8104835748672485,
      "learning_rate": 8.056477495622511e-05,
      "loss": 2.8078,
      "step": 408
    },
    {
      "epoch": 0.656,
      "grad_norm": 1.9722564220428467,
      "learning_rate": 8.035488993365312e-05,
      "loss": 2.7951,
      "step": 410
    },
    {
      "epoch": 0.6592,
      "grad_norm": 1.8214237689971924,
      "learning_rate": 8.014415438830667e-05,
      "loss": 2.788,
      "step": 412
    },
    {
      "epoch": 0.6624,
      "grad_norm": 1.8337074518203735,
      "learning_rate": 7.993257422484826e-05,
      "loss": 2.8064,
      "step": 414
    },
    {
      "epoch": 0.6656,
      "grad_norm": 1.9163333177566528,
      "learning_rate": 7.972015537160602e-05,
      "loss": 2.9201,
      "step": 416
    },
    {
      "epoch": 0.6688,
      "grad_norm": 1.7630958557128906,
      "learning_rate": 7.950690378040758e-05,
      "loss": 2.7351,
      "step": 418
    },
    {
      "epoch": 0.672,
      "grad_norm": 1.7504249811172485,
      "learning_rate": 7.929282542641325e-05,
      "loss": 2.6697,
      "step": 420
    },
    {
      "epoch": 0.6752,
      "grad_norm": 1.7984594106674194,
      "learning_rate": 7.907792630794876e-05,
      "loss": 2.7678,
      "step": 422
    },
    {
      "epoch": 0.6784,
      "grad_norm": 1.7896307706832886,
      "learning_rate": 7.886221244633703e-05,
      "loss": 2.8437,
      "step": 424
    },
    {
      "epoch": 0.6816,
      "grad_norm": 1.8449325561523438,
      "learning_rate": 7.864568988572947e-05,
      "loss": 2.8954,
      "step": 426
    },
    {
      "epoch": 0.6848,
      "grad_norm": 1.776218056678772,
      "learning_rate": 7.842836469293673e-05,
      "loss": 2.7421,
      "step": 428
    },
    {
      "epoch": 0.688,
      "grad_norm": 1.8183071613311768,
      "learning_rate": 7.821024295725865e-05,
      "loss": 2.7952,
      "step": 430
    },
    {
      "epoch": 0.6912,
      "grad_norm": 1.7531514167785645,
      "learning_rate": 7.79913307903136e-05,
      "loss": 2.7619,
      "step": 432
    },
    {
      "epoch": 0.6944,
      "grad_norm": 1.7567096948623657,
      "learning_rate": 7.777163432586734e-05,
      "loss": 2.6946,
      "step": 434
    },
    {
      "epoch": 0.6976,
      "grad_norm": 1.789299488067627,
      "learning_rate": 7.755115971966104e-05,
      "loss": 2.8129,
      "step": 436
    },
    {
      "epoch": 0.7008,
      "grad_norm": 1.8252789974212646,
      "learning_rate": 7.732991314923891e-05,
      "loss": 2.7505,
      "step": 438
    },
    {
      "epoch": 0.704,
      "grad_norm": 1.80510413646698,
      "learning_rate": 7.710790081377502e-05,
      "loss": 2.7534,
      "step": 440
    },
    {
      "epoch": 0.7072,
      "grad_norm": 1.7833061218261719,
      "learning_rate": 7.688512893389964e-05,
      "loss": 2.6598,
      "step": 442
    },
    {
      "epoch": 0.7104,
      "grad_norm": 1.9574776887893677,
      "learning_rate": 7.666160375152496e-05,
      "loss": 2.7919,
      "step": 444
    },
    {
      "epoch": 0.7136,
      "grad_norm": 1.7072992324829102,
      "learning_rate": 7.643733152967019e-05,
      "loss": 2.8136,
      "step": 446
    },
    {
      "epoch": 0.7168,
      "grad_norm": 1.7041406631469727,
      "learning_rate": 7.621231855228604e-05,
      "loss": 2.7912,
      "step": 448
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.727468490600586,
      "learning_rate": 7.598657112407865e-05,
      "loss": 2.7886,
      "step": 450
    },
    {
      "epoch": 0.7232,
      "grad_norm": 1.821502447128296,
      "learning_rate": 7.576009557033304e-05,
      "loss": 2.7679,
      "step": 452
    },
    {
      "epoch": 0.7264,
      "grad_norm": 1.7927954196929932,
      "learning_rate": 7.553289823673568e-05,
      "loss": 2.8107,
      "step": 454
    },
    {
      "epoch": 0.7296,
      "grad_norm": 1.775628685951233,
      "learning_rate": 7.530498548919693e-05,
      "loss": 2.8186,
      "step": 456
    },
    {
      "epoch": 0.7328,
      "grad_norm": 1.74073326587677,
      "learning_rate": 7.507636371367246e-05,
      "loss": 2.9637,
      "step": 458
    },
    {
      "epoch": 0.736,
      "grad_norm": 1.7455672025680542,
      "learning_rate": 7.484703931598445e-05,
      "loss": 2.8117,
      "step": 460
    },
    {
      "epoch": 0.7392,
      "grad_norm": 1.763482928276062,
      "learning_rate": 7.461701872164204e-05,
      "loss": 2.6981,
      "step": 462
    },
    {
      "epoch": 0.7424,
      "grad_norm": 1.881572961807251,
      "learning_rate": 7.438630837566133e-05,
      "loss": 2.8266,
      "step": 464
    },
    {
      "epoch": 0.7456,
      "grad_norm": 1.7210729122161865,
      "learning_rate": 7.415491474238475e-05,
      "loss": 2.7463,
      "step": 466
    },
    {
      "epoch": 0.7488,
      "grad_norm": 1.7022508382797241,
      "learning_rate": 7.39228443053e-05,
      "loss": 2.6983,
      "step": 468
    },
    {
      "epoch": 0.752,
      "grad_norm": 1.7568011283874512,
      "learning_rate": 7.369010356685833e-05,
      "loss": 2.8896,
      "step": 470
    },
    {
      "epoch": 0.7552,
      "grad_norm": 1.8095964193344116,
      "learning_rate": 7.345669904829237e-05,
      "loss": 2.6394,
      "step": 472
    },
    {
      "epoch": 0.7584,
      "grad_norm": 1.8598932027816772,
      "learning_rate": 7.32226372894334e-05,
      "loss": 2.7396,
      "step": 474
    },
    {
      "epoch": 0.7616,
      "grad_norm": 1.7304216623306274,
      "learning_rate": 7.298792484852808e-05,
      "loss": 2.7098,
      "step": 476
    },
    {
      "epoch": 0.7648,
      "grad_norm": 1.8357542753219604,
      "learning_rate": 7.27525683020548e-05,
      "loss": 2.7849,
      "step": 478
    },
    {
      "epoch": 0.768,
      "grad_norm": 1.7064476013183594,
      "learning_rate": 7.251657424453928e-05,
      "loss": 2.644,
      "step": 480
    },
    {
      "epoch": 0.7712,
      "grad_norm": 1.6578412055969238,
      "learning_rate": 7.227994928836988e-05,
      "loss": 2.6466,
      "step": 482
    },
    {
      "epoch": 0.7744,
      "grad_norm": 1.6854114532470703,
      "learning_rate": 7.204270006361228e-05,
      "loss": 2.6903,
      "step": 484
    },
    {
      "epoch": 0.7776,
      "grad_norm": 1.8345005512237549,
      "learning_rate": 7.180483321782374e-05,
      "loss": 2.7318,
      "step": 486
    },
    {
      "epoch": 0.7808,
      "grad_norm": 1.8189499378204346,
      "learning_rate": 7.156635541586682e-05,
      "loss": 2.6378,
      "step": 488
    },
    {
      "epoch": 0.784,
      "grad_norm": 1.6594990491867065,
      "learning_rate": 7.132727333972265e-05,
      "loss": 2.7511,
      "step": 490
    },
    {
      "epoch": 0.7872,
      "grad_norm": 1.8509235382080078,
      "learning_rate": 7.108759368830371e-05,
      "loss": 2.6824,
      "step": 492
    },
    {
      "epoch": 0.7904,
      "grad_norm": 1.7234911918640137,
      "learning_rate": 7.084732317726611e-05,
      "loss": 2.7011,
      "step": 494
    },
    {
      "epoch": 0.7936,
      "grad_norm": 1.7030333280563354,
      "learning_rate": 7.060646853882145e-05,
      "loss": 2.7221,
      "step": 496
    },
    {
      "epoch": 0.7968,
      "grad_norm": 1.6689960956573486,
      "learning_rate": 7.036503652154812e-05,
      "loss": 2.7942,
      "step": 498
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6828737258911133,
      "learning_rate": 7.012303389020234e-05,
      "loss": 2.7647,
      "step": 500
    },
    {
      "epoch": 0.8032,
      "grad_norm": 1.6761125326156616,
      "learning_rate": 6.988046742552845e-05,
      "loss": 2.7768,
      "step": 502
    },
    {
      "epoch": 0.8064,
      "grad_norm": 1.7630836963653564,
      "learning_rate": 6.963734392406907e-05,
      "loss": 2.6132,
      "step": 504
    },
    {
      "epoch": 0.8096,
      "grad_norm": 1.7613694667816162,
      "learning_rate": 6.93936701979746e-05,
      "loss": 2.8546,
      "step": 506
    },
    {
      "epoch": 0.8128,
      "grad_norm": 1.710299015045166,
      "learning_rate": 6.914945307481228e-05,
      "loss": 2.7556,
      "step": 508
    },
    {
      "epoch": 0.816,
      "grad_norm": 1.7205942869186401,
      "learning_rate": 6.890469939737506e-05,
      "loss": 2.6798,
      "step": 510
    },
    {
      "epoch": 0.8192,
      "grad_norm": 1.8159854412078857,
      "learning_rate": 6.865941602348966e-05,
      "loss": 2.7446,
      "step": 512
    },
    {
      "epoch": 0.8224,
      "grad_norm": 1.7520591020584106,
      "learning_rate": 6.841360982582463e-05,
      "loss": 2.6471,
      "step": 514
    },
    {
      "epoch": 0.8256,
      "grad_norm": 1.835686445236206,
      "learning_rate": 6.816728769169757e-05,
      "loss": 2.7446,
      "step": 516
    },
    {
      "epoch": 0.8288,
      "grad_norm": 1.7401587963104248,
      "learning_rate": 6.792045652288234e-05,
      "loss": 2.6741,
      "step": 518
    },
    {
      "epoch": 0.832,
      "grad_norm": 1.7293875217437744,
      "learning_rate": 6.767312323541555e-05,
      "loss": 2.752,
      "step": 520
    },
    {
      "epoch": 0.8352,
      "grad_norm": 1.7835034132003784,
      "learning_rate": 6.742529475940284e-05,
      "loss": 2.6319,
      "step": 522
    },
    {
      "epoch": 0.8384,
      "grad_norm": 1.7574135065078735,
      "learning_rate": 6.717697803882467e-05,
      "loss": 2.6988,
      "step": 524
    },
    {
      "epoch": 0.8416,
      "grad_norm": 1.8230232000350952,
      "learning_rate": 6.692818003134184e-05,
      "loss": 2.7528,
      "step": 526
    },
    {
      "epoch": 0.8448,
      "grad_norm": 1.7444409132003784,
      "learning_rate": 6.667890770810035e-05,
      "loss": 2.6835,
      "step": 528
    },
    {
      "epoch": 0.848,
      "grad_norm": 1.6813884973526,
      "learning_rate": 6.64291680535363e-05,
      "loss": 2.6955,
      "step": 530
    },
    {
      "epoch": 0.8512,
      "grad_norm": 1.668503999710083,
      "learning_rate": 6.617896806518005e-05,
      "loss": 2.6987,
      "step": 532
    },
    {
      "epoch": 0.8544,
      "grad_norm": 1.6802785396575928,
      "learning_rate": 6.592831475346018e-05,
      "loss": 2.5132,
      "step": 534
    },
    {
      "epoch": 0.8576,
      "grad_norm": 1.7998769283294678,
      "learning_rate": 6.56772151415071e-05,
      "loss": 2.7834,
      "step": 536
    },
    {
      "epoch": 0.8608,
      "grad_norm": 1.7655301094055176,
      "learning_rate": 6.542567626495619e-05,
      "loss": 2.7214,
      "step": 538
    },
    {
      "epoch": 0.864,
      "grad_norm": 1.686876654624939,
      "learning_rate": 6.517370517175081e-05,
      "loss": 2.684,
      "step": 540
    },
    {
      "epoch": 0.8672,
      "grad_norm": 1.743198275566101,
      "learning_rate": 6.492130892194461e-05,
      "loss": 2.74,
      "step": 542
    },
    {
      "epoch": 0.8704,
      "grad_norm": 1.6875637769699097,
      "learning_rate": 6.466849458750394e-05,
      "loss": 2.6059,
      "step": 544
    },
    {
      "epoch": 0.8736,
      "grad_norm": 1.669365406036377,
      "learning_rate": 6.441526925210949e-05,
      "loss": 2.4881,
      "step": 546
    },
    {
      "epoch": 0.8768,
      "grad_norm": 1.6736316680908203,
      "learning_rate": 6.416164001095799e-05,
      "loss": 2.6882,
      "step": 548
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.674666404724121,
      "learning_rate": 6.390761397056328e-05,
      "loss": 2.6629,
      "step": 550
    },
    {
      "epoch": 0.8832,
      "grad_norm": 1.678082823753357,
      "learning_rate": 6.365319824855727e-05,
      "loss": 2.5585,
      "step": 552
    },
    {
      "epoch": 0.8864,
      "grad_norm": 1.6576564311981201,
      "learning_rate": 6.339839997349045e-05,
      "loss": 2.7198,
      "step": 554
    },
    {
      "epoch": 0.8896,
      "grad_norm": 1.6474496126174927,
      "learning_rate": 6.314322628463219e-05,
      "loss": 2.5886,
      "step": 556
    },
    {
      "epoch": 0.8928,
      "grad_norm": 1.718550443649292,
      "learning_rate": 6.288768433177068e-05,
      "loss": 2.6419,
      "step": 558
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.748273253440857,
      "learning_rate": 6.26317812750126e-05,
      "loss": 2.7173,
      "step": 560
    },
    {
      "epoch": 0.8992,
      "grad_norm": 1.6279900074005127,
      "learning_rate": 6.237552428458256e-05,
      "loss": 2.6046,
      "step": 562
    },
    {
      "epoch": 0.9024,
      "grad_norm": 1.9754265546798706,
      "learning_rate": 6.21189205406221e-05,
      "loss": 2.6633,
      "step": 564
    },
    {
      "epoch": 0.9056,
      "grad_norm": 1.653396487236023,
      "learning_rate": 6.186197723298855e-05,
      "loss": 2.7482,
      "step": 566
    },
    {
      "epoch": 0.9088,
      "grad_norm": 1.6684949398040771,
      "learning_rate": 6.160470156105362e-05,
      "loss": 2.7189,
      "step": 568
    },
    {
      "epoch": 0.912,
      "grad_norm": 1.6602100133895874,
      "learning_rate": 6.134710073350156e-05,
      "loss": 2.6537,
      "step": 570
    },
    {
      "epoch": 0.9152,
      "grad_norm": 1.6661839485168457,
      "learning_rate": 6.108918196812734e-05,
      "loss": 2.6017,
      "step": 572
    },
    {
      "epoch": 0.9184,
      "grad_norm": 1.6422057151794434,
      "learning_rate": 6.083095249163424e-05,
      "loss": 2.7119,
      "step": 574
    },
    {
      "epoch": 0.9216,
      "grad_norm": 1.6415077447891235,
      "learning_rate": 6.057241953943154e-05,
      "loss": 2.623,
      "step": 576
    },
    {
      "epoch": 0.9248,
      "grad_norm": 1.6665832996368408,
      "learning_rate": 6.031359035543158e-05,
      "loss": 2.6118,
      "step": 578
    },
    {
      "epoch": 0.928,
      "grad_norm": 1.697969913482666,
      "learning_rate": 6.005447219184702e-05,
      "loss": 2.6809,
      "step": 580
    },
    {
      "epoch": 0.9312,
      "grad_norm": 1.6687207221984863,
      "learning_rate": 5.9795072308987485e-05,
      "loss": 2.5348,
      "step": 582
    },
    {
      "epoch": 0.9344,
      "grad_norm": 1.7116574048995972,
      "learning_rate": 5.9535397975056154e-05,
      "loss": 2.7134,
      "step": 584
    },
    {
      "epoch": 0.9376,
      "grad_norm": 1.7202098369598389,
      "learning_rate": 5.927545646594617e-05,
      "loss": 2.5337,
      "step": 586
    },
    {
      "epoch": 0.9408,
      "grad_norm": 1.7478731870651245,
      "learning_rate": 5.901525506503668e-05,
      "loss": 2.7784,
      "step": 588
    },
    {
      "epoch": 0.944,
      "grad_norm": 1.6797165870666504,
      "learning_rate": 5.87548010629889e-05,
      "loss": 2.6397,
      "step": 590
    },
    {
      "epoch": 0.9472,
      "grad_norm": 1.6964757442474365,
      "learning_rate": 5.8494101757541676e-05,
      "loss": 2.6733,
      "step": 592
    },
    {
      "epoch": 0.9504,
      "grad_norm": 1.7231582403182983,
      "learning_rate": 5.8233164453307156e-05,
      "loss": 2.6868,
      "step": 594
    },
    {
      "epoch": 0.9536,
      "grad_norm": 1.700459361076355,
      "learning_rate": 5.797199646156596e-05,
      "loss": 2.6288,
      "step": 596
    },
    {
      "epoch": 0.9568,
      "grad_norm": 1.9444749355316162,
      "learning_rate": 5.7710605100062485e-05,
      "loss": 2.737,
      "step": 598
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6682872772216797,
      "learning_rate": 5.7448997692799764e-05,
      "loss": 2.5347,
      "step": 600
    },
    {
      "epoch": 0.9632,
      "grad_norm": 1.625956654548645,
      "learning_rate": 5.718718156983428e-05,
      "loss": 2.5997,
      "step": 602
    },
    {
      "epoch": 0.9664,
      "grad_norm": 1.724276065826416,
      "learning_rate": 5.69251640670706e-05,
      "loss": 2.6476,
      "step": 604
    },
    {
      "epoch": 0.9696,
      "grad_norm": 1.6487493515014648,
      "learning_rate": 5.6662952526055793e-05,
      "loss": 2.5536,
      "step": 606
    },
    {
      "epoch": 0.9728,
      "grad_norm": 1.7177834510803223,
      "learning_rate": 5.6400554293773744e-05,
      "loss": 2.6914,
      "step": 608
    },
    {
      "epoch": 0.976,
      "grad_norm": 1.88065767288208,
      "learning_rate": 5.61379767224393e-05,
      "loss": 2.726,
      "step": 610
    },
    {
      "epoch": 0.9792,
      "grad_norm": 1.6026211977005005,
      "learning_rate": 5.587522716929228e-05,
      "loss": 2.5283,
      "step": 612
    },
    {
      "epoch": 0.9824,
      "grad_norm": 1.6262180805206299,
      "learning_rate": 5.561231299639127e-05,
      "loss": 2.7244,
      "step": 614
    },
    {
      "epoch": 0.9856,
      "grad_norm": 1.7798043489456177,
      "learning_rate": 5.534924157040745e-05,
      "loss": 2.672,
      "step": 616
    },
    {
      "epoch": 0.9888,
      "grad_norm": 1.6614106893539429,
      "learning_rate": 5.508602026241807e-05,
      "loss": 2.5758,
      "step": 618
    },
    {
      "epoch": 0.992,
      "grad_norm": 1.670790433883667,
      "learning_rate": 5.482265644769998e-05,
      "loss": 2.6866,
      "step": 620
    },
    {
      "epoch": 0.9952,
      "grad_norm": 1.6601850986480713,
      "learning_rate": 5.4559157505522985e-05,
      "loss": 2.4314,
      "step": 622
    },
    {
      "epoch": 0.9984,
      "grad_norm": 1.6535918712615967,
      "learning_rate": 5.429553081894304e-05,
      "loss": 2.5992,
      "step": 624
    }
  ],
  "logging_steps": 2,
  "max_steps": 1250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 625,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0577401470989107e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}