{
  "best_metric": 0.7111111111111111,
  "best_model_checkpoint": "CTMAE-P2-V4-S3/checkpoint-9396",
  "epoch": 49.02,
  "eval_steps": 500,
  "global_step": 13050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007662835249042146,
      "grad_norm": 6.327857494354248,
      "learning_rate": 7.662835249042146e-08,
      "loss": 0.667,
      "step": 10
    },
    {
      "epoch": 0.0015325670498084292,
      "grad_norm": 5.990856170654297,
      "learning_rate": 1.5325670498084292e-07,
      "loss": 0.6385,
      "step": 20
    },
    {
      "epoch": 0.0022988505747126436,
      "grad_norm": 8.174938201904297,
      "learning_rate": 2.2988505747126437e-07,
      "loss": 0.6968,
      "step": 30
    },
    {
      "epoch": 0.0030651340996168583,
      "grad_norm": 7.544012546539307,
      "learning_rate": 3.0651340996168583e-07,
      "loss": 0.6474,
      "step": 40
    },
    {
      "epoch": 0.0038314176245210726,
      "grad_norm": 5.425698757171631,
      "learning_rate": 3.831417624521073e-07,
      "loss": 0.6453,
      "step": 50
    },
    {
      "epoch": 0.004597701149425287,
      "grad_norm": 8.521080017089844,
      "learning_rate": 4.5977011494252875e-07,
      "loss": 0.6873,
      "step": 60
    },
    {
      "epoch": 0.0053639846743295016,
      "grad_norm": 7.814248085021973,
      "learning_rate": 5.363984674329502e-07,
      "loss": 0.6156,
      "step": 70
    },
    {
      "epoch": 0.006130268199233717,
      "grad_norm": 7.305485248565674,
      "learning_rate": 6.130268199233717e-07,
      "loss": 0.6401,
      "step": 80
    },
    {
      "epoch": 0.006896551724137931,
      "grad_norm": 4.393548488616943,
      "learning_rate": 6.896551724137931e-07,
      "loss": 0.584,
      "step": 90
    },
    {
      "epoch": 0.007662835249042145,
      "grad_norm": 10.718528747558594,
      "learning_rate": 7.662835249042146e-07,
      "loss": 0.8103,
      "step": 100
    },
    {
      "epoch": 0.00842911877394636,
      "grad_norm": 7.18550443649292,
      "learning_rate": 8.429118773946361e-07,
      "loss": 0.5662,
      "step": 110
    },
    {
      "epoch": 0.009195402298850575,
      "grad_norm": 8.828963279724121,
      "learning_rate": 9.195402298850575e-07,
      "loss": 0.5529,
      "step": 120
    },
    {
      "epoch": 0.00996168582375479,
      "grad_norm": 5.637415409088135,
      "learning_rate": 9.96168582375479e-07,
      "loss": 0.4353,
      "step": 130
    },
    {
      "epoch": 0.010727969348659003,
      "grad_norm": 7.122509479522705,
      "learning_rate": 1.0727969348659004e-06,
      "loss": 0.7448,
      "step": 140
    },
    {
      "epoch": 0.011494252873563218,
      "grad_norm": 34.192989349365234,
      "learning_rate": 1.1494252873563219e-06,
      "loss": 0.5278,
      "step": 150
    },
    {
      "epoch": 0.012260536398467433,
      "grad_norm": 56.518585205078125,
      "learning_rate": 1.2260536398467433e-06,
      "loss": 0.5696,
      "step": 160
    },
    {
      "epoch": 0.013026819923371647,
      "grad_norm": 7.17815637588501,
      "learning_rate": 1.3026819923371648e-06,
      "loss": 0.5793,
      "step": 170
    },
    {
      "epoch": 0.013793103448275862,
      "grad_norm": 3.756725549697876,
      "learning_rate": 1.3793103448275862e-06,
      "loss": 0.5662,
      "step": 180
    },
    {
      "epoch": 0.014559386973180077,
      "grad_norm": 2.2923433780670166,
      "learning_rate": 1.455938697318008e-06,
      "loss": 0.8302,
      "step": 190
    },
    {
      "epoch": 0.01532567049808429,
      "grad_norm": 2.681919574737549,
      "learning_rate": 1.5325670498084292e-06,
      "loss": 0.9074,
      "step": 200
    },
    {
      "epoch": 0.016091954022988506,
      "grad_norm": 2.827556848526001,
      "learning_rate": 1.6091954022988506e-06,
      "loss": 0.981,
      "step": 210
    },
    {
      "epoch": 0.01685823754789272,
      "grad_norm": 3.9783685207366943,
      "learning_rate": 1.6858237547892723e-06,
      "loss": 1.4148,
      "step": 220
    },
    {
      "epoch": 0.017624521072796936,
      "grad_norm": 1.1288398504257202,
      "learning_rate": 1.7624521072796935e-06,
      "loss": 0.0274,
      "step": 230
    },
    {
      "epoch": 0.01839080459770115,
      "grad_norm": 0.45937296748161316,
      "learning_rate": 1.839080459770115e-06,
      "loss": 0.473,
      "step": 240
    },
    {
      "epoch": 0.019157088122605363,
      "grad_norm": 0.3246555030345917,
      "learning_rate": 1.9157088122605367e-06,
      "loss": 1.447,
      "step": 250
    },
    {
      "epoch": 0.01992337164750958,
      "grad_norm": 0.3196878135204315,
      "learning_rate": 1.992337164750958e-06,
      "loss": 1.5461,
      "step": 260
    },
    {
      "epoch": 0.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.1853597164154053,
      "eval_runtime": 32.4115,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 1.388,
      "step": 261
    },
    {
      "epoch": 1.0006896551724138,
      "grad_norm": 0.25021031498908997,
      "learning_rate": 2.0689655172413796e-06,
      "loss": 1.0533,
      "step": 270
    },
    {
      "epoch": 1.001455938697318,
      "grad_norm": 75.3009262084961,
      "learning_rate": 2.145593869731801e-06,
      "loss": 1.5309,
      "step": 280
    },
    {
      "epoch": 1.0022222222222221,
      "grad_norm": 0.2906692326068878,
      "learning_rate": 2.222222222222222e-06,
      "loss": 1.077,
      "step": 290
    },
    {
      "epoch": 1.0029885057471264,
      "grad_norm": 0.5273029804229736,
      "learning_rate": 2.2988505747126437e-06,
      "loss": 1.0467,
      "step": 300
    },
    {
      "epoch": 1.0037547892720307,
      "grad_norm": 0.49148106575012207,
      "learning_rate": 2.3754789272030654e-06,
      "loss": 2.7266,
      "step": 310
    },
    {
      "epoch": 1.004521072796935,
      "grad_norm": 0.536920428276062,
      "learning_rate": 2.4521072796934867e-06,
      "loss": 1.4654,
      "step": 320
    },
    {
      "epoch": 1.0052873563218392,
      "grad_norm": 0.9628154635429382,
      "learning_rate": 2.5287356321839083e-06,
      "loss": 1.7753,
      "step": 330
    },
    {
      "epoch": 1.0060536398467432,
      "grad_norm": 0.4243074357509613,
      "learning_rate": 2.6053639846743296e-06,
      "loss": 0.8896,
      "step": 340
    },
    {
      "epoch": 1.0068199233716475,
      "grad_norm": 0.8502910733222961,
      "learning_rate": 2.6819923371647512e-06,
      "loss": 2.0229,
      "step": 350
    },
    {
      "epoch": 1.0075862068965518,
      "grad_norm": 67.57994842529297,
      "learning_rate": 2.7586206896551725e-06,
      "loss": 1.5019,
      "step": 360
    },
    {
      "epoch": 1.008352490421456,
      "grad_norm": 0.69255530834198,
      "learning_rate": 2.835249042145594e-06,
      "loss": 1.8585,
      "step": 370
    },
    {
      "epoch": 1.00911877394636,
      "grad_norm": 0.20654457807540894,
      "learning_rate": 2.911877394636016e-06,
      "loss": 0.5447,
      "step": 380
    },
    {
      "epoch": 1.0098850574712643,
      "grad_norm": 84.71825408935547,
      "learning_rate": 2.988505747126437e-06,
      "loss": 2.6544,
      "step": 390
    },
    {
      "epoch": 1.0106513409961686,
      "grad_norm": 0.3103322386741638,
      "learning_rate": 3.0651340996168583e-06,
      "loss": 0.4704,
      "step": 400
    },
    {
      "epoch": 1.0114176245210729,
      "grad_norm": 45.16764831542969,
      "learning_rate": 3.14176245210728e-06,
      "loss": 1.1276,
      "step": 410
    },
    {
      "epoch": 1.012183908045977,
      "grad_norm": 0.26659080386161804,
      "learning_rate": 3.2183908045977012e-06,
      "loss": 1.633,
      "step": 420
    },
    {
      "epoch": 1.0129501915708812,
      "grad_norm": 0.8224875926971436,
      "learning_rate": 3.295019157088123e-06,
      "loss": 1.5345,
      "step": 430
    },
    {
      "epoch": 1.0137164750957854,
      "grad_norm": 0.3690725862979889,
      "learning_rate": 3.3716475095785446e-06,
      "loss": 1.4896,
      "step": 440
    },
    {
      "epoch": 1.0144827586206897,
      "grad_norm": 0.25970518589019775,
      "learning_rate": 3.448275862068966e-06,
      "loss": 0.0055,
      "step": 450
    },
    {
      "epoch": 1.015249042145594,
      "grad_norm": 0.13966263830661774,
      "learning_rate": 3.524904214559387e-06,
      "loss": 1.0795,
      "step": 460
    },
    {
      "epoch": 1.016015325670498,
      "grad_norm": 0.3560970425605774,
      "learning_rate": 3.6015325670498087e-06,
      "loss": 1.6404,
      "step": 470
    },
    {
      "epoch": 1.0167816091954023,
      "grad_norm": 0.6458178758621216,
      "learning_rate": 3.67816091954023e-06,
      "loss": 1.9237,
      "step": 480
    },
    {
      "epoch": 1.0175478927203065,
      "grad_norm": 0.5411605834960938,
      "learning_rate": 3.7547892720306517e-06,
      "loss": 1.7498,
      "step": 490
    },
    {
      "epoch": 1.0183141762452108,
      "grad_norm": 0.294920951128006,
      "learning_rate": 3.831417624521073e-06,
      "loss": 0.4111,
      "step": 500
    },
    {
      "epoch": 1.0190804597701149,
      "grad_norm": 0.1411299705505371,
      "learning_rate": 3.908045977011495e-06,
      "loss": 0.4981,
      "step": 510
    },
    {
      "epoch": 1.0198467432950191,
      "grad_norm": 0.08414328843355179,
      "learning_rate": 3.984674329501916e-06,
      "loss": 0.6074,
      "step": 520
    },
    {
      "epoch": 1.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.651780843734741,
      "eval_runtime": 31.2312,
      "eval_samples_per_second": 1.441,
      "eval_steps_per_second": 1.441,
      "step": 522
    },
    {
      "epoch": 2.0006130268199236,
      "grad_norm": 39.5939826965332,
      "learning_rate": 4.0613026819923375e-06,
      "loss": 1.7655,
      "step": 530
    },
    {
      "epoch": 2.0013793103448276,
      "grad_norm": 1.111221194267273,
      "learning_rate": 4.137931034482759e-06,
      "loss": 2.6473,
      "step": 540
    },
    {
      "epoch": 2.0021455938697317,
      "grad_norm": 43.87031173706055,
      "learning_rate": 4.214559386973181e-06,
      "loss": 0.8798,
      "step": 550
    },
    {
      "epoch": 2.002911877394636,
      "grad_norm": 43.0674934387207,
      "learning_rate": 4.291187739463602e-06,
      "loss": 2.2232,
      "step": 560
    },
    {
      "epoch": 2.00367816091954,
      "grad_norm": 0.8063564300537109,
      "learning_rate": 4.367816091954023e-06,
      "loss": 1.638,
      "step": 570
    },
    {
      "epoch": 2.0044444444444443,
      "grad_norm": 0.5503166913986206,
      "learning_rate": 4.444444444444444e-06,
      "loss": 1.3265,
      "step": 580
    },
    {
      "epoch": 2.0052107279693487,
      "grad_norm": 0.3785612881183624,
      "learning_rate": 4.521072796934866e-06,
      "loss": 0.9416,
      "step": 590
    },
    {
      "epoch": 2.005977011494253,
      "grad_norm": 1.303848147392273,
      "learning_rate": 4.5977011494252875e-06,
      "loss": 2.3919,
      "step": 600
    },
    {
      "epoch": 2.0067432950191573,
      "grad_norm": 0.39508482813835144,
      "learning_rate": 4.674329501915709e-06,
      "loss": 0.3936,
      "step": 610
    },
    {
      "epoch": 2.0075095785440613,
      "grad_norm": 0.8463417887687683,
      "learning_rate": 4.750957854406131e-06,
      "loss": 0.9592,
      "step": 620
    },
    {
      "epoch": 2.0082758620689654,
      "grad_norm": 0.07845330983400345,
      "learning_rate": 4.8275862068965525e-06,
      "loss": 0.004,
      "step": 630
    },
    {
      "epoch": 2.00904214559387,
      "grad_norm": 57.573429107666016,
      "learning_rate": 4.904214559386973e-06,
      "loss": 2.2964,
      "step": 640
    },
    {
      "epoch": 2.009808429118774,
      "grad_norm": 34.41446304321289,
      "learning_rate": 4.980842911877395e-06,
      "loss": 1.0389,
      "step": 650
    },
    {
      "epoch": 2.0105747126436784,
      "grad_norm": 0.3542000353336334,
      "learning_rate": 5.057471264367817e-06,
      "loss": 0.4739,
      "step": 660
    },
    {
      "epoch": 2.0113409961685824,
      "grad_norm": 32.84673309326172,
      "learning_rate": 5.134099616858238e-06,
      "loss": 1.0305,
      "step": 670
    },
    {
      "epoch": 2.0121072796934865,
      "grad_norm": 37.61670684814453,
      "learning_rate": 5.210727969348659e-06,
      "loss": 1.9648,
      "step": 680
    },
    {
      "epoch": 2.012873563218391,
      "grad_norm": 0.3119650185108185,
      "learning_rate": 5.287356321839081e-06,
      "loss": 0.4674,
      "step": 690
    },
    {
      "epoch": 2.013639846743295,
      "grad_norm": 31.36629867553711,
      "learning_rate": 5.3639846743295025e-06,
      "loss": 1.397,
      "step": 700
    },
    {
      "epoch": 2.014406130268199,
      "grad_norm": 0.31152790784835815,
      "learning_rate": 5.440613026819924e-06,
      "loss": 0.9365,
      "step": 710
    },
    {
      "epoch": 2.0151724137931035,
      "grad_norm": 0.3041549623012543,
      "learning_rate": 5.517241379310345e-06,
      "loss": 1.864,
      "step": 720
    },
    {
      "epoch": 2.0159386973180076,
      "grad_norm": 31.53572654724121,
      "learning_rate": 5.593869731800766e-06,
      "loss": 1.6771,
      "step": 730
    },
    {
      "epoch": 2.016704980842912,
      "grad_norm": 0.5023788213729858,
      "learning_rate": 5.670498084291188e-06,
      "loss": 0.3871,
      "step": 740
    },
    {
      "epoch": 2.017471264367816,
      "grad_norm": 31.97800064086914,
      "learning_rate": 5.747126436781609e-06,
      "loss": 0.5553,
      "step": 750
    },
    {
      "epoch": 2.01823754789272,
      "grad_norm": 0.13413414359092712,
      "learning_rate": 5.823754789272032e-06,
      "loss": 0.5476,
      "step": 760
    },
    {
      "epoch": 2.0190038314176246,
      "grad_norm": 0.166935995221138,
      "learning_rate": 5.9003831417624525e-06,
      "loss": 1.0767,
      "step": 770
    },
    {
      "epoch": 2.0197701149425287,
      "grad_norm": 0.30724337697029114,
      "learning_rate": 5.977011494252874e-06,
      "loss": 1.5766,
      "step": 780
    },
    {
      "epoch": 2.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 1.984305500984192,
      "eval_runtime": 30.3151,
      "eval_samples_per_second": 1.484,
      "eval_steps_per_second": 1.484,
      "step": 783
    },
    {
      "epoch": 3.000536398467433,
      "grad_norm": 40.09532165527344,
      "learning_rate": 6.053639846743296e-06,
      "loss": 1.2763,
      "step": 790
    },
    {
      "epoch": 3.001302681992337,
      "grad_norm": 0.40683451294898987,
      "learning_rate": 6.130268199233717e-06,
      "loss": 0.4937,
      "step": 800
    },
    {
      "epoch": 3.0020689655172412,
      "grad_norm": 0.18957696855068207,
      "learning_rate": 6.206896551724138e-06,
      "loss": 1.0243,
      "step": 810
    },
    {
      "epoch": 3.0028352490421457,
      "grad_norm": 0.1001056656241417,
      "learning_rate": 6.28352490421456e-06,
      "loss": 1.1016,
      "step": 820
    },
    {
      "epoch": 3.0036015325670498,
      "grad_norm": 0.3062469959259033,
      "learning_rate": 6.360153256704982e-06,
      "loss": 1.4319,
      "step": 830
    },
    {
      "epoch": 3.004367816091954,
      "grad_norm": 32.24515914916992,
      "learning_rate": 6.4367816091954025e-06,
      "loss": 1.001,
      "step": 840
    },
    {
      "epoch": 3.0051340996168583,
      "grad_norm": 0.4738576114177704,
      "learning_rate": 6.513409961685824e-06,
      "loss": 1.9497,
      "step": 850
    },
    {
      "epoch": 3.0059003831417623,
      "grad_norm": 0.5721397399902344,
      "learning_rate": 6.590038314176246e-06,
      "loss": 0.7872,
      "step": 860
    },
    {
      "epoch": 3.006666666666667,
      "grad_norm": 0.3018346130847931,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.392,
      "step": 870
    },
    {
      "epoch": 3.007432950191571,
      "grad_norm": 0.13677266240119934,
      "learning_rate": 6.743295019157089e-06,
      "loss": 0.0059,
      "step": 880
    },
    {
      "epoch": 3.008199233716475,
      "grad_norm": 31.005964279174805,
      "learning_rate": 6.81992337164751e-06,
      "loss": 1.0504,
      "step": 890
    },
    {
      "epoch": 3.0089655172413794,
      "grad_norm": 0.2759823501110077,
      "learning_rate": 6.896551724137932e-06,
      "loss": 1.5524,
      "step": 900
    },
    {
      "epoch": 3.0097318007662834,
      "grad_norm": 0.18805429339408875,
      "learning_rate": 6.973180076628353e-06,
      "loss": 0.888,
      "step": 910
    },
    {
      "epoch": 3.010498084291188,
      "grad_norm": 21.635663986206055,
      "learning_rate": 7.049808429118774e-06,
      "loss": 1.9466,
      "step": 920
    },
    {
      "epoch": 3.011264367816092,
      "grad_norm": 0.48827672004699707,
      "learning_rate": 7.126436781609196e-06,
      "loss": 0.1415,
      "step": 930
    },
    {
      "epoch": 3.012030651340996,
      "grad_norm": 36.17082214355469,
      "learning_rate": 7.2030651340996175e-06,
      "loss": 1.9956,
      "step": 940
    },
    {
      "epoch": 3.0127969348659005,
      "grad_norm": 0.5784490704536438,
      "learning_rate": 7.279693486590039e-06,
      "loss": 0.9481,
      "step": 950
    },
    {
      "epoch": 3.0135632183908045,
      "grad_norm": 29.443023681640625,
      "learning_rate": 7.35632183908046e-06,
      "loss": 0.9678,
      "step": 960
    },
    {
      "epoch": 3.014329501915709,
      "grad_norm": 31.519386291503906,
      "learning_rate": 7.4329501915708825e-06,
      "loss": 2.4512,
      "step": 970
    },
    {
      "epoch": 3.015095785440613,
      "grad_norm": 0.29328370094299316,
      "learning_rate": 7.509578544061303e-06,
      "loss": 0.4548,
      "step": 980
    },
    {
      "epoch": 3.015862068965517,
      "grad_norm": 0.40748167037963867,
      "learning_rate": 7.586206896551724e-06,
      "loss": 1.3566,
      "step": 990
    },
    {
      "epoch": 3.0166283524904216,
      "grad_norm": 0.19874916970729828,
      "learning_rate": 7.662835249042147e-06,
      "loss": 0.4632,
      "step": 1000
    },
    {
      "epoch": 3.0173946360153256,
      "grad_norm": 26.931385040283203,
      "learning_rate": 7.739463601532567e-06,
      "loss": 2.3728,
      "step": 1010
    },
    {
      "epoch": 3.0181609195402297,
      "grad_norm": 2.915680408477783,
      "learning_rate": 7.81609195402299e-06,
      "loss": 1.6149,
      "step": 1020
    },
    {
      "epoch": 3.018927203065134,
      "grad_norm": 0.7119380235671997,
      "learning_rate": 7.89272030651341e-06,
      "loss": 0.8573,
      "step": 1030
    },
    {
      "epoch": 3.0196934865900382,
      "grad_norm": 0.29016897082328796,
      "learning_rate": 7.969348659003832e-06,
      "loss": 0.7713,
      "step": 1040
    },
    {
      "epoch": 3.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.2332448959350586,
      "eval_runtime": 30.6757,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 1.467,
      "step": 1044
    },
    {
      "epoch": 4.000459770114943,
      "grad_norm": 0.12648364901542664,
      "learning_rate": 8.045977011494253e-06,
      "loss": 1.0154,
      "step": 1050
    },
    {
      "epoch": 4.001226053639847,
      "grad_norm": 27.59795379638672,
      "learning_rate": 8.122605363984675e-06,
      "loss": 0.5761,
      "step": 1060
    },
    {
      "epoch": 4.001992337164751,
      "grad_norm": 26.80912208557129,
      "learning_rate": 8.199233716475097e-06,
      "loss": 1.0388,
      "step": 1070
    },
    {
      "epoch": 4.002758620689655,
      "grad_norm": 0.41966408491134644,
      "learning_rate": 8.275862068965518e-06,
      "loss": 1.8333,
      "step": 1080
    },
    {
      "epoch": 4.00352490421456,
      "grad_norm": 0.567575991153717,
      "learning_rate": 8.35249042145594e-06,
      "loss": 0.7781,
      "step": 1090
    },
    {
      "epoch": 4.004291187739463,
      "grad_norm": 25.789730072021484,
      "learning_rate": 8.429118773946362e-06,
      "loss": 1.3806,
      "step": 1100
    },
    {
      "epoch": 4.005057471264368,
      "grad_norm": 27.713552474975586,
      "learning_rate": 8.505747126436782e-06,
      "loss": 1.8523,
      "step": 1110
    },
    {
      "epoch": 4.005823754789272,
      "grad_norm": 1.5164697170257568,
      "learning_rate": 8.582375478927203e-06,
      "loss": 1.2296,
      "step": 1120
    },
    {
      "epoch": 4.006590038314176,
      "grad_norm": 0.36756592988967896,
      "learning_rate": 8.659003831417625e-06,
      "loss": 0.9391,
      "step": 1130
    },
    {
      "epoch": 4.00735632183908,
      "grad_norm": 33.70969009399414,
      "learning_rate": 8.735632183908047e-06,
      "loss": 1.5494,
      "step": 1140
    },
    {
      "epoch": 4.008122605363985,
      "grad_norm": 0.26646265387535095,
      "learning_rate": 8.812260536398468e-06,
      "loss": 0.8775,
      "step": 1150
    },
    {
      "epoch": 4.0088888888888885,
      "grad_norm": 0.15112105011940002,
      "learning_rate": 8.888888888888888e-06,
      "loss": 1.0672,
      "step": 1160
    },
    {
      "epoch": 4.009655172413793,
      "grad_norm": 0.42132970690727234,
      "learning_rate": 8.965517241379312e-06,
      "loss": 1.3626,
      "step": 1170
    },
    {
      "epoch": 4.0104214559386975,
      "grad_norm": 0.9489944577217102,
      "learning_rate": 9.042145593869732e-06,
      "loss": 1.4519,
      "step": 1180
    },
    {
      "epoch": 4.011187739463602,
      "grad_norm": 0.2976325750350952,
      "learning_rate": 9.118773946360155e-06,
      "loss": 1.2865,
      "step": 1190
    },
    {
      "epoch": 4.011954022988506,
      "grad_norm": 0.2896762490272522,
      "learning_rate": 9.195402298850575e-06,
      "loss": 0.9145,
      "step": 1200
    },
    {
      "epoch": 4.01272030651341,
      "grad_norm": 0.23707671463489532,
      "learning_rate": 9.272030651340997e-06,
      "loss": 0.4653,
      "step": 1210
    },
    {
      "epoch": 4.0134865900383145,
      "grad_norm": 0.10083122551441193,
      "learning_rate": 9.348659003831418e-06,
      "loss": 0.5373,
      "step": 1220
    },
    {
      "epoch": 4.014252873563218,
      "grad_norm": 0.3603350520133972,
      "learning_rate": 9.42528735632184e-06,
      "loss": 1.9906,
      "step": 1230
    },
    {
      "epoch": 4.015019157088123,
      "grad_norm": 0.6415284872055054,
      "learning_rate": 9.501915708812262e-06,
      "loss": 1.5834,
      "step": 1240
    },
    {
      "epoch": 4.015785440613027,
      "grad_norm": 24.561208724975586,
      "learning_rate": 9.578544061302683e-06,
      "loss": 1.1263,
      "step": 1250
    },
    {
      "epoch": 4.016551724137931,
      "grad_norm": 0.147970512509346,
      "learning_rate": 9.655172413793105e-06,
      "loss": 0.4481,
      "step": 1260
    },
    {
      "epoch": 4.017318007662835,
      "grad_norm": 0.11870920658111572,
      "learning_rate": 9.731800766283525e-06,
      "loss": 0.5278,
      "step": 1270
    },
    {
      "epoch": 4.01808429118774,
      "grad_norm": 0.07480484992265701,
      "learning_rate": 9.808429118773947e-06,
      "loss": 1.0992,
      "step": 1280
    },
    {
      "epoch": 4.018850574712643,
      "grad_norm": 0.10927191376686096,
      "learning_rate": 9.885057471264368e-06,
      "loss": 1.0798,
      "step": 1290
    },
    {
      "epoch": 4.019616858237548,
      "grad_norm": 24.948057174682617,
      "learning_rate": 9.96168582375479e-06,
      "loss": 1.797,
      "step": 1300
    },
    {
      "epoch": 4.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 1.706432819366455,
      "eval_runtime": 31.3395,
      "eval_samples_per_second": 1.436,
      "eval_steps_per_second": 1.436,
      "step": 1305
    },
    {
      "epoch": 5.000383141762452,
      "grad_norm": 0.2994377017021179,
      "learning_rate": 9.995742869306088e-06,
      "loss": 0.765,
      "step": 1310
    },
    {
      "epoch": 5.001149425287356,
      "grad_norm": 0.39027076959609985,
      "learning_rate": 9.987228607918263e-06,
      "loss": 1.3461,
      "step": 1320
    },
    {
      "epoch": 5.001915708812261,
      "grad_norm": 0.19331149756908417,
      "learning_rate": 9.97871434653044e-06,
      "loss": 0.4567,
      "step": 1330
    },
    {
      "epoch": 5.002681992337164,
      "grad_norm": 0.20254382491111755,
      "learning_rate": 9.970200085142615e-06,
      "loss": 1.2892,
      "step": 1340
    },
    {
      "epoch": 5.003448275862069,
      "grad_norm": 25.492420196533203,
      "learning_rate": 9.96168582375479e-06,
      "loss": 2.0841,
      "step": 1350
    },
    {
      "epoch": 5.004214559386973,
      "grad_norm": 25.167016983032227,
      "learning_rate": 9.953171562366965e-06,
      "loss": 0.9479,
      "step": 1360
    },
    {
      "epoch": 5.004980842911878,
      "grad_norm": 0.15213768184185028,
      "learning_rate": 9.944657300979142e-06,
      "loss": 0.018,
      "step": 1370
    },
    {
      "epoch": 5.005747126436781,
      "grad_norm": 0.13735659420490265,
      "learning_rate": 9.936143039591317e-06,
      "loss": 1.5766,
      "step": 1380
    },
    {
      "epoch": 5.006513409961686,
      "grad_norm": 25.63395118713379,
      "learning_rate": 9.927628778203492e-06,
      "loss": 2.2741,
      "step": 1390
    },
    {
      "epoch": 5.00727969348659,
      "grad_norm": 0.3610183894634247,
      "learning_rate": 9.919114516815667e-06,
      "loss": 0.4247,
      "step": 1400
    },
    {
      "epoch": 5.008045977011494,
      "grad_norm": 27.840686798095703,
      "learning_rate": 9.910600255427842e-06,
      "loss": 2.0585,
      "step": 1410
    },
    {
      "epoch": 5.0088122605363985,
      "grad_norm": 0.32169675827026367,
      "learning_rate": 9.902085994040018e-06,
      "loss": 0.4628,
      "step": 1420
    },
    {
      "epoch": 5.009578544061303,
      "grad_norm": 26.238645553588867,
      "learning_rate": 9.893571732652193e-06,
      "loss": 1.2224,
      "step": 1430
    },
    {
      "epoch": 5.010344827586207,
      "grad_norm": 0.6875100135803223,
      "learning_rate": 9.885057471264368e-06,
      "loss": 1.665,
      "step": 1440
    },
    {
      "epoch": 5.011111111111111,
      "grad_norm": 0.3718373477458954,
      "learning_rate": 9.876543209876543e-06,
      "loss": 0.6889,
      "step": 1450
    },
    {
      "epoch": 5.011877394636016,
      "grad_norm": 0.27881282567977905,
      "learning_rate": 9.86802894848872e-06,
      "loss": 0.8497,
      "step": 1460
    },
    {
      "epoch": 5.012643678160919,
      "grad_norm": 0.32661184668540955,
      "learning_rate": 9.859514687100895e-06,
      "loss": 0.8933,
      "step": 1470
    },
    {
      "epoch": 5.013409961685824,
      "grad_norm": 0.5657132863998413,
      "learning_rate": 9.85100042571307e-06,
      "loss": 1.7081,
      "step": 1480
    },
    {
      "epoch": 5.014176245210728,
      "grad_norm": 0.5560334920883179,
      "learning_rate": 9.842486164325245e-06,
      "loss": 0.7738,
      "step": 1490
    },
    {
      "epoch": 5.014942528735633,
      "grad_norm": 0.1214025467634201,
      "learning_rate": 9.833971902937422e-06,
      "loss": 1.3839,
      "step": 1500
    },
    {
      "epoch": 5.015708812260536,
      "grad_norm": 0.3592962622642517,
      "learning_rate": 9.825457641549597e-06,
      "loss": 1.394,
      "step": 1510
    },
    {
      "epoch": 5.016475095785441,
      "grad_norm": 0.24445772171020508,
      "learning_rate": 9.816943380161772e-06,
      "loss": 0.4118,
      "step": 1520
    },
    {
      "epoch": 5.017241379310345,
      "grad_norm": 25.80752944946289,
      "learning_rate": 9.808429118773947e-06,
      "loss": 1.6126,
      "step": 1530
    },
    {
      "epoch": 5.018007662835249,
      "grad_norm": 25.0863094329834,
      "learning_rate": 9.799914857386122e-06,
      "loss": 1.8805,
      "step": 1540
    },
    {
      "epoch": 5.018773946360153,
      "grad_norm": 0.32739561796188354,
      "learning_rate": 9.791400595998298e-06,
      "loss": 0.3766,
      "step": 1550
    },
    {
      "epoch": 5.019540229885058,
      "grad_norm": 0.2028200775384903,
      "learning_rate": 9.782886334610473e-06,
      "loss": 0.8914,
      "step": 1560
    },
    {
      "epoch": 5.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 1.8977174758911133,
      "eval_runtime": 30.2939,
      "eval_samples_per_second": 1.485,
      "eval_steps_per_second": 1.485,
      "step": 1566
    },
    {
      "epoch": 6.000306513409962,
      "grad_norm": 26.039766311645508,
      "learning_rate": 9.774372073222648e-06,
      "loss": 0.8297,
      "step": 1570
    },
    {
      "epoch": 6.001072796934866,
      "grad_norm": 25.48565673828125,
      "learning_rate": 9.765857811834825e-06,
      "loss": 1.2037,
      "step": 1580
    },
    {
      "epoch": 6.00183908045977,
      "grad_norm": 0.8141511678695679,
      "learning_rate": 9.757343550447e-06,
      "loss": 0.9044,
      "step": 1590
    },
    {
      "epoch": 6.002605363984674,
      "grad_norm": 0.06729582697153091,
      "learning_rate": 9.748829289059175e-06,
      "loss": 0.7943,
      "step": 1600
    },
    {
      "epoch": 6.003371647509579,
      "grad_norm": 0.3494458496570587,
      "learning_rate": 9.74031502767135e-06,
      "loss": 2.0909,
      "step": 1610
    },
    {
      "epoch": 6.0041379310344825,
      "grad_norm": 0.1301506906747818,
      "learning_rate": 9.731800766283525e-06,
      "loss": 0.7102,
      "step": 1620
    },
    {
      "epoch": 6.004904214559387,
      "grad_norm": 32.33718490600586,
      "learning_rate": 9.723286504895702e-06,
      "loss": 1.8136,
      "step": 1630
    },
    {
      "epoch": 6.005670498084291,
      "grad_norm": 0.21746733784675598,
      "learning_rate": 9.714772243507877e-06,
      "loss": 0.0189,
      "step": 1640
    },
    {
      "epoch": 6.006436781609195,
      "grad_norm": 38.88836669921875,
      "learning_rate": 9.706257982120052e-06,
      "loss": 1.0149,
      "step": 1650
    },
    {
      "epoch": 6.0072030651340995,
      "grad_norm": 30.158119201660156,
      "learning_rate": 9.697743720732228e-06,
      "loss": 0.9491,
      "step": 1660
    },
    {
      "epoch": 6.007969348659004,
      "grad_norm": 26.556350708007812,
      "learning_rate": 9.689229459344403e-06,
      "loss": 1.5764,
      "step": 1670
    },
    {
      "epoch": 6.008735632183908,
      "grad_norm": 1.7624911069869995,
      "learning_rate": 9.680715197956578e-06,
      "loss": 0.7505,
      "step": 1680
    },
    {
      "epoch": 6.009501915708812,
      "grad_norm": 0.19809751212596893,
      "learning_rate": 9.672200936568753e-06,
      "loss": 0.7088,
      "step": 1690
    },
    {
      "epoch": 6.010268199233717,
      "grad_norm": 39.09135818481445,
      "learning_rate": 9.663686675180928e-06,
      "loss": 2.0235,
      "step": 1700
    },
    {
      "epoch": 6.011034482758621,
      "grad_norm": 1.1116338968276978,
      "learning_rate": 9.655172413793105e-06,
      "loss": 1.403,
      "step": 1710
    },
    {
      "epoch": 6.011800766283525,
      "grad_norm": 2.2675068378448486,
      "learning_rate": 9.64665815240528e-06,
      "loss": 1.209,
      "step": 1720
    },
    {
      "epoch": 6.012567049808429,
      "grad_norm": 0.321755051612854,
      "learning_rate": 9.638143891017455e-06,
      "loss": 0.0205,
      "step": 1730
    },
    {
      "epoch": 6.013333333333334,
      "grad_norm": 0.08931531012058258,
      "learning_rate": 9.62962962962963e-06,
      "loss": 1.759,
      "step": 1740
    },
    {
      "epoch": 6.014099616858237,
      "grad_norm": 24.562509536743164,
      "learning_rate": 9.621115368241805e-06,
      "loss": 1.4305,
      "step": 1750
    },
    {
      "epoch": 6.014865900383142,
      "grad_norm": 0.4359224736690521,
      "learning_rate": 9.612601106853982e-06,
      "loss": 0.7926,
      "step": 1760
    },
    {
      "epoch": 6.015632183908046,
      "grad_norm": 0.09415857493877411,
      "learning_rate": 9.604086845466157e-06,
      "loss": 0.3808,
      "step": 1770
    },
    {
      "epoch": 6.01639846743295,
      "grad_norm": 0.038484711199998856,
      "learning_rate": 9.595572584078332e-06,
      "loss": 0.9305,
      "step": 1780
    },
    {
      "epoch": 6.017164750957854,
      "grad_norm": 26.646089553833008,
      "learning_rate": 9.587058322690508e-06,
      "loss": 2.4958,
      "step": 1790
    },
    {
      "epoch": 6.017931034482759,
      "grad_norm": 31.78369903564453,
      "learning_rate": 9.578544061302683e-06,
      "loss": 1.4576,
      "step": 1800
    },
    {
      "epoch": 6.018697318007663,
      "grad_norm": 0.1341467648744583,
      "learning_rate": 9.570029799914858e-06,
      "loss": 0.3736,
      "step": 1810
    },
    {
      "epoch": 6.019463601532567,
      "grad_norm": 0.6747694611549377,
      "learning_rate": 9.561515538527033e-06,
      "loss": 0.7372,
      "step": 1820
    },
    {
      "epoch": 6.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.2072386741638184,
      "eval_runtime": 30.1859,
      "eval_samples_per_second": 1.491,
      "eval_steps_per_second": 1.491,
      "step": 1827
    },
    {
      "epoch": 7.000229885057471,
      "grad_norm": 48.89395523071289,
      "learning_rate": 9.553001277139208e-06,
      "loss": 1.0962,
      "step": 1830
    },
    {
      "epoch": 7.000996168582375,
      "grad_norm": 28.422090530395508,
      "learning_rate": 9.544487015751385e-06,
      "loss": 1.7933,
      "step": 1840
    },
    {
      "epoch": 7.00176245210728,
      "grad_norm": 0.5705060362815857,
      "learning_rate": 9.53597275436356e-06,
      "loss": 0.6668,
      "step": 1850
    },
    {
      "epoch": 7.0025287356321835,
      "grad_norm": 24.384010314941406,
      "learning_rate": 9.527458492975735e-06,
      "loss": 1.2067,
      "step": 1860
    },
    {
      "epoch": 7.003295019157088,
      "grad_norm": 1.3086849451065063,
      "learning_rate": 9.518944231587912e-06,
      "loss": 0.6482,
      "step": 1870
    },
    {
      "epoch": 7.0040613026819925,
      "grad_norm": 0.16909146308898926,
      "learning_rate": 9.510429970200085e-06,
      "loss": 0.5901,
      "step": 1880
    },
    {
      "epoch": 7.004827586206897,
      "grad_norm": 29.166427612304688,
      "learning_rate": 9.501915708812262e-06,
      "loss": 1.2253,
      "step": 1890
    },
    {
      "epoch": 7.0055938697318005,
      "grad_norm": 49.40794372558594,
      "learning_rate": 9.493401447424437e-06,
      "loss": 2.0064,
      "step": 1900
    },
    {
      "epoch": 7.006360153256705,
      "grad_norm": 0.3431980013847351,
      "learning_rate": 9.484887186036612e-06,
      "loss": 1.069,
      "step": 1910
    },
    {
      "epoch": 7.0071264367816095,
      "grad_norm": 0.1730840653181076,
      "learning_rate": 9.476372924648788e-06,
      "loss": 0.7683,
      "step": 1920
    },
    {
      "epoch": 7.007892720306513,
      "grad_norm": 0.10903787612915039,
      "learning_rate": 9.467858663260963e-06,
      "loss": 0.9174,
      "step": 1930
    },
    {
      "epoch": 7.008659003831418,
      "grad_norm": 0.15809372067451477,
      "learning_rate": 9.459344401873138e-06,
      "loss": 1.647,
      "step": 1940
    },
    {
      "epoch": 7.009425287356322,
      "grad_norm": 25.555727005004883,
      "learning_rate": 9.450830140485315e-06,
      "loss": 0.8062,
      "step": 1950
    },
    {
      "epoch": 7.010191570881226,
      "grad_norm": 31.12367820739746,
      "learning_rate": 9.442315879097488e-06,
      "loss": 1.0894,
      "step": 1960
    },
    {
      "epoch": 7.01095785440613,
      "grad_norm": 24.753366470336914,
      "learning_rate": 9.433801617709665e-06,
      "loss": 1.2923,
      "step": 1970
    },
    {
      "epoch": 7.011724137931035,
      "grad_norm": 0.2812572121620178,
      "learning_rate": 9.42528735632184e-06,
      "loss": 0.011,
      "step": 1980
    },
    {
      "epoch": 7.012490421455938,
      "grad_norm": 38.690345764160156,
      "learning_rate": 9.416773094934015e-06,
      "loss": 1.0393,
      "step": 1990
    },
    {
      "epoch": 7.013256704980843,
      "grad_norm": 0.1567247062921524,
      "learning_rate": 9.408258833546192e-06,
      "loss": 1.0962,
      "step": 2000
    },
    {
      "epoch": 7.014022988505747,
      "grad_norm": 0.060428839176893234,
      "learning_rate": 9.399744572158365e-06,
      "loss": 0.8817,
      "step": 2010
    },
    {
      "epoch": 7.014789272030652,
      "grad_norm": 48.183135986328125,
      "learning_rate": 9.391230310770542e-06,
      "loss": 1.5745,
      "step": 2020
    },
    {
      "epoch": 7.015555555555555,
      "grad_norm": 0.3339151442050934,
      "learning_rate": 9.382716049382717e-06,
      "loss": 0.9986,
      "step": 2030
    },
    {
      "epoch": 7.01632183908046,
      "grad_norm": 0.03695123642683029,
      "learning_rate": 9.374201787994892e-06,
      "loss": 0.4187,
      "step": 2040
    },
    {
      "epoch": 7.017088122605364,
      "grad_norm": 0.07724831998348236,
      "learning_rate": 9.365687526607068e-06,
      "loss": 1.0018,
      "step": 2050
    },
    {
      "epoch": 7.017854406130268,
      "grad_norm": 0.253776490688324,
      "learning_rate": 9.357173265219243e-06,
      "loss": 2.3753,
      "step": 2060
    },
    {
      "epoch": 7.018620689655172,
      "grad_norm": 0.06786445528268814,
      "learning_rate": 9.348659003831418e-06,
      "loss": 1.3683,
      "step": 2070
    },
    {
      "epoch": 7.019386973180077,
      "grad_norm": 29.821596145629883,
      "learning_rate": 9.340144742443595e-06,
      "loss": 1.0467,
      "step": 2080
    },
    {
      "epoch": 7.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 1.7543911933898926,
      "eval_runtime": 29.9358,
      "eval_samples_per_second": 1.503,
      "eval_steps_per_second": 1.503,
      "step": 2088
    },
    {
      "epoch": 8.00015325670498,
      "grad_norm": 0.40903595089912415,
      "learning_rate": 9.331630481055768e-06,
      "loss": 1.183,
      "step": 2090
    },
    {
      "epoch": 8.000919540229885,
      "grad_norm": 26.776763916015625,
      "learning_rate": 9.323116219667945e-06,
      "loss": 0.9906,
      "step": 2100
    },
    {
      "epoch": 8.001685823754789,
      "grad_norm": 0.12063957750797272,
      "learning_rate": 9.31460195828012e-06,
      "loss": 1.3088,
      "step": 2110
    },
    {
      "epoch": 8.002452107279694,
      "grad_norm": 0.048885323107242584,
      "learning_rate": 9.306087696892295e-06,
      "loss": 0.7917,
      "step": 2120
    },
    {
      "epoch": 8.003218390804598,
      "grad_norm": 1.3041679859161377,
      "learning_rate": 9.297573435504472e-06,
      "loss": 1.9487,
      "step": 2130
    },
    {
      "epoch": 8.003984674329502,
      "grad_norm": 0.06798844784498215,
      "learning_rate": 9.289059174116647e-06,
      "loss": 0.0157,
      "step": 2140
    },
    {
      "epoch": 8.004750957854407,
      "grad_norm": 0.05616142228245735,
      "learning_rate": 9.280544912728822e-06,
      "loss": 0.467,
      "step": 2150
    },
    {
      "epoch": 8.00551724137931,
      "grad_norm": 27.259878158569336,
      "learning_rate": 9.272030651340997e-06,
      "loss": 0.5149,
      "step": 2160
    },
    {
      "epoch": 8.006283524904214,
      "grad_norm": 26.025419235229492,
      "learning_rate": 9.263516389953172e-06,
      "loss": 3.0408,
      "step": 2170
    },
    {
      "epoch": 8.00704980842912,
      "grad_norm": 3.329866886138916,
      "learning_rate": 9.255002128565348e-06,
      "loss": 2.0258,
      "step": 2180
    },
    {
      "epoch": 8.007816091954023,
      "grad_norm": 37.89010238647461,
      "learning_rate": 9.246487867177523e-06,
      "loss": 0.8858,
      "step": 2190
    },
    {
      "epoch": 8.008582375478927,
      "grad_norm": 28.047279357910156,
      "learning_rate": 9.237973605789698e-06,
      "loss": 0.5723,
      "step": 2200
    },
    {
      "epoch": 8.009348659003832,
      "grad_norm": 0.5687035918235779,
      "learning_rate": 9.229459344401875e-06,
      "loss": 1.6233,
      "step": 2210
    },
    {
      "epoch": 8.010114942528736,
      "grad_norm": 0.21891818940639496,
      "learning_rate": 9.220945083014048e-06,
      "loss": 0.7431,
      "step": 2220
    },
    {
      "epoch": 8.01088122605364,
      "grad_norm": 0.2682950496673584,
      "learning_rate": 9.212430821626225e-06,
      "loss": 0.4155,
      "step": 2230
    },
    {
      "epoch": 8.011647509578545,
      "grad_norm": 0.09466023743152618,
      "learning_rate": 9.2039165602384e-06,
      "loss": 0.8691,
      "step": 2240
    },
    {
      "epoch": 8.012413793103448,
      "grad_norm": 1.0565741062164307,
      "learning_rate": 9.195402298850575e-06,
      "loss": 0.6764,
      "step": 2250
    },
    {
      "epoch": 8.013180076628352,
      "grad_norm": 0.14699453115463257,
      "learning_rate": 9.186888037462752e-06,
      "loss": 1.6452,
      "step": 2260
    },
    {
      "epoch": 8.013946360153257,
      "grad_norm": 39.59352111816406,
      "learning_rate": 9.178373776074927e-06,
      "loss": 1.1483,
      "step": 2270
    },
    {
      "epoch": 8.01471264367816,
      "grad_norm": 0.045827772468328476,
      "learning_rate": 9.169859514687102e-06,
      "loss": 0.529,
      "step": 2280
    },
    {
      "epoch": 8.015478927203064,
      "grad_norm": 27.256160736083984,
      "learning_rate": 9.161345253299277e-06,
      "loss": 0.6336,
      "step": 2290
    },
    {
      "epoch": 8.01624521072797,
      "grad_norm": 0.0258074589073658,
      "learning_rate": 9.152830991911452e-06,
      "loss": 1.2224,
      "step": 2300
    },
    {
      "epoch": 8.017011494252873,
      "grad_norm": 0.058820076286792755,
      "learning_rate": 9.144316730523628e-06,
      "loss": 1.1961,
      "step": 2310
    },
    {
      "epoch": 8.017777777777777,
      "grad_norm": 27.617746353149414,
      "learning_rate": 9.135802469135803e-06,
      "loss": 1.6595,
      "step": 2320
    },
    {
      "epoch": 8.018544061302682,
      "grad_norm": 0.042329080402851105,
      "learning_rate": 9.127288207747978e-06,
      "loss": 0.3921,
      "step": 2330
    },
    {
      "epoch": 8.019310344827586,
      "grad_norm": 0.029105035588145256,
      "learning_rate": 9.118773946360155e-06,
      "loss": 1.2248,
      "step": 2340
    },
    {
      "epoch": 8.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.031482696533203,
      "eval_runtime": 30.192,
      "eval_samples_per_second": 1.49,
      "eval_steps_per_second": 1.49,
      "step": 2349
    },
    {
      "epoch": 9.00007662835249,
      "grad_norm": 0.13440681993961334,
      "learning_rate": 9.110259684972328e-06,
      "loss": 0.9831,
      "step": 2350
    },
    {
      "epoch": 9.000842911877395,
      "grad_norm": 71.88294982910156,
      "learning_rate": 9.101745423584505e-06,
      "loss": 0.4825,
      "step": 2360
    },
    {
      "epoch": 9.001609195402299,
      "grad_norm": 37.53052520751953,
      "learning_rate": 9.09323116219668e-06,
      "loss": 1.185,
      "step": 2370
    },
    {
      "epoch": 9.002375478927203,
      "grad_norm": 38.406646728515625,
      "learning_rate": 9.084716900808855e-06,
      "loss": 0.4177,
      "step": 2380
    },
    {
      "epoch": 9.003141762452108,
      "grad_norm": 0.0962865874171257,
      "learning_rate": 9.076202639421032e-06,
      "loss": 1.2027,
      "step": 2390
    },
    {
      "epoch": 9.003908045977012,
      "grad_norm": 25.04035758972168,
      "learning_rate": 9.067688378033207e-06,
      "loss": 1.8004,
      "step": 2400
    },
    {
      "epoch": 9.004674329501915,
      "grad_norm": 21.876209259033203,
      "learning_rate": 9.059174116645382e-06,
      "loss": 1.2508,
      "step": 2410
    },
    {
      "epoch": 9.00544061302682,
      "grad_norm": 2.1615195274353027,
      "learning_rate": 9.050659855257558e-06,
      "loss": 0.7229,
      "step": 2420
    },
    {
      "epoch": 9.006206896551724,
      "grad_norm": 2.2023909091949463,
      "learning_rate": 9.042145593869732e-06,
      "loss": 1.6846,
      "step": 2430
    },
    {
      "epoch": 9.006973180076628,
      "grad_norm": 45.072322845458984,
      "learning_rate": 9.033631332481908e-06,
      "loss": 1.3944,
      "step": 2440
    },
    {
      "epoch": 9.007739463601533,
      "grad_norm": 0.5853039026260376,
      "learning_rate": 9.025117071094083e-06,
      "loss": 0.7244,
      "step": 2450
    },
    {
      "epoch": 9.008505747126437,
      "grad_norm": 0.07648712396621704,
      "learning_rate": 9.016602809706258e-06,
      "loss": 0.9744,
      "step": 2460
    },
    {
      "epoch": 9.00927203065134,
      "grad_norm": 0.03981802612543106,
      "learning_rate": 9.008088548318435e-06,
      "loss": 0.2308,
      "step": 2470
    },
    {
      "epoch": 9.010038314176246,
      "grad_norm": 0.02455969899892807,
      "learning_rate": 8.999574286930608e-06,
      "loss": 0.0019,
      "step": 2480
    },
    {
      "epoch": 9.01080459770115,
      "grad_norm": 0.01998833380639553,
      "learning_rate": 8.991060025542785e-06,
      "loss": 0.0022,
      "step": 2490
    },
    {
      "epoch": 9.011570881226053,
      "grad_norm": 0.44685810804367065,
      "learning_rate": 8.98254576415496e-06,
      "loss": 1.4054,
      "step": 2500
    },
    {
      "epoch": 9.012337164750958,
      "grad_norm": 0.17958851158618927,
      "learning_rate": 8.974031502767135e-06,
      "loss": 1.1453,
      "step": 2510
    },
    {
      "epoch": 9.013103448275862,
      "grad_norm": 0.5927056074142456,
      "learning_rate": 8.965517241379312e-06,
      "loss": 2.4858,
      "step": 2520
    },
    {
      "epoch": 9.013869731800765,
      "grad_norm": 0.41714614629745483,
      "learning_rate": 8.957002979991487e-06,
      "loss": 0.275,
      "step": 2530
    },
    {
      "epoch": 9.01463601532567,
      "grad_norm": 0.22673273086547852,
      "learning_rate": 8.948488718603662e-06,
      "loss": 2.9377,
      "step": 2540
    },
    {
      "epoch": 9.015402298850574,
      "grad_norm": 1.3472007513046265,
      "learning_rate": 8.939974457215838e-06,
      "loss": 1.2388,
      "step": 2550
    },
    {
      "epoch": 9.01616858237548,
      "grad_norm": 50.77263259887695,
      "learning_rate": 8.931460195828012e-06,
      "loss": 0.6684,
      "step": 2560
    },
    {
      "epoch": 9.016934865900383,
      "grad_norm": 36.43789291381836,
      "learning_rate": 8.922945934440188e-06,
      "loss": 1.4564,
      "step": 2570
    },
    {
      "epoch": 9.017701149425287,
      "grad_norm": 58.35029220581055,
      "learning_rate": 8.914431673052363e-06,
      "loss": 0.3585,
      "step": 2580
    },
    {
      "epoch": 9.018467432950192,
      "grad_norm": 0.281345933675766,
      "learning_rate": 8.905917411664538e-06,
      "loss": 0.6004,
      "step": 2590
    },
    {
      "epoch": 9.019233716475096,
      "grad_norm": 0.21588343381881714,
      "learning_rate": 8.897403150276715e-06,
      "loss": 2.1211,
      "step": 2600
    },
    {
      "epoch": 9.02,
      "grad_norm": 2.7813258171081543,
      "learning_rate": 8.888888888888888e-06,
      "loss": 0.7126,
      "step": 2610
    },
    {
      "epoch": 9.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 1.7717280387878418,
      "eval_runtime": 31.7486,
      "eval_samples_per_second": 1.417,
      "eval_steps_per_second": 1.417,
      "step": 2610
    },
    {
      "epoch": 10.000766283524904,
      "grad_norm": 0.27461373805999756,
      "learning_rate": 8.880374627501065e-06,
      "loss": 0.9198,
      "step": 2620
    },
    {
      "epoch": 10.001532567049809,
      "grad_norm": 0.771606981754303,
      "learning_rate": 8.87186036611324e-06,
      "loss": 1.7329,
      "step": 2630
    },
    {
      "epoch": 10.002298850574713,
      "grad_norm": 0.1488303244113922,
      "learning_rate": 8.863346104725415e-06,
      "loss": 0.497,
      "step": 2640
    },
    {
      "epoch": 10.003065134099616,
      "grad_norm": 32.737430572509766,
      "learning_rate": 8.854831843337592e-06,
      "loss": 2.4259,
      "step": 2650
    },
    {
      "epoch": 10.003831417624522,
      "grad_norm": 0.36537179350852966,
      "learning_rate": 8.846317581949767e-06,
      "loss": 1.3456,
      "step": 2660
    },
    {
      "epoch": 10.004597701149425,
      "grad_norm": 0.03043508343398571,
      "learning_rate": 8.837803320561942e-06,
      "loss": 0.0356,
      "step": 2670
    },
    {
      "epoch": 10.005363984674329,
      "grad_norm": 1.8493080139160156,
      "learning_rate": 8.829289059174118e-06,
      "loss": 1.7255,
      "step": 2680
    },
    {
      "epoch": 10.006130268199234,
      "grad_norm": 0.44268864393234253,
      "learning_rate": 8.820774797786292e-06,
      "loss": 1.0021,
      "step": 2690
    },
    {
      "epoch": 10.006896551724138,
      "grad_norm": 0.10876309126615524,
      "learning_rate": 8.812260536398468e-06,
      "loss": 0.0146,
      "step": 2700
    },
    {
      "epoch": 10.007662835249041,
      "grad_norm": 0.1778973639011383,
      "learning_rate": 8.803746275010643e-06,
      "loss": 2.0153,
      "step": 2710
    },
    {
      "epoch": 10.008429118773947,
      "grad_norm": 1.5086232423782349,
      "learning_rate": 8.795232013622818e-06,
      "loss": 1.0842,
      "step": 2720
    },
    {
      "epoch": 10.00919540229885,
      "grad_norm": 0.23681464791297913,
      "learning_rate": 8.786717752234995e-06,
      "loss": 0.005,
      "step": 2730
    },
    {
      "epoch": 10.009961685823756,
      "grad_norm": 0.04919436573982239,
      "learning_rate": 8.77820349084717e-06,
      "loss": 0.963,
      "step": 2740
    },
    {
      "epoch": 10.01072796934866,
      "grad_norm": 34.107696533203125,
      "learning_rate": 8.769689229459345e-06,
      "loss": 1.5674,
      "step": 2750
    },
    {
      "epoch": 10.011494252873563,
      "grad_norm": 0.39854350686073303,
      "learning_rate": 8.76117496807152e-06,
      "loss": 1.2748,
      "step": 2760
    },
    {
      "epoch": 10.012260536398468,
      "grad_norm": 1.1435327529907227,
      "learning_rate": 8.752660706683695e-06,
      "loss": 0.2826,
      "step": 2770
    },
    {
      "epoch": 10.013026819923372,
      "grad_norm": 0.0729794055223465,
      "learning_rate": 8.744146445295872e-06,
      "loss": 0.9041,
      "step": 2780
    },
    {
      "epoch": 10.013793103448275,
      "grad_norm": 4.273685455322266,
      "learning_rate": 8.735632183908047e-06,
      "loss": 0.4638,
      "step": 2790
    },
    {
      "epoch": 10.01455938697318,
      "grad_norm": 39.03486251831055,
      "learning_rate": 8.727117922520222e-06,
      "loss": 1.7522,
      "step": 2800
    },
    {
      "epoch": 10.015325670498084,
      "grad_norm": 0.6265343427658081,
      "learning_rate": 8.718603661132398e-06,
      "loss": 1.413,
      "step": 2810
    },
    {
      "epoch": 10.016091954022988,
      "grad_norm": 129.6248321533203,
      "learning_rate": 8.710089399744572e-06,
      "loss": 1.8888,
      "step": 2820
    },
    {
      "epoch": 10.016858237547893,
      "grad_norm": 29.127796173095703,
      "learning_rate": 8.701575138356748e-06,
      "loss": 0.9942,
      "step": 2830
    },
    {
      "epoch": 10.017624521072797,
      "grad_norm": 0.07597409188747406,
      "learning_rate": 8.693060876968923e-06,
      "loss": 0.1063,
      "step": 2840
    },
    {
      "epoch": 10.0183908045977,
      "grad_norm": 0.12554273009300232,
      "learning_rate": 8.684546615581098e-06,
      "loss": 0.4064,
      "step": 2850
    },
    {
      "epoch": 10.019157088122606,
      "grad_norm": 0.20525963604450226,
      "learning_rate": 8.676032354193275e-06,
      "loss": 1.0527,
      "step": 2860
    },
    {
      "epoch": 10.01992337164751,
      "grad_norm": 0.09247679263353348,
      "learning_rate": 8.66751809280545e-06,
      "loss": 1.2486,
      "step": 2870
    },
    {
      "epoch": 10.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.044833183288574,
      "eval_runtime": 29.149,
      "eval_samples_per_second": 1.544,
      "eval_steps_per_second": 1.544,
      "step": 2871
    },
    {
      "epoch": 11.000689655172414,
      "grad_norm": 0.19499462842941284,
      "learning_rate": 8.659003831417625e-06,
      "loss": 0.8874,
      "step": 2880
    },
    {
      "epoch": 11.001455938697317,
      "grad_norm": 0.6056790947914124,
      "learning_rate": 8.650489570029802e-06,
      "loss": 1.8815,
      "step": 2890
    },
    {
      "epoch": 11.002222222222223,
      "grad_norm": 1.8409892320632935,
      "learning_rate": 8.641975308641975e-06,
      "loss": 0.3759,
      "step": 2900
    },
    {
      "epoch": 11.002988505747126,
      "grad_norm": 39.48097229003906,
      "learning_rate": 8.633461047254152e-06,
      "loss": 1.4098,
      "step": 2910
    },
    {
      "epoch": 11.00375478927203,
      "grad_norm": 0.5572229623794556,
      "learning_rate": 8.624946785866327e-06,
      "loss": 0.4802,
      "step": 2920
    },
    {
      "epoch": 11.004521072796935,
      "grad_norm": 39.57521057128906,
      "learning_rate": 8.616432524478502e-06,
      "loss": 1.4711,
      "step": 2930
    },
    {
      "epoch": 11.005287356321839,
      "grad_norm": 42.3668327331543,
      "learning_rate": 8.607918263090678e-06,
      "loss": 1.1544,
      "step": 2940
    },
    {
      "epoch": 11.006053639846744,
      "grad_norm": 40.42279815673828,
      "learning_rate": 8.599404001702853e-06,
      "loss": 1.5491,
      "step": 2950
    },
    {
      "epoch": 11.006819923371648,
      "grad_norm": 0.818279504776001,
      "learning_rate": 8.590889740315028e-06,
      "loss": 0.6879,
      "step": 2960
    },
    {
      "epoch": 11.007586206896551,
      "grad_norm": 0.06000624969601631,
      "learning_rate": 8.582375478927203e-06,
      "loss": 0.7827,
      "step": 2970
    },
    {
      "epoch": 11.008352490421457,
      "grad_norm": 8.923982620239258,
      "learning_rate": 8.573861217539378e-06,
      "loss": 0.6354,
      "step": 2980
    },
    {
      "epoch": 11.00911877394636,
      "grad_norm": 33.427696228027344,
      "learning_rate": 8.565346956151555e-06,
      "loss": 0.7101,
      "step": 2990
    },
    {
      "epoch": 11.009885057471264,
      "grad_norm": 0.1918342560529709,
      "learning_rate": 8.55683269476373e-06,
      "loss": 0.2631,
      "step": 3000
    },
    {
      "epoch": 11.01065134099617,
      "grad_norm": 31.761737823486328,
      "learning_rate": 8.548318433375905e-06,
      "loss": 0.1071,
      "step": 3010
    },
    {
      "epoch": 11.011417624521073,
      "grad_norm": 0.03893289342522621,
      "learning_rate": 8.539804171988082e-06,
      "loss": 0.0013,
      "step": 3020
    },
    {
      "epoch": 11.012183908045976,
      "grad_norm": 42.312713623046875,
      "learning_rate": 8.531289910600255e-06,
      "loss": 1.3946,
      "step": 3030
    },
    {
      "epoch": 11.012950191570882,
      "grad_norm": 0.08506738394498825,
      "learning_rate": 8.522775649212432e-06,
      "loss": 1.6674,
      "step": 3040
    },
    {
      "epoch": 11.013716475095785,
      "grad_norm": 43.45698928833008,
      "learning_rate": 8.514261387824607e-06,
      "loss": 1.991,
      "step": 3050
    },
    {
      "epoch": 11.014482758620689,
      "grad_norm": 34.260616302490234,
      "learning_rate": 8.505747126436782e-06,
      "loss": 0.3898,
      "step": 3060
    },
    {
      "epoch": 11.015249042145594,
      "grad_norm": 0.24433740973472595,
      "learning_rate": 8.497232865048958e-06,
      "loss": 0.8675,
      "step": 3070
    },
    {
      "epoch": 11.016015325670498,
      "grad_norm": 1.174355387687683,
      "learning_rate": 8.488718603661133e-06,
      "loss": 0.443,
      "step": 3080
    },
    {
      "epoch": 11.016781609195402,
      "grad_norm": 0.01762991212308407,
      "learning_rate": 8.480204342273308e-06,
      "loss": 0.3616,
      "step": 3090
    },
    {
      "epoch": 11.017547892720307,
      "grad_norm": 0.7885949015617371,
      "learning_rate": 8.471690080885483e-06,
      "loss": 1.423,
      "step": 3100
    },
    {
      "epoch": 11.01831417624521,
      "grad_norm": 122.68183898925781,
      "learning_rate": 8.463175819497658e-06,
      "loss": 1.5785,
      "step": 3110
    },
    {
      "epoch": 11.019080459770114,
      "grad_norm": 0.02293579652905464,
      "learning_rate": 8.454661558109835e-06,
      "loss": 0.0335,
      "step": 3120
    },
    {
      "epoch": 11.01984674329502,
      "grad_norm": 85.93800354003906,
      "learning_rate": 8.44614729672201e-06,
      "loss": 2.2836,
      "step": 3130
    },
    {
      "epoch": 11.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.198768138885498,
      "eval_runtime": 28.4521,
      "eval_samples_per_second": 1.582,
      "eval_steps_per_second": 1.582,
      "step": 3132
    },
    {
      "epoch": 12.000613026819924,
      "grad_norm": 0.14830510318279266,
      "learning_rate": 8.437633035334185e-06,
      "loss": 0.4864,
      "step": 3140
    },
    {
      "epoch": 12.001379310344827,
      "grad_norm": 0.057821013033390045,
      "learning_rate": 8.429118773946362e-06,
      "loss": 0.899,
      "step": 3150
    },
    {
      "epoch": 12.002145593869733,
      "grad_norm": 63.5409049987793,
      "learning_rate": 8.420604512558537e-06,
      "loss": 1.304,
      "step": 3160
    },
    {
      "epoch": 12.002911877394636,
      "grad_norm": 28.738975524902344,
      "learning_rate": 8.412090251170712e-06,
      "loss": 0.497,
      "step": 3170
    },
    {
      "epoch": 12.00367816091954,
      "grad_norm": 1.074270248413086,
      "learning_rate": 8.403575989782887e-06,
      "loss": 0.4471,
      "step": 3180
    },
    {
      "epoch": 12.004444444444445,
      "grad_norm": 0.07934243977069855,
      "learning_rate": 8.395061728395062e-06,
      "loss": 1.0692,
      "step": 3190
    },
    {
      "epoch": 12.005210727969349,
      "grad_norm": 0.1797323077917099,
      "learning_rate": 8.386547467007238e-06,
      "loss": 0.4376,
      "step": 3200
    },
    {
      "epoch": 12.005977011494252,
      "grad_norm": 1.5944926738739014,
      "learning_rate": 8.378033205619413e-06,
      "loss": 1.9216,
      "step": 3210
    },
    {
      "epoch": 12.006743295019158,
      "grad_norm": 0.199304461479187,
      "learning_rate": 8.369518944231588e-06,
      "loss": 0.6527,
      "step": 3220
    },
    {
      "epoch": 12.007509578544061,
      "grad_norm": 0.09717396646738052,
      "learning_rate": 8.361004682843763e-06,
      "loss": 0.4853,
      "step": 3230
    },
    {
      "epoch": 12.008275862068965,
      "grad_norm": 36.5285530090332,
      "learning_rate": 8.35249042145594e-06,
      "loss": 1.499,
      "step": 3240
    },
    {
      "epoch": 12.00904214559387,
      "grad_norm": 54.89915466308594,
      "learning_rate": 8.343976160068115e-06,
      "loss": 0.9393,
      "step": 3250
    },
    {
      "epoch": 12.009808429118774,
      "grad_norm": 1.9105443954467773,
      "learning_rate": 8.33546189868029e-06,
      "loss": 1.0704,
      "step": 3260
    },
    {
      "epoch": 12.010574712643677,
      "grad_norm": 6.898054122924805,
      "learning_rate": 8.326947637292465e-06,
      "loss": 0.6557,
      "step": 3270
    },
    {
      "epoch": 12.011340996168583,
      "grad_norm": 0.5106290578842163,
      "learning_rate": 8.318433375904642e-06,
      "loss": 0.9871,
      "step": 3280
    },
    {
      "epoch": 12.012107279693486,
      "grad_norm": 0.3555498719215393,
      "learning_rate": 8.309919114516817e-06,
      "loss": 0.4547,
      "step": 3290
    },
    {
      "epoch": 12.01287356321839,
      "grad_norm": 0.0721430778503418,
      "learning_rate": 8.301404853128992e-06,
      "loss": 1.0625,
      "step": 3300
    },
    {
      "epoch": 12.013639846743295,
      "grad_norm": 1.5174165964126587,
      "learning_rate": 8.292890591741167e-06,
      "loss": 0.6646,
      "step": 3310
    },
    {
      "epoch": 12.014406130268199,
      "grad_norm": 44.36272048950195,
      "learning_rate": 8.284376330353342e-06,
      "loss": 1.4613,
      "step": 3320
    },
    {
      "epoch": 12.015172413793103,
      "grad_norm": 0.030098868533968925,
      "learning_rate": 8.275862068965518e-06,
      "loss": 0.4604,
      "step": 3330
    },
    {
      "epoch": 12.015938697318008,
      "grad_norm": 0.04015477001667023,
      "learning_rate": 8.267347807577693e-06,
      "loss": 0.136,
      "step": 3340
    },
    {
      "epoch": 12.016704980842912,
      "grad_norm": 46.45560836791992,
      "learning_rate": 8.258833546189868e-06,
      "loss": 1.491,
      "step": 3350
    },
    {
      "epoch": 12.017471264367815,
      "grad_norm": 7.361248970031738,
      "learning_rate": 8.250319284802043e-06,
      "loss": 0.3483,
      "step": 3360
    },
    {
      "epoch": 12.01823754789272,
      "grad_norm": 0.041824039071798325,
      "learning_rate": 8.24180502341422e-06,
      "loss": 0.1995,
      "step": 3370
    },
    {
      "epoch": 12.019003831417624,
      "grad_norm": 117.7020034790039,
      "learning_rate": 8.233290762026395e-06,
      "loss": 0.4412,
      "step": 3380
    },
    {
      "epoch": 12.01977011494253,
      "grad_norm": 201.08111572265625,
      "learning_rate": 8.22477650063857e-06,
      "loss": 0.8409,
      "step": 3390
    },
    {
      "epoch": 12.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 1.6257597208023071,
      "eval_runtime": 30.0728,
      "eval_samples_per_second": 1.496,
      "eval_steps_per_second": 1.496,
      "step": 3393
    },
    {
      "epoch": 13.000536398467434,
      "grad_norm": 0.027195075526833534,
      "learning_rate": 8.216262239250745e-06,
      "loss": 0.5696,
      "step": 3400
    },
    {
      "epoch": 13.001302681992337,
      "grad_norm": 0.015136953443288803,
      "learning_rate": 8.207747977862922e-06,
      "loss": 0.683,
      "step": 3410
    },
    {
      "epoch": 13.00206896551724,
      "grad_norm": 0.07920116931200027,
      "learning_rate": 8.199233716475097e-06,
      "loss": 1.2076,
      "step": 3420
    },
    {
      "epoch": 13.002835249042146,
      "grad_norm": 60.538002014160156,
      "learning_rate": 8.190719455087272e-06,
      "loss": 0.3912,
      "step": 3430
    },
    {
      "epoch": 13.00360153256705,
      "grad_norm": 0.32756534218788147,
      "learning_rate": 8.182205193699447e-06,
      "loss": 0.989,
      "step": 3440
    },
    {
      "epoch": 13.004367816091953,
      "grad_norm": 0.07383251935243607,
      "learning_rate": 8.173690932311623e-06,
      "loss": 0.5731,
      "step": 3450
    },
    {
      "epoch": 13.005134099616859,
      "grad_norm": 3.3000388145446777,
      "learning_rate": 8.165176670923798e-06,
      "loss": 2.2572,
      "step": 3460
    },
    {
      "epoch": 13.005900383141762,
      "grad_norm": 0.02051711641252041,
      "learning_rate": 8.156662409535973e-06,
      "loss": 0.168,
      "step": 3470
    },
    {
      "epoch": 13.006666666666666,
      "grad_norm": 0.09207461774349213,
      "learning_rate": 8.148148148148148e-06,
      "loss": 1.4929,
      "step": 3480
    },
    {
      "epoch": 13.007432950191571,
      "grad_norm": 0.10528067499399185,
      "learning_rate": 8.139633886760325e-06,
      "loss": 0.0797,
      "step": 3490
    },
    {
      "epoch": 13.008199233716475,
      "grad_norm": 0.10485323518514633,
      "learning_rate": 8.1311196253725e-06,
      "loss": 3.8356,
      "step": 3500
    },
    {
      "epoch": 13.008965517241379,
      "grad_norm": 0.09597320109605789,
      "learning_rate": 8.122605363984675e-06,
      "loss": 1.5876,
      "step": 3510
    },
    {
      "epoch": 13.009731800766284,
      "grad_norm": 143.17591857910156,
      "learning_rate": 8.11409110259685e-06,
      "loss": 0.8356,
      "step": 3520
    },
    {
      "epoch": 13.010498084291187,
      "grad_norm": 58.587364196777344,
      "learning_rate": 8.105576841209027e-06,
      "loss": 0.7239,
      "step": 3530
    },
    {
      "epoch": 13.011264367816091,
      "grad_norm": 0.0739077627658844,
      "learning_rate": 8.097062579821202e-06,
      "loss": 0.7464,
      "step": 3540
    },
    {
      "epoch": 13.012030651340996,
      "grad_norm": 0.06026057153940201,
      "learning_rate": 8.088548318433377e-06,
      "loss": 0.9616,
      "step": 3550
    },
    {
      "epoch": 13.0127969348659,
      "grad_norm": 17.447830200195312,
      "learning_rate": 8.080034057045552e-06,
      "loss": 0.2298,
      "step": 3560
    },
    {
      "epoch": 13.013563218390805,
      "grad_norm": 0.13126251101493835,
      "learning_rate": 8.071519795657727e-06,
      "loss": 1.3408,
      "step": 3570
    },
    {
      "epoch": 13.014329501915709,
      "grad_norm": 0.07087504863739014,
      "learning_rate": 8.063005534269903e-06,
      "loss": 1.3494,
      "step": 3580
    },
    {
      "epoch": 13.015095785440613,
      "grad_norm": 2.7543046474456787,
      "learning_rate": 8.054491272882078e-06,
      "loss": 0.2207,
      "step": 3590
    },
    {
      "epoch": 13.015862068965518,
      "grad_norm": 0.016590647399425507,
      "learning_rate": 8.045977011494253e-06,
      "loss": 0.8871,
      "step": 3600
    },
    {
      "epoch": 13.016628352490422,
      "grad_norm": 0.03712855651974678,
      "learning_rate": 8.037462750106428e-06,
      "loss": 0.3747,
      "step": 3610
    },
    {
      "epoch": 13.017394636015325,
      "grad_norm": 0.39427733421325684,
      "learning_rate": 8.028948488718605e-06,
      "loss": 0.5934,
      "step": 3620
    },
    {
      "epoch": 13.01816091954023,
      "grad_norm": 144.2153778076172,
      "learning_rate": 8.02043422733078e-06,
      "loss": 0.2252,
      "step": 3630
    },
    {
      "epoch": 13.018927203065134,
      "grad_norm": 87.64982604980469,
      "learning_rate": 8.011919965942955e-06,
      "loss": 1.4615,
      "step": 3640
    },
    {
      "epoch": 13.019693486590038,
      "grad_norm": 0.23163729906082153,
      "learning_rate": 8.00340570455513e-06,
      "loss": 0.4642,
      "step": 3650
    },
    {
      "epoch": 13.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 1.3451073169708252,
      "eval_runtime": 27.8647,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 1.615,
      "step": 3654
    },
    {
      "epoch": 14.000459770114942,
      "grad_norm": 140.87591552734375,
      "learning_rate": 7.994891443167307e-06,
      "loss": 1.7746,
      "step": 3660
    },
    {
      "epoch": 14.001226053639847,
      "grad_norm": 9.656526565551758,
      "learning_rate": 7.986377181779482e-06,
      "loss": 0.388,
      "step": 3670
    },
    {
      "epoch": 14.00199233716475,
      "grad_norm": 0.5438821911811829,
      "learning_rate": 7.977862920391657e-06,
      "loss": 0.971,
      "step": 3680
    },
    {
      "epoch": 14.002758620689654,
      "grad_norm": 0.02026885375380516,
      "learning_rate": 7.969348659003832e-06,
      "loss": 0.4048,
      "step": 3690
    },
    {
      "epoch": 14.00352490421456,
      "grad_norm": 12.08399772644043,
      "learning_rate": 7.960834397616007e-06,
      "loss": 0.2787,
      "step": 3700
    },
    {
      "epoch": 14.004291187739463,
      "grad_norm": 0.06703075021505356,
      "learning_rate": 7.952320136228183e-06,
      "loss": 1.0453,
      "step": 3710
    },
    {
      "epoch": 14.005057471264367,
      "grad_norm": 0.3174547553062439,
      "learning_rate": 7.943805874840358e-06,
      "loss": 0.009,
      "step": 3720
    },
    {
      "epoch": 14.005823754789272,
      "grad_norm": 0.014533264562487602,
      "learning_rate": 7.935291613452533e-06,
      "loss": 1.1884,
      "step": 3730
    },
    {
      "epoch": 14.006590038314176,
      "grad_norm": 0.5189967155456543,
      "learning_rate": 7.92677735206471e-06,
      "loss": 0.5976,
      "step": 3740
    },
    {
      "epoch": 14.007356321839081,
      "grad_norm": 74.87429809570312,
      "learning_rate": 7.918263090676885e-06,
      "loss": 0.8599,
      "step": 3750
    },
    {
      "epoch": 14.008122605363985,
      "grad_norm": 0.03736857697367668,
      "learning_rate": 7.90974882928906e-06,
      "loss": 0.3985,
      "step": 3760
    },
    {
      "epoch": 14.008888888888889,
      "grad_norm": 191.43634033203125,
      "learning_rate": 7.901234567901235e-06,
      "loss": 0.0901,
      "step": 3770
    },
    {
      "epoch": 14.009655172413794,
      "grad_norm": 212.68418884277344,
      "learning_rate": 7.89272030651341e-06,
      "loss": 0.6925,
      "step": 3780
    },
    {
      "epoch": 14.010421455938697,
      "grad_norm": 0.6265121698379517,
      "learning_rate": 7.884206045125587e-06,
      "loss": 0.3075,
      "step": 3790
    },
    {
      "epoch": 14.011187739463601,
      "grad_norm": 22.70719337463379,
      "learning_rate": 7.875691783737762e-06,
      "loss": 0.5691,
      "step": 3800
    },
    {
      "epoch": 14.011954022988506,
      "grad_norm": 5.610614776611328,
      "learning_rate": 7.867177522349937e-06,
      "loss": 0.5433,
      "step": 3810
    },
    {
      "epoch": 14.01272030651341,
      "grad_norm": 0.08452703058719635,
      "learning_rate": 7.858663260962112e-06,
      "loss": 1.5302,
      "step": 3820
    },
    {
      "epoch": 14.013486590038314,
      "grad_norm": 0.02380300499498844,
      "learning_rate": 7.850148999574287e-06,
      "loss": 1.9518,
      "step": 3830
    },
    {
      "epoch": 14.014252873563219,
      "grad_norm": 2.767400026321411,
      "learning_rate": 7.841634738186463e-06,
      "loss": 0.5367,
      "step": 3840
    },
    {
      "epoch": 14.015019157088123,
      "grad_norm": 0.17338675260543823,
      "learning_rate": 7.833120476798638e-06,
      "loss": 0.7597,
      "step": 3850
    },
    {
      "epoch": 14.015785440613026,
      "grad_norm": 0.053753260523080826,
      "learning_rate": 7.824606215410813e-06,
      "loss": 0.0779,
      "step": 3860
    },
    {
      "epoch": 14.016551724137932,
      "grad_norm": 0.021334677934646606,
      "learning_rate": 7.81609195402299e-06,
      "loss": 0.0797,
      "step": 3870
    },
    {
      "epoch": 14.017318007662835,
      "grad_norm": 0.02414635941386223,
      "learning_rate": 7.807577692635165e-06,
      "loss": 1.4757,
      "step": 3880
    },
    {
      "epoch": 14.018084291187739,
      "grad_norm": 0.8290309906005859,
      "learning_rate": 7.79906343124734e-06,
      "loss": 2.1325,
      "step": 3890
    },
    {
      "epoch": 14.018850574712644,
      "grad_norm": 44.017173767089844,
      "learning_rate": 7.790549169859515e-06,
      "loss": 1.3666,
      "step": 3900
    },
    {
      "epoch": 14.019616858237548,
      "grad_norm": 0.06696108728647232,
      "learning_rate": 7.78203490847169e-06,
      "loss": 0.007,
      "step": 3910
    },
    {
      "epoch": 14.02,
      "eval_accuracy": 0.5555555555555556,
      "eval_loss": 2.2437803745269775,
      "eval_runtime": 27.8147,
      "eval_samples_per_second": 1.618,
      "eval_steps_per_second": 1.618,
      "step": 3915
    },
    {
      "epoch": 15.000383141762452,
      "grad_norm": 0.04292473942041397,
      "learning_rate": 7.773520647083867e-06,
      "loss": 1.5763,
      "step": 3920
    },
    {
      "epoch": 15.001149425287357,
      "grad_norm": 0.027751317247748375,
      "learning_rate": 7.765006385696042e-06,
      "loss": 0.0038,
      "step": 3930
    },
    {
      "epoch": 15.00191570881226,
      "grad_norm": 0.09398941695690155,
      "learning_rate": 7.756492124308217e-06,
      "loss": 1.0784,
      "step": 3940
    },
    {
      "epoch": 15.002681992337164,
      "grad_norm": 30.546510696411133,
      "learning_rate": 7.747977862920393e-06,
      "loss": 0.4579,
      "step": 3950
    },
    {
      "epoch": 15.00344827586207,
      "grad_norm": 0.6451389789581299,
      "learning_rate": 7.739463601532567e-06,
      "loss": 0.8586,
      "step": 3960
    },
    {
      "epoch": 15.004214559386973,
      "grad_norm": 0.5304000377655029,
      "learning_rate": 7.730949340144743e-06,
      "loss": 1.5245,
      "step": 3970
    },
    {
      "epoch": 15.004980842911877,
      "grad_norm": 1.0518193244934082,
      "learning_rate": 7.722435078756918e-06,
      "loss": 0.6112,
      "step": 3980
    },
    {
      "epoch": 15.005747126436782,
      "grad_norm": 8.345175743103027,
      "learning_rate": 7.713920817369093e-06,
      "loss": 0.5924,
      "step": 3990
    },
    {
      "epoch": 15.006513409961686,
      "grad_norm": 0.19540780782699585,
      "learning_rate": 7.70540655598127e-06,
      "loss": 1.059,
      "step": 4000
    },
    {
      "epoch": 15.00727969348659,
      "grad_norm": 0.9799060821533203,
      "learning_rate": 7.696892294593445e-06,
      "loss": 0.6304,
      "step": 4010
    },
    {
      "epoch": 15.008045977011495,
      "grad_norm": 0.0840282067656517,
      "learning_rate": 7.68837803320562e-06,
      "loss": 0.4809,
      "step": 4020
    },
    {
      "epoch": 15.008812260536398,
      "grad_norm": 0.012157630175352097,
      "learning_rate": 7.679863771817797e-06,
      "loss": 1.4427,
      "step": 4030
    },
    {
      "epoch": 15.009578544061302,
      "grad_norm": 42.577362060546875,
      "learning_rate": 7.67134951042997e-06,
      "loss": 1.5545,
      "step": 4040
    },
    {
      "epoch": 15.010344827586207,
      "grad_norm": 1.662129282951355,
      "learning_rate": 7.662835249042147e-06,
      "loss": 1.2053,
      "step": 4050
    },
    {
      "epoch": 15.011111111111111,
      "grad_norm": 0.23481321334838867,
      "learning_rate": 7.654320987654322e-06,
      "loss": 0.4214,
      "step": 4060
    },
    {
      "epoch": 15.011877394636015,
      "grad_norm": 0.3130255937576294,
      "learning_rate": 7.645806726266497e-06,
      "loss": 0.3643,
      "step": 4070
    },
    {
      "epoch": 15.01264367816092,
      "grad_norm": 0.6060452461242676,
      "learning_rate": 7.637292464878673e-06,
      "loss": 1.6084,
      "step": 4080
    },
    {
      "epoch": 15.013409961685824,
      "grad_norm": 0.07070709019899368,
      "learning_rate": 7.6287782034908475e-06,
      "loss": 0.571,
      "step": 4090
    },
    {
      "epoch": 15.014176245210727,
      "grad_norm": 0.015648258849978447,
      "learning_rate": 7.620263942103023e-06,
      "loss": 1.3485,
      "step": 4100
    },
    {
      "epoch": 15.014942528735633,
      "grad_norm": 0.038527365773916245,
      "learning_rate": 7.611749680715198e-06,
      "loss": 0.5748,
      "step": 4110
    },
    {
      "epoch": 15.015708812260536,
      "grad_norm": 0.01983085460960865,
      "learning_rate": 7.603235419327374e-06,
      "loss": 0.4425,
      "step": 4120
    },
    {
      "epoch": 15.01647509578544,
      "grad_norm": 0.517955482006073,
      "learning_rate": 7.59472115793955e-06,
      "loss": 1.9229,
      "step": 4130
    },
    {
      "epoch": 15.017241379310345,
      "grad_norm": 1.5724751949310303,
      "learning_rate": 7.586206896551724e-06,
      "loss": 0.2957,
      "step": 4140
    },
    {
      "epoch": 15.018007662835249,
      "grad_norm": 0.3141676187515259,
      "learning_rate": 7.5776926351639e-06,
      "loss": 0.7588,
      "step": 4150
    },
    {
      "epoch": 15.018773946360152,
      "grad_norm": 0.3598669171333313,
      "learning_rate": 7.569178373776076e-06,
      "loss": 1.3462,
      "step": 4160
    },
    {
      "epoch": 15.019540229885058,
      "grad_norm": 117.66388702392578,
      "learning_rate": 7.560664112388251e-06,
      "loss": 0.9377,
      "step": 4170
    },
    {
      "epoch": 15.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 1.1870836019515991,
      "eval_runtime": 28.3965,
      "eval_samples_per_second": 1.585,
      "eval_steps_per_second": 1.585,
      "step": 4176
    },
    {
      "epoch": 16.00030651340996,
      "grad_norm": 54.328304290771484,
      "learning_rate": 7.552149851000427e-06,
      "loss": 0.4261,
      "step": 4180
    },
    {
      "epoch": 16.001072796934867,
      "grad_norm": 44.30015182495117,
      "learning_rate": 7.543635589612601e-06,
      "loss": 0.2114,
      "step": 4190
    },
    {
      "epoch": 16.00183908045977,
      "grad_norm": 0.014054322615265846,
      "learning_rate": 7.535121328224777e-06,
      "loss": 1.953,
      "step": 4200
    },
    {
      "epoch": 16.002605363984674,
      "grad_norm": 0.13047707080841064,
      "learning_rate": 7.5266070668369525e-06,
      "loss": 0.0269,
      "step": 4210
    },
    {
      "epoch": 16.003371647509578,
      "grad_norm": 0.7880622148513794,
      "learning_rate": 7.5180928054491275e-06,
      "loss": 0.0439,
      "step": 4220
    },
    {
      "epoch": 16.00413793103448,
      "grad_norm": 0.022288668900728226,
      "learning_rate": 7.509578544061303e-06,
      "loss": 0.4317,
      "step": 4230
    },
    {
      "epoch": 16.00490421455939,
      "grad_norm": 0.10423079133033752,
      "learning_rate": 7.501064282673479e-06,
      "loss": 0.005,
      "step": 4240
    },
    {
      "epoch": 16.005670498084292,
      "grad_norm": 0.05330587178468704,
      "learning_rate": 7.492550021285654e-06,
      "loss": 0.4634,
      "step": 4250
    },
    {
      "epoch": 16.006436781609196,
      "grad_norm": 0.013447528705000877,
      "learning_rate": 7.48403575989783e-06,
      "loss": 0.1265,
      "step": 4260
    },
    {
      "epoch": 16.0072030651341,
      "grad_norm": 3.4366865158081055,
      "learning_rate": 7.475521498510004e-06,
      "loss": 1.016,
      "step": 4270
    },
    {
      "epoch": 16.007969348659003,
      "grad_norm": 0.8176273703575134,
      "learning_rate": 7.46700723712218e-06,
      "loss": 1.0061,
      "step": 4280
    },
    {
      "epoch": 16.008735632183907,
      "grad_norm": 0.04355312138795853,
      "learning_rate": 7.458492975734356e-06,
      "loss": 0.7972,
      "step": 4290
    },
    {
      "epoch": 16.009501915708814,
      "grad_norm": 43.31974411010742,
      "learning_rate": 7.449978714346531e-06,
      "loss": 1.8093,
      "step": 4300
    },
    {
      "epoch": 16.010268199233717,
      "grad_norm": 1.6316255331039429,
      "learning_rate": 7.441464452958707e-06,
      "loss": 1.4982,
      "step": 4310
    },
    {
      "epoch": 16.01103448275862,
      "grad_norm": 0.24711428582668304,
      "learning_rate": 7.4329501915708825e-06,
      "loss": 0.1721,
      "step": 4320
    },
    {
      "epoch": 16.011800766283525,
      "grad_norm": 0.040599048137664795,
      "learning_rate": 7.4244359301830575e-06,
      "loss": 0.1528,
      "step": 4330
    },
    {
      "epoch": 16.01256704980843,
      "grad_norm": 0.18860793113708496,
      "learning_rate": 7.4159216687952325e-06,
      "loss": 0.9181,
      "step": 4340
    },
    {
      "epoch": 16.013333333333332,
      "grad_norm": 195.70016479492188,
      "learning_rate": 7.4074074074074075e-06,
      "loss": 1.3522,
      "step": 4350
    },
    {
      "epoch": 16.01409961685824,
      "grad_norm": 0.02612440474331379,
      "learning_rate": 7.398893146019583e-06,
      "loss": 0.7378,
      "step": 4360
    },
    {
      "epoch": 16.014865900383143,
      "grad_norm": 0.011697613634169102,
      "learning_rate": 7.390378884631759e-06,
      "loss": 0.7663,
      "step": 4370
    },
    {
      "epoch": 16.015632183908046,
      "grad_norm": 1.438512921333313,
      "learning_rate": 7.381864623243934e-06,
      "loss": 1.1566,
      "step": 4380
    },
    {
      "epoch": 16.01639846743295,
      "grad_norm": 170.9693145751953,
      "learning_rate": 7.37335036185611e-06,
      "loss": 0.8363,
      "step": 4390
    },
    {
      "epoch": 16.017164750957853,
      "grad_norm": 0.030791645869612694,
      "learning_rate": 7.364836100468284e-06,
      "loss": 0.5086,
      "step": 4400
    },
    {
      "epoch": 16.017931034482757,
      "grad_norm": 49.93655014038086,
      "learning_rate": 7.35632183908046e-06,
      "loss": 1.8686,
      "step": 4410
    },
    {
      "epoch": 16.018697318007664,
      "grad_norm": 1.1999695301055908,
      "learning_rate": 7.347807577692636e-06,
      "loss": 0.5041,
      "step": 4420
    },
    {
      "epoch": 16.019463601532568,
      "grad_norm": 0.043441757559776306,
      "learning_rate": 7.339293316304811e-06,
      "loss": 0.7025,
      "step": 4430
    },
    {
      "epoch": 16.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 1.8904989957809448,
      "eval_runtime": 28.9409,
      "eval_samples_per_second": 1.555,
      "eval_steps_per_second": 1.555,
      "step": 4437
    },
    {
      "epoch": 17.000229885057472,
      "grad_norm": 0.038414884358644485,
      "learning_rate": 7.330779054916987e-06,
      "loss": 0.2607,
      "step": 4440
    },
    {
      "epoch": 17.000996168582375,
      "grad_norm": 47.00775909423828,
      "learning_rate": 7.3222647935291625e-06,
      "loss": 1.9866,
      "step": 4450
    },
    {
      "epoch": 17.00176245210728,
      "grad_norm": 0.062096305191516876,
      "learning_rate": 7.3137505321413375e-06,
      "loss": 0.9869,
      "step": 4460
    },
    {
      "epoch": 17.002528735632183,
      "grad_norm": 0.2115720957517624,
      "learning_rate": 7.305236270753513e-06,
      "loss": 0.3168,
      "step": 4470
    },
    {
      "epoch": 17.00329501915709,
      "grad_norm": 0.06847666949033737,
      "learning_rate": 7.2967220093656875e-06,
      "loss": 0.173,
      "step": 4480
    },
    {
      "epoch": 17.004061302681993,
      "grad_norm": 81.696533203125,
      "learning_rate": 7.288207747977863e-06,
      "loss": 1.3976,
      "step": 4490
    },
    {
      "epoch": 17.004827586206897,
      "grad_norm": 0.02751876972615719,
      "learning_rate": 7.279693486590039e-06,
      "loss": 0.7855,
      "step": 4500
    },
    {
      "epoch": 17.0055938697318,
      "grad_norm": 196.77980041503906,
      "learning_rate": 7.271179225202214e-06,
      "loss": 0.2874,
      "step": 4510
    },
    {
      "epoch": 17.006360153256704,
      "grad_norm": 0.02160465344786644,
      "learning_rate": 7.26266496381439e-06,
      "loss": 1.3808,
      "step": 4520
    },
    {
      "epoch": 17.007126436781608,
      "grad_norm": 2.6331965923309326,
      "learning_rate": 7.254150702426566e-06,
      "loss": 0.2896,
      "step": 4530
    },
    {
      "epoch": 17.007892720306515,
      "grad_norm": 59.360233306884766,
      "learning_rate": 7.24563644103874e-06,
      "loss": 1.1669,
      "step": 4540
    },
    {
      "epoch": 17.00865900383142,
      "grad_norm": 0.4970775544643402,
      "learning_rate": 7.237122179650916e-06,
      "loss": 0.4606,
      "step": 4550
    },
    {
      "epoch": 17.009425287356322,
      "grad_norm": 39.951873779296875,
      "learning_rate": 7.228607918263091e-06,
      "loss": 0.6738,
      "step": 4560
    },
    {
      "epoch": 17.010191570881226,
      "grad_norm": 0.010161004029214382,
      "learning_rate": 7.220093656875267e-06,
      "loss": 0.4168,
      "step": 4570
    },
    {
      "epoch": 17.01095785440613,
      "grad_norm": 0.05762038007378578,
      "learning_rate": 7.2115793954874425e-06,
      "loss": 0.0201,
      "step": 4580
    },
    {
      "epoch": 17.011724137931033,
      "grad_norm": 0.03370929881930351,
      "learning_rate": 7.2030651340996175e-06,
      "loss": 0.0009,
      "step": 4590
    },
    {
      "epoch": 17.01249042145594,
      "grad_norm": 0.0068419617600739,
      "learning_rate": 7.194550872711793e-06,
      "loss": 1.1103,
      "step": 4600
    },
    {
      "epoch": 17.013256704980844,
      "grad_norm": 50.3115234375,
      "learning_rate": 7.1860366113239675e-06,
      "loss": 1.3907,
      "step": 4610
    },
    {
      "epoch": 17.014022988505747,
      "grad_norm": 82.64256286621094,
      "learning_rate": 7.177522349936143e-06,
      "loss": 1.1197,
      "step": 4620
    },
    {
      "epoch": 17.01478927203065,
      "grad_norm": 0.03214224800467491,
      "learning_rate": 7.169008088548319e-06,
      "loss": 0.8854,
      "step": 4630
    },
    {
      "epoch": 17.015555555555554,
      "grad_norm": 0.6222575306892395,
      "learning_rate": 7.160493827160494e-06,
      "loss": 0.5726,
      "step": 4640
    },
    {
      "epoch": 17.016321839080458,
      "grad_norm": 0.08235086500644684,
      "learning_rate": 7.15197956577267e-06,
      "loss": 1.1434,
      "step": 4650
    },
    {
      "epoch": 17.017088122605365,
      "grad_norm": 0.31722962856292725,
      "learning_rate": 7.143465304384846e-06,
      "loss": 0.6517,
      "step": 4660
    },
    {
      "epoch": 17.01785440613027,
      "grad_norm": 63.441280364990234,
      "learning_rate": 7.13495104299702e-06,
      "loss": 1.0804,
      "step": 4670
    },
    {
      "epoch": 17.018620689655172,
      "grad_norm": 81.03401947021484,
      "learning_rate": 7.126436781609196e-06,
      "loss": 0.5098,
      "step": 4680
    },
    {
      "epoch": 17.019386973180076,
      "grad_norm": 185.1552734375,
      "learning_rate": 7.117922520221371e-06,
      "loss": 0.2657,
      "step": 4690
    },
    {
      "epoch": 17.02,
      "eval_accuracy": 0.6222222222222222,
      "eval_loss": 2.1760308742523193,
      "eval_runtime": 29.1189,
      "eval_samples_per_second": 1.545,
      "eval_steps_per_second": 1.545,
      "step": 4698
    },
    {
      "epoch": 18.00015325670498,
      "grad_norm": 0.019183212891221046,
      "learning_rate": 7.109408258833547e-06,
      "loss": 0.121,
      "step": 4700
    },
    {
      "epoch": 18.000919540229884,
      "grad_norm": 0.019621726125478745,
      "learning_rate": 7.1008939974457225e-06,
      "loss": 0.3266,
      "step": 4710
    },
    {
      "epoch": 18.00168582375479,
      "grad_norm": 0.17553330957889557,
      "learning_rate": 7.0923797360578975e-06,
      "loss": 0.4775,
      "step": 4720
    },
    {
      "epoch": 18.002452107279694,
      "grad_norm": 0.009523698128759861,
      "learning_rate": 7.083865474670073e-06,
      "loss": 0.9904,
      "step": 4730
    },
    {
      "epoch": 18.003218390804598,
      "grad_norm": 232.20355224609375,
      "learning_rate": 7.075351213282249e-06,
      "loss": 2.1995,
      "step": 4740
    },
    {
      "epoch": 18.0039846743295,
      "grad_norm": 0.007395245600491762,
      "learning_rate": 7.066836951894423e-06,
      "loss": 0.4372,
      "step": 4750
    },
    {
      "epoch": 18.004750957854405,
      "grad_norm": 0.0052565704099833965,
      "learning_rate": 7.058322690506599e-06,
      "loss": 1.3121,
      "step": 4760
    },
    {
      "epoch": 18.00551724137931,
      "grad_norm": 0.17322950065135956,
      "learning_rate": 7.049808429118774e-06,
      "loss": 0.8167,
      "step": 4770
    },
    {
      "epoch": 18.006283524904216,
      "grad_norm": 0.01216431800276041,
      "learning_rate": 7.04129416773095e-06,
      "loss": 0.6295,
      "step": 4780
    },
    {
      "epoch": 18.00704980842912,
      "grad_norm": 0.008243502117693424,
      "learning_rate": 7.032779906343126e-06,
      "loss": 0.7316,
      "step": 4790
    },
    {
      "epoch": 18.007816091954023,
      "grad_norm": 0.15859942138195038,
      "learning_rate": 7.0242656449553e-06,
      "loss": 0.5048,
      "step": 4800
    },
    {
      "epoch": 18.008582375478927,
      "grad_norm": 136.9736328125,
      "learning_rate": 7.015751383567476e-06,
      "loss": 0.0581,
      "step": 4810
    },
    {
      "epoch": 18.00934865900383,
      "grad_norm": 0.049381256103515625,
      "learning_rate": 7.007237122179652e-06,
      "loss": 0.2104,
      "step": 4820
    },
    {
      "epoch": 18.010114942528734,
      "grad_norm": 0.059466905891895294,
      "learning_rate": 6.998722860791827e-06,
      "loss": 0.4287,
      "step": 4830
    },
    {
      "epoch": 18.01088122605364,
      "grad_norm": 0.45760491490364075,
      "learning_rate": 6.9902085994040025e-06,
      "loss": 0.5963,
      "step": 4840
    },
    {
      "epoch": 18.011647509578545,
      "grad_norm": 0.27239811420440674,
      "learning_rate": 6.9816943380161775e-06,
      "loss": 0.8202,
      "step": 4850
    },
    {
      "epoch": 18.01241379310345,
      "grad_norm": 0.004633226431906223,
      "learning_rate": 6.973180076628353e-06,
      "loss": 0.1138,
      "step": 4860
    },
    {
      "epoch": 18.013180076628352,
      "grad_norm": 0.015148923732340336,
      "learning_rate": 6.964665815240529e-06,
      "loss": 0.9596,
      "step": 4870
    },
    {
      "epoch": 18.013946360153255,
      "grad_norm": 0.00948005635291338,
      "learning_rate": 6.956151553852703e-06,
      "loss": 1.2887,
      "step": 4880
    },
    {
      "epoch": 18.014712643678163,
      "grad_norm": 2.433624744415283,
      "learning_rate": 6.947637292464879e-06,
      "loss": 0.6749,
      "step": 4890
    },
    {
      "epoch": 18.015478927203066,
      "grad_norm": 0.01259034313261509,
      "learning_rate": 6.939123031077054e-06,
      "loss": 0.4976,
      "step": 4900
    },
    {
      "epoch": 18.01624521072797,
      "grad_norm": 0.015765152871608734,
      "learning_rate": 6.93060876968923e-06,
      "loss": 0.0015,
      "step": 4910
    },
    {
      "epoch": 18.017011494252873,
      "grad_norm": 0.9589321613311768,
      "learning_rate": 6.922094508301406e-06,
      "loss": 1.4013,
      "step": 4920
    },
    {
      "epoch": 18.017777777777777,
      "grad_norm": 313.9700622558594,
      "learning_rate": 6.913580246913581e-06,
      "loss": 0.2812,
      "step": 4930
    },
    {
      "epoch": 18.01854406130268,
      "grad_norm": 0.07902565598487854,
      "learning_rate": 6.905065985525757e-06,
      "loss": 0.1061,
      "step": 4940
    },
    {
      "epoch": 18.019310344827588,
      "grad_norm": 0.023706253618001938,
      "learning_rate": 6.896551724137932e-06,
      "loss": 1.3937,
      "step": 4950
    },
    {
      "epoch": 18.02,
      "eval_accuracy": 0.6,
      "eval_loss": 2.062213897705078,
      "eval_runtime": 28.5715,
      "eval_samples_per_second": 1.575,
      "eval_steps_per_second": 1.575,
      "step": 4959
    },
    {
      "epoch": 19.000076628352492,
      "grad_norm": 0.23811280727386475,
      "learning_rate": 6.888037462750107e-06,
      "loss": 0.0007,
      "step": 4960
    },
    {
      "epoch": 19.000842911877395,
      "grad_norm": 0.280170738697052,
      "learning_rate": 6.8795232013622825e-06,
      "loss": 0.6486,
      "step": 4970
    },
    {
      "epoch": 19.0016091954023,
      "grad_norm": 0.01795949414372444,
      "learning_rate": 6.8710089399744575e-06,
      "loss": 0.1405,
      "step": 4980
    },
    {
      "epoch": 19.002375478927203,
      "grad_norm": 0.011958453804254532,
      "learning_rate": 6.862494678586633e-06,
      "loss": 0.5572,
      "step": 4990
    },
    {
      "epoch": 19.003141762452106,
      "grad_norm": 0.0037818371783941984,
      "learning_rate": 6.853980417198809e-06,
      "loss": 0.8434,
      "step": 5000
    },
    {
      "epoch": 19.00390804597701,
      "grad_norm": 0.05979347229003906,
      "learning_rate": 6.845466155810983e-06,
      "loss": 1.2717,
      "step": 5010
    },
    {
      "epoch": 19.004674329501917,
      "grad_norm": 0.11836342513561249,
      "learning_rate": 6.836951894423159e-06,
      "loss": 0.0318,
      "step": 5020
    },
    {
      "epoch": 19.00544061302682,
      "grad_norm": 0.6222385764122009,
      "learning_rate": 6.828437633035335e-06,
      "loss": 0.0619,
      "step": 5030
    },
    {
      "epoch": 19.006206896551724,
      "grad_norm": 268.2494201660156,
      "learning_rate": 6.81992337164751e-06,
      "loss": 1.2077,
      "step": 5040
    },
    {
      "epoch": 19.006973180076628,
      "grad_norm": 168.15304565429688,
      "learning_rate": 6.811409110259686e-06,
      "loss": 1.2017,
      "step": 5050
    },
    {
      "epoch": 19.00773946360153,
      "grad_norm": 0.0629284679889679,
      "learning_rate": 6.802894848871861e-06,
      "loss": 0.1261,
      "step": 5060
    },
    {
      "epoch": 19.00850574712644,
      "grad_norm": 0.025880135595798492,
      "learning_rate": 6.794380587484037e-06,
      "loss": 0.5958,
      "step": 5070
    },
    {
      "epoch": 19.009272030651342,
      "grad_norm": 0.004736622795462608,
      "learning_rate": 6.7858663260962125e-06,
      "loss": 1.5298,
      "step": 5080
    },
    {
      "epoch": 19.010038314176246,
      "grad_norm": 5.028242111206055,
      "learning_rate": 6.777352064708387e-06,
      "loss": 0.6431,
      "step": 5090
    },
    {
      "epoch": 19.01080459770115,
      "grad_norm": 5.767208099365234,
      "learning_rate": 6.7688378033205625e-06,
      "loss": 1.0098,
      "step": 5100
    },
    {
      "epoch": 19.011570881226053,
      "grad_norm": 0.006427829619497061,
      "learning_rate": 6.760323541932738e-06,
      "loss": 0.0017,
      "step": 5110
    },
    {
      "epoch": 19.012337164750956,
      "grad_norm": 0.012779129669070244,
      "learning_rate": 6.751809280544913e-06,
      "loss": 0.0961,
      "step": 5120
    },
    {
      "epoch": 19.013103448275864,
      "grad_norm": 0.3548179268836975,
      "learning_rate": 6.743295019157089e-06,
      "loss": 0.7176,
      "step": 5130
    },
    {
      "epoch": 19.013869731800767,
      "grad_norm": 5.676109790802002,
      "learning_rate": 6.734780757769263e-06,
      "loss": 0.7148,
      "step": 5140
    },
    {
      "epoch": 19.01463601532567,
      "grad_norm": 56.71847152709961,
      "learning_rate": 6.726266496381439e-06,
      "loss": 0.5807,
      "step": 5150
    },
    {
      "epoch": 19.015402298850574,
      "grad_norm": 0.05567074194550514,
      "learning_rate": 6.717752234993615e-06,
      "loss": 0.2452,
      "step": 5160
    },
    {
      "epoch": 19.016168582375478,
      "grad_norm": 0.003458831226453185,
      "learning_rate": 6.70923797360579e-06,
      "loss": 0.0097,
      "step": 5170
    },
    {
      "epoch": 19.01693486590038,
      "grad_norm": 0.0063134911470115185,
      "learning_rate": 6.700723712217966e-06,
      "loss": 1.0321,
      "step": 5180
    },
    {
      "epoch": 19.01770114942529,
      "grad_norm": 0.003901480231434107,
      "learning_rate": 6.692209450830141e-06,
      "loss": 0.0016,
      "step": 5190
    },
    {
      "epoch": 19.018467432950192,
      "grad_norm": 0.007703134790062904,
      "learning_rate": 6.683695189442317e-06,
      "loss": 1.1552,
      "step": 5200
    },
    {
      "epoch": 19.019233716475096,
      "grad_norm": 0.15453700721263885,
      "learning_rate": 6.6751809280544925e-06,
      "loss": 1.04,
      "step": 5210
    },
    {
      "epoch": 19.02,
      "grad_norm": 81.24810028076172,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.9924,
      "step": 5220
    },
    {
      "epoch": 19.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 1.8415968418121338,
      "eval_runtime": 28.5446,
      "eval_samples_per_second": 1.576,
      "eval_steps_per_second": 1.576,
      "step": 5220
    },
    {
      "epoch": 20.000766283524904,
      "grad_norm": 0.011713034473359585,
      "learning_rate": 6.6581524052788425e-06,
      "loss": 0.0226,
      "step": 5230
    },
    {
      "epoch": 20.001532567049807,
      "grad_norm": 0.040813036262989044,
      "learning_rate": 6.649638143891018e-06,
      "loss": 0.683,
      "step": 5240
    },
    {
      "epoch": 20.002298850574714,
      "grad_norm": 2.034975290298462,
      "learning_rate": 6.641123882503193e-06,
      "loss": 0.4885,
      "step": 5250
    },
    {
      "epoch": 20.003065134099618,
      "grad_norm": 0.25844502449035645,
      "learning_rate": 6.632609621115369e-06,
      "loss": 0.3225,
      "step": 5260
    },
    {
      "epoch": 20.00383141762452,
      "grad_norm": 0.01276817824691534,
      "learning_rate": 6.624095359727543e-06,
      "loss": 0.0538,
      "step": 5270
    },
    {
      "epoch": 20.004597701149425,
      "grad_norm": 158.18614196777344,
      "learning_rate": 6.615581098339719e-06,
      "loss": 0.5745,
      "step": 5280
    },
    {
      "epoch": 20.00536398467433,
      "grad_norm": 0.04244688153266907,
      "learning_rate": 6.607066836951895e-06,
      "loss": 0.7604,
      "step": 5290
    },
    {
      "epoch": 20.006130268199232,
      "grad_norm": 2.517895460128784,
      "learning_rate": 6.59855257556407e-06,
      "loss": 0.5931,
      "step": 5300
    },
    {
      "epoch": 20.00689655172414,
      "grad_norm": 0.005115671548992395,
      "learning_rate": 6.590038314176246e-06,
      "loss": 0.4569,
      "step": 5310
    },
    {
      "epoch": 20.007662835249043,
      "grad_norm": 215.1130828857422,
      "learning_rate": 6.581524052788422e-06,
      "loss": 1.1023,
      "step": 5320
    },
    {
      "epoch": 20.008429118773947,
      "grad_norm": 191.2766876220703,
      "learning_rate": 6.573009791400597e-06,
      "loss": 0.095,
      "step": 5330
    },
    {
      "epoch": 20.00919540229885,
      "grad_norm": 159.36575317382812,
      "learning_rate": 6.5644955300127725e-06,
      "loss": 0.6151,
      "step": 5340
    },
    {
      "epoch": 20.009961685823754,
      "grad_norm": 0.3148025572299957,
      "learning_rate": 6.555981268624947e-06,
      "loss": 1.1696,
      "step": 5350
    },
    {
      "epoch": 20.010727969348657,
      "grad_norm": 0.004226139280945063,
      "learning_rate": 6.5474670072371225e-06,
      "loss": 0.2537,
      "step": 5360
    },
    {
      "epoch": 20.011494252873565,
      "grad_norm": 0.1940159648656845,
      "learning_rate": 6.538952745849298e-06,
      "loss": 0.5355,
      "step": 5370
    },
    {
      "epoch": 20.01226053639847,
      "grad_norm": 180.20297241210938,
      "learning_rate": 6.530438484461473e-06,
      "loss": 0.0471,
      "step": 5380
    },
    {
      "epoch": 20.013026819923372,
      "grad_norm": 0.03982972726225853,
      "learning_rate": 6.521924223073649e-06,
      "loss": 0.7464,
      "step": 5390
    },
    {
      "epoch": 20.013793103448275,
      "grad_norm": 0.03196590766310692,
      "learning_rate": 6.513409961685824e-06,
      "loss": 1.0496,
      "step": 5400
    },
    {
      "epoch": 20.01455938697318,
      "grad_norm": 0.0029116757214069366,
      "learning_rate": 6.504895700297999e-06,
      "loss": 0.0574,
      "step": 5410
    },
    {
      "epoch": 20.015325670498083,
      "grad_norm": 0.014451466500759125,
      "learning_rate": 6.496381438910175e-06,
      "loss": 0.0944,
      "step": 5420
    },
    {
      "epoch": 20.01609195402299,
      "grad_norm": 6.072531223297119,
      "learning_rate": 6.48786717752235e-06,
      "loss": 0.2592,
      "step": 5430
    },
    {
      "epoch": 20.016858237547893,
      "grad_norm": 0.5176710486412048,
      "learning_rate": 6.479352916134526e-06,
      "loss": 1.1315,
      "step": 5440
    },
    {
      "epoch": 20.017624521072797,
      "grad_norm": 52.90974807739258,
      "learning_rate": 6.470838654746702e-06,
      "loss": 1.3085,
      "step": 5450
    },
    {
      "epoch": 20.0183908045977,
      "grad_norm": 0.0049968864768743515,
      "learning_rate": 6.462324393358877e-06,
      "loss": 1.4412,
      "step": 5460
    },
    {
      "epoch": 20.019157088122604,
      "grad_norm": 0.005467898678034544,
      "learning_rate": 6.4538101319710525e-06,
      "loss": 0.0056,
      "step": 5470
    },
    {
      "epoch": 20.01992337164751,
      "grad_norm": 0.0032753855921328068,
      "learning_rate": 6.445295870583227e-06,
      "loss": 0.0009,
      "step": 5480
    },
    {
      "epoch": 20.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 1.906760811805725,
      "eval_runtime": 28.6797,
      "eval_samples_per_second": 1.569,
      "eval_steps_per_second": 1.569,
      "step": 5481
    },
    {
      "epoch": 21.000689655172415,
      "grad_norm": 16.41851234436035,
      "learning_rate": 6.4367816091954025e-06,
      "loss": 1.0387,
      "step": 5490
    },
    {
      "epoch": 21.00145593869732,
      "grad_norm": 0.43349307775497437,
      "learning_rate": 6.428267347807578e-06,
      "loss": 0.4997,
      "step": 5500
    },
    {
      "epoch": 21.002222222222223,
      "grad_norm": 0.011135280132293701,
      "learning_rate": 6.419753086419753e-06,
      "loss": 1.3034,
      "step": 5510
    },
    {
      "epoch": 21.002988505747126,
      "grad_norm": 0.0223165862262249,
      "learning_rate": 6.411238825031929e-06,
      "loss": 1.339,
      "step": 5520
    },
    {
      "epoch": 21.00375478927203,
      "grad_norm": 0.00240329559892416,
      "learning_rate": 6.402724563644105e-06,
      "loss": 0.5079,
      "step": 5530
    },
    {
      "epoch": 21.004521072796933,
      "grad_norm": 106.79464721679688,
      "learning_rate": 6.39421030225628e-06,
      "loss": 1.1305,
      "step": 5540
    },
    {
      "epoch": 21.00528735632184,
      "grad_norm": 0.4033883213996887,
      "learning_rate": 6.385696040868455e-06,
      "loss": 1.2739,
      "step": 5550
    },
    {
      "epoch": 21.006053639846744,
      "grad_norm": 40.97711181640625,
      "learning_rate": 6.37718177948063e-06,
      "loss": 2.3358,
      "step": 5560
    },
    {
      "epoch": 21.006819923371648,
      "grad_norm": 0.10723423212766647,
      "learning_rate": 6.368667518092806e-06,
      "loss": 0.3916,
      "step": 5570
    },
    {
      "epoch": 21.00758620689655,
      "grad_norm": 0.027807606384158134,
      "learning_rate": 6.360153256704982e-06,
      "loss": 0.0045,
      "step": 5580
    },
    {
      "epoch": 21.008352490421455,
      "grad_norm": 0.024614203721284866,
      "learning_rate": 6.351638995317157e-06,
      "loss": 0.0085,
      "step": 5590
    },
    {
      "epoch": 21.00911877394636,
      "grad_norm": 11.62214183807373,
      "learning_rate": 6.3431247339293325e-06,
      "loss": 0.0058,
      "step": 5600
    },
    {
      "epoch": 21.009885057471266,
      "grad_norm": 0.05164700374007225,
      "learning_rate": 6.334610472541508e-06,
      "loss": 1.0253,
      "step": 5610
    },
    {
      "epoch": 21.01065134099617,
      "grad_norm": 36.70790481567383,
      "learning_rate": 6.3260962111536825e-06,
      "loss": 0.0111,
      "step": 5620
    },
    {
      "epoch": 21.011417624521073,
      "grad_norm": 0.048200830817222595,
      "learning_rate": 6.317581949765858e-06,
      "loss": 0.4736,
      "step": 5630
    },
    {
      "epoch": 21.012183908045976,
      "grad_norm": 0.007409057579934597,
      "learning_rate": 6.309067688378033e-06,
      "loss": 0.5227,
      "step": 5640
    },
    {
      "epoch": 21.01295019157088,
      "grad_norm": 0.05748462304472923,
      "learning_rate": 6.300553426990209e-06,
      "loss": 0.0005,
      "step": 5650
    },
    {
      "epoch": 21.013716475095784,
      "grad_norm": 0.00826114322990179,
      "learning_rate": 6.292039165602385e-06,
      "loss": 0.3745,
      "step": 5660
    },
    {
      "epoch": 21.01448275862069,
      "grad_norm": 0.0020533306524157524,
      "learning_rate": 6.28352490421456e-06,
      "loss": 0.0901,
      "step": 5670
    },
    {
      "epoch": 21.015249042145594,
      "grad_norm": 0.7792718410491943,
      "learning_rate": 6.275010642826736e-06,
      "loss": 0.0015,
      "step": 5680
    },
    {
      "epoch": 21.016015325670498,
      "grad_norm": 0.04261056333780289,
      "learning_rate": 6.26649638143891e-06,
      "loss": 0.012,
      "step": 5690
    },
    {
      "epoch": 21.0167816091954,
      "grad_norm": 0.08563796430826187,
      "learning_rate": 6.257982120051086e-06,
      "loss": 1.0467,
      "step": 5700
    },
    {
      "epoch": 21.017547892720305,
      "grad_norm": 487.4284362792969,
      "learning_rate": 6.249467858663262e-06,
      "loss": 0.8018,
      "step": 5710
    },
    {
      "epoch": 21.018314176245212,
      "grad_norm": 5.818784713745117,
      "learning_rate": 6.240953597275437e-06,
      "loss": 0.729,
      "step": 5720
    },
    {
      "epoch": 21.019080459770116,
      "grad_norm": 0.005066063720732927,
      "learning_rate": 6.2324393358876125e-06,
      "loss": 0.0062,
      "step": 5730
    },
    {
      "epoch": 21.01984674329502,
      "grad_norm": 0.0023419486824423075,
      "learning_rate": 6.223925074499788e-06,
      "loss": 1.0231,
      "step": 5740
    },
    {
      "epoch": 21.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 1.8427561521530151,
      "eval_runtime": 29.6258,
      "eval_samples_per_second": 1.519,
      "eval_steps_per_second": 1.519,
      "step": 5742
    },
    {
      "epoch": 22.000613026819924,
      "grad_norm": 1.9332926273345947,
      "learning_rate": 6.2154108131119625e-06,
      "loss": 0.0014,
      "step": 5750
    },
    {
      "epoch": 22.001379310344827,
      "grad_norm": 0.0077827018685638905,
      "learning_rate": 6.206896551724138e-06,
      "loss": 0.0708,
      "step": 5760
    },
    {
      "epoch": 22.00214559386973,
      "grad_norm": 0.0115917744114995,
      "learning_rate": 6.198382290336313e-06,
      "loss": 0.3427,
      "step": 5770
    },
    {
      "epoch": 22.002911877394634,
      "grad_norm": 0.023211613297462463,
      "learning_rate": 6.189868028948489e-06,
      "loss": 0.5441,
      "step": 5780
    },
    {
      "epoch": 22.00367816091954,
      "grad_norm": 0.48048824071884155,
      "learning_rate": 6.181353767560665e-06,
      "loss": 0.7479,
      "step": 5790
    },
    {
      "epoch": 22.004444444444445,
      "grad_norm": 0.0017794081941246986,
      "learning_rate": 6.17283950617284e-06,
      "loss": 1.1613,
      "step": 5800
    },
    {
      "epoch": 22.00521072796935,
      "grad_norm": 205.38832092285156,
      "learning_rate": 6.164325244785016e-06,
      "loss": 1.2724,
      "step": 5810
    },
    {
      "epoch": 22.005977011494252,
      "grad_norm": 0.03380270302295685,
      "learning_rate": 6.155810983397192e-06,
      "loss": 0.1442,
      "step": 5820
    },
    {
      "epoch": 22.006743295019156,
      "grad_norm": 0.25575459003448486,
      "learning_rate": 6.147296722009366e-06,
      "loss": 0.0053,
      "step": 5830
    },
    {
      "epoch": 22.00750957854406,
      "grad_norm": 0.06640543788671494,
      "learning_rate": 6.138782460621542e-06,
      "loss": 0.0224,
      "step": 5840
    },
    {
      "epoch": 22.008275862068967,
      "grad_norm": 0.08240759372711182,
      "learning_rate": 6.130268199233717e-06,
      "loss": 1.3887,
      "step": 5850
    },
    {
      "epoch": 22.00904214559387,
      "grad_norm": 0.10972102731466293,
      "learning_rate": 6.1217539378458925e-06,
      "loss": 0.9687,
      "step": 5860
    },
    {
      "epoch": 22.009808429118774,
      "grad_norm": 0.25319355726242065,
      "learning_rate": 6.113239676458068e-06,
      "loss": 0.547,
      "step": 5870
    },
    {
      "epoch": 22.010574712643677,
      "grad_norm": 0.0020377521868795156,
      "learning_rate": 6.1047254150702425e-06,
      "loss": 0.72,
      "step": 5880
    },
    {
      "epoch": 22.01134099616858,
      "grad_norm": 2.363307476043701,
      "learning_rate": 6.096211153682418e-06,
      "loss": 0.5225,
      "step": 5890
    },
    {
      "epoch": 22.01210727969349,
      "grad_norm": 0.9951919317245483,
      "learning_rate": 6.087696892294594e-06,
      "loss": 0.0024,
      "step": 5900
    },
    {
      "epoch": 22.012873563218392,
      "grad_norm": 0.02694072388112545,
      "learning_rate": 6.079182630906769e-06,
      "loss": 1.2668,
      "step": 5910
    },
    {
      "epoch": 22.013639846743295,
      "grad_norm": 0.03728149086236954,
      "learning_rate": 6.070668369518945e-06,
      "loss": 0.1775,
      "step": 5920
    },
    {
      "epoch": 22.0144061302682,
      "grad_norm": 5.004837512969971,
      "learning_rate": 6.06215410813112e-06,
      "loss": 0.2987,
      "step": 5930
    },
    {
      "epoch": 22.015172413793103,
      "grad_norm": 0.056994613260030746,
      "learning_rate": 6.053639846743296e-06,
      "loss": 0.6439,
      "step": 5940
    },
    {
      "epoch": 22.015938697318006,
      "grad_norm": 0.0020670308731496334,
      "learning_rate": 6.045125585355472e-06,
      "loss": 0.0004,
      "step": 5950
    },
    {
      "epoch": 22.016704980842913,
      "grad_norm": 0.0823218896985054,
      "learning_rate": 6.036611323967646e-06,
      "loss": 0.6288,
      "step": 5960
    },
    {
      "epoch": 22.017471264367817,
      "grad_norm": 0.015304329805076122,
      "learning_rate": 6.028097062579822e-06,
      "loss": 0.1777,
      "step": 5970
    },
    {
      "epoch": 22.01823754789272,
      "grad_norm": 142.00123596191406,
      "learning_rate": 6.019582801191997e-06,
      "loss": 1.3363,
      "step": 5980
    },
    {
      "epoch": 22.019003831417624,
      "grad_norm": 0.25328370928764343,
      "learning_rate": 6.0110685398041725e-06,
      "loss": 0.5996,
      "step": 5990
    },
    {
      "epoch": 22.019770114942528,
      "grad_norm": 0.02333473414182663,
      "learning_rate": 6.002554278416348e-06,
      "loss": 0.7099,
      "step": 6000
    },
    {
      "epoch": 22.02,
      "eval_accuracy": 0.6,
      "eval_loss": 2.310786724090576,
      "eval_runtime": 28.8965,
      "eval_samples_per_second": 1.557,
      "eval_steps_per_second": 1.557,
      "step": 6003
    },
    {
      "epoch": 23.000536398467432,
      "grad_norm": 264.2043762207031,
      "learning_rate": 5.9940400170285225e-06,
      "loss": 0.6163,
      "step": 6010
    },
    {
      "epoch": 23.001302681992335,
      "grad_norm": 16.014562606811523,
      "learning_rate": 5.985525755640698e-06,
      "loss": 0.0064,
      "step": 6020
    },
    {
      "epoch": 23.002068965517243,
      "grad_norm": 0.02582295797765255,
      "learning_rate": 5.977011494252874e-06,
      "loss": 0.2809,
      "step": 6030
    },
    {
      "epoch": 23.002835249042146,
      "grad_norm": 0.0813617929816246,
      "learning_rate": 5.968497232865049e-06,
      "loss": 0.0039,
      "step": 6040
    },
    {
      "epoch": 23.00360153256705,
      "grad_norm": 0.033921342343091965,
      "learning_rate": 5.959982971477225e-06,
      "loss": 0.77,
      "step": 6050
    },
    {
      "epoch": 23.004367816091953,
      "grad_norm": 118.4710922241211,
      "learning_rate": 5.9514687100894e-06,
      "loss": 0.655,
      "step": 6060
    },
    {
      "epoch": 23.005134099616857,
      "grad_norm": 0.005723563954234123,
      "learning_rate": 5.942954448701576e-06,
      "loss": 1.0035,
      "step": 6070
    },
    {
      "epoch": 23.005900383141764,
      "grad_norm": 0.04950481280684471,
      "learning_rate": 5.934440187313752e-06,
      "loss": 0.0008,
      "step": 6080
    },
    {
      "epoch": 23.006666666666668,
      "grad_norm": 0.02758442424237728,
      "learning_rate": 5.925925925925926e-06,
      "loss": 0.6145,
      "step": 6090
    },
    {
      "epoch": 23.00743295019157,
      "grad_norm": 191.37852478027344,
      "learning_rate": 5.917411664538102e-06,
      "loss": 0.9092,
      "step": 6100
    },
    {
      "epoch": 23.008199233716475,
      "grad_norm": 0.030716927722096443,
      "learning_rate": 5.9088974031502775e-06,
      "loss": 0.809,
      "step": 6110
    },
    {
      "epoch": 23.00896551724138,
      "grad_norm": 32.45998764038086,
      "learning_rate": 5.9003831417624525e-06,
      "loss": 0.0049,
      "step": 6120
    },
    {
      "epoch": 23.009731800766282,
      "grad_norm": 0.2010127305984497,
      "learning_rate": 5.891868880374628e-06,
      "loss": 1.007,
      "step": 6130
    },
    {
      "epoch": 23.01049808429119,
      "grad_norm": 0.01684950478374958,
      "learning_rate": 5.883354618986803e-06,
      "loss": 0.0194,
      "step": 6140
    },
    {
      "epoch": 23.011264367816093,
      "grad_norm": 263.1514892578125,
      "learning_rate": 5.874840357598979e-06,
      "loss": 0.1132,
      "step": 6150
    },
    {
      "epoch": 23.012030651340996,
      "grad_norm": 0.03413116931915283,
      "learning_rate": 5.866326096211154e-06,
      "loss": 0.6505,
      "step": 6160
    },
    {
      "epoch": 23.0127969348659,
      "grad_norm": 0.08276499062776566,
      "learning_rate": 5.857811834823329e-06,
      "loss": 0.0275,
      "step": 6170
    },
    {
      "epoch": 23.013563218390804,
      "grad_norm": 0.034385498613119125,
      "learning_rate": 5.849297573435505e-06,
      "loss": 0.0785,
      "step": 6180
    },
    {
      "epoch": 23.014329501915707,
      "grad_norm": 0.14270183444023132,
      "learning_rate": 5.84078331204768e-06,
      "loss": 2.0852,
      "step": 6190
    },
    {
      "epoch": 23.015095785440614,
      "grad_norm": 0.05579046159982681,
      "learning_rate": 5.832269050659856e-06,
      "loss": 1.4851,
      "step": 6200
    },
    {
      "epoch": 23.015862068965518,
      "grad_norm": 0.009700673632323742,
      "learning_rate": 5.823754789272032e-06,
      "loss": 0.4295,
      "step": 6210
    },
    {
      "epoch": 23.01662835249042,
      "grad_norm": 2.6064889430999756,
      "learning_rate": 5.815240527884206e-06,
      "loss": 0.816,
      "step": 6220
    },
    {
      "epoch": 23.017394636015325,
      "grad_norm": 38.40084457397461,
      "learning_rate": 5.806726266496382e-06,
      "loss": 1.3302,
      "step": 6230
    },
    {
      "epoch": 23.01816091954023,
      "grad_norm": 0.016617679968476295,
      "learning_rate": 5.7982120051085575e-06,
      "loss": 0.6474,
      "step": 6240
    },
    {
      "epoch": 23.018927203065132,
      "grad_norm": 74.77079010009766,
      "learning_rate": 5.7896977437207325e-06,
      "loss": 1.3786,
      "step": 6250
    },
    {
      "epoch": 23.01969348659004,
      "grad_norm": 0.05970478057861328,
      "learning_rate": 5.781183482332908e-06,
      "loss": 0.3243,
      "step": 6260
    },
    {
      "epoch": 23.02,
      "eval_accuracy": 0.5777777777777777,
      "eval_loss": 2.2084178924560547,
      "eval_runtime": 28.5847,
      "eval_samples_per_second": 1.574,
      "eval_steps_per_second": 1.574,
      "step": 6264
    },
    {
      "epoch": 24.000459770114944,
      "grad_norm": 65.56672668457031,
      "learning_rate": 5.772669220945083e-06,
      "loss": 1.2783,
      "step": 6270
    },
    {
      "epoch": 24.001226053639847,
      "grad_norm": 155.61605834960938,
      "learning_rate": 5.764154959557259e-06,
      "loss": 0.4797,
      "step": 6280
    },
    {
      "epoch": 24.00199233716475,
      "grad_norm": 178.5623321533203,
      "learning_rate": 5.755640698169435e-06,
      "loss": 1.1384,
      "step": 6290
    },
    {
      "epoch": 24.002758620689654,
      "grad_norm": 0.0167319905012846,
      "learning_rate": 5.747126436781609e-06,
      "loss": 0.6776,
      "step": 6300
    },
    {
      "epoch": 24.003524904214558,
      "grad_norm": 0.00547564122825861,
      "learning_rate": 5.738612175393785e-06,
      "loss": 0.0013,
      "step": 6310
    },
    {
      "epoch": 24.004291187739465,
      "grad_norm": 0.0025295685045421124,
      "learning_rate": 5.730097914005961e-06,
      "loss": 0.4849,
      "step": 6320
    },
    {
      "epoch": 24.00505747126437,
      "grad_norm": 258.21630859375,
      "learning_rate": 5.721583652618136e-06,
      "loss": 2.3456,
      "step": 6330
    },
    {
      "epoch": 24.005823754789272,
      "grad_norm": 0.06951650232076645,
      "learning_rate": 5.713069391230312e-06,
      "loss": 0.846,
      "step": 6340
    },
    {
      "epoch": 24.006590038314176,
      "grad_norm": 0.292102187871933,
      "learning_rate": 5.704555129842486e-06,
      "loss": 0.5234,
      "step": 6350
    },
    {
      "epoch": 24.00735632183908,
      "grad_norm": 0.003594489535316825,
      "learning_rate": 5.696040868454662e-06,
      "loss": 0.3726,
      "step": 6360
    },
    {
      "epoch": 24.008122605363983,
      "grad_norm": 0.14738978445529938,
      "learning_rate": 5.6875266070668375e-06,
      "loss": 0.6347,
      "step": 6370
    },
    {
      "epoch": 24.00888888888889,
      "grad_norm": 0.005358193535357714,
      "learning_rate": 5.6790123456790125e-06,
      "loss": 0.0458,
      "step": 6380
    },
    {
      "epoch": 24.009655172413794,
      "grad_norm": 0.09735672920942307,
      "learning_rate": 5.670498084291188e-06,
      "loss": 0.4581,
      "step": 6390
    },
    {
      "epoch": 24.010421455938697,
      "grad_norm": 0.0025942621286958456,
      "learning_rate": 5.661983822903364e-06,
      "loss": 0.4006,
      "step": 6400
    },
    {
      "epoch": 24.0111877394636,
      "grad_norm": 0.01855681836605072,
      "learning_rate": 5.653469561515539e-06,
      "loss": 0.3958,
      "step": 6410
    },
    {
      "epoch": 24.011954022988505,
      "grad_norm": 0.016031399369239807,
      "learning_rate": 5.644955300127715e-06,
      "loss": 0.0013,
      "step": 6420
    },
    {
      "epoch": 24.01272030651341,
      "grad_norm": 0.005647106096148491,
      "learning_rate": 5.636441038739889e-06,
      "loss": 0.5694,
      "step": 6430
    },
    {
      "epoch": 24.013486590038315,
      "grad_norm": 0.012183071114122868,
      "learning_rate": 5.627926777352065e-06,
      "loss": 0.713,
      "step": 6440
    },
    {
      "epoch": 24.01425287356322,
      "grad_norm": 1.213383674621582,
      "learning_rate": 5.619412515964241e-06,
      "loss": 0.5549,
      "step": 6450
    },
    {
      "epoch": 24.015019157088123,
      "grad_norm": 0.16394241154193878,
      "learning_rate": 5.610898254576416e-06,
      "loss": 1.1725,
      "step": 6460
    },
    {
      "epoch": 24.015785440613026,
      "grad_norm": 0.0020893006585538387,
      "learning_rate": 5.602383993188592e-06,
      "loss": 0.4155,
      "step": 6470
    },
    {
      "epoch": 24.01655172413793,
      "grad_norm": 0.01788010448217392,
      "learning_rate": 5.593869731800766e-06,
      "loss": 0.0024,
      "step": 6480
    },
    {
      "epoch": 24.017318007662837,
      "grad_norm": 0.005845135543495417,
      "learning_rate": 5.585355470412942e-06,
      "loss": 0.0005,
      "step": 6490
    },
    {
      "epoch": 24.01808429118774,
      "grad_norm": 0.015230582095682621,
      "learning_rate": 5.5768412090251175e-06,
      "loss": 0.2815,
      "step": 6500
    },
    {
      "epoch": 24.018850574712644,
      "grad_norm": 510.5647888183594,
      "learning_rate": 5.5683269476372925e-06,
      "loss": 0.6476,
      "step": 6510
    },
    {
      "epoch": 24.019616858237548,
      "grad_norm": 258.3885803222656,
      "learning_rate": 5.559812686249468e-06,
      "loss": 2.748,
      "step": 6520
    },
    {
      "epoch": 24.02,
      "eval_accuracy": 0.6888888888888889,
      "eval_loss": 1.8854796886444092,
      "eval_runtime": 27.805,
      "eval_samples_per_second": 1.618,
      "eval_steps_per_second": 1.618,
      "step": 6525
    },
    {
      "epoch": 25.000383141762452,
      "grad_norm": 1.6865376234054565,
      "learning_rate": 5.551298424861644e-06,
      "loss": 0.7207,
      "step": 6530
    },
    {
      "epoch": 25.001149425287355,
      "grad_norm": 0.03704597428441048,
      "learning_rate": 5.542784163473819e-06,
      "loss": 0.0084,
      "step": 6540
    },
    {
      "epoch": 25.00191570881226,
      "grad_norm": 0.3662070035934448,
      "learning_rate": 5.534269902085995e-06,
      "loss": 0.0758,
      "step": 6550
    },
    {
      "epoch": 25.002681992337166,
      "grad_norm": 0.0085606649518013,
      "learning_rate": 5.525755640698169e-06,
      "loss": 0.7967,
      "step": 6560
    },
    {
      "epoch": 25.00344827586207,
      "grad_norm": 363.8013916015625,
      "learning_rate": 5.517241379310345e-06,
      "loss": 0.9311,
      "step": 6570
    },
    {
      "epoch": 25.004214559386973,
      "grad_norm": 0.005399974528700113,
      "learning_rate": 5.508727117922521e-06,
      "loss": 1.1345,
      "step": 6580
    },
    {
      "epoch": 25.004980842911877,
      "grad_norm": 0.015188188292086124,
      "learning_rate": 5.500212856534696e-06,
      "loss": 0.5137,
      "step": 6590
    },
    {
      "epoch": 25.00574712643678,
      "grad_norm": 0.008783702738583088,
      "learning_rate": 5.491698595146872e-06,
      "loss": 0.3957,
      "step": 6600
    },
    {
      "epoch": 25.006513409961684,
      "grad_norm": 0.006709863897413015,
      "learning_rate": 5.4831843337590475e-06,
      "loss": 0.0008,
      "step": 6610
    },
    {
      "epoch": 25.00727969348659,
      "grad_norm": 0.009334388189017773,
      "learning_rate": 5.474670072371222e-06,
      "loss": 0.6295,
      "step": 6620
    },
    {
      "epoch": 25.008045977011495,
      "grad_norm": 0.0069431099109351635,
      "learning_rate": 5.4661558109833975e-06,
      "loss": 0.0375,
      "step": 6630
    },
    {
      "epoch": 25.0088122605364,
      "grad_norm": 0.0025293382350355387,
      "learning_rate": 5.4576415495955725e-06,
      "loss": 1.8296,
      "step": 6640
    },
    {
      "epoch": 25.009578544061302,
      "grad_norm": 0.026507409289479256,
      "learning_rate": 5.449127288207748e-06,
      "loss": 0.1752,
      "step": 6650
    },
    {
      "epoch": 25.010344827586206,
      "grad_norm": 0.12145673483610153,
      "learning_rate": 5.440613026819924e-06,
      "loss": 0.1511,
      "step": 6660
    },
    {
      "epoch": 25.011111111111113,
      "grad_norm": 0.005514368414878845,
      "learning_rate": 5.432098765432099e-06,
      "loss": 0.9555,
      "step": 6670
    },
    {
      "epoch": 25.011877394636016,
      "grad_norm": 275.9948425292969,
      "learning_rate": 5.423584504044275e-06,
      "loss": 0.3381,
      "step": 6680
    },
    {
      "epoch": 25.01264367816092,
      "grad_norm": 0.0019095117459073663,
      "learning_rate": 5.415070242656451e-06,
      "loss": 0.1394,
      "step": 6690
    },
    {
      "epoch": 25.013409961685824,
      "grad_norm": 0.030332105234265327,
      "learning_rate": 5.406555981268625e-06,
      "loss": 0.2852,
      "step": 6700
    },
    {
      "epoch": 25.014176245210727,
      "grad_norm": 0.0034307390451431274,
      "learning_rate": 5.398041719880801e-06,
      "loss": 1.0962,
      "step": 6710
    },
    {
      "epoch": 25.01494252873563,
      "grad_norm": 0.02897072024643421,
      "learning_rate": 5.389527458492976e-06,
      "loss": 0.0025,
      "step": 6720
    },
    {
      "epoch": 25.015708812260538,
      "grad_norm": 0.024984782561659813,
      "learning_rate": 5.381013197105152e-06,
      "loss": 0.0137,
      "step": 6730
    },
    {
      "epoch": 25.01647509578544,
      "grad_norm": 0.15218405425548553,
      "learning_rate": 5.3724989357173275e-06,
      "loss": 2.2803,
      "step": 6740
    },
    {
      "epoch": 25.017241379310345,
      "grad_norm": 0.013546308502554893,
      "learning_rate": 5.3639846743295025e-06,
      "loss": 0.9654,
      "step": 6750
    },
    {
      "epoch": 25.01800766283525,
      "grad_norm": 0.30212756991386414,
      "learning_rate": 5.3554704129416775e-06,
      "loss": 0.0033,
      "step": 6760
    },
    {
      "epoch": 25.018773946360152,
      "grad_norm": 173.64010620117188,
      "learning_rate": 5.3469561515538525e-06,
      "loss": 1.3313,
      "step": 6770
    },
    {
      "epoch": 25.019540229885056,
      "grad_norm": 0.016651857644319534,
      "learning_rate": 5.338441890166028e-06,
      "loss": 0.0002,
      "step": 6780
    },
    {
      "epoch": 25.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 1.9442589282989502,
      "eval_runtime": 27.8613,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 1.615,
      "step": 6786
    },
    {
      "epoch": 26.00030651340996,
      "grad_norm": 0.05307227000594139,
      "learning_rate": 5.329927628778204e-06,
      "loss": 0.5638,
      "step": 6790
    },
    {
      "epoch": 26.001072796934867,
      "grad_norm": 0.015339828096330166,
      "learning_rate": 5.321413367390379e-06,
      "loss": 0.3586,
      "step": 6800
    },
    {
      "epoch": 26.00183908045977,
      "grad_norm": 0.05491383746266365,
      "learning_rate": 5.312899106002555e-06,
      "loss": 0.0109,
      "step": 6810
    },
    {
      "epoch": 26.002605363984674,
      "grad_norm": 0.00443470012396574,
      "learning_rate": 5.304384844614731e-06,
      "loss": 0.003,
      "step": 6820
    },
    {
      "epoch": 26.003371647509578,
      "grad_norm": 0.43860122561454773,
      "learning_rate": 5.295870583226905e-06,
      "loss": 0.6822,
      "step": 6830
    },
    {
      "epoch": 26.00413793103448,
      "grad_norm": 0.024054815992712975,
      "learning_rate": 5.287356321839081e-06,
      "loss": 0.0067,
      "step": 6840
    },
    {
      "epoch": 26.00490421455939,
      "grad_norm": 0.0055478704161942005,
      "learning_rate": 5.278842060451256e-06,
      "loss": 0.535,
      "step": 6850
    },
    {
      "epoch": 26.005670498084292,
      "grad_norm": 22.662864685058594,
      "learning_rate": 5.270327799063432e-06,
      "loss": 0.1925,
      "step": 6860
    },
    {
      "epoch": 26.006436781609196,
      "grad_norm": 0.003003709949553013,
      "learning_rate": 5.2618135376756075e-06,
      "loss": 0.5777,
      "step": 6870
    },
    {
      "epoch": 26.0072030651341,
      "grad_norm": 0.0020995778031647205,
      "learning_rate": 5.2532992762877825e-06,
      "loss": 0.658,
      "step": 6880
    },
    {
      "epoch": 26.007969348659003,
      "grad_norm": 70.04608154296875,
      "learning_rate": 5.244785014899958e-06,
      "loss": 0.0501,
      "step": 6890
    },
    {
      "epoch": 26.008735632183907,
      "grad_norm": 0.003194736083969474,
      "learning_rate": 5.236270753512134e-06,
      "loss": 0.2504,
      "step": 6900
    },
    {
      "epoch": 26.009501915708814,
      "grad_norm": 102.48612976074219,
      "learning_rate": 5.227756492124308e-06,
      "loss": 1.3037,
      "step": 6910
    },
    {
      "epoch": 26.010268199233717,
      "grad_norm": 47.21868896484375,
      "learning_rate": 5.219242230736484e-06,
      "loss": 0.9629,
      "step": 6920
    },
    {
      "epoch": 26.01103448275862,
      "grad_norm": 233.42538452148438,
      "learning_rate": 5.210727969348659e-06,
      "loss": 0.5676,
      "step": 6930
    },
    {
      "epoch": 26.011800766283525,
      "grad_norm": 0.03407863900065422,
      "learning_rate": 5.202213707960835e-06,
      "loss": 0.0005,
      "step": 6940
    },
    {
      "epoch": 26.01256704980843,
      "grad_norm": 0.002790221245959401,
      "learning_rate": 5.193699446573011e-06,
      "loss": 0.0002,
      "step": 6950
    },
    {
      "epoch": 26.013333333333332,
      "grad_norm": 47.864707946777344,
      "learning_rate": 5.185185185185185e-06,
      "loss": 2.1923,
      "step": 6960
    },
    {
      "epoch": 26.01409961685824,
      "grad_norm": 0.0036934618838131428,
      "learning_rate": 5.176670923797361e-06,
      "loss": 0.0143,
      "step": 6970
    },
    {
      "epoch": 26.014865900383143,
      "grad_norm": 0.016530748456716537,
      "learning_rate": 5.168156662409536e-06,
      "loss": 1.5982,
      "step": 6980
    },
    {
      "epoch": 26.015632183908046,
      "grad_norm": 0.1699918806552887,
      "learning_rate": 5.159642401021712e-06,
      "loss": 0.0018,
      "step": 6990
    },
    {
      "epoch": 26.01639846743295,
      "grad_norm": 0.07781951874494553,
      "learning_rate": 5.1511281396338875e-06,
      "loss": 0.2596,
      "step": 7000
    },
    {
      "epoch": 26.017164750957853,
      "grad_norm": 0.003624899545684457,
      "learning_rate": 5.1426138782460625e-06,
      "loss": 0.0094,
      "step": 7010
    },
    {
      "epoch": 26.017931034482757,
      "grad_norm": 15.835947036743164,
      "learning_rate": 5.134099616858238e-06,
      "loss": 0.6469,
      "step": 7020
    },
    {
      "epoch": 26.018697318007664,
      "grad_norm": 0.0449938103556633,
      "learning_rate": 5.125585355470414e-06,
      "loss": 0.4909,
      "step": 7030
    },
    {
      "epoch": 26.019463601532568,
      "grad_norm": 0.5268478393554688,
      "learning_rate": 5.117071094082588e-06,
      "loss": 1.1288,
      "step": 7040
    },
    {
      "epoch": 26.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 1.6372127532958984,
      "eval_runtime": 28.2494,
      "eval_samples_per_second": 1.593,
      "eval_steps_per_second": 1.593,
      "step": 7047
    },
    {
      "epoch": 27.000229885057472,
      "grad_norm": 0.0025100375059992075,
      "learning_rate": 5.108556832694764e-06,
      "loss": 1.3201,
      "step": 7050
    },
    {
      "epoch": 27.000996168582375,
      "grad_norm": 0.001371032907627523,
      "learning_rate": 5.100042571306939e-06,
      "loss": 0.4515,
      "step": 7060
    },
    {
      "epoch": 27.00176245210728,
      "grad_norm": 0.034923654049634933,
      "learning_rate": 5.091528309919115e-06,
      "loss": 1.1018,
      "step": 7070
    },
    {
      "epoch": 27.002528735632183,
      "grad_norm": 0.020795369520783424,
      "learning_rate": 5.083014048531291e-06,
      "loss": 0.3081,
      "step": 7080
    },
    {
      "epoch": 27.00329501915709,
      "grad_norm": 0.0011883447878062725,
      "learning_rate": 5.074499787143465e-06,
      "loss": 0.6769,
      "step": 7090
    },
    {
      "epoch": 27.004061302681993,
      "grad_norm": 0.0698217898607254,
      "learning_rate": 5.065985525755641e-06,
      "loss": 0.0032,
      "step": 7100
    },
    {
      "epoch": 27.004827586206897,
      "grad_norm": 0.01318784523755312,
      "learning_rate": 5.057471264367817e-06,
      "loss": 0.0014,
      "step": 7110
    },
    {
      "epoch": 27.0055938697318,
      "grad_norm": 0.0032538459636271,
      "learning_rate": 5.048957002979992e-06,
      "loss": 1.2139,
      "step": 7120
    },
    {
      "epoch": 27.006360153256704,
      "grad_norm": 0.005463645793497562,
      "learning_rate": 5.0404427415921675e-06,
      "loss": 0.0029,
      "step": 7130
    },
    {
      "epoch": 27.007126436781608,
      "grad_norm": 0.002044873544946313,
      "learning_rate": 5.0319284802043425e-06,
      "loss": 0.2554,
      "step": 7140
    },
    {
      "epoch": 27.007892720306515,
      "grad_norm": 150.93966674804688,
      "learning_rate": 5.023414218816518e-06,
      "loss": 0.5414,
      "step": 7150
    },
    {
      "epoch": 27.00865900383142,
      "grad_norm": 585.3448486328125,
      "learning_rate": 5.014899957428694e-06,
      "loss": 1.0977,
      "step": 7160
    },
    {
      "epoch": 27.009425287356322,
      "grad_norm": 0.21827629208564758,
      "learning_rate": 5.006385696040868e-06,
      "loss": 0.0026,
      "step": 7170
    },
    {
      "epoch": 27.010191570881226,
      "grad_norm": 0.14477881789207458,
      "learning_rate": 4.997871434653044e-06,
      "loss": 0.9725,
      "step": 7180
    },
    {
      "epoch": 27.01095785440613,
      "grad_norm": 0.012054833583533764,
      "learning_rate": 4.98935717326522e-06,
      "loss": 1.4246,
      "step": 7190
    },
    {
      "epoch": 27.011724137931033,
      "grad_norm": 0.007552944589406252,
      "learning_rate": 4.980842911877395e-06,
      "loss": 0.0006,
      "step": 7200
    },
    {
      "epoch": 27.01249042145594,
      "grad_norm": 0.04953211545944214,
      "learning_rate": 4.972328650489571e-06,
      "loss": 0.2401,
      "step": 7210
    },
    {
      "epoch": 27.013256704980844,
      "grad_norm": 0.004737659823149443,
      "learning_rate": 4.963814389101746e-06,
      "loss": 0.4782,
      "step": 7220
    },
    {
      "epoch": 27.014022988505747,
      "grad_norm": 0.0042915926314890385,
      "learning_rate": 4.955300127713921e-06,
      "loss": 0.0003,
      "step": 7230
    },
    {
      "epoch": 27.01478927203065,
      "grad_norm": 0.0024593069683760405,
      "learning_rate": 4.946785866326097e-06,
      "loss": 0.0004,
      "step": 7240
    },
    {
      "epoch": 27.015555555555554,
      "grad_norm": 0.0017103638965636492,
      "learning_rate": 4.938271604938272e-06,
      "loss": 0.1948,
      "step": 7250
    },
    {
      "epoch": 27.016321839080458,
      "grad_norm": 0.9441583752632141,
      "learning_rate": 4.9297573435504475e-06,
      "loss": 0.4695,
      "step": 7260
    },
    {
      "epoch": 27.017088122605365,
      "grad_norm": 0.042855050414800644,
      "learning_rate": 4.9212430821626225e-06,
      "loss": 1.0336,
      "step": 7270
    },
    {
      "epoch": 27.01785440613027,
      "grad_norm": 0.09851084649562836,
      "learning_rate": 4.912728820774798e-06,
      "loss": 0.1355,
      "step": 7280
    },
    {
      "epoch": 27.018620689655172,
      "grad_norm": 0.004743156488984823,
      "learning_rate": 4.904214559386973e-06,
      "loss": 0.0014,
      "step": 7290
    },
    {
      "epoch": 27.019386973180076,
      "grad_norm": 12.480242729187012,
      "learning_rate": 4.895700297999149e-06,
      "loss": 0.0024,
      "step": 7300
    },
    {
      "epoch": 27.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 2.0813233852386475,
      "eval_runtime": 27.9067,
      "eval_samples_per_second": 1.613,
      "eval_steps_per_second": 1.613,
      "step": 7308
    },
    {
      "epoch": 28.00015325670498,
      "grad_norm": 0.001908393925987184,
      "learning_rate": 4.887186036611324e-06,
      "loss": 0.3898,
      "step": 7310
    },
    {
      "epoch": 28.000919540229884,
      "grad_norm": 0.000980175449512899,
      "learning_rate": 4.8786717752235e-06,
      "loss": 0.6533,
      "step": 7320
    },
    {
      "epoch": 28.00168582375479,
      "grad_norm": 0.007126258220523596,
      "learning_rate": 4.870157513835675e-06,
      "loss": 0.2288,
      "step": 7330
    },
    {
      "epoch": 28.002452107279694,
      "grad_norm": 0.38791441917419434,
      "learning_rate": 4.861643252447851e-06,
      "loss": 1.6321,
      "step": 7340
    },
    {
      "epoch": 28.003218390804598,
      "grad_norm": 0.009356196038424969,
      "learning_rate": 4.853128991060026e-06,
      "loss": 0.7451,
      "step": 7350
    },
    {
      "epoch": 28.0039846743295,
      "grad_norm": 0.027178501710295677,
      "learning_rate": 4.844614729672202e-06,
      "loss": 0.0056,
      "step": 7360
    },
    {
      "epoch": 28.004750957854405,
      "grad_norm": 0.03039945475757122,
      "learning_rate": 4.836100468284377e-06,
      "loss": 0.0028,
      "step": 7370
    },
    {
      "epoch": 28.00551724137931,
      "grad_norm": 0.03347291797399521,
      "learning_rate": 4.8275862068965525e-06,
      "loss": 0.0009,
      "step": 7380
    },
    {
      "epoch": 28.006283524904216,
      "grad_norm": 0.015016093850135803,
      "learning_rate": 4.8190719455087275e-06,
      "loss": 0.3988,
      "step": 7390
    },
    {
      "epoch": 28.00704980842912,
      "grad_norm": 0.004948149900883436,
      "learning_rate": 4.8105576841209025e-06,
      "loss": 0.0003,
      "step": 7400
    },
    {
      "epoch": 28.007816091954023,
      "grad_norm": 3.105440378189087,
      "learning_rate": 4.802043422733078e-06,
      "loss": 0.0025,
      "step": 7410
    },
    {
      "epoch": 28.008582375478927,
      "grad_norm": 1.1475921869277954,
      "learning_rate": 4.793529161345254e-06,
      "loss": 0.0019,
      "step": 7420
    },
    {
      "epoch": 28.00934865900383,
      "grad_norm": 0.013491490855813026,
      "learning_rate": 4.785014899957429e-06,
      "loss": 0.0005,
      "step": 7430
    },
    {
      "epoch": 28.010114942528734,
      "grad_norm": 0.0009091476676985621,
      "learning_rate": 4.776500638569604e-06,
      "loss": 0.6723,
      "step": 7440
    },
    {
      "epoch": 28.01088122605364,
      "grad_norm": 0.0025523528456687927,
      "learning_rate": 4.76798637718178e-06,
      "loss": 0.0002,
      "step": 7450
    },
    {
      "epoch": 28.011647509578545,
      "grad_norm": 0.00285366945900023,
      "learning_rate": 4.759472115793956e-06,
      "loss": 0.7087,
      "step": 7460
    },
    {
      "epoch": 28.01241379310345,
      "grad_norm": 0.004684296902269125,
      "learning_rate": 4.750957854406131e-06,
      "loss": 0.3238,
      "step": 7470
    },
    {
      "epoch": 28.013180076628352,
      "grad_norm": 0.0008410373702645302,
      "learning_rate": 4.742443593018306e-06,
      "loss": 0.0003,
      "step": 7480
    },
    {
      "epoch": 28.013946360153255,
      "grad_norm": 0.030775954946875572,
      "learning_rate": 4.733929331630482e-06,
      "loss": 0.0073,
      "step": 7490
    },
    {
      "epoch": 28.014712643678163,
      "grad_norm": 0.005375114735215902,
      "learning_rate": 4.7254150702426575e-06,
      "loss": 0.7178,
      "step": 7500
    },
    {
      "epoch": 28.015478927203066,
      "grad_norm": 0.05854375287890434,
      "learning_rate": 4.7169008088548325e-06,
      "loss": 0.0007,
      "step": 7510
    },
    {
      "epoch": 28.01624521072797,
      "grad_norm": 0.02918917126953602,
      "learning_rate": 4.7083865474670075e-06,
      "loss": 0.0003,
      "step": 7520
    },
    {
      "epoch": 28.017011494252873,
      "grad_norm": 344.5948181152344,
      "learning_rate": 4.6998722860791825e-06,
      "loss": 0.5259,
      "step": 7530
    },
    {
      "epoch": 28.017777777777777,
      "grad_norm": 521.097412109375,
      "learning_rate": 4.691358024691358e-06,
      "loss": 0.8263,
      "step": 7540
    },
    {
      "epoch": 28.01854406130268,
      "grad_norm": 0.0011964929290115833,
      "learning_rate": 4.682843763303534e-06,
      "loss": 1.0728,
      "step": 7550
    },
    {
      "epoch": 28.019310344827588,
      "grad_norm": 0.7627772688865662,
      "learning_rate": 4.674329501915709e-06,
      "loss": 1.3731,
      "step": 7560
    },
    {
      "epoch": 28.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 2.184565782546997,
      "eval_runtime": 30.1621,
      "eval_samples_per_second": 1.492,
      "eval_steps_per_second": 1.492,
      "step": 7569
    },
    {
      "epoch": 29.000076628352492,
      "grad_norm": 0.02546844072639942,
      "learning_rate": 4.665815240527884e-06,
      "loss": 0.0006,
      "step": 7570
    },
    {
      "epoch": 29.000842911877395,
      "grad_norm": 0.0161290280520916,
      "learning_rate": 4.65730097914006e-06,
      "loss": 0.601,
      "step": 7580
    },
    {
      "epoch": 29.0016091954023,
      "grad_norm": 0.0015779354143887758,
      "learning_rate": 4.648786717752236e-06,
      "loss": 0.6467,
      "step": 7590
    },
    {
      "epoch": 29.002375478927203,
      "grad_norm": 0.0008723331266082823,
      "learning_rate": 4.640272456364411e-06,
      "loss": 0.4102,
      "step": 7600
    },
    {
      "epoch": 29.003141762452106,
      "grad_norm": 0.8687963485717773,
      "learning_rate": 4.631758194976586e-06,
      "loss": 0.0015,
      "step": 7610
    },
    {
      "epoch": 29.00390804597701,
      "grad_norm": 0.002515859203413129,
      "learning_rate": 4.623243933588762e-06,
      "loss": 1.1717,
      "step": 7620
    },
    {
      "epoch": 29.004674329501917,
      "grad_norm": 0.007008945569396019,
      "learning_rate": 4.6147296722009375e-06,
      "loss": 0.4936,
      "step": 7630
    },
    {
      "epoch": 29.00544061302682,
      "grad_norm": 0.0009232726297341287,
      "learning_rate": 4.6062154108131125e-06,
      "loss": 0.3088,
      "step": 7640
    },
    {
      "epoch": 29.006206896551724,
      "grad_norm": 0.0009513779659755528,
      "learning_rate": 4.5977011494252875e-06,
      "loss": 0.7389,
      "step": 7650
    },
    {
      "epoch": 29.006973180076628,
      "grad_norm": 0.22152279317378998,
      "learning_rate": 4.589186888037463e-06,
      "loss": 0.28,
      "step": 7660
    },
    {
      "epoch": 29.00773946360153,
      "grad_norm": 0.0011534243822097778,
      "learning_rate": 4.580672626649638e-06,
      "loss": 0.5633,
      "step": 7670
    },
    {
      "epoch": 29.00850574712644,
      "grad_norm": 0.000674307462759316,
      "learning_rate": 4.572158365261814e-06,
      "loss": 0.0018,
      "step": 7680
    },
    {
      "epoch": 29.009272030651342,
      "grad_norm": 0.016125526279211044,
      "learning_rate": 4.563644103873989e-06,
      "loss": 0.0006,
      "step": 7690
    },
    {
      "epoch": 29.010038314176246,
      "grad_norm": 0.044381022453308105,
      "learning_rate": 4.555129842486164e-06,
      "loss": 0.0303,
      "step": 7700
    },
    {
      "epoch": 29.01080459770115,
      "grad_norm": 0.028124311938881874,
      "learning_rate": 4.54661558109834e-06,
      "loss": 0.3185,
      "step": 7710
    },
    {
      "epoch": 29.011570881226053,
      "grad_norm": 0.0007618298986926675,
      "learning_rate": 4.538101319710516e-06,
      "loss": 0.0004,
      "step": 7720
    },
    {
      "epoch": 29.012337164750956,
      "grad_norm": 458.9365234375,
      "learning_rate": 4.529587058322691e-06,
      "loss": 0.6445,
      "step": 7730
    },
    {
      "epoch": 29.013103448275864,
      "grad_norm": 0.0006640357314608991,
      "learning_rate": 4.521072796934866e-06,
      "loss": 0.5112,
      "step": 7740
    },
    {
      "epoch": 29.013869731800767,
      "grad_norm": 0.02549567073583603,
      "learning_rate": 4.512558535547042e-06,
      "loss": 0.1595,
      "step": 7750
    },
    {
      "epoch": 29.01463601532567,
      "grad_norm": 77.58110809326172,
      "learning_rate": 4.5040442741592175e-06,
      "loss": 1.3087,
      "step": 7760
    },
    {
      "epoch": 29.015402298850574,
      "grad_norm": 121.54621124267578,
      "learning_rate": 4.4955300127713925e-06,
      "loss": 0.6784,
      "step": 7770
    },
    {
      "epoch": 29.016168582375478,
      "grad_norm": 0.055833850055933,
      "learning_rate": 4.4870157513835675e-06,
      "loss": 0.001,
      "step": 7780
    },
    {
      "epoch": 29.01693486590038,
      "grad_norm": 0.0011547345202416182,
      "learning_rate": 4.478501489995743e-06,
      "loss": 0.3893,
      "step": 7790
    },
    {
      "epoch": 29.01770114942529,
      "grad_norm": 0.09646335989236832,
      "learning_rate": 4.469987228607919e-06,
      "loss": 0.0004,
      "step": 7800
    },
    {
      "epoch": 29.018467432950192,
      "grad_norm": 0.002942258957773447,
      "learning_rate": 4.461472967220094e-06,
      "loss": 0.0424,
      "step": 7810
    },
    {
      "epoch": 29.019233716475096,
      "grad_norm": 0.36769601702690125,
      "learning_rate": 4.452958705832269e-06,
      "loss": 0.8931,
      "step": 7820
    },
    {
      "epoch": 29.02,
      "grad_norm": 0.0013867371017113328,
      "learning_rate": 4.444444444444444e-06,
      "loss": 0.0085,
      "step": 7830
    },
    {
      "epoch": 29.02,
      "eval_accuracy": 0.6222222222222222,
      "eval_loss": 2.2413625717163086,
      "eval_runtime": 30.1507,
      "eval_samples_per_second": 1.493,
      "eval_steps_per_second": 1.493,
      "step": 7830
    },
    {
      "epoch": 30.000766283524904,
      "grad_norm": 0.0009211709257215261,
      "learning_rate": 4.43593018305662e-06,
      "loss": 0.7572,
      "step": 7840
    },
    {
      "epoch": 30.001532567049807,
      "grad_norm": 0.008097738027572632,
      "learning_rate": 4.427415921668796e-06,
      "loss": 0.5891,
      "step": 7850
    },
    {
      "epoch": 30.002298850574714,
      "grad_norm": 0.06377111375331879,
      "learning_rate": 4.418901660280971e-06,
      "loss": 0.0083,
      "step": 7860
    },
    {
      "epoch": 30.003065134099618,
      "grad_norm": 0.007994234561920166,
      "learning_rate": 4.410387398893146e-06,
      "loss": 0.0353,
      "step": 7870
    },
    {
      "epoch": 30.00383141762452,
      "grad_norm": 0.08883940428495407,
      "learning_rate": 4.401873137505322e-06,
      "loss": 0.0014,
      "step": 7880
    },
    {
      "epoch": 30.004597701149425,
      "grad_norm": 0.014959491789340973,
      "learning_rate": 4.3933588761174975e-06,
      "loss": 0.0041,
      "step": 7890
    },
    {
      "epoch": 30.00536398467433,
      "grad_norm": 0.0016909199766814709,
      "learning_rate": 4.3848446147296725e-06,
      "loss": 0.0019,
      "step": 7900
    },
    {
      "epoch": 30.006130268199232,
      "grad_norm": 0.178978830575943,
      "learning_rate": 4.3763303533418475e-06,
      "loss": 0.3294,
      "step": 7910
    },
    {
      "epoch": 30.00689655172414,
      "grad_norm": 0.2797927260398865,
      "learning_rate": 4.367816091954023e-06,
      "loss": 0.0003,
      "step": 7920
    },
    {
      "epoch": 30.007662835249043,
      "grad_norm": 0.016016194596886635,
      "learning_rate": 4.359301830566199e-06,
      "loss": 0.0002,
      "step": 7930
    },
    {
      "epoch": 30.008429118773947,
      "grad_norm": 0.04488089680671692,
      "learning_rate": 4.350787569178374e-06,
      "loss": 0.5719,
      "step": 7940
    },
    {
      "epoch": 30.00919540229885,
      "grad_norm": 0.0010439414763823152,
      "learning_rate": 4.342273307790549e-06,
      "loss": 0.5534,
      "step": 7950
    },
    {
      "epoch": 30.009961685823754,
      "grad_norm": 0.03713122010231018,
      "learning_rate": 4.333759046402725e-06,
      "loss": 0.19,
      "step": 7960
    },
    {
      "epoch": 30.010727969348657,
      "grad_norm": 0.048736151307821274,
      "learning_rate": 4.325244785014901e-06,
      "loss": 1.0971,
      "step": 7970
    },
    {
      "epoch": 30.011494252873565,
      "grad_norm": 637.2117919921875,
      "learning_rate": 4.316730523627076e-06,
      "loss": 0.0891,
      "step": 7980
    },
    {
      "epoch": 30.01226053639847,
      "grad_norm": 0.0008081755950115621,
      "learning_rate": 4.308216262239251e-06,
      "loss": 0.0005,
      "step": 7990
    },
    {
      "epoch": 30.013026819923372,
      "grad_norm": 0.021055513992905617,
      "learning_rate": 4.299702000851427e-06,
      "loss": 0.0001,
      "step": 8000
    },
    {
      "epoch": 30.013793103448275,
      "grad_norm": 0.04090442508459091,
      "learning_rate": 4.291187739463602e-06,
      "loss": 0.0042,
      "step": 8010
    },
    {
      "epoch": 30.01455938697318,
      "grad_norm": 0.0018981373868882656,
      "learning_rate": 4.2826734780757775e-06,
      "loss": 0.8071,
      "step": 8020
    },
    {
      "epoch": 30.015325670498083,
      "grad_norm": 0.0011597869452089071,
      "learning_rate": 4.2741592166879525e-06,
      "loss": 0.0004,
      "step": 8030
    },
    {
      "epoch": 30.01609195402299,
      "grad_norm": 0.04882820323109627,
      "learning_rate": 4.2656449553001275e-06,
      "loss": 0.0004,
      "step": 8040
    },
    {
      "epoch": 30.016858237547893,
      "grad_norm": 0.0015442122239619493,
      "learning_rate": 4.257130693912303e-06,
      "loss": 0.0021,
      "step": 8050
    },
    {
      "epoch": 30.017624521072797,
      "grad_norm": 0.003497874364256859,
      "learning_rate": 4.248616432524479e-06,
      "loss": 0.8706,
      "step": 8060
    },
    {
      "epoch": 30.0183908045977,
      "grad_norm": 0.012243164703249931,
      "learning_rate": 4.240102171136654e-06,
      "loss": 0.9448,
      "step": 8070
    },
    {
      "epoch": 30.019157088122604,
      "grad_norm": 0.00077412388054654,
      "learning_rate": 4.231587909748829e-06,
      "loss": 0.0003,
      "step": 8080
    },
    {
      "epoch": 30.01992337164751,
      "grad_norm": 0.01615084521472454,
      "learning_rate": 4.223073648361005e-06,
      "loss": 0.0004,
      "step": 8090
    },
    {
      "epoch": 30.02,
      "eval_accuracy": 0.5777777777777777,
      "eval_loss": 2.5363144874572754,
      "eval_runtime": 31.5231,
      "eval_samples_per_second": 1.428,
      "eval_steps_per_second": 1.428,
      "step": 8091
    },
    {
      "epoch": 31.000689655172415,
      "grad_norm": 0.8562591075897217,
      "learning_rate": 4.214559386973181e-06,
      "loss": 0.0006,
      "step": 8100
    },
    {
      "epoch": 31.00145593869732,
      "grad_norm": 0.0006197905167937279,
      "learning_rate": 4.206045125585356e-06,
      "loss": 0.0013,
      "step": 8110
    },
    {
      "epoch": 31.002222222222223,
      "grad_norm": 0.005202660337090492,
      "learning_rate": 4.197530864197531e-06,
      "loss": 0.0004,
      "step": 8120
    },
    {
      "epoch": 31.002988505747126,
      "grad_norm": 0.1686737984418869,
      "learning_rate": 4.189016602809707e-06,
      "loss": 0.0009,
      "step": 8130
    },
    {
      "epoch": 31.00375478927203,
      "grad_norm": 0.011581555008888245,
      "learning_rate": 4.180502341421882e-06,
      "loss": 0.0003,
      "step": 8140
    },
    {
      "epoch": 31.004521072796933,
      "grad_norm": 0.08714058250188828,
      "learning_rate": 4.1719880800340575e-06,
      "loss": 0.0018,
      "step": 8150
    },
    {
      "epoch": 31.00528735632184,
      "grad_norm": 0.0007840145844966173,
      "learning_rate": 4.1634738186462325e-06,
      "loss": 0.0188,
      "step": 8160
    },
    {
      "epoch": 31.006053639846744,
      "grad_norm": 0.001840552780777216,
      "learning_rate": 4.154959557258408e-06,
      "loss": 0.7423,
      "step": 8170
    },
    {
      "epoch": 31.006819923371648,
      "grad_norm": 0.018084323033690453,
      "learning_rate": 4.146445295870583e-06,
      "loss": 0.2636,
      "step": 8180
    },
    {
      "epoch": 31.00758620689655,
      "grad_norm": 0.005171739961951971,
      "learning_rate": 4.137931034482759e-06,
      "loss": 0.1457,
      "step": 8190
    },
    {
      "epoch": 31.008352490421455,
      "grad_norm": 0.002356515498831868,
      "learning_rate": 4.129416773094934e-06,
      "loss": 0.0005,
      "step": 8200
    },
    {
      "epoch": 31.00911877394636,
      "grad_norm": 0.009225085377693176,
      "learning_rate": 4.12090251170711e-06,
      "loss": 0.0002,
      "step": 8210
    },
    {
      "epoch": 31.009885057471266,
      "grad_norm": 0.020877808332443237,
      "learning_rate": 4.112388250319285e-06,
      "loss": 0.0001,
      "step": 8220
    },
    {
      "epoch": 31.01065134099617,
      "grad_norm": 0.0016082045622169971,
      "learning_rate": 4.103873988931461e-06,
      "loss": 0.0002,
      "step": 8230
    },
    {
      "epoch": 31.011417624521073,
      "grad_norm": 0.015390790067613125,
      "learning_rate": 4.095359727543636e-06,
      "loss": 0.5927,
      "step": 8240
    },
    {
      "epoch": 31.012183908045976,
      "grad_norm": 0.004826823249459267,
      "learning_rate": 4.086845466155812e-06,
      "loss": 1.3201,
      "step": 8250
    },
    {
      "epoch": 31.01295019157088,
      "grad_norm": 0.014385450631380081,
      "learning_rate": 4.078331204767987e-06,
      "loss": 1.0118,
      "step": 8260
    },
    {
      "epoch": 31.013716475095784,
      "grad_norm": 0.022623060271143913,
      "learning_rate": 4.0698169433801625e-06,
      "loss": 0.0006,
      "step": 8270
    },
    {
      "epoch": 31.01448275862069,
      "grad_norm": 0.041507456451654434,
      "learning_rate": 4.0613026819923375e-06,
      "loss": 0.0011,
      "step": 8280
    },
    {
      "epoch": 31.015249042145594,
      "grad_norm": 0.0038991193287074566,
      "learning_rate": 4.052788420604513e-06,
      "loss": 0.0004,
      "step": 8290
    },
    {
      "epoch": 31.016015325670498,
      "grad_norm": 0.1972963660955429,
      "learning_rate": 4.044274159216688e-06,
      "loss": 0.0006,
      "step": 8300
    },
    {
      "epoch": 31.0167816091954,
      "grad_norm": 0.0011404335964471102,
      "learning_rate": 4.035759897828863e-06,
      "loss": 0.1034,
      "step": 8310
    },
    {
      "epoch": 31.017547892720305,
      "grad_norm": 0.0016230113105848432,
      "learning_rate": 4.027245636441039e-06,
      "loss": 0.0007,
      "step": 8320
    },
    {
      "epoch": 31.018314176245212,
      "grad_norm": 0.013988662511110306,
      "learning_rate": 4.018731375053214e-06,
      "loss": 0.1782,
      "step": 8330
    },
    {
      "epoch": 31.019080459770116,
      "grad_norm": 0.0008143529412336648,
      "learning_rate": 4.01021711366539e-06,
      "loss": 0.0002,
      "step": 8340
    },
    {
      "epoch": 31.01984674329502,
      "grad_norm": 0.0058710016310215,
      "learning_rate": 4.001702852277565e-06,
      "loss": 0.7817,
      "step": 8350
    },
    {
      "epoch": 31.02,
      "eval_accuracy": 0.5777777777777777,
      "eval_loss": 2.8433194160461426,
      "eval_runtime": 31.5649,
      "eval_samples_per_second": 1.426,
      "eval_steps_per_second": 1.426,
      "step": 8352
    },
    {
      "epoch": 32.00061302681992,
      "grad_norm": 0.028439415618777275,
      "learning_rate": 3.993188590889741e-06,
      "loss": 0.0026,
      "step": 8360
    },
    {
      "epoch": 32.00137931034483,
      "grad_norm": 0.013596491888165474,
      "learning_rate": 3.984674329501916e-06,
      "loss": 0.6117,
      "step": 8370
    },
    {
      "epoch": 32.002145593869734,
      "grad_norm": 0.010585892014205456,
      "learning_rate": 3.976160068114092e-06,
      "loss": 0.0006,
      "step": 8380
    },
    {
      "epoch": 32.00291187739464,
      "grad_norm": 1.2051737308502197,
      "learning_rate": 3.967645806726267e-06,
      "loss": 0.0269,
      "step": 8390
    },
    {
      "epoch": 32.00367816091954,
      "grad_norm": 0.010174227878451347,
      "learning_rate": 3.9591315453384425e-06,
      "loss": 0.0006,
      "step": 8400
    },
    {
      "epoch": 32.004444444444445,
      "grad_norm": 0.021464044228196144,
      "learning_rate": 3.9506172839506175e-06,
      "loss": 0.0002,
      "step": 8410
    },
    {
      "epoch": 32.00521072796935,
      "grad_norm": 0.013936766423285007,
      "learning_rate": 3.942103022562793e-06,
      "loss": 0.0003,
      "step": 8420
    },
    {
      "epoch": 32.00597701149425,
      "grad_norm": 0.021049097180366516,
      "learning_rate": 3.933588761174968e-06,
      "loss": 0.755,
      "step": 8430
    },
    {
      "epoch": 32.006743295019156,
      "grad_norm": 0.01206669770181179,
      "learning_rate": 3.925074499787143e-06,
      "loss": 0.0002,
      "step": 8440
    },
    {
      "epoch": 32.00750957854406,
      "grad_norm": 0.00617943424731493,
      "learning_rate": 3.916560238399319e-06,
      "loss": 0.0005,
      "step": 8450
    },
    {
      "epoch": 32.00827586206896,
      "grad_norm": 0.017838966101408005,
      "learning_rate": 3.908045977011495e-06,
      "loss": 0.0002,
      "step": 8460
    },
    {
      "epoch": 32.00904214559387,
      "grad_norm": 0.0030338692013174295,
      "learning_rate": 3.89953171562367e-06,
      "loss": 0.0002,
      "step": 8470
    },
    {
      "epoch": 32.00980842911878,
      "grad_norm": 0.0018925362965092063,
      "learning_rate": 3.891017454235845e-06,
      "loss": 0.0001,
      "step": 8480
    },
    {
      "epoch": 32.01057471264368,
      "grad_norm": 0.015851356089115143,
      "learning_rate": 3.882503192848021e-06,
      "loss": 0.0001,
      "step": 8490
    },
    {
      "epoch": 32.011340996168585,
      "grad_norm": 0.019674142822623253,
      "learning_rate": 3.873988931460197e-06,
      "loss": 1.179,
      "step": 8500
    },
    {
      "epoch": 32.01210727969349,
      "grad_norm": 0.46721845865249634,
      "learning_rate": 3.865474670072372e-06,
      "loss": 0.1115,
      "step": 8510
    },
    {
      "epoch": 32.01287356321839,
      "grad_norm": 0.003226376138627529,
      "learning_rate": 3.856960408684547e-06,
      "loss": 0.0001,
      "step": 8520
    },
    {
      "epoch": 32.013639846743295,
      "grad_norm": 0.0005900561809539795,
      "learning_rate": 3.8484461472967225e-06,
      "loss": 0.1018,
      "step": 8530
    },
    {
      "epoch": 32.0144061302682,
      "grad_norm": 0.0007590750465169549,
      "learning_rate": 3.839931885908898e-06,
      "loss": 0.1272,
      "step": 8540
    },
    {
      "epoch": 32.0151724137931,
      "grad_norm": 12.848638534545898,
      "learning_rate": 3.831417624521073e-06,
      "loss": 0.0112,
      "step": 8550
    },
    {
      "epoch": 32.015938697318006,
      "grad_norm": 0.001263161888346076,
      "learning_rate": 3.822903363133248e-06,
      "loss": 0.0002,
      "step": 8560
    },
    {
      "epoch": 32.01670498084291,
      "grad_norm": 47.603431701660156,
      "learning_rate": 3.8143891017454237e-06,
      "loss": 1.0699,
      "step": 8570
    },
    {
      "epoch": 32.01747126436781,
      "grad_norm": 0.0034020866733044386,
      "learning_rate": 3.805874840357599e-06,
      "loss": 0.0256,
      "step": 8580
    },
    {
      "epoch": 32.01823754789272,
      "grad_norm": 0.031109264120459557,
      "learning_rate": 3.797360578969775e-06,
      "loss": 0.0441,
      "step": 8590
    },
    {
      "epoch": 32.01900383141763,
      "grad_norm": 0.0019936468452215195,
      "learning_rate": 3.78884631758195e-06,
      "loss": 0.0002,
      "step": 8600
    },
    {
      "epoch": 32.01977011494253,
      "grad_norm": 1.7935079336166382,
      "learning_rate": 3.7803320561941254e-06,
      "loss": 0.3487,
      "step": 8610
    },
    {
      "epoch": 32.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 2.637408494949341,
      "eval_runtime": 27.8621,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 1.615,
      "step": 8613
    },
    {
      "epoch": 33.00053639846743,
      "grad_norm": 0.2326209396123886,
      "learning_rate": 3.7718177948063004e-06,
      "loss": 0.2937,
      "step": 8620
    },
    {
      "epoch": 33.001302681992335,
      "grad_norm": 502.8989562988281,
      "learning_rate": 3.7633035334184762e-06,
      "loss": 1.1396,
      "step": 8630
    },
    {
      "epoch": 33.00206896551724,
      "grad_norm": 0.05000709369778633,
      "learning_rate": 3.7547892720306517e-06,
      "loss": 0.0988,
      "step": 8640
    },
    {
      "epoch": 33.00283524904214,
      "grad_norm": 0.01394747942686081,
      "learning_rate": 3.746275010642827e-06,
      "loss": 0.6976,
      "step": 8650
    },
    {
      "epoch": 33.00360153256705,
      "grad_norm": 0.0006377548561431468,
      "learning_rate": 3.737760749255002e-06,
      "loss": 0.0003,
      "step": 8660
    },
    {
      "epoch": 33.00436781609196,
      "grad_norm": 0.0005171005614101887,
      "learning_rate": 3.729246487867178e-06,
      "loss": 1.0241,
      "step": 8670
    },
    {
      "epoch": 33.00513409961686,
      "grad_norm": 1.197045087814331,
      "learning_rate": 3.7207322264793533e-06,
      "loss": 0.0082,
      "step": 8680
    },
    {
      "epoch": 33.005900383141764,
      "grad_norm": 616.587890625,
      "learning_rate": 3.7122179650915287e-06,
      "loss": 0.2803,
      "step": 8690
    },
    {
      "epoch": 33.00666666666667,
      "grad_norm": 0.011728745885193348,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 0.009,
      "step": 8700
    },
    {
      "epoch": 33.00743295019157,
      "grad_norm": 0.08511758595705032,
      "learning_rate": 3.6951894423158796e-06,
      "loss": 0.0031,
      "step": 8710
    },
    {
      "epoch": 33.008199233716475,
      "grad_norm": 0.0005724794464185834,
      "learning_rate": 3.686675180928055e-06,
      "loss": 0.0004,
      "step": 8720
    },
    {
      "epoch": 33.00896551724138,
      "grad_norm": 0.008813084103167057,
      "learning_rate": 3.67816091954023e-06,
      "loss": 0.0004,
      "step": 8730
    },
    {
      "epoch": 33.00973180076628,
      "grad_norm": 0.009110772982239723,
      "learning_rate": 3.6696466581524054e-06,
      "loss": 0.0006,
      "step": 8740
    },
    {
      "epoch": 33.010498084291186,
      "grad_norm": 0.001931531704030931,
      "learning_rate": 3.6611323967645812e-06,
      "loss": 0.0051,
      "step": 8750
    },
    {
      "epoch": 33.01126436781609,
      "grad_norm": 0.0009206047398038208,
      "learning_rate": 3.6526181353767567e-06,
      "loss": 0.0003,
      "step": 8760
    },
    {
      "epoch": 33.01203065134099,
      "grad_norm": 636.8836059570312,
      "learning_rate": 3.6441038739889317e-06,
      "loss": 0.6667,
      "step": 8770
    },
    {
      "epoch": 33.012796934865904,
      "grad_norm": 0.02224240079522133,
      "learning_rate": 3.635589612601107e-06,
      "loss": 0.7683,
      "step": 8780
    },
    {
      "epoch": 33.01356321839081,
      "grad_norm": 0.0008644562331028283,
      "learning_rate": 3.627075351213283e-06,
      "loss": 0.011,
      "step": 8790
    },
    {
      "epoch": 33.01432950191571,
      "grad_norm": 0.000989140709862113,
      "learning_rate": 3.618561089825458e-06,
      "loss": 0.4723,
      "step": 8800
    },
    {
      "epoch": 33.015095785440614,
      "grad_norm": 0.004592487588524818,
      "learning_rate": 3.6100468284376333e-06,
      "loss": 0.0001,
      "step": 8810
    },
    {
      "epoch": 33.01586206896552,
      "grad_norm": 0.0018623805372044444,
      "learning_rate": 3.6015325670498087e-06,
      "loss": 0.0007,
      "step": 8820
    },
    {
      "epoch": 33.01662835249042,
      "grad_norm": 0.46955156326293945,
      "learning_rate": 3.5930183056619837e-06,
      "loss": 0.0005,
      "step": 8830
    },
    {
      "epoch": 33.017394636015325,
      "grad_norm": 0.0008697701268829405,
      "learning_rate": 3.5845040442741596e-06,
      "loss": 0.01,
      "step": 8840
    },
    {
      "epoch": 33.01816091954023,
      "grad_norm": 0.01529706735163927,
      "learning_rate": 3.575989782886335e-06,
      "loss": 0.0004,
      "step": 8850
    },
    {
      "epoch": 33.01892720306513,
      "grad_norm": 498.3216857910156,
      "learning_rate": 3.56747552149851e-06,
      "loss": 0.3644,
      "step": 8860
    },
    {
      "epoch": 33.019693486590036,
      "grad_norm": 0.0025238273665308952,
      "learning_rate": 3.5589612601106854e-06,
      "loss": 0.0014,
      "step": 8870
    },
    {
      "epoch": 33.02,
      "eval_accuracy": 0.5777777777777777,
      "eval_loss": 3.0313196182250977,
      "eval_runtime": 27.976,
      "eval_samples_per_second": 1.609,
      "eval_steps_per_second": 1.609,
      "step": 8874
    },
    {
      "epoch": 34.000459770114944,
      "grad_norm": 141.0464630126953,
      "learning_rate": 3.5504469987228612e-06,
      "loss": 0.0134,
      "step": 8880
    },
    {
      "epoch": 34.00122605363985,
      "grad_norm": 0.021763743832707405,
      "learning_rate": 3.5419327373350367e-06,
      "loss": 0.0042,
      "step": 8890
    },
    {
      "epoch": 34.00199233716475,
      "grad_norm": 0.008113621734082699,
      "learning_rate": 3.5334184759472117e-06,
      "loss": 0.8664,
      "step": 8900
    },
    {
      "epoch": 34.002758620689654,
      "grad_norm": 0.009396526962518692,
      "learning_rate": 3.524904214559387e-06,
      "loss": 0.0002,
      "step": 8910
    },
    {
      "epoch": 34.00352490421456,
      "grad_norm": 0.0757775753736496,
      "learning_rate": 3.516389953171563e-06,
      "loss": 0.0001,
      "step": 8920
    },
    {
      "epoch": 34.00429118773946,
      "grad_norm": 0.011029227636754513,
      "learning_rate": 3.507875691783738e-06,
      "loss": 0.5062,
      "step": 8930
    },
    {
      "epoch": 34.005057471264365,
      "grad_norm": 0.015409487299621105,
      "learning_rate": 3.4993614303959133e-06,
      "loss": 0.0002,
      "step": 8940
    },
    {
      "epoch": 34.00582375478927,
      "grad_norm": 0.026873435825109482,
      "learning_rate": 3.4908471690080887e-06,
      "loss": 0.0003,
      "step": 8950
    },
    {
      "epoch": 34.00659003831418,
      "grad_norm": 0.0005174085381440818,
      "learning_rate": 3.4823329076202646e-06,
      "loss": 0.0002,
      "step": 8960
    },
    {
      "epoch": 34.00735632183908,
      "grad_norm": 0.008040793240070343,
      "learning_rate": 3.4738186462324396e-06,
      "loss": 0.0004,
      "step": 8970
    },
    {
      "epoch": 34.00812260536399,
      "grad_norm": 0.001422680914402008,
      "learning_rate": 3.465304384844615e-06,
      "loss": 0.0336,
      "step": 8980
    },
    {
      "epoch": 34.00888888888889,
      "grad_norm": 0.002646015491336584,
      "learning_rate": 3.4567901234567904e-06,
      "loss": 0.0003,
      "step": 8990
    },
    {
      "epoch": 34.009655172413794,
      "grad_norm": 0.0038285779301077127,
      "learning_rate": 3.448275862068966e-06,
      "loss": 0.0052,
      "step": 9000
    },
    {
      "epoch": 34.0104214559387,
      "grad_norm": 0.0006650602445006371,
      "learning_rate": 3.4397616006811412e-06,
      "loss": 0.0013,
      "step": 9010
    },
    {
      "epoch": 34.0111877394636,
      "grad_norm": 0.007349758874624968,
      "learning_rate": 3.4312473392933167e-06,
      "loss": 0.0002,
      "step": 9020
    },
    {
      "epoch": 34.011954022988505,
      "grad_norm": 0.0035567977465689182,
      "learning_rate": 3.4227330779054917e-06,
      "loss": 0.0049,
      "step": 9030
    },
    {
      "epoch": 34.01272030651341,
      "grad_norm": 0.008664336055517197,
      "learning_rate": 3.4142188165176675e-06,
      "loss": 0.6437,
      "step": 9040
    },
    {
      "epoch": 34.01348659003831,
      "grad_norm": 0.0005684501957148314,
      "learning_rate": 3.405704555129843e-06,
      "loss": 0.0265,
      "step": 9050
    },
    {
      "epoch": 34.014252873563215,
      "grad_norm": 399.8719177246094,
      "learning_rate": 3.3971902937420183e-06,
      "loss": 0.0279,
      "step": 9060
    },
    {
      "epoch": 34.01501915708812,
      "grad_norm": 1463.30322265625,
      "learning_rate": 3.3886760323541933e-06,
      "loss": 0.6656,
      "step": 9070
    },
    {
      "epoch": 34.01578544061303,
      "grad_norm": 0.012521703727543354,
      "learning_rate": 3.380161770966369e-06,
      "loss": 0.0337,
      "step": 9080
    },
    {
      "epoch": 34.01655172413793,
      "grad_norm": 0.014144524931907654,
      "learning_rate": 3.3716475095785446e-06,
      "loss": 0.0001,
      "step": 9090
    },
    {
      "epoch": 34.01731800766284,
      "grad_norm": 1.548913836479187,
      "learning_rate": 3.3631332481907196e-06,
      "loss": 0.3669,
      "step": 9100
    },
    {
      "epoch": 34.01808429118774,
      "grad_norm": 0.0010734919924288988,
      "learning_rate": 3.354618986802895e-06,
      "loss": 0.7933,
      "step": 9110
    },
    {
      "epoch": 34.018850574712644,
      "grad_norm": 0.0018491506343707442,
      "learning_rate": 3.3461047254150704e-06,
      "loss": 0.0002,
      "step": 9120
    },
    {
      "epoch": 34.01961685823755,
      "grad_norm": 5.716326713562012,
      "learning_rate": 3.3375904640272463e-06,
      "loss": 0.0009,
      "step": 9130
    },
    {
      "epoch": 34.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.6186773777008057,
      "eval_runtime": 27.9487,
      "eval_samples_per_second": 1.61,
      "eval_steps_per_second": 1.61,
      "step": 9135
    },
    {
      "epoch": 35.000383141762455,
      "grad_norm": 0.005345072131603956,
      "learning_rate": 3.3290762026394212e-06,
      "loss": 0.2087,
      "step": 9140
    },
    {
      "epoch": 35.00114942528736,
      "grad_norm": 0.007061213720589876,
      "learning_rate": 3.3205619412515967e-06,
      "loss": 0.0001,
      "step": 9150
    },
    {
      "epoch": 35.00191570881226,
      "grad_norm": 0.002428262960165739,
      "learning_rate": 3.3120476798637717e-06,
      "loss": 0.028,
      "step": 9160
    },
    {
      "epoch": 35.002681992337166,
      "grad_norm": 0.0005560162826441228,
      "learning_rate": 3.3035334184759475e-06,
      "loss": 0.0002,
      "step": 9170
    },
    {
      "epoch": 35.00344827586207,
      "grad_norm": 106.02903747558594,
      "learning_rate": 3.295019157088123e-06,
      "loss": 0.0078,
      "step": 9180
    },
    {
      "epoch": 35.00421455938697,
      "grad_norm": 0.0006189548294059932,
      "learning_rate": 3.2865048957002983e-06,
      "loss": 0.0002,
      "step": 9190
    },
    {
      "epoch": 35.00498084291188,
      "grad_norm": 0.0013160452945157886,
      "learning_rate": 3.2779906343124733e-06,
      "loss": 0.0002,
      "step": 9200
    },
    {
      "epoch": 35.00574712643678,
      "grad_norm": 0.0006706579006277025,
      "learning_rate": 3.269476372924649e-06,
      "loss": 0.6169,
      "step": 9210
    },
    {
      "epoch": 35.006513409961684,
      "grad_norm": 86.67324829101562,
      "learning_rate": 3.2609621115368246e-06,
      "loss": 0.8886,
      "step": 9220
    },
    {
      "epoch": 35.00727969348659,
      "grad_norm": 0.008850634098052979,
      "learning_rate": 3.2524478501489996e-06,
      "loss": 0.0026,
      "step": 9230
    },
    {
      "epoch": 35.00804597701149,
      "grad_norm": 0.007037854287773371,
      "learning_rate": 3.243933588761175e-06,
      "loss": 0.0014,
      "step": 9240
    },
    {
      "epoch": 35.008812260536395,
      "grad_norm": 0.05180385708808899,
      "learning_rate": 3.235419327373351e-06,
      "loss": 0.0636,
      "step": 9250
    },
    {
      "epoch": 35.009578544061306,
      "grad_norm": 0.036820054054260254,
      "learning_rate": 3.2269050659855262e-06,
      "loss": 0.9398,
      "step": 9260
    },
    {
      "epoch": 35.01034482758621,
      "grad_norm": 0.019011739641427994,
      "learning_rate": 3.2183908045977012e-06,
      "loss": 0.348,
      "step": 9270
    },
    {
      "epoch": 35.01111111111111,
      "grad_norm": 0.0077316779643297195,
      "learning_rate": 3.2098765432098767e-06,
      "loss": 0.5693,
      "step": 9280
    },
    {
      "epoch": 35.01187739463602,
      "grad_norm": 0.008710850961506367,
      "learning_rate": 3.2013622818220525e-06,
      "loss": 0.5292,
      "step": 9290
    },
    {
      "epoch": 35.01264367816092,
      "grad_norm": 0.018290938809514046,
      "learning_rate": 3.1928480204342275e-06,
      "loss": 0.0002,
      "step": 9300
    },
    {
      "epoch": 35.013409961685824,
      "grad_norm": 0.0012147327652201056,
      "learning_rate": 3.184333759046403e-06,
      "loss": 0.0019,
      "step": 9310
    },
    {
      "epoch": 35.01417624521073,
      "grad_norm": 0.017071552574634552,
      "learning_rate": 3.1758194976585783e-06,
      "loss": 0.0006,
      "step": 9320
    },
    {
      "epoch": 35.01494252873563,
      "grad_norm": 0.0005288755637593567,
      "learning_rate": 3.167305236270754e-06,
      "loss": 0.0002,
      "step": 9330
    },
    {
      "epoch": 35.015708812260534,
      "grad_norm": 0.0023952096235007048,
      "learning_rate": 3.158790974882929e-06,
      "loss": 0.0001,
      "step": 9340
    },
    {
      "epoch": 35.01647509578544,
      "grad_norm": 0.0009895041584968567,
      "learning_rate": 3.1502767134951046e-06,
      "loss": 0.0001,
      "step": 9350
    },
    {
      "epoch": 35.01724137931034,
      "grad_norm": 0.003969644661992788,
      "learning_rate": 3.14176245210728e-06,
      "loss": 0.1839,
      "step": 9360
    },
    {
      "epoch": 35.01800766283525,
      "grad_norm": 0.007862897589802742,
      "learning_rate": 3.133248190719455e-06,
      "loss": 0.0001,
      "step": 9370
    },
    {
      "epoch": 35.018773946360156,
      "grad_norm": 0.0016002559568732977,
      "learning_rate": 3.124733929331631e-06,
      "loss": 0.0001,
      "step": 9380
    },
    {
      "epoch": 35.01954022988506,
      "grad_norm": 0.000823653768748045,
      "learning_rate": 3.1162196679438062e-06,
      "loss": 0.014,
      "step": 9390
    },
    {
      "epoch": 35.02,
      "eval_accuracy": 0.7111111111111111,
      "eval_loss": 2.109400510787964,
      "eval_runtime": 29.0543,
      "eval_samples_per_second": 1.549,
      "eval_steps_per_second": 1.549,
      "step": 9396
    },
    {
      "epoch": 36.00030651340996,
      "grad_norm": 0.01986868306994438,
      "learning_rate": 3.1077054065559812e-06,
      "loss": 0.0002,
      "step": 9400
    },
    {
      "epoch": 36.001072796934864,
      "grad_norm": 863.7614135742188,
      "learning_rate": 3.0991911451681567e-06,
      "loss": 0.6115,
      "step": 9410
    },
    {
      "epoch": 36.00183908045977,
      "grad_norm": 0.01149124838411808,
      "learning_rate": 3.0906768837803325e-06,
      "loss": 0.8093,
      "step": 9420
    },
    {
      "epoch": 36.00260536398467,
      "grad_norm": 0.001022035488858819,
      "learning_rate": 3.082162622392508e-06,
      "loss": 1.536,
      "step": 9430
    },
    {
      "epoch": 36.00337164750958,
      "grad_norm": 0.029342470690608025,
      "learning_rate": 3.073648361004683e-06,
      "loss": 0.0008,
      "step": 9440
    },
    {
      "epoch": 36.004137931034485,
      "grad_norm": 0.000798724009655416,
      "learning_rate": 3.0651340996168583e-06,
      "loss": 0.7052,
      "step": 9450
    },
    {
      "epoch": 36.00490421455939,
      "grad_norm": 0.0022243347484618425,
      "learning_rate": 3.056619838229034e-06,
      "loss": 0.0001,
      "step": 9460
    },
    {
      "epoch": 36.00567049808429,
      "grad_norm": 0.0008435220806859434,
      "learning_rate": 3.048105576841209e-06,
      "loss": 0.6712,
      "step": 9470
    },
    {
      "epoch": 36.006436781609196,
      "grad_norm": 0.003984359093010426,
      "learning_rate": 3.0395913154533846e-06,
      "loss": 0.0002,
      "step": 9480
    },
    {
      "epoch": 36.0072030651341,
      "grad_norm": 0.015606824308633804,
      "learning_rate": 3.03107705406556e-06,
      "loss": 0.0002,
      "step": 9490
    },
    {
      "epoch": 36.007969348659,
      "grad_norm": 305.4211730957031,
      "learning_rate": 3.022562792677736e-06,
      "loss": 0.5422,
      "step": 9500
    },
    {
      "epoch": 36.00873563218391,
      "grad_norm": 0.0029582574497908354,
      "learning_rate": 3.014048531289911e-06,
      "loss": 0.0001,
      "step": 9510
    },
    {
      "epoch": 36.00950191570881,
      "grad_norm": 0.009127511642873287,
      "learning_rate": 3.0055342699020862e-06,
      "loss": 0.0003,
      "step": 9520
    },
    {
      "epoch": 36.010268199233714,
      "grad_norm": 0.044698331505060196,
      "learning_rate": 2.9970200085142612e-06,
      "loss": 0.0012,
      "step": 9530
    },
    {
      "epoch": 36.01103448275862,
      "grad_norm": 1064.9903564453125,
      "learning_rate": 2.988505747126437e-06,
      "loss": 0.5409,
      "step": 9540
    },
    {
      "epoch": 36.01180076628353,
      "grad_norm": 0.0006466146442107856,
      "learning_rate": 2.9799914857386125e-06,
      "loss": 0.912,
      "step": 9550
    },
    {
      "epoch": 36.01256704980843,
      "grad_norm": 0.002113508293405175,
      "learning_rate": 2.971477224350788e-06,
      "loss": 0.0237,
      "step": 9560
    },
    {
      "epoch": 36.013333333333335,
      "grad_norm": 0.0005975261447019875,
      "learning_rate": 2.962962962962963e-06,
      "loss": 0.0001,
      "step": 9570
    },
    {
      "epoch": 36.01409961685824,
      "grad_norm": 0.0025878562591969967,
      "learning_rate": 2.9544487015751387e-06,
      "loss": 0.0001,
      "step": 9580
    },
    {
      "epoch": 36.01486590038314,
      "grad_norm": 0.12519130110740662,
      "learning_rate": 2.945934440187314e-06,
      "loss": 0.3203,
      "step": 9590
    },
    {
      "epoch": 36.015632183908046,
      "grad_norm": 0.004954866599291563,
      "learning_rate": 2.9374201787994896e-06,
      "loss": 0.0024,
      "step": 9600
    },
    {
      "epoch": 36.01639846743295,
      "grad_norm": 0.7206712961196899,
      "learning_rate": 2.9289059174116646e-06,
      "loss": 0.0503,
      "step": 9610
    },
    {
      "epoch": 36.01716475095785,
      "grad_norm": 0.00043419323628768325,
      "learning_rate": 2.92039165602384e-06,
      "loss": 0.0001,
      "step": 9620
    },
    {
      "epoch": 36.01793103448276,
      "grad_norm": 0.006202781107276678,
      "learning_rate": 2.911877394636016e-06,
      "loss": 0.0002,
      "step": 9630
    },
    {
      "epoch": 36.01869731800766,
      "grad_norm": 99.42586517333984,
      "learning_rate": 2.903363133248191e-06,
      "loss": 0.01,
      "step": 9640
    },
    {
      "epoch": 36.019463601532564,
      "grad_norm": 0.0005115497042424977,
      "learning_rate": 2.8948488718603662e-06,
      "loss": 0.512,
      "step": 9650
    },
    {
      "epoch": 36.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.1110174655914307,
      "eval_runtime": 27.8759,
      "eval_samples_per_second": 1.614,
      "eval_steps_per_second": 1.614,
      "step": 9657
    },
    {
      "epoch": 37.00022988505747,
      "grad_norm": 0.0038163657300174236,
      "learning_rate": 2.8863346104725417e-06,
      "loss": 0.8013,
      "step": 9660
    },
    {
      "epoch": 37.000996168582375,
      "grad_norm": 0.00041584885912016034,
      "learning_rate": 2.8778203490847175e-06,
      "loss": 0.0001,
      "step": 9670
    },
    {
      "epoch": 37.00176245210728,
      "grad_norm": 0.0018008637707680464,
      "learning_rate": 2.8693060876968925e-06,
      "loss": 0.7253,
      "step": 9680
    },
    {
      "epoch": 37.00252873563218,
      "grad_norm": 0.0014151118230074644,
      "learning_rate": 2.860791826309068e-06,
      "loss": 0.0011,
      "step": 9690
    },
    {
      "epoch": 37.003295019157086,
      "grad_norm": 0.07184292376041412,
      "learning_rate": 2.852277564921243e-06,
      "loss": 0.0007,
      "step": 9700
    },
    {
      "epoch": 37.00406130268199,
      "grad_norm": 0.0006791798514313996,
      "learning_rate": 2.8437633035334187e-06,
      "loss": 0.0241,
      "step": 9710
    },
    {
      "epoch": 37.00482758620689,
      "grad_norm": 0.0007547545828856528,
      "learning_rate": 2.835249042145594e-06,
      "loss": 0.0001,
      "step": 9720
    },
    {
      "epoch": 37.005593869731804,
      "grad_norm": 0.00040744239231571555,
      "learning_rate": 2.8267347807577696e-06,
      "loss": 0.3058,
      "step": 9730
    },
    {
      "epoch": 37.00636015325671,
      "grad_norm": 0.009197317063808441,
      "learning_rate": 2.8182205193699446e-06,
      "loss": 0.7546,
      "step": 9740
    },
    {
      "epoch": 37.00712643678161,
      "grad_norm": 0.006815429776906967,
      "learning_rate": 2.8097062579821204e-06,
      "loss": 0.0006,
      "step": 9750
    },
    {
      "epoch": 37.007892720306515,
      "grad_norm": 0.0010986275738105178,
      "learning_rate": 2.801191996594296e-06,
      "loss": 0.0002,
      "step": 9760
    },
    {
      "epoch": 37.00865900383142,
      "grad_norm": 0.0017043360276147723,
      "learning_rate": 2.792677735206471e-06,
      "loss": 0.0001,
      "step": 9770
    },
    {
      "epoch": 37.00942528735632,
      "grad_norm": 25.789806365966797,
      "learning_rate": 2.7841634738186462e-06,
      "loss": 0.0028,
      "step": 9780
    },
    {
      "epoch": 37.010191570881226,
      "grad_norm": 0.02588670514523983,
      "learning_rate": 2.775649212430822e-06,
      "loss": 0.0001,
      "step": 9790
    },
    {
      "epoch": 37.01095785440613,
      "grad_norm": 0.4962689280509949,
      "learning_rate": 2.7671349510429975e-06,
      "loss": 0.0002,
      "step": 9800
    },
    {
      "epoch": 37.01172413793103,
      "grad_norm": 0.0005121955182403326,
      "learning_rate": 2.7586206896551725e-06,
      "loss": 0.1431,
      "step": 9810
    },
    {
      "epoch": 37.01249042145594,
      "grad_norm": 0.0004625523288268596,
      "learning_rate": 2.750106428267348e-06,
      "loss": 0.657,
      "step": 9820
    },
    {
      "epoch": 37.01325670498084,
      "grad_norm": 0.0032494685146957636,
      "learning_rate": 2.7415921668795238e-06,
      "loss": 0.5249,
      "step": 9830
    },
    {
      "epoch": 37.014022988505744,
      "grad_norm": 0.003939610905945301,
      "learning_rate": 2.7330779054916987e-06,
      "loss": 0.0002,
      "step": 9840
    },
    {
      "epoch": 37.014789272030654,
      "grad_norm": 0.0006820214912295341,
      "learning_rate": 2.724563644103874e-06,
      "loss": 0.0001,
      "step": 9850
    },
    {
      "epoch": 37.01555555555556,
      "grad_norm": 5.725392818450928,
      "learning_rate": 2.7160493827160496e-06,
      "loss": 0.5215,
      "step": 9860
    },
    {
      "epoch": 37.01632183908046,
      "grad_norm": 0.0006258029025048018,
      "learning_rate": 2.7075351213282254e-06,
      "loss": 0.0006,
      "step": 9870
    },
    {
      "epoch": 37.017088122605365,
      "grad_norm": 1426.855224609375,
      "learning_rate": 2.6990208599404004e-06,
      "loss": 0.9009,
      "step": 9880
    },
    {
      "epoch": 37.01785440613027,
      "grad_norm": 890.5499267578125,
      "learning_rate": 2.690506598552576e-06,
      "loss": 0.1271,
      "step": 9890
    },
    {
      "epoch": 37.01862068965517,
      "grad_norm": 0.04052882269024849,
      "learning_rate": 2.6819923371647512e-06,
      "loss": 0.7701,
      "step": 9900
    },
    {
      "epoch": 37.019386973180076,
      "grad_norm": 0.001093729748390615,
      "learning_rate": 2.6734780757769262e-06,
      "loss": 0.0003,
      "step": 9910
    },
    {
      "epoch": 37.02,
      "eval_accuracy": 0.5777777777777777,
      "eval_loss": 3.0441110134124756,
      "eval_runtime": 28.8351,
      "eval_samples_per_second": 1.561,
      "eval_steps_per_second": 1.561,
      "step": 9918
    },
    {
      "epoch": 38.000153256704984,
      "grad_norm": 1204.0167236328125,
      "learning_rate": 2.664963814389102e-06,
      "loss": 0.6456,
      "step": 9920
    },
    {
      "epoch": 38.00091954022989,
      "grad_norm": 0.014917056076228619,
      "learning_rate": 2.6564495530012775e-06,
      "loss": 0.0003,
      "step": 9930
    },
    {
      "epoch": 38.00168582375479,
      "grad_norm": 0.005296202842146158,
      "learning_rate": 2.6479352916134525e-06,
      "loss": 0.2374,
      "step": 9940
    },
    {
      "epoch": 38.002452107279694,
      "grad_norm": 0.003745126770809293,
      "learning_rate": 2.639421030225628e-06,
      "loss": 0.0003,
      "step": 9950
    },
    {
      "epoch": 38.0032183908046,
      "grad_norm": 0.003593859262764454,
      "learning_rate": 2.6309067688378037e-06,
      "loss": 0.0001,
      "step": 9960
    },
    {
      "epoch": 38.0039846743295,
      "grad_norm": 929.7574462890625,
      "learning_rate": 2.622392507449979e-06,
      "loss": 0.5339,
      "step": 9970
    },
    {
      "epoch": 38.004750957854405,
      "grad_norm": 0.641494631767273,
      "learning_rate": 2.613878246062154e-06,
      "loss": 0.0003,
      "step": 9980
    },
    {
      "epoch": 38.00551724137931,
      "grad_norm": 0.0007532311719842255,
      "learning_rate": 2.6053639846743296e-06,
      "loss": 0.8401,
      "step": 9990
    },
    {
      "epoch": 38.00628352490421,
      "grad_norm": 0.0004510098951868713,
      "learning_rate": 2.5968497232865054e-06,
      "loss": 0.0002,
      "step": 10000
    },
    {
      "epoch": 38.007049808429116,
      "grad_norm": 0.0011898913653567433,
      "learning_rate": 2.5883354618986804e-06,
      "loss": 0.0305,
      "step": 10010
    },
    {
      "epoch": 38.00781609195402,
      "grad_norm": 0.11280697584152222,
      "learning_rate": 2.579821200510856e-06,
      "loss": 0.0004,
      "step": 10020
    },
    {
      "epoch": 38.00858237547893,
      "grad_norm": 0.0005606805207207799,
      "learning_rate": 2.5713069391230312e-06,
      "loss": 0.0002,
      "step": 10030
    },
    {
      "epoch": 38.009348659003834,
      "grad_norm": 11.6032075881958,
      "learning_rate": 2.562792677735207e-06,
      "loss": 0.0013,
      "step": 10040
    },
    {
      "epoch": 38.01011494252874,
      "grad_norm": 0.0013480938505381346,
      "learning_rate": 2.554278416347382e-06,
      "loss": 0.0001,
      "step": 10050
    },
    {
      "epoch": 38.01088122605364,
      "grad_norm": 0.00067657366162166,
      "learning_rate": 2.5457641549595575e-06,
      "loss": 0.0003,
      "step": 10060
    },
    {
      "epoch": 38.011647509578545,
      "grad_norm": 0.029493281617760658,
      "learning_rate": 2.5372498935717325e-06,
      "loss": 0.0003,
      "step": 10070
    },
    {
      "epoch": 38.01241379310345,
      "grad_norm": 0.05872733145952225,
      "learning_rate": 2.5287356321839083e-06,
      "loss": 0.0001,
      "step": 10080
    },
    {
      "epoch": 38.01318007662835,
      "grad_norm": 0.017297696322202682,
      "learning_rate": 2.5202213707960837e-06,
      "loss": 0.0002,
      "step": 10090
    },
    {
      "epoch": 38.013946360153255,
      "grad_norm": 0.001809093402698636,
      "learning_rate": 2.511707109408259e-06,
      "loss": 0.0,
      "step": 10100
    },
    {
      "epoch": 38.01471264367816,
      "grad_norm": 0.00425736466422677,
      "learning_rate": 2.503192848020434e-06,
      "loss": 0.0176,
      "step": 10110
    },
    {
      "epoch": 38.01547892720306,
      "grad_norm": 0.0014015929773449898,
      "learning_rate": 2.49467858663261e-06,
      "loss": 0.0002,
      "step": 10120
    },
    {
      "epoch": 38.016245210727966,
      "grad_norm": 417.6300048828125,
      "learning_rate": 2.4861643252447854e-06,
      "loss": 0.7875,
      "step": 10130
    },
    {
      "epoch": 38.01701149425288,
      "grad_norm": 0.012668310664594173,
      "learning_rate": 2.4776500638569604e-06,
      "loss": 0.0316,
      "step": 10140
    },
    {
      "epoch": 38.01777777777778,
      "grad_norm": 0.0010990687878802419,
      "learning_rate": 2.469135802469136e-06,
      "loss": 0.6725,
      "step": 10150
    },
    {
      "epoch": 38.018544061302684,
      "grad_norm": 0.0004859846376348287,
      "learning_rate": 2.4606215410813112e-06,
      "loss": 0.0001,
      "step": 10160
    },
    {
      "epoch": 38.01931034482759,
      "grad_norm": 0.018242767080664635,
      "learning_rate": 2.4521072796934867e-06,
      "loss": 0.0001,
      "step": 10170
    },
    {
      "epoch": 38.02,
      "eval_accuracy": 0.6888888888888889,
      "eval_loss": 2.4423201084136963,
      "eval_runtime": 27.8017,
      "eval_samples_per_second": 1.619,
      "eval_steps_per_second": 1.619,
      "step": 10179
    },
    {
      "epoch": 39.00007662835249,
      "grad_norm": 0.0008480402757413685,
      "learning_rate": 2.443593018305662e-06,
      "loss": 0.0001,
      "step": 10180
    },
    {
      "epoch": 39.00084291187739,
      "grad_norm": 0.0028732302598655224,
      "learning_rate": 2.4350787569178375e-06,
      "loss": 0.0001,
      "step": 10190
    },
    {
      "epoch": 39.001609195402295,
      "grad_norm": 448.4722900390625,
      "learning_rate": 2.426564495530013e-06,
      "loss": 0.6154,
      "step": 10200
    },
    {
      "epoch": 39.002375478927206,
      "grad_norm": 0.007314682938158512,
      "learning_rate": 2.4180502341421883e-06,
      "loss": 0.0001,
      "step": 10210
    },
    {
      "epoch": 39.00314176245211,
      "grad_norm": 0.0008429197478108108,
      "learning_rate": 2.4095359727543637e-06,
      "loss": 0.4188,
      "step": 10220
    },
    {
      "epoch": 39.00390804597701,
      "grad_norm": 789.7183227539062,
      "learning_rate": 2.401021711366539e-06,
      "loss": 0.3612,
      "step": 10230
    },
    {
      "epoch": 39.00467432950192,
      "grad_norm": 0.0009932577377185225,
      "learning_rate": 2.3925074499787146e-06,
      "loss": 0.8489,
      "step": 10240
    },
    {
      "epoch": 39.00544061302682,
      "grad_norm": 0.0006202096701599658,
      "learning_rate": 2.38399318859089e-06,
      "loss": 0.0001,
      "step": 10250
    },
    {
      "epoch": 39.006206896551724,
      "grad_norm": 0.006974675226956606,
      "learning_rate": 2.3754789272030654e-06,
      "loss": 0.0121,
      "step": 10260
    },
    {
      "epoch": 39.00697318007663,
      "grad_norm": 0.01899573765695095,
      "learning_rate": 2.366964665815241e-06,
      "loss": 0.8677,
      "step": 10270
    },
    {
      "epoch": 39.00773946360153,
      "grad_norm": 0.005227435380220413,
      "learning_rate": 2.3584504044274162e-06,
      "loss": 0.0004,
      "step": 10280
    },
    {
      "epoch": 39.008505747126435,
      "grad_norm": 0.017451848834753036,
      "learning_rate": 2.3499361430395912e-06,
      "loss": 0.0001,
      "step": 10290
    },
    {
      "epoch": 39.00927203065134,
      "grad_norm": 0.00589205976575613,
      "learning_rate": 2.341421881651767e-06,
      "loss": 0.6305,
      "step": 10300
    },
    {
      "epoch": 39.01003831417624,
      "grad_norm": 0.0006803887663409114,
      "learning_rate": 2.332907620263942e-06,
      "loss": 0.0001,
      "step": 10310
    },
    {
      "epoch": 39.01080459770115,
      "grad_norm": 0.007072710897773504,
      "learning_rate": 2.324393358876118e-06,
      "loss": 0.3078,
      "step": 10320
    },
    {
      "epoch": 39.011570881226056,
      "grad_norm": 0.0009751072502695024,
      "learning_rate": 2.315879097488293e-06,
      "loss": 0.0001,
      "step": 10330
    },
    {
      "epoch": 39.01233716475096,
      "grad_norm": 0.00029019732028245926,
      "learning_rate": 2.3073648361004688e-06,
      "loss": 0.0004,
      "step": 10340
    },
    {
      "epoch": 39.013103448275864,
      "grad_norm": 0.008286180905997753,
      "learning_rate": 2.2988505747126437e-06,
      "loss": 0.0003,
      "step": 10350
    },
    {
      "epoch": 39.01386973180077,
      "grad_norm": 0.007536804303526878,
      "learning_rate": 2.290336313324819e-06,
      "loss": 0.0752,
      "step": 10360
    },
    {
      "epoch": 39.01463601532567,
      "grad_norm": 0.0009000327554531395,
      "learning_rate": 2.2818220519369946e-06,
      "loss": 0.0002,
      "step": 10370
    },
    {
      "epoch": 39.015402298850574,
      "grad_norm": 0.0007068035774864256,
      "learning_rate": 2.27330779054917e-06,
      "loss": 0.0002,
      "step": 10380
    },
    {
      "epoch": 39.01616858237548,
      "grad_norm": 0.0009844456799328327,
      "learning_rate": 2.2647935291613454e-06,
      "loss": 0.0001,
      "step": 10390
    },
    {
      "epoch": 39.01693486590038,
      "grad_norm": 0.7614496946334839,
      "learning_rate": 2.256279267773521e-06,
      "loss": 0.0005,
      "step": 10400
    },
    {
      "epoch": 39.017701149425285,
      "grad_norm": 0.010708021931350231,
      "learning_rate": 2.2477650063856962e-06,
      "loss": 0.7864,
      "step": 10410
    },
    {
      "epoch": 39.01846743295019,
      "grad_norm": 0.0005570295616053045,
      "learning_rate": 2.2392507449978717e-06,
      "loss": 0.0001,
      "step": 10420
    },
    {
      "epoch": 39.01923371647509,
      "grad_norm": 0.0003596442984417081,
      "learning_rate": 2.230736483610047e-06,
      "loss": 0.0002,
      "step": 10430
    },
    {
      "epoch": 39.02,
      "grad_norm": 0.011120975017547607,
      "learning_rate": 2.222222222222222e-06,
      "loss": 0.0009,
      "step": 10440
    },
    {
      "epoch": 39.02,
      "eval_accuracy": 0.6888888888888889,
      "eval_loss": 2.353762149810791,
      "eval_runtime": 28.4953,
      "eval_samples_per_second": 1.579,
      "eval_steps_per_second": 1.579,
      "step": 10440
    },
    {
      "epoch": 40.000766283524904,
      "grad_norm": 0.0003600206400733441,
      "learning_rate": 2.213707960834398e-06,
      "loss": 0.0001,
      "step": 10450
    },
    {
      "epoch": 40.00153256704981,
      "grad_norm": 0.00020263415353838354,
      "learning_rate": 2.205193699446573e-06,
      "loss": 0.0001,
      "step": 10460
    },
    {
      "epoch": 40.00229885057471,
      "grad_norm": 0.0002682032936718315,
      "learning_rate": 2.1966794380587487e-06,
      "loss": 0.0001,
      "step": 10470
    },
    {
      "epoch": 40.003065134099614,
      "grad_norm": 0.0013818013248965144,
      "learning_rate": 2.1881651766709237e-06,
      "loss": 0.0005,
      "step": 10480
    },
    {
      "epoch": 40.00383141762452,
      "grad_norm": 0.0014766278909519315,
      "learning_rate": 2.1796509152830996e-06,
      "loss": 0.0001,
      "step": 10490
    },
    {
      "epoch": 40.00459770114943,
      "grad_norm": 0.0006407822365872562,
      "learning_rate": 2.1711366538952746e-06,
      "loss": 0.0002,
      "step": 10500
    },
    {
      "epoch": 40.00536398467433,
      "grad_norm": 0.003510398091748357,
      "learning_rate": 2.1626223925074504e-06,
      "loss": 0.8606,
      "step": 10510
    },
    {
      "epoch": 40.006130268199236,
      "grad_norm": 0.015534725971519947,
      "learning_rate": 2.1541081311196254e-06,
      "loss": 0.7498,
      "step": 10520
    },
    {
      "epoch": 40.00689655172414,
      "grad_norm": 0.012120231054723263,
      "learning_rate": 2.145593869731801e-06,
      "loss": 0.0001,
      "step": 10530
    },
    {
      "epoch": 40.00766283524904,
      "grad_norm": 0.3469342589378357,
      "learning_rate": 2.1370796083439762e-06,
      "loss": 0.0004,
      "step": 10540
    },
    {
      "epoch": 40.00842911877395,
      "grad_norm": 0.00825453456491232,
      "learning_rate": 2.1285653469561517e-06,
      "loss": 0.0003,
      "step": 10550
    },
    {
      "epoch": 40.00919540229885,
      "grad_norm": 0.00035154339275322855,
      "learning_rate": 2.120051085568327e-06,
      "loss": 0.0002,
      "step": 10560
    },
    {
      "epoch": 40.009961685823754,
      "grad_norm": 0.0005046504666097462,
      "learning_rate": 2.1115368241805025e-06,
      "loss": 0.0002,
      "step": 10570
    },
    {
      "epoch": 40.01072796934866,
      "grad_norm": 0.001045138924382627,
      "learning_rate": 2.103022562792678e-06,
      "loss": 0.0006,
      "step": 10580
    },
    {
      "epoch": 40.01149425287356,
      "grad_norm": 0.004084183368831873,
      "learning_rate": 2.0945083014048533e-06,
      "loss": 0.567,
      "step": 10590
    },
    {
      "epoch": 40.012260536398465,
      "grad_norm": 0.000454683176940307,
      "learning_rate": 2.0859940400170287e-06,
      "loss": 0.0002,
      "step": 10600
    },
    {
      "epoch": 40.01302681992337,
      "grad_norm": 0.024498263373970985,
      "learning_rate": 2.077479778629204e-06,
      "loss": 0.0001,
      "step": 10610
    },
    {
      "epoch": 40.01379310344828,
      "grad_norm": 0.0032995757646858692,
      "learning_rate": 2.0689655172413796e-06,
      "loss": 0.0098,
      "step": 10620
    },
    {
      "epoch": 40.01455938697318,
      "grad_norm": 0.2157309204339981,
      "learning_rate": 2.060451255853555e-06,
      "loss": 0.0035,
      "step": 10630
    },
    {
      "epoch": 40.015325670498086,
      "grad_norm": 0.00028585558175109327,
      "learning_rate": 2.0519369944657304e-06,
      "loss": 0.0001,
      "step": 10640
    },
    {
      "epoch": 40.01609195402299,
      "grad_norm": 0.00040348677430301905,
      "learning_rate": 2.043422733077906e-06,
      "loss": 0.0144,
      "step": 10650
    },
    {
      "epoch": 40.01685823754789,
      "grad_norm": 0.001562313991598785,
      "learning_rate": 2.0349084716900813e-06,
      "loss": 0.0001,
      "step": 10660
    },
    {
      "epoch": 40.0176245210728,
      "grad_norm": 159.2068328857422,
      "learning_rate": 2.0263942103022567e-06,
      "loss": 0.5783,
      "step": 10670
    },
    {
      "epoch": 40.0183908045977,
      "grad_norm": 0.0005799325881525874,
      "learning_rate": 2.0178799489144317e-06,
      "loss": 1.0221,
      "step": 10680
    },
    {
      "epoch": 40.019157088122604,
      "grad_norm": 0.0030735430773347616,
      "learning_rate": 2.009365687526607e-06,
      "loss": 0.0003,
      "step": 10690
    },
    {
      "epoch": 40.01992337164751,
      "grad_norm": 0.0018771645845845342,
      "learning_rate": 2.0008514261387825e-06,
      "loss": 0.0001,
      "step": 10700
    },
    {
      "epoch": 40.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.481161594390869,
      "eval_runtime": 27.8586,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 1.615,
      "step": 10701
    },
    {
      "epoch": 41.000689655172415,
      "grad_norm": 0.012024985626339912,
      "learning_rate": 1.992337164750958e-06,
      "loss": 0.0021,
      "step": 10710
    },
    {
      "epoch": 41.00145593869732,
      "grad_norm": 0.0026518628001213074,
      "learning_rate": 1.9838229033631333e-06,
      "loss": 0.0006,
      "step": 10720
    },
    {
      "epoch": 41.00222222222222,
      "grad_norm": 0.05540211498737335,
      "learning_rate": 1.9753086419753087e-06,
      "loss": 0.0002,
      "step": 10730
    },
    {
      "epoch": 41.002988505747126,
      "grad_norm": 0.0030381560791283846,
      "learning_rate": 1.966794380587484e-06,
      "loss": 0.6141,
      "step": 10740
    },
    {
      "epoch": 41.00375478927203,
      "grad_norm": 0.0010614864295348525,
      "learning_rate": 1.9582801191996596e-06,
      "loss": 0.0001,
      "step": 10750
    },
    {
      "epoch": 41.00452107279693,
      "grad_norm": 0.0018325786804780364,
      "learning_rate": 1.949765857811835e-06,
      "loss": 0.0376,
      "step": 10760
    },
    {
      "epoch": 41.00528735632184,
      "grad_norm": 0.007499290630221367,
      "learning_rate": 1.9412515964240104e-06,
      "loss": 0.0002,
      "step": 10770
    },
    {
      "epoch": 41.00605363984674,
      "grad_norm": 0.0025593435857445,
      "learning_rate": 1.932737335036186e-06,
      "loss": 0.0002,
      "step": 10780
    },
    {
      "epoch": 41.006819923371644,
      "grad_norm": 0.00169795798137784,
      "learning_rate": 1.9242230736483612e-06,
      "loss": 0.0001,
      "step": 10790
    },
    {
      "epoch": 41.007586206896555,
      "grad_norm": 0.03861542046070099,
      "learning_rate": 1.9157088122605367e-06,
      "loss": 0.2676,
      "step": 10800
    },
    {
      "epoch": 41.00835249042146,
      "grad_norm": 0.0034034252166748047,
      "learning_rate": 1.9071945508727119e-06,
      "loss": 0.1978,
      "step": 10810
    },
    {
      "epoch": 41.00911877394636,
      "grad_norm": 0.0061155627481639385,
      "learning_rate": 1.8986802894848875e-06,
      "loss": 0.0001,
      "step": 10820
    },
    {
      "epoch": 41.009885057471266,
      "grad_norm": 0.00044847006211057305,
      "learning_rate": 1.8901660280970627e-06,
      "loss": 0.0,
      "step": 10830
    },
    {
      "epoch": 41.01065134099617,
      "grad_norm": 0.0002485412987880409,
      "learning_rate": 1.8816517667092381e-06,
      "loss": 0.0,
      "step": 10840
    },
    {
      "epoch": 41.01141762452107,
      "grad_norm": 0.0023819031193852425,
      "learning_rate": 1.8731375053214135e-06,
      "loss": 0.0002,
      "step": 10850
    },
    {
      "epoch": 41.01218390804598,
      "grad_norm": 0.05877603963017464,
      "learning_rate": 1.864623243933589e-06,
      "loss": 0.0002,
      "step": 10860
    },
    {
      "epoch": 41.01295019157088,
      "grad_norm": 0.022863805294036865,
      "learning_rate": 1.8561089825457644e-06,
      "loss": 0.0002,
      "step": 10870
    },
    {
      "epoch": 41.013716475095784,
      "grad_norm": 0.008092855103313923,
      "learning_rate": 1.8475947211579398e-06,
      "loss": 0.0001,
      "step": 10880
    },
    {
      "epoch": 41.01448275862069,
      "grad_norm": 0.0005834649200551212,
      "learning_rate": 1.839080459770115e-06,
      "loss": 0.0001,
      "step": 10890
    },
    {
      "epoch": 41.01524904214559,
      "grad_norm": 0.0027983556501567364,
      "learning_rate": 1.8305661983822906e-06,
      "loss": 0.0006,
      "step": 10900
    },
    {
      "epoch": 41.0160153256705,
      "grad_norm": 0.0025655950885266066,
      "learning_rate": 1.8220519369944658e-06,
      "loss": 0.0001,
      "step": 10910
    },
    {
      "epoch": 41.016781609195405,
      "grad_norm": 0.005393259227275848,
      "learning_rate": 1.8135376756066415e-06,
      "loss": 0.0135,
      "step": 10920
    },
    {
      "epoch": 41.01754789272031,
      "grad_norm": 0.002339740050956607,
      "learning_rate": 1.8050234142188167e-06,
      "loss": 0.0226,
      "step": 10930
    },
    {
      "epoch": 41.01831417624521,
      "grad_norm": 0.05366809293627739,
      "learning_rate": 1.7965091528309919e-06,
      "loss": 0.0,
      "step": 10940
    },
    {
      "epoch": 41.019080459770116,
      "grad_norm": 118.51295471191406,
      "learning_rate": 1.7879948914431675e-06,
      "loss": 0.8814,
      "step": 10950
    },
    {
      "epoch": 41.01984674329502,
      "grad_norm": 0.0012721455423161387,
      "learning_rate": 1.7794806300553427e-06,
      "loss": 0.0001,
      "step": 10960
    },
    {
      "epoch": 41.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.5846524238586426,
      "eval_runtime": 29.0995,
      "eval_samples_per_second": 1.546,
      "eval_steps_per_second": 1.546,
      "step": 10962
    },
    {
      "epoch": 42.00061302681992,
      "grad_norm": 0.0012239107163622975,
      "learning_rate": 1.7709663686675183e-06,
      "loss": 0.0001,
      "step": 10970
    },
    {
      "epoch": 42.00137931034483,
      "grad_norm": 0.12653380632400513,
      "learning_rate": 1.7624521072796935e-06,
      "loss": 0.0003,
      "step": 10980
    },
    {
      "epoch": 42.002145593869734,
      "grad_norm": 0.0005643948097713292,
      "learning_rate": 1.753937845891869e-06,
      "loss": 0.0001,
      "step": 10990
    },
    {
      "epoch": 42.00291187739464,
      "grad_norm": 0.0044510625302791595,
      "learning_rate": 1.7454235845040444e-06,
      "loss": 0.0004,
      "step": 11000
    },
    {
      "epoch": 42.00367816091954,
      "grad_norm": 0.0056150369346141815,
      "learning_rate": 1.7369093231162198e-06,
      "loss": 0.0001,
      "step": 11010
    },
    {
      "epoch": 42.004444444444445,
      "grad_norm": 0.0006997102755121887,
      "learning_rate": 1.7283950617283952e-06,
      "loss": 0.4059,
      "step": 11020
    },
    {
      "epoch": 42.00521072796935,
      "grad_norm": 0.0017448539147153497,
      "learning_rate": 1.7198808003405706e-06,
      "loss": 0.0,
      "step": 11030
    },
    {
      "epoch": 42.00597701149425,
      "grad_norm": 0.0004077133780810982,
      "learning_rate": 1.7113665389527458e-06,
      "loss": 0.4904,
      "step": 11040
    },
    {
      "epoch": 42.006743295019156,
      "grad_norm": 0.0003028385399375111,
      "learning_rate": 1.7028522775649215e-06,
      "loss": 0.0001,
      "step": 11050
    },
    {
      "epoch": 42.00750957854406,
      "grad_norm": 0.00037251305184327066,
      "learning_rate": 1.6943380161770967e-06,
      "loss": 0.0002,
      "step": 11060
    },
    {
      "epoch": 42.00827586206896,
      "grad_norm": 0.0021622315980494022,
      "learning_rate": 1.6858237547892723e-06,
      "loss": 0.0001,
      "step": 11070
    },
    {
      "epoch": 42.00904214559387,
      "grad_norm": 0.0006449736538343132,
      "learning_rate": 1.6773094934014475e-06,
      "loss": 0.0003,
      "step": 11080
    },
    {
      "epoch": 42.00980842911878,
      "grad_norm": 0.04130319505929947,
      "learning_rate": 1.6687952320136231e-06,
      "loss": 0.0002,
      "step": 11090
    },
    {
      "epoch": 42.01057471264368,
      "grad_norm": 0.0020695319399237633,
      "learning_rate": 1.6602809706257983e-06,
      "loss": 0.0001,
      "step": 11100
    },
    {
      "epoch": 42.011340996168585,
      "grad_norm": 0.0004019753250759095,
      "learning_rate": 1.6517667092379737e-06,
      "loss": 0.0003,
      "step": 11110
    },
    {
      "epoch": 42.01210727969349,
      "grad_norm": 0.00026687647914513946,
      "learning_rate": 1.6432524478501492e-06,
      "loss": 0.0001,
      "step": 11120
    },
    {
      "epoch": 42.01287356321839,
      "grad_norm": 0.0002940501144621521,
      "learning_rate": 1.6347381864623246e-06,
      "loss": 0.0,
      "step": 11130
    },
    {
      "epoch": 42.013639846743295,
      "grad_norm": 0.0004536312189884484,
      "learning_rate": 1.6262239250744998e-06,
      "loss": 0.0001,
      "step": 11140
    },
    {
      "epoch": 42.0144061302682,
      "grad_norm": 0.0009486758499406278,
      "learning_rate": 1.6177096636866754e-06,
      "loss": 0.0002,
      "step": 11150
    },
    {
      "epoch": 42.0151724137931,
      "grad_norm": 0.0006705402047373354,
      "learning_rate": 1.6091954022988506e-06,
      "loss": 0.5375,
      "step": 11160
    },
    {
      "epoch": 42.015938697318006,
      "grad_norm": 0.0014383239904418588,
      "learning_rate": 1.6006811409110262e-06,
      "loss": 0.0737,
      "step": 11170
    },
    {
      "epoch": 42.01670498084291,
      "grad_norm": 0.0038608924951404333,
      "learning_rate": 1.5921668795232015e-06,
      "loss": 1.4455,
      "step": 11180
    },
    {
      "epoch": 42.01747126436781,
      "grad_norm": 0.0008818919886834919,
      "learning_rate": 1.583652618135377e-06,
      "loss": 0.0,
      "step": 11190
    },
    {
      "epoch": 42.01823754789272,
      "grad_norm": 0.0032676539849489927,
      "learning_rate": 1.5751383567475523e-06,
      "loss": 0.0001,
      "step": 11200
    },
    {
      "epoch": 42.01900383141763,
      "grad_norm": 0.011811945587396622,
      "learning_rate": 1.5666240953597275e-06,
      "loss": 0.0061,
      "step": 11210
    },
    {
      "epoch": 42.01977011494253,
      "grad_norm": 0.00035030950675718486,
      "learning_rate": 1.5581098339719031e-06,
      "loss": 0.0,
      "step": 11220
    },
    {
      "epoch": 42.02,
      "eval_accuracy": 0.6888888888888889,
      "eval_loss": 2.55254864692688,
      "eval_runtime": 29.1436,
      "eval_samples_per_second": 1.544,
      "eval_steps_per_second": 1.544,
      "step": 11223
    },
    {
      "epoch": 43.00053639846743,
      "grad_norm": 0.0018214564770460129,
      "learning_rate": 1.5495955725840783e-06,
      "loss": 0.0001,
      "step": 11230
    },
    {
      "epoch": 43.001302681992335,
      "grad_norm": 0.0032354502473026514,
      "learning_rate": 1.541081311196254e-06,
      "loss": 0.1826,
      "step": 11240
    },
    {
      "epoch": 43.00206896551724,
      "grad_norm": 0.0002784720272757113,
      "learning_rate": 1.5325670498084292e-06,
      "loss": 0.0001,
      "step": 11250
    },
    {
      "epoch": 43.00283524904214,
      "grad_norm": 0.0002746792451944202,
      "learning_rate": 1.5240527884206046e-06,
      "loss": 0.0001,
      "step": 11260
    },
    {
      "epoch": 43.00360153256705,
      "grad_norm": 0.021473722532391548,
      "learning_rate": 1.51553852703278e-06,
      "loss": 0.0,
      "step": 11270
    },
    {
      "epoch": 43.00436781609196,
      "grad_norm": 0.0003531036782078445,
      "learning_rate": 1.5070242656449554e-06,
      "loss": 0.7287,
      "step": 11280
    },
    {
      "epoch": 43.00513409961686,
      "grad_norm": 0.0039008602034300566,
      "learning_rate": 1.4985100042571306e-06,
      "loss": 0.0001,
      "step": 11290
    },
    {
      "epoch": 43.005900383141764,
      "grad_norm": 0.0010976424673572183,
      "learning_rate": 1.4899957428693062e-06,
      "loss": 0.0001,
      "step": 11300
    },
    {
      "epoch": 43.00666666666667,
      "grad_norm": 0.03243381157517433,
      "learning_rate": 1.4814814814814815e-06,
      "loss": 0.0001,
      "step": 11310
    },
    {
      "epoch": 43.00743295019157,
      "grad_norm": 0.005974556319415569,
      "learning_rate": 1.472967220093657e-06,
      "loss": 0.0001,
      "step": 11320
    },
    {
      "epoch": 43.008199233716475,
      "grad_norm": 0.0004650621267501265,
      "learning_rate": 1.4644529587058323e-06,
      "loss": 0.0001,
      "step": 11330
    },
    {
      "epoch": 43.00896551724138,
      "grad_norm": 0.00025246807490475476,
      "learning_rate": 1.455938697318008e-06,
      "loss": 0.0001,
      "step": 11340
    },
    {
      "epoch": 43.00973180076628,
      "grad_norm": 0.002089502289891243,
      "learning_rate": 1.4474244359301831e-06,
      "loss": 0.0002,
      "step": 11350
    },
    {
      "epoch": 43.010498084291186,
      "grad_norm": 0.0005093670915812254,
      "learning_rate": 1.4389101745423588e-06,
      "loss": 0.0001,
      "step": 11360
    },
    {
      "epoch": 43.01126436781609,
      "grad_norm": 0.005426987074315548,
      "learning_rate": 1.430395913154534e-06,
      "loss": 0.0001,
      "step": 11370
    },
    {
      "epoch": 43.01203065134099,
      "grad_norm": 0.020039698109030724,
      "learning_rate": 1.4218816517667094e-06,
      "loss": 0.0001,
      "step": 11380
    },
    {
      "epoch": 43.012796934865904,
      "grad_norm": 0.011925816535949707,
      "learning_rate": 1.4133673903788848e-06,
      "loss": 0.0001,
      "step": 11390
    },
    {
      "epoch": 43.01356321839081,
      "grad_norm": 0.0019410884706303477,
      "learning_rate": 1.4048531289910602e-06,
      "loss": 0.0001,
      "step": 11400
    },
    {
      "epoch": 43.01432950191571,
      "grad_norm": 0.010476148687303066,
      "learning_rate": 1.3963388676032354e-06,
      "loss": 0.0001,
      "step": 11410
    },
    {
      "epoch": 43.015095785440614,
      "grad_norm": 0.0018306553829461336,
      "learning_rate": 1.387824606215411e-06,
      "loss": 0.0002,
      "step": 11420
    },
    {
      "epoch": 43.01586206896552,
      "grad_norm": 0.00024431603378616273,
      "learning_rate": 1.3793103448275862e-06,
      "loss": 0.0,
      "step": 11430
    },
    {
      "epoch": 43.01662835249042,
      "grad_norm": 0.0005057769012637436,
      "learning_rate": 1.3707960834397619e-06,
      "loss": 0.0,
      "step": 11440
    },
    {
      "epoch": 43.017394636015325,
      "grad_norm": 0.00029404531233012676,
      "learning_rate": 1.362281822051937e-06,
      "loss": 0.369,
      "step": 11450
    },
    {
      "epoch": 43.01816091954023,
      "grad_norm": 0.0014582271687686443,
      "learning_rate": 1.3537675606641127e-06,
      "loss": 0.0001,
      "step": 11460
    },
    {
      "epoch": 43.01892720306513,
      "grad_norm": 0.0006710296729579568,
      "learning_rate": 1.345253299276288e-06,
      "loss": 0.0,
      "step": 11470
    },
    {
      "epoch": 43.019693486590036,
      "grad_norm": 1.5178964138031006,
      "learning_rate": 1.3367390378884631e-06,
      "loss": 0.002,
      "step": 11480
    },
    {
      "epoch": 43.02,
      "eval_accuracy": 0.6888888888888889,
      "eval_loss": 2.674553155899048,
      "eval_runtime": 27.901,
      "eval_samples_per_second": 1.613,
      "eval_steps_per_second": 1.613,
      "step": 11484
    },
    {
      "epoch": 44.000459770114944,
      "grad_norm": 0.006704441737383604,
      "learning_rate": 1.3282247765006387e-06,
      "loss": 0.0001,
      "step": 11490
    },
    {
      "epoch": 44.00122605363985,
      "grad_norm": 0.01098534557968378,
      "learning_rate": 1.319710515112814e-06,
      "loss": 0.0001,
      "step": 11500
    },
    {
      "epoch": 44.00199233716475,
      "grad_norm": 0.0022969290148466825,
      "learning_rate": 1.3111962537249896e-06,
      "loss": 0.6907,
      "step": 11510
    },
    {
      "epoch": 44.002758620689654,
      "grad_norm": 1385.7335205078125,
      "learning_rate": 1.3026819923371648e-06,
      "loss": 1.0054,
      "step": 11520
    },
    {
      "epoch": 44.00352490421456,
      "grad_norm": 0.00026755925500765443,
      "learning_rate": 1.2941677309493402e-06,
      "loss": 0.0009,
      "step": 11530
    },
    {
      "epoch": 44.00429118773946,
      "grad_norm": 0.00037283002166077495,
      "learning_rate": 1.2856534695615156e-06,
      "loss": 0.0001,
      "step": 11540
    },
    {
      "epoch": 44.005057471264365,
      "grad_norm": 0.001472074189223349,
      "learning_rate": 1.277139208173691e-06,
      "loss": 0.0002,
      "step": 11550
    },
    {
      "epoch": 44.00582375478927,
      "grad_norm": 0.01885879412293434,
      "learning_rate": 1.2686249467858662e-06,
      "loss": 0.0001,
      "step": 11560
    },
    {
      "epoch": 44.00659003831418,
      "grad_norm": 0.0011555615346878767,
      "learning_rate": 1.2601106853980419e-06,
      "loss": 0.0001,
      "step": 11570
    },
    {
      "epoch": 44.00735632183908,
      "grad_norm": 0.0003773407079279423,
      "learning_rate": 1.251596424010217e-06,
      "loss": 0.0001,
      "step": 11580
    },
    {
      "epoch": 44.00812260536399,
      "grad_norm": 0.0011189919896423817,
      "learning_rate": 1.2430821626223927e-06,
      "loss": 0.0007,
      "step": 11590
    },
    {
      "epoch": 44.00888888888889,
      "grad_norm": 0.0008237032452598214,
      "learning_rate": 1.234567901234568e-06,
      "loss": 0.0,
      "step": 11600
    },
    {
      "epoch": 44.009655172413794,
      "grad_norm": 0.0003113767597824335,
      "learning_rate": 1.2260536398467433e-06,
      "loss": 0.0001,
      "step": 11610
    },
    {
      "epoch": 44.0104214559387,
      "grad_norm": 0.0003217561752535403,
      "learning_rate": 1.2175393784589187e-06,
      "loss": 0.0,
      "step": 11620
    },
    {
      "epoch": 44.0111877394636,
      "grad_norm": 0.0002517100947443396,
      "learning_rate": 1.2090251170710942e-06,
      "loss": 0.0002,
      "step": 11630
    },
    {
      "epoch": 44.011954022988505,
      "grad_norm": 0.0004395510477479547,
      "learning_rate": 1.2005108556832696e-06,
      "loss": 0.0001,
      "step": 11640
    },
    {
      "epoch": 44.01272030651341,
      "grad_norm": 0.008616892620921135,
      "learning_rate": 1.191996594295445e-06,
      "loss": 0.0,
      "step": 11650
    },
    {
      "epoch": 44.01348659003831,
      "grad_norm": 0.0005844251718372107,
      "learning_rate": 1.1834823329076204e-06,
      "loss": 0.0005,
      "step": 11660
    },
    {
      "epoch": 44.014252873563215,
      "grad_norm": 0.00044547973084263504,
      "learning_rate": 1.1749680715197956e-06,
      "loss": 0.0001,
      "step": 11670
    },
    {
      "epoch": 44.01501915708812,
      "grad_norm": 0.002086098538711667,
      "learning_rate": 1.166453810131971e-06,
      "loss": 0.0,
      "step": 11680
    },
    {
      "epoch": 44.01578544061303,
      "grad_norm": 0.00023247070203069597,
      "learning_rate": 1.1579395487441465e-06,
      "loss": 0.0002,
      "step": 11690
    },
    {
      "epoch": 44.01655172413793,
      "grad_norm": 0.00041663722367957234,
      "learning_rate": 1.1494252873563219e-06,
      "loss": 0.0023,
      "step": 11700
    },
    {
      "epoch": 44.01731800766284,
      "grad_norm": 0.0008354912861250341,
      "learning_rate": 1.1409110259684973e-06,
      "loss": 0.0001,
      "step": 11710
    },
    {
      "epoch": 44.01808429118774,
      "grad_norm": 0.00040326014277525246,
      "learning_rate": 1.1323967645806727e-06,
      "loss": 0.0013,
      "step": 11720
    },
    {
      "epoch": 44.018850574712644,
      "grad_norm": 0.025961795821785927,
      "learning_rate": 1.1238825031928481e-06,
      "loss": 0.0546,
      "step": 11730
    },
    {
      "epoch": 44.01961685823755,
      "grad_norm": 0.03274637833237648,
      "learning_rate": 1.1153682418050235e-06,
      "loss": 0.0004,
      "step": 11740
    },
    {
      "epoch": 44.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.4888393878936768,
      "eval_runtime": 27.8832,
      "eval_samples_per_second": 1.614,
      "eval_steps_per_second": 1.614,
      "step": 11745
    },
    {
      "epoch": 45.000383141762455,
      "grad_norm": 0.0010363643523305655,
      "learning_rate": 1.106853980417199e-06,
      "loss": 0.0091,
      "step": 11750
    },
    {
      "epoch": 45.00114942528736,
      "grad_norm": 0.0014785947278141975,
      "learning_rate": 1.0983397190293744e-06,
      "loss": 0.0001,
      "step": 11760
    },
    {
      "epoch": 45.00191570881226,
      "grad_norm": 0.0003646929981186986,
      "learning_rate": 1.0898254576415498e-06,
      "loss": 0.0824,
      "step": 11770
    },
    {
      "epoch": 45.002681992337166,
      "grad_norm": 116.26171875,
      "learning_rate": 1.0813111962537252e-06,
      "loss": 0.0102,
      "step": 11780
    },
    {
      "epoch": 45.00344827586207,
      "grad_norm": 0.0005606987397186458,
      "learning_rate": 1.0727969348659004e-06,
      "loss": 0.0001,
      "step": 11790
    },
    {
      "epoch": 45.00421455938697,
      "grad_norm": 14.712228775024414,
      "learning_rate": 1.0642826734780758e-06,
      "loss": 0.0014,
      "step": 11800
    },
    {
      "epoch": 45.00498084291188,
      "grad_norm": 0.00022383002215065062,
      "learning_rate": 1.0557684120902512e-06,
      "loss": 0.0001,
      "step": 11810
    },
    {
      "epoch": 45.00574712643678,
      "grad_norm": 0.0012341875117272139,
      "learning_rate": 1.0472541507024267e-06,
      "loss": 0.3366,
      "step": 11820
    },
    {
      "epoch": 45.006513409961684,
      "grad_norm": 0.000215315303648822,
      "learning_rate": 1.038739889314602e-06,
      "loss": 0.0001,
      "step": 11830
    },
    {
      "epoch": 45.00727969348659,
      "grad_norm": 0.000865298556163907,
      "learning_rate": 1.0302256279267775e-06,
      "loss": 0.0001,
      "step": 11840
    },
    {
      "epoch": 45.00804597701149,
      "grad_norm": 0.0009852108778432012,
      "learning_rate": 1.021711366538953e-06,
      "loss": 0.0,
      "step": 11850
    },
    {
      "epoch": 45.008812260536395,
      "grad_norm": 0.001507429638877511,
      "learning_rate": 1.0131971051511283e-06,
      "loss": 0.0002,
      "step": 11860
    },
    {
      "epoch": 45.009578544061306,
      "grad_norm": 0.010270087979733944,
      "learning_rate": 1.0046828437633035e-06,
      "loss": 0.0001,
      "step": 11870
    },
    {
      "epoch": 45.01034482758621,
      "grad_norm": 0.017873380333185196,
      "learning_rate": 9.96168582375479e-07,
      "loss": 0.0001,
      "step": 11880
    },
    {
      "epoch": 45.01111111111111,
      "grad_norm": 1.1168253421783447,
      "learning_rate": 9.876543209876544e-07,
      "loss": 0.0003,
      "step": 11890
    },
    {
      "epoch": 45.01187739463602,
      "grad_norm": 0.00040387007175013423,
      "learning_rate": 9.791400595998298e-07,
      "loss": 0.0001,
      "step": 11900
    },
    {
      "epoch": 45.01264367816092,
      "grad_norm": 0.20708155632019043,
      "learning_rate": 9.706257982120052e-07,
      "loss": 0.0002,
      "step": 11910
    },
    {
      "epoch": 45.013409961685824,
      "grad_norm": 0.0003908909566234797,
      "learning_rate": 9.621115368241806e-07,
      "loss": 0.0,
      "step": 11920
    },
    {
      "epoch": 45.01417624521073,
      "grad_norm": 0.0021993808913975954,
      "learning_rate": 9.535972754363559e-07,
      "loss": 0.0001,
      "step": 11930
    },
    {
      "epoch": 45.01494252873563,
      "grad_norm": 0.0029007780831307173,
      "learning_rate": 9.450830140485314e-07,
      "loss": 0.7119,
      "step": 11940
    },
    {
      "epoch": 45.015708812260534,
      "grad_norm": 0.006735900416970253,
      "learning_rate": 9.365687526607068e-07,
      "loss": 0.0001,
      "step": 11950
    },
    {
      "epoch": 45.01647509578544,
      "grad_norm": 0.0016031097620725632,
      "learning_rate": 9.280544912728822e-07,
      "loss": 0.0,
      "step": 11960
    },
    {
      "epoch": 45.01724137931034,
      "grad_norm": 0.0003009812789969146,
      "learning_rate": 9.195402298850575e-07,
      "loss": 0.0,
      "step": 11970
    },
    {
      "epoch": 45.01800766283525,
      "grad_norm": 0.005815963726490736,
      "learning_rate": 9.110259684972329e-07,
      "loss": 0.0002,
      "step": 11980
    },
    {
      "epoch": 45.018773946360156,
      "grad_norm": 0.000267479510512203,
      "learning_rate": 9.025117071094083e-07,
      "loss": 0.4801,
      "step": 11990
    },
    {
      "epoch": 45.01954022988506,
      "grad_norm": 0.0044364649802446365,
      "learning_rate": 8.939974457215837e-07,
      "loss": 0.0001,
      "step": 12000
    },
    {
      "epoch": 45.02,
      "eval_accuracy": 0.6444444444444445,
      "eval_loss": 2.5661938190460205,
      "eval_runtime": 27.8145,
      "eval_samples_per_second": 1.618,
      "eval_steps_per_second": 1.618,
      "step": 12006
    },
    {
      "epoch": 46.00030651340996,
      "grad_norm": 0.0006088312948122621,
      "learning_rate": 8.854831843337592e-07,
      "loss": 0.0002,
      "step": 12010
    },
    {
      "epoch": 46.001072796934864,
      "grad_norm": 0.00147931557148695,
      "learning_rate": 8.769689229459345e-07,
      "loss": 0.0001,
      "step": 12020
    },
    {
      "epoch": 46.00183908045977,
      "grad_norm": 0.006793022621423006,
      "learning_rate": 8.684546615581099e-07,
      "loss": 0.4711,
      "step": 12030
    },
    {
      "epoch": 46.00260536398467,
      "grad_norm": 0.00036958555574528873,
      "learning_rate": 8.599404001702853e-07,
      "loss": 0.0002,
      "step": 12040
    },
    {
      "epoch": 46.00337164750958,
      "grad_norm": 0.002713366411626339,
      "learning_rate": 8.514261387824607e-07,
      "loss": 0.0,
      "step": 12050
    },
    {
      "epoch": 46.004137931034485,
      "grad_norm": 0.001008681021630764,
      "learning_rate": 8.429118773946361e-07,
      "loss": 0.0001,
      "step": 12060
    },
    {
      "epoch": 46.00490421455939,
      "grad_norm": 0.0019728182815015316,
      "learning_rate": 8.343976160068116e-07,
      "loss": 0.0,
      "step": 12070
    },
    {
      "epoch": 46.00567049808429,
      "grad_norm": 0.8289773464202881,
      "learning_rate": 8.258833546189869e-07,
      "loss": 0.001,
      "step": 12080
    },
    {
      "epoch": 46.006436781609196,
      "grad_norm": 0.0003419470158405602,
      "learning_rate": 8.173690932311623e-07,
      "loss": 0.0133,
      "step": 12090
    },
    {
      "epoch": 46.0072030651341,
      "grad_norm": 0.002687289845198393,
      "learning_rate": 8.088548318433377e-07,
      "loss": 0.0,
      "step": 12100
    },
    {
      "epoch": 46.007969348659,
      "grad_norm": 0.004384917207062244,
      "learning_rate": 8.003405704555131e-07,
      "loss": 0.0001,
      "step": 12110
    },
    {
      "epoch": 46.00873563218391,
      "grad_norm": 0.009863078594207764,
      "learning_rate": 7.918263090676885e-07,
      "loss": 0.0001,
      "step": 12120
    },
    {
      "epoch": 46.00950191570881,
      "grad_norm": 0.0006764632998965681,
      "learning_rate": 7.833120476798637e-07,
      "loss": 0.4057,
      "step": 12130
    },
    {
      "epoch": 46.010268199233714,
      "grad_norm": 0.0015612775459885597,
      "learning_rate": 7.747977862920392e-07,
      "loss": 0.0,
      "step": 12140
    },
    {
      "epoch": 46.01103448275862,
      "grad_norm": 0.0002601986925583333,
      "learning_rate": 7.662835249042146e-07,
      "loss": 0.2069,
      "step": 12150
    },
    {
      "epoch": 46.01180076628353,
      "grad_norm": 0.0012323512928560376,
      "learning_rate": 7.5776926351639e-07,
      "loss": 0.0001,
      "step": 12160
    },
    {
      "epoch": 46.01256704980843,
      "grad_norm": 0.00020239534205757082,
      "learning_rate": 7.492550021285653e-07,
      "loss": 0.0,
      "step": 12170
    },
    {
      "epoch": 46.013333333333335,
      "grad_norm": 0.001446614391170442,
      "learning_rate": 7.407407407407407e-07,
      "loss": 0.0001,
      "step": 12180
    },
    {
      "epoch": 46.01409961685824,
      "grad_norm": 0.0011185260955244303,
      "learning_rate": 7.322264793529161e-07,
      "loss": 0.0004,
      "step": 12190
    },
    {
      "epoch": 46.01486590038314,
      "grad_norm": 0.00250724027864635,
      "learning_rate": 7.237122179650916e-07,
      "loss": 0.0,
      "step": 12200
    },
    {
      "epoch": 46.015632183908046,
      "grad_norm": 0.002670790534466505,
      "learning_rate": 7.15197956577267e-07,
      "loss": 0.0312,
      "step": 12210
    },
    {
      "epoch": 46.01639846743295,
      "grad_norm": 0.004383922554552555,
      "learning_rate": 7.066836951894424e-07,
      "loss": 0.0001,
      "step": 12220
    },
    {
      "epoch": 46.01716475095785,
      "grad_norm": 0.0005220200400799513,
      "learning_rate": 6.981694338016177e-07,
      "loss": 0.0049,
      "step": 12230
    },
    {
      "epoch": 46.01793103448276,
      "grad_norm": 0.0005428689764812589,
      "learning_rate": 6.896551724137931e-07,
      "loss": 0.0001,
      "step": 12240
    },
    {
      "epoch": 46.01869731800766,
      "grad_norm": 0.4421864449977875,
      "learning_rate": 6.811409110259685e-07,
      "loss": 0.2773,
      "step": 12250
    },
    {
      "epoch": 46.019463601532564,
      "grad_norm": 0.0004877319443039596,
      "learning_rate": 6.72626649638144e-07,
      "loss": 0.0011,
      "step": 12260
    },
    {
      "epoch": 46.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.5287835597991943,
      "eval_runtime": 27.9127,
      "eval_samples_per_second": 1.612,
      "eval_steps_per_second": 1.612,
      "step": 12267
    },
    {
      "epoch": 47.00022988505747,
      "grad_norm": 0.015879875048995018,
      "learning_rate": 6.641123882503194e-07,
      "loss": 0.0001,
      "step": 12270
    },
    {
      "epoch": 47.000996168582375,
      "grad_norm": 0.0003854314563795924,
      "learning_rate": 6.555981268624948e-07,
      "loss": 0.0005,
      "step": 12280
    },
    {
      "epoch": 47.00176245210728,
      "grad_norm": 0.0004334681434556842,
      "learning_rate": 6.470838654746701e-07,
      "loss": 0.0001,
      "step": 12290
    },
    {
      "epoch": 47.00252873563218,
      "grad_norm": 0.0005379935028031468,
      "learning_rate": 6.385696040868455e-07,
      "loss": 0.0001,
      "step": 12300
    },
    {
      "epoch": 47.003295019157086,
      "grad_norm": 0.0024425890296697617,
      "learning_rate": 6.300553426990209e-07,
      "loss": 0.0001,
      "step": 12310
    },
    {
      "epoch": 47.00406130268199,
      "grad_norm": 0.0013785994378849864,
      "learning_rate": 6.215410813111964e-07,
      "loss": 0.0,
      "step": 12320
    },
    {
      "epoch": 47.00482758620689,
      "grad_norm": 0.0004363117041066289,
      "learning_rate": 6.130268199233717e-07,
      "loss": 0.0006,
      "step": 12330
    },
    {
      "epoch": 47.005593869731804,
      "grad_norm": 0.004162503406405449,
      "learning_rate": 6.045125585355471e-07,
      "loss": 0.0001,
      "step": 12340
    },
    {
      "epoch": 47.00636015325671,
      "grad_norm": 0.00028804532485082746,
      "learning_rate": 5.959982971477225e-07,
      "loss": 0.0001,
      "step": 12350
    },
    {
      "epoch": 47.00712643678161,
      "grad_norm": 0.00362727721221745,
      "learning_rate": 5.874840357598978e-07,
      "loss": 0.0,
      "step": 12360
    },
    {
      "epoch": 47.007892720306515,
      "grad_norm": 0.00018824009748641402,
      "learning_rate": 5.789697743720732e-07,
      "loss": 0.0001,
      "step": 12370
    },
    {
      "epoch": 47.00865900383142,
      "grad_norm": 0.0003070647071581334,
      "learning_rate": 5.704555129842486e-07,
      "loss": 0.0,
      "step": 12380
    },
    {
      "epoch": 47.00942528735632,
      "grad_norm": 0.0030327988788485527,
      "learning_rate": 5.619412515964241e-07,
      "loss": 0.0,
      "step": 12390
    },
    {
      "epoch": 47.010191570881226,
      "grad_norm": 0.0001980850356630981,
      "learning_rate": 5.534269902085995e-07,
      "loss": 0.0001,
      "step": 12400
    },
    {
      "epoch": 47.01095785440613,
      "grad_norm": 0.0002615888079162687,
      "learning_rate": 5.449127288207749e-07,
      "loss": 0.0,
      "step": 12410
    },
    {
      "epoch": 47.01172413793103,
      "grad_norm": 0.01400078646838665,
      "learning_rate": 5.363984674329502e-07,
      "loss": 0.0001,
      "step": 12420
    },
    {
      "epoch": 47.01249042145594,
      "grad_norm": 0.0021926367189735174,
      "learning_rate": 5.278842060451256e-07,
      "loss": 0.0,
      "step": 12430
    },
    {
      "epoch": 47.01325670498084,
      "grad_norm": 0.00019135964976157993,
      "learning_rate": 5.19369944657301e-07,
      "loss": 0.0,
      "step": 12440
    },
    {
      "epoch": 47.014022988505744,
      "grad_norm": 0.001225248328410089,
      "learning_rate": 5.108556832694765e-07,
      "loss": 0.0,
      "step": 12450
    },
    {
      "epoch": 47.014789272030654,
      "grad_norm": 0.0009840844431892037,
      "learning_rate": 5.023414218816518e-07,
      "loss": 0.0,
      "step": 12460
    },
    {
      "epoch": 47.01555555555556,
      "grad_norm": 466.7170715332031,
      "learning_rate": 4.938271604938272e-07,
      "loss": 0.0296,
      "step": 12470
    },
    {
      "epoch": 47.01632183908046,
      "grad_norm": 0.0032234173268079758,
      "learning_rate": 4.853128991060026e-07,
      "loss": 0.0003,
      "step": 12480
    },
    {
      "epoch": 47.017088122605365,
      "grad_norm": 0.0014763821382075548,
      "learning_rate": 4.7679863771817797e-07,
      "loss": 0.0001,
      "step": 12490
    },
    {
      "epoch": 47.01785440613027,
      "grad_norm": 0.011778397485613823,
      "learning_rate": 4.682843763303534e-07,
      "loss": 0.0001,
      "step": 12500
    },
    {
      "epoch": 47.01862068965517,
      "grad_norm": 0.00038351898547261953,
      "learning_rate": 4.5977011494252875e-07,
      "loss": 0.3203,
      "step": 12510
    },
    {
      "epoch": 47.019386973180076,
      "grad_norm": 0.00020511298498604447,
      "learning_rate": 4.5125585355470417e-07,
      "loss": 0.0001,
      "step": 12520
    },
    {
      "epoch": 47.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.561100482940674,
      "eval_runtime": 27.8457,
      "eval_samples_per_second": 1.616,
      "eval_steps_per_second": 1.616,
      "step": 12528
    },
    {
      "epoch": 48.000153256704984,
      "grad_norm": 0.00035865779500454664,
      "learning_rate": 4.427415921668796e-07,
      "loss": 0.0017,
      "step": 12530
    },
    {
      "epoch": 48.00091954022989,
      "grad_norm": 0.00047454124432988465,
      "learning_rate": 4.3422733077905495e-07,
      "loss": 0.0001,
      "step": 12540
    },
    {
      "epoch": 48.00168582375479,
      "grad_norm": 0.0050529418513178825,
      "learning_rate": 4.2571306939123036e-07,
      "loss": 0.6724,
      "step": 12550
    },
    {
      "epoch": 48.002452107279694,
      "grad_norm": 0.16734667122364044,
      "learning_rate": 4.171988080034058e-07,
      "loss": 0.0001,
      "step": 12560
    },
    {
      "epoch": 48.0032183908046,
      "grad_norm": 0.0004410755936987698,
      "learning_rate": 4.0868454661558115e-07,
      "loss": 0.0001,
      "step": 12570
    },
    {
      "epoch": 48.0039846743295,
      "grad_norm": 0.0035646662581712008,
      "learning_rate": 4.0017028522775656e-07,
      "loss": 0.0001,
      "step": 12580
    },
    {
      "epoch": 48.004750957854405,
      "grad_norm": 0.005939258728176355,
      "learning_rate": 3.916560238399319e-07,
      "loss": 0.0001,
      "step": 12590
    },
    {
      "epoch": 48.00551724137931,
      "grad_norm": 0.0007532021263614297,
      "learning_rate": 3.831417624521073e-07,
      "loss": 0.0,
      "step": 12600
    },
    {
      "epoch": 48.00628352490421,
      "grad_norm": 0.008377188816666603,
      "learning_rate": 3.7462750106428265e-07,
      "loss": 0.001,
      "step": 12610
    },
    {
      "epoch": 48.007049808429116,
      "grad_norm": 0.0007006659870967269,
      "learning_rate": 3.6611323967645807e-07,
      "loss": 0.0,
      "step": 12620
    },
    {
      "epoch": 48.00781609195402,
      "grad_norm": 0.005957789719104767,
      "learning_rate": 3.575989782886335e-07,
      "loss": 0.0,
      "step": 12630
    },
    {
      "epoch": 48.00858237547893,
      "grad_norm": 0.000713622837793082,
      "learning_rate": 3.4908471690080885e-07,
      "loss": 0.0,
      "step": 12640
    },
    {
      "epoch": 48.009348659003834,
      "grad_norm": 0.006381857208907604,
      "learning_rate": 3.4057045551298427e-07,
      "loss": 0.0,
      "step": 12650
    },
    {
      "epoch": 48.01011494252874,
      "grad_norm": 0.0002789432182908058,
      "learning_rate": 3.320561941251597e-07,
      "loss": 0.0,
      "step": 12660
    },
    {
      "epoch": 48.01088122605364,
      "grad_norm": 0.00030842047999612987,
      "learning_rate": 3.2354193273733505e-07,
      "loss": 0.0,
      "step": 12670
    },
    {
      "epoch": 48.011647509578545,
      "grad_norm": 0.006707367021590471,
      "learning_rate": 3.1502767134951047e-07,
      "loss": 0.0001,
      "step": 12680
    },
    {
      "epoch": 48.01241379310345,
      "grad_norm": 0.05167899280786514,
      "learning_rate": 3.0651340996168583e-07,
      "loss": 0.0,
      "step": 12690
    },
    {
      "epoch": 48.01318007662835,
      "grad_norm": 0.001056885113939643,
      "learning_rate": 2.9799914857386125e-07,
      "loss": 0.0001,
      "step": 12700
    },
    {
      "epoch": 48.013946360153255,
      "grad_norm": 0.00020573682559188455,
      "learning_rate": 2.894848871860366e-07,
      "loss": 0.0,
      "step": 12710
    },
    {
      "epoch": 48.01471264367816,
      "grad_norm": 0.0008276683511212468,
      "learning_rate": 2.8097062579821203e-07,
      "loss": 0.0,
      "step": 12720
    },
    {
      "epoch": 48.01547892720306,
      "grad_norm": 0.0027651754207909107,
      "learning_rate": 2.7245636441038745e-07,
      "loss": 0.0001,
      "step": 12730
    },
    {
      "epoch": 48.016245210727966,
      "grad_norm": 0.00031005279743112624,
      "learning_rate": 2.639421030225628e-07,
      "loss": 0.0001,
      "step": 12740
    },
    {
      "epoch": 48.01701149425288,
      "grad_norm": 0.0005220829043537378,
      "learning_rate": 2.5542784163473823e-07,
      "loss": 0.0001,
      "step": 12750
    },
    {
      "epoch": 48.01777777777778,
      "grad_norm": 0.0003989882825408131,
      "learning_rate": 2.469135802469136e-07,
      "loss": 0.0,
      "step": 12760
    },
    {
      "epoch": 48.018544061302684,
      "grad_norm": 0.012621737085282803,
      "learning_rate": 2.3839931885908898e-07,
      "loss": 0.0001,
      "step": 12770
    },
    {
      "epoch": 48.01931034482759,
      "grad_norm": 0.0004822519258596003,
      "learning_rate": 2.2988505747126437e-07,
      "loss": 0.7043,
      "step": 12780
    },
    {
      "epoch": 48.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.760641574859619,
      "eval_runtime": 27.996,
      "eval_samples_per_second": 1.607,
      "eval_steps_per_second": 1.607,
      "step": 12789
    },
    {
      "epoch": 49.00007662835249,
      "grad_norm": 0.0023209976498037577,
      "learning_rate": 2.213707960834398e-07,
      "loss": 1.3152,
      "step": 12790
    },
    {
      "epoch": 49.00084291187739,
      "grad_norm": 0.00585996313020587,
      "learning_rate": 2.1285653469561518e-07,
      "loss": 0.0,
      "step": 12800
    },
    {
      "epoch": 49.001609195402295,
      "grad_norm": 0.012024904601275921,
      "learning_rate": 2.0434227330779057e-07,
      "loss": 0.0001,
      "step": 12810
    },
    {
      "epoch": 49.002375478927206,
      "grad_norm": 0.004350293893367052,
      "learning_rate": 1.9582801191996594e-07,
      "loss": 0.0001,
      "step": 12820
    },
    {
      "epoch": 49.00314176245211,
      "grad_norm": 0.0006611610879190266,
      "learning_rate": 1.8731375053214133e-07,
      "loss": 0.0001,
      "step": 12830
    },
    {
      "epoch": 49.00390804597701,
      "grad_norm": 0.00027403372223488986,
      "learning_rate": 1.7879948914431674e-07,
      "loss": 0.0,
      "step": 12840
    },
    {
      "epoch": 49.00467432950192,
      "grad_norm": 0.001186919049359858,
      "learning_rate": 1.7028522775649214e-07,
      "loss": 0.0001,
      "step": 12850
    },
    {
      "epoch": 49.00544061302682,
      "grad_norm": 0.00033863732824102044,
      "learning_rate": 1.6177096636866753e-07,
      "loss": 0.0,
      "step": 12860
    },
    {
      "epoch": 49.006206896551724,
      "grad_norm": 0.0006599312764592469,
      "learning_rate": 1.5325670498084292e-07,
      "loss": 0.0,
      "step": 12870
    },
    {
      "epoch": 49.00697318007663,
      "grad_norm": 0.0018116752617061138,
      "learning_rate": 1.447424435930183e-07,
      "loss": 0.0001,
      "step": 12880
    },
    {
      "epoch": 49.00773946360153,
      "grad_norm": 0.0010053602745756507,
      "learning_rate": 1.3622818220519372e-07,
      "loss": 0.0,
      "step": 12890
    },
    {
      "epoch": 49.008505747126435,
      "grad_norm": 0.0005538419936783612,
      "learning_rate": 1.2771392081736911e-07,
      "loss": 0.0001,
      "step": 12900
    },
    {
      "epoch": 49.00927203065134,
      "grad_norm": 0.0019845098722726107,
      "learning_rate": 1.1919965942954449e-07,
      "loss": 0.0001,
      "step": 12910
    },
    {
      "epoch": 49.01003831417624,
      "grad_norm": 0.0003088304656557739,
      "learning_rate": 1.106853980417199e-07,
      "loss": 0.0001,
      "step": 12920
    },
    {
      "epoch": 49.01080459770115,
      "grad_norm": 0.012070775032043457,
      "learning_rate": 1.0217113665389529e-07,
      "loss": 0.0,
      "step": 12930
    },
    {
      "epoch": 49.011570881226056,
      "grad_norm": 0.0030147642828524113,
      "learning_rate": 9.365687526607066e-08,
      "loss": 0.0,
      "step": 12940
    },
    {
      "epoch": 49.01233716475096,
      "grad_norm": 0.00018441885185893625,
      "learning_rate": 8.514261387824607e-08,
      "loss": 0.0,
      "step": 12950
    },
    {
      "epoch": 49.013103448275864,
      "grad_norm": 0.0018990112002938986,
      "learning_rate": 7.662835249042146e-08,
      "loss": 0.0001,
      "step": 12960
    },
    {
      "epoch": 49.01386973180077,
      "grad_norm": 0.0002298293838975951,
      "learning_rate": 6.811409110259686e-08,
      "loss": 0.0001,
      "step": 12970
    },
    {
      "epoch": 49.01463601532567,
      "grad_norm": 24.46701431274414,
      "learning_rate": 5.9599829714772246e-08,
      "loss": 0.5053,
      "step": 12980
    },
    {
      "epoch": 49.015402298850574,
      "grad_norm": 0.0014313425635918975,
      "learning_rate": 5.108556832694764e-08,
      "loss": 0.0001,
      "step": 12990
    },
    {
      "epoch": 49.01616858237548,
      "grad_norm": 0.0029820152558386326,
      "learning_rate": 4.2571306939123034e-08,
      "loss": 0.0,
      "step": 13000
    },
    {
      "epoch": 49.01693486590038,
      "grad_norm": 0.006488497368991375,
      "learning_rate": 3.405704555129843e-08,
      "loss": 0.0002,
      "step": 13010
    },
    {
      "epoch": 49.017701149425285,
      "grad_norm": 95.9815444946289,
      "learning_rate": 2.554278416347382e-08,
      "loss": 0.7591,
      "step": 13020
    },
    {
      "epoch": 49.01846743295019,
      "grad_norm": 0.0002131000073859468,
      "learning_rate": 1.7028522775649215e-08,
      "loss": 0.0001,
      "step": 13030
    },
    {
      "epoch": 49.01923371647509,
      "grad_norm": 0.002506563439965248,
      "learning_rate": 8.514261387824608e-09,
      "loss": 0.0,
      "step": 13040
    },
    {
      "epoch": 49.02,
      "grad_norm": 0.001619683695025742,
      "learning_rate": 0.0,
      "loss": 0.0001,
      "step": 13050
    },
    {
      "epoch": 49.02,
      "eval_accuracy": 0.6666666666666666,
      "eval_loss": 2.796635866165161,
      "eval_runtime": 30.3562,
      "eval_samples_per_second": 1.482,
      "eval_steps_per_second": 1.482,
      "step": 13050
    },
    {
      "epoch": 49.02,
      "step": 13050,
      "total_flos": 5.730289341462282e+19,
      "train_loss": 0.5461062897654483,
      "train_runtime": 22302.3156,
      "train_samples_per_second": 0.585,
      "train_steps_per_second": 0.585
    },
    {
      "epoch": 49.02,
      "eval_accuracy": 0.7111111111111111,
      "eval_loss": 2.1094002723693848,
      "eval_runtime": 27.4144,
      "eval_samples_per_second": 1.641,
      "eval_steps_per_second": 1.641,
      "step": 13050
    },
    {
      "epoch": 49.02,
      "eval_accuracy": 0.7111111111111111,
      "eval_loss": 2.109400510787964,
      "eval_runtime": 27.2642,
      "eval_samples_per_second": 1.651,
      "eval_steps_per_second": 1.651,
      "step": 13050
    }
  ],
  "logging_steps": 10,
  "max_steps": 13050,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.730289341462282e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}