{
  "best_metric": 2.4759206771850586,
  "best_model_checkpoint": "miner_id_24/checkpoint-150",
  "epoch": 0.036192544335866814,
  "eval_steps": 50,
  "global_step": 150,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00024128362890577873,
      "grad_norm": 0.6819561123847961,
      "learning_rate": 1.012e-05,
      "loss": 2.6997,
      "step": 1
    },
    {
      "epoch": 0.00024128362890577873,
      "eval_loss": 2.974747896194458,
      "eval_runtime": 178.4137,
      "eval_samples_per_second": 9.781,
      "eval_steps_per_second": 2.449,
      "step": 1
    },
    {
      "epoch": 0.00048256725781155747,
      "grad_norm": 0.6744604706764221,
      "learning_rate": 2.024e-05,
      "loss": 2.8137,
      "step": 2
    },
    {
      "epoch": 0.0007238508867173362,
      "grad_norm": 0.9039535522460938,
      "learning_rate": 3.0359999999999997e-05,
      "loss": 2.8148,
      "step": 3
    },
    {
      "epoch": 0.0009651345156231149,
      "grad_norm": 0.9790059328079224,
      "learning_rate": 4.048e-05,
      "loss": 2.7493,
      "step": 4
    },
    {
      "epoch": 0.0012064181445288937,
      "grad_norm": 0.7783235907554626,
      "learning_rate": 5.06e-05,
      "loss": 2.7134,
      "step": 5
    },
    {
      "epoch": 0.0014477017734346724,
      "grad_norm": 0.9202210903167725,
      "learning_rate": 6.0719999999999995e-05,
      "loss": 2.8265,
      "step": 6
    },
    {
      "epoch": 0.0016889854023404512,
      "grad_norm": 0.7030836939811707,
      "learning_rate": 7.083999999999999e-05,
      "loss": 2.7349,
      "step": 7
    },
    {
      "epoch": 0.0019302690312462299,
      "grad_norm": 0.789324939250946,
      "learning_rate": 8.096e-05,
      "loss": 2.6893,
      "step": 8
    },
    {
      "epoch": 0.002171552660152009,
      "grad_norm": 0.8779691457748413,
      "learning_rate": 9.108e-05,
      "loss": 2.6454,
      "step": 9
    },
    {
      "epoch": 0.0024128362890577875,
      "grad_norm": 1.0250047445297241,
      "learning_rate": 0.0001012,
      "loss": 2.8202,
      "step": 10
    },
    {
      "epoch": 0.002654119917963566,
      "grad_norm": 0.9420296549797058,
      "learning_rate": 0.00010066736842105262,
      "loss": 2.5817,
      "step": 11
    },
    {
      "epoch": 0.002895403546869345,
      "grad_norm": 0.9986139535903931,
      "learning_rate": 0.00010013473684210525,
      "loss": 2.6081,
      "step": 12
    },
    {
      "epoch": 0.0031366871757751236,
      "grad_norm": 0.9928171634674072,
      "learning_rate": 9.960210526315788e-05,
      "loss": 2.8922,
      "step": 13
    },
    {
      "epoch": 0.0033779708046809023,
      "grad_norm": 1.0105948448181152,
      "learning_rate": 9.906947368421052e-05,
      "loss": 2.7493,
      "step": 14
    },
    {
      "epoch": 0.003619254433586681,
      "grad_norm": 0.9626989960670471,
      "learning_rate": 9.853684210526316e-05,
      "loss": 2.7776,
      "step": 15
    },
    {
      "epoch": 0.0038605380624924597,
      "grad_norm": 0.9950829148292542,
      "learning_rate": 9.800421052631579e-05,
      "loss": 2.4907,
      "step": 16
    },
    {
      "epoch": 0.004101821691398238,
      "grad_norm": 0.9061638116836548,
      "learning_rate": 9.747157894736841e-05,
      "loss": 2.5215,
      "step": 17
    },
    {
      "epoch": 0.004343105320304018,
      "grad_norm": 0.9857317209243774,
      "learning_rate": 9.693894736842104e-05,
      "loss": 2.6093,
      "step": 18
    },
    {
      "epoch": 0.004584388949209796,
      "grad_norm": 1.0832531452178955,
      "learning_rate": 9.640631578947367e-05,
      "loss": 2.548,
      "step": 19
    },
    {
      "epoch": 0.004825672578115575,
      "grad_norm": 0.960790753364563,
      "learning_rate": 9.58736842105263e-05,
      "loss": 2.5191,
      "step": 20
    },
    {
      "epoch": 0.005066956207021353,
      "grad_norm": 0.8945792317390442,
      "learning_rate": 9.534105263157894e-05,
      "loss": 2.6171,
      "step": 21
    },
    {
      "epoch": 0.005308239835927132,
      "grad_norm": 0.8477829694747925,
      "learning_rate": 9.480842105263158e-05,
      "loss": 2.5068,
      "step": 22
    },
    {
      "epoch": 0.005549523464832911,
      "grad_norm": 1.0128535032272339,
      "learning_rate": 9.427578947368421e-05,
      "loss": 2.6468,
      "step": 23
    },
    {
      "epoch": 0.00579080709373869,
      "grad_norm": 0.8888014554977417,
      "learning_rate": 9.374315789473684e-05,
      "loss": 2.3704,
      "step": 24
    },
    {
      "epoch": 0.006032090722644469,
      "grad_norm": 0.8318547606468201,
      "learning_rate": 9.321052631578946e-05,
      "loss": 2.4912,
      "step": 25
    },
    {
      "epoch": 0.006273374351550247,
      "grad_norm": 0.9316414594650269,
      "learning_rate": 9.267789473684209e-05,
      "loss": 2.4318,
      "step": 26
    },
    {
      "epoch": 0.006514657980456026,
      "grad_norm": 0.893064022064209,
      "learning_rate": 9.214526315789473e-05,
      "loss": 2.2933,
      "step": 27
    },
    {
      "epoch": 0.006755941609361805,
      "grad_norm": 0.9097715020179749,
      "learning_rate": 9.161263157894736e-05,
      "loss": 2.4561,
      "step": 28
    },
    {
      "epoch": 0.006997225238267584,
      "grad_norm": 1.0586341619491577,
      "learning_rate": 9.108e-05,
      "loss": 2.5402,
      "step": 29
    },
    {
      "epoch": 0.007238508867173362,
      "grad_norm": 0.9948506951332092,
      "learning_rate": 9.054736842105263e-05,
      "loss": 2.4133,
      "step": 30
    },
    {
      "epoch": 0.007479792496079141,
      "grad_norm": 1.0065264701843262,
      "learning_rate": 9.001473684210526e-05,
      "loss": 2.4742,
      "step": 31
    },
    {
      "epoch": 0.0077210761249849194,
      "grad_norm": 1.0717097520828247,
      "learning_rate": 8.948210526315789e-05,
      "loss": 2.6355,
      "step": 32
    },
    {
      "epoch": 0.007962359753890699,
      "grad_norm": 1.009558081626892,
      "learning_rate": 8.894947368421051e-05,
      "loss": 2.5346,
      "step": 33
    },
    {
      "epoch": 0.008203643382796477,
      "grad_norm": 1.008866786956787,
      "learning_rate": 8.841684210526315e-05,
      "loss": 2.5621,
      "step": 34
    },
    {
      "epoch": 0.008444927011702257,
      "grad_norm": 0.9478164315223694,
      "learning_rate": 8.788421052631578e-05,
      "loss": 2.4708,
      "step": 35
    },
    {
      "epoch": 0.008686210640608035,
      "grad_norm": 1.085057258605957,
      "learning_rate": 8.735157894736842e-05,
      "loss": 2.6512,
      "step": 36
    },
    {
      "epoch": 0.008927494269513813,
      "grad_norm": 1.112816572189331,
      "learning_rate": 8.681894736842105e-05,
      "loss": 2.5127,
      "step": 37
    },
    {
      "epoch": 0.009168777898419592,
      "grad_norm": 1.0282902717590332,
      "learning_rate": 8.628631578947368e-05,
      "loss": 2.683,
      "step": 38
    },
    {
      "epoch": 0.009410061527325372,
      "grad_norm": 1.2130603790283203,
      "learning_rate": 8.575368421052631e-05,
      "loss": 2.7664,
      "step": 39
    },
    {
      "epoch": 0.00965134515623115,
      "grad_norm": 0.9856530427932739,
      "learning_rate": 8.522105263157893e-05,
      "loss": 2.6266,
      "step": 40
    },
    {
      "epoch": 0.009892628785136928,
      "grad_norm": 1.0160597562789917,
      "learning_rate": 8.468842105263158e-05,
      "loss": 2.426,
      "step": 41
    },
    {
      "epoch": 0.010133912414042706,
      "grad_norm": 1.0411601066589355,
      "learning_rate": 8.41557894736842e-05,
      "loss": 2.5319,
      "step": 42
    },
    {
      "epoch": 0.010375196042948487,
      "grad_norm": 1.086119294166565,
      "learning_rate": 8.362315789473683e-05,
      "loss": 2.6198,
      "step": 43
    },
    {
      "epoch": 0.010616479671854265,
      "grad_norm": 1.088226318359375,
      "learning_rate": 8.309052631578947e-05,
      "loss": 2.56,
      "step": 44
    },
    {
      "epoch": 0.010857763300760043,
      "grad_norm": 1.1237027645111084,
      "learning_rate": 8.25578947368421e-05,
      "loss": 2.4837,
      "step": 45
    },
    {
      "epoch": 0.011099046929665821,
      "grad_norm": 1.144529938697815,
      "learning_rate": 8.202526315789473e-05,
      "loss": 2.7187,
      "step": 46
    },
    {
      "epoch": 0.011340330558571601,
      "grad_norm": 1.1463892459869385,
      "learning_rate": 8.149263157894736e-05,
      "loss": 2.6506,
      "step": 47
    },
    {
      "epoch": 0.01158161418747738,
      "grad_norm": 1.0722728967666626,
      "learning_rate": 8.096e-05,
      "loss": 2.3795,
      "step": 48
    },
    {
      "epoch": 0.011822897816383158,
      "grad_norm": 1.2069077491760254,
      "learning_rate": 8.042736842105263e-05,
      "loss": 2.6242,
      "step": 49
    },
    {
      "epoch": 0.012064181445288938,
      "grad_norm": 1.2635215520858765,
      "learning_rate": 7.989473684210525e-05,
      "loss": 2.4923,
      "step": 50
    },
    {
      "epoch": 0.012064181445288938,
      "eval_loss": 2.551175832748413,
      "eval_runtime": 178.0884,
      "eval_samples_per_second": 9.799,
      "eval_steps_per_second": 2.454,
      "step": 50
    },
    {
      "epoch": 0.012305465074194716,
      "grad_norm": 0.690827488899231,
      "learning_rate": 7.93621052631579e-05,
      "loss": 2.5553,
      "step": 51
    },
    {
      "epoch": 0.012546748703100494,
      "grad_norm": 0.6625404357910156,
      "learning_rate": 7.882947368421052e-05,
      "loss": 2.5443,
      "step": 52
    },
    {
      "epoch": 0.012788032332006273,
      "grad_norm": 0.7084832787513733,
      "learning_rate": 7.829684210526315e-05,
      "loss": 2.5974,
      "step": 53
    },
    {
      "epoch": 0.013029315960912053,
      "grad_norm": 0.6475094556808472,
      "learning_rate": 7.776421052631578e-05,
      "loss": 2.7033,
      "step": 54
    },
    {
      "epoch": 0.013270599589817831,
      "grad_norm": 0.6178035736083984,
      "learning_rate": 7.723157894736842e-05,
      "loss": 2.5378,
      "step": 55
    },
    {
      "epoch": 0.01351188321872361,
      "grad_norm": 0.615886390209198,
      "learning_rate": 7.669894736842105e-05,
      "loss": 2.475,
      "step": 56
    },
    {
      "epoch": 0.013753166847629388,
      "grad_norm": 0.614906907081604,
      "learning_rate": 7.616631578947367e-05,
      "loss": 2.5903,
      "step": 57
    },
    {
      "epoch": 0.013994450476535168,
      "grad_norm": 0.5746558904647827,
      "learning_rate": 7.563368421052632e-05,
      "loss": 2.3302,
      "step": 58
    },
    {
      "epoch": 0.014235734105440946,
      "grad_norm": 0.607208251953125,
      "learning_rate": 7.510105263157894e-05,
      "loss": 2.6271,
      "step": 59
    },
    {
      "epoch": 0.014477017734346724,
      "grad_norm": 0.6316852569580078,
      "learning_rate": 7.456842105263157e-05,
      "loss": 2.5147,
      "step": 60
    },
    {
      "epoch": 0.014718301363252504,
      "grad_norm": 0.6554833650588989,
      "learning_rate": 7.403578947368421e-05,
      "loss": 2.3687,
      "step": 61
    },
    {
      "epoch": 0.014959584992158282,
      "grad_norm": 0.6237165927886963,
      "learning_rate": 7.350315789473684e-05,
      "loss": 2.4773,
      "step": 62
    },
    {
      "epoch": 0.01520086862106406,
      "grad_norm": 0.6278263926506042,
      "learning_rate": 7.297052631578947e-05,
      "loss": 2.5404,
      "step": 63
    },
    {
      "epoch": 0.015442152249969839,
      "grad_norm": 0.605901300907135,
      "learning_rate": 7.24378947368421e-05,
      "loss": 2.4371,
      "step": 64
    },
    {
      "epoch": 0.015683435878875617,
      "grad_norm": 0.715686559677124,
      "learning_rate": 7.190526315789474e-05,
      "loss": 2.5677,
      "step": 65
    },
    {
      "epoch": 0.015924719507781397,
      "grad_norm": 0.6477227807044983,
      "learning_rate": 7.137263157894736e-05,
      "loss": 2.7333,
      "step": 66
    },
    {
      "epoch": 0.016166003136687177,
      "grad_norm": 0.6382758021354675,
      "learning_rate": 7.083999999999999e-05,
      "loss": 2.5572,
      "step": 67
    },
    {
      "epoch": 0.016407286765592954,
      "grad_norm": 0.6694689989089966,
      "learning_rate": 7.030736842105263e-05,
      "loss": 2.4733,
      "step": 68
    },
    {
      "epoch": 0.016648570394498734,
      "grad_norm": 0.6693235635757446,
      "learning_rate": 6.977473684210526e-05,
      "loss": 2.3863,
      "step": 69
    },
    {
      "epoch": 0.016889854023404514,
      "grad_norm": 0.7008941173553467,
      "learning_rate": 6.924210526315789e-05,
      "loss": 2.4012,
      "step": 70
    },
    {
      "epoch": 0.01713113765231029,
      "grad_norm": 0.7230203747749329,
      "learning_rate": 6.870947368421052e-05,
      "loss": 2.2763,
      "step": 71
    },
    {
      "epoch": 0.01737242128121607,
      "grad_norm": 0.722984790802002,
      "learning_rate": 6.817684210526316e-05,
      "loss": 2.436,
      "step": 72
    },
    {
      "epoch": 0.017613704910121847,
      "grad_norm": 0.7669626474380493,
      "learning_rate": 6.764421052631579e-05,
      "loss": 2.4818,
      "step": 73
    },
    {
      "epoch": 0.017854988539027627,
      "grad_norm": 0.6990239024162292,
      "learning_rate": 6.711157894736841e-05,
      "loss": 2.2096,
      "step": 74
    },
    {
      "epoch": 0.018096272167933407,
      "grad_norm": 0.7641710638999939,
      "learning_rate": 6.657894736842106e-05,
      "loss": 2.3996,
      "step": 75
    },
    {
      "epoch": 0.018337555796839183,
      "grad_norm": 0.759746253490448,
      "learning_rate": 6.604631578947368e-05,
      "loss": 2.5013,
      "step": 76
    },
    {
      "epoch": 0.018578839425744963,
      "grad_norm": 0.8127994537353516,
      "learning_rate": 6.551368421052631e-05,
      "loss": 2.4539,
      "step": 77
    },
    {
      "epoch": 0.018820123054650743,
      "grad_norm": 0.762616753578186,
      "learning_rate": 6.498105263157894e-05,
      "loss": 2.4389,
      "step": 78
    },
    {
      "epoch": 0.01906140668355652,
      "grad_norm": 0.8055717945098877,
      "learning_rate": 6.444842105263157e-05,
      "loss": 2.3793,
      "step": 79
    },
    {
      "epoch": 0.0193026903124623,
      "grad_norm": 0.8105527758598328,
      "learning_rate": 6.391578947368421e-05,
      "loss": 2.4328,
      "step": 80
    },
    {
      "epoch": 0.019543973941368076,
      "grad_norm": 0.8809351325035095,
      "learning_rate": 6.338315789473684e-05,
      "loss": 2.4603,
      "step": 81
    },
    {
      "epoch": 0.019785257570273856,
      "grad_norm": 0.8121572136878967,
      "learning_rate": 6.285052631578948e-05,
      "loss": 2.497,
      "step": 82
    },
    {
      "epoch": 0.020026541199179636,
      "grad_norm": 0.8555715680122375,
      "learning_rate": 6.23178947368421e-05,
      "loss": 2.5293,
      "step": 83
    },
    {
      "epoch": 0.020267824828085413,
      "grad_norm": 0.8889932036399841,
      "learning_rate": 6.178526315789473e-05,
      "loss": 2.6504,
      "step": 84
    },
    {
      "epoch": 0.020509108456991193,
      "grad_norm": 0.8130329847335815,
      "learning_rate": 6.125263157894736e-05,
      "loss": 2.3569,
      "step": 85
    },
    {
      "epoch": 0.020750392085896973,
      "grad_norm": 0.8855007886886597,
      "learning_rate": 6.0719999999999995e-05,
      "loss": 2.4059,
      "step": 86
    },
    {
      "epoch": 0.02099167571480275,
      "grad_norm": 0.9365320205688477,
      "learning_rate": 6.018736842105262e-05,
      "loss": 2.676,
      "step": 87
    },
    {
      "epoch": 0.02123295934370853,
      "grad_norm": 0.911693274974823,
      "learning_rate": 5.965473684210526e-05,
      "loss": 2.5198,
      "step": 88
    },
    {
      "epoch": 0.02147424297261431,
      "grad_norm": 0.9170008897781372,
      "learning_rate": 5.912210526315789e-05,
      "loss": 2.4194,
      "step": 89
    },
    {
      "epoch": 0.021715526601520086,
      "grad_norm": 0.9594978094100952,
      "learning_rate": 5.8589473684210526e-05,
      "loss": 2.655,
      "step": 90
    },
    {
      "epoch": 0.021956810230425866,
      "grad_norm": 0.9784735441207886,
      "learning_rate": 5.8056842105263154e-05,
      "loss": 2.5932,
      "step": 91
    },
    {
      "epoch": 0.022198093859331643,
      "grad_norm": 0.9611743092536926,
      "learning_rate": 5.752421052631578e-05,
      "loss": 2.4275,
      "step": 92
    },
    {
      "epoch": 0.022439377488237423,
      "grad_norm": 0.9593193531036377,
      "learning_rate": 5.6991578947368416e-05,
      "loss": 2.469,
      "step": 93
    },
    {
      "epoch": 0.022680661117143203,
      "grad_norm": 0.9631203413009644,
      "learning_rate": 5.6458947368421044e-05,
      "loss": 2.4516,
      "step": 94
    },
    {
      "epoch": 0.02292194474604898,
      "grad_norm": 0.9494320154190063,
      "learning_rate": 5.5926315789473685e-05,
      "loss": 2.3686,
      "step": 95
    },
    {
      "epoch": 0.02316322837495476,
      "grad_norm": 1.1127525568008423,
      "learning_rate": 5.539368421052631e-05,
      "loss": 2.5431,
      "step": 96
    },
    {
      "epoch": 0.02340451200386054,
      "grad_norm": 0.9624173045158386,
      "learning_rate": 5.486105263157895e-05,
      "loss": 2.3644,
      "step": 97
    },
    {
      "epoch": 0.023645795632766316,
      "grad_norm": 1.0454453229904175,
      "learning_rate": 5.4328421052631575e-05,
      "loss": 2.4571,
      "step": 98
    },
    {
      "epoch": 0.023887079261672096,
      "grad_norm": 1.0592336654663086,
      "learning_rate": 5.37957894736842e-05,
      "loss": 2.4805,
      "step": 99
    },
    {
      "epoch": 0.024128362890577876,
      "grad_norm": 1.2816003561019897,
      "learning_rate": 5.326315789473684e-05,
      "loss": 2.6767,
      "step": 100
    },
    {
      "epoch": 0.024128362890577876,
      "eval_loss": 2.512787103652954,
      "eval_runtime": 178.3011,
      "eval_samples_per_second": 9.787,
      "eval_steps_per_second": 2.451,
      "step": 100
    },
    {
      "epoch": 0.024369646519483652,
      "grad_norm": 0.5927788615226746,
      "learning_rate": 5.2730526315789465e-05,
      "loss": 2.6656,
      "step": 101
    },
    {
      "epoch": 0.024610930148389432,
      "grad_norm": 0.6549880504608154,
      "learning_rate": 5.2197894736842107e-05,
      "loss": 2.416,
      "step": 102
    },
    {
      "epoch": 0.02485221377729521,
      "grad_norm": 0.6812410950660706,
      "learning_rate": 5.1665263157894734e-05,
      "loss": 2.6321,
      "step": 103
    },
    {
      "epoch": 0.02509349740620099,
      "grad_norm": 0.6407132744789124,
      "learning_rate": 5.113263157894737e-05,
      "loss": 2.5068,
      "step": 104
    },
    {
      "epoch": 0.02533478103510677,
      "grad_norm": 0.6058433651924133,
      "learning_rate": 5.06e-05,
      "loss": 2.4773,
      "step": 105
    },
    {
      "epoch": 0.025576064664012545,
      "grad_norm": 0.5778321027755737,
      "learning_rate": 5.0067368421052624e-05,
      "loss": 2.519,
      "step": 106
    },
    {
      "epoch": 0.025817348292918325,
      "grad_norm": 0.589668869972229,
      "learning_rate": 4.953473684210526e-05,
      "loss": 2.6293,
      "step": 107
    },
    {
      "epoch": 0.026058631921824105,
      "grad_norm": 0.574214518070221,
      "learning_rate": 4.9002105263157893e-05,
      "loss": 2.6117,
      "step": 108
    },
    {
      "epoch": 0.026299915550729882,
      "grad_norm": 0.5867816805839539,
      "learning_rate": 4.846947368421052e-05,
      "loss": 2.6606,
      "step": 109
    },
    {
      "epoch": 0.026541199179635662,
      "grad_norm": 0.5844100713729858,
      "learning_rate": 4.793684210526315e-05,
      "loss": 2.3965,
      "step": 110
    },
    {
      "epoch": 0.026782482808541442,
      "grad_norm": 0.5864224433898926,
      "learning_rate": 4.740421052631579e-05,
      "loss": 2.6358,
      "step": 111
    },
    {
      "epoch": 0.02702376643744722,
      "grad_norm": 0.6503864526748657,
      "learning_rate": 4.687157894736842e-05,
      "loss": 2.4047,
      "step": 112
    },
    {
      "epoch": 0.027265050066353,
      "grad_norm": 0.6007669568061829,
      "learning_rate": 4.6338947368421046e-05,
      "loss": 2.3546,
      "step": 113
    },
    {
      "epoch": 0.027506333695258775,
      "grad_norm": 0.6690439581871033,
      "learning_rate": 4.580631578947368e-05,
      "loss": 2.5046,
      "step": 114
    },
    {
      "epoch": 0.027747617324164555,
      "grad_norm": 0.6134549975395203,
      "learning_rate": 4.5273684210526315e-05,
      "loss": 2.5013,
      "step": 115
    },
    {
      "epoch": 0.027988900953070335,
      "grad_norm": 0.640204668045044,
      "learning_rate": 4.474105263157894e-05,
      "loss": 2.6105,
      "step": 116
    },
    {
      "epoch": 0.02823018458197611,
      "grad_norm": 0.6617501974105835,
      "learning_rate": 4.420842105263158e-05,
      "loss": 2.6784,
      "step": 117
    },
    {
      "epoch": 0.02847146821088189,
      "grad_norm": 0.6481420993804932,
      "learning_rate": 4.367578947368421e-05,
      "loss": 2.4916,
      "step": 118
    },
    {
      "epoch": 0.02871275183978767,
      "grad_norm": 0.6642272472381592,
      "learning_rate": 4.314315789473684e-05,
      "loss": 2.4623,
      "step": 119
    },
    {
      "epoch": 0.028954035468693448,
      "grad_norm": 0.6756960153579712,
      "learning_rate": 4.261052631578947e-05,
      "loss": 2.6033,
      "step": 120
    },
    {
      "epoch": 0.029195319097599228,
      "grad_norm": 0.6417708396911621,
      "learning_rate": 4.20778947368421e-05,
      "loss": 2.4222,
      "step": 121
    },
    {
      "epoch": 0.029436602726505008,
      "grad_norm": 0.6687556505203247,
      "learning_rate": 4.1545263157894736e-05,
      "loss": 2.4791,
      "step": 122
    },
    {
      "epoch": 0.029677886355410785,
      "grad_norm": 0.6721707582473755,
      "learning_rate": 4.1012631578947364e-05,
      "loss": 2.4118,
      "step": 123
    },
    {
      "epoch": 0.029919169984316565,
      "grad_norm": 0.7377270460128784,
      "learning_rate": 4.048e-05,
      "loss": 2.4961,
      "step": 124
    },
    {
      "epoch": 0.03016045361322234,
      "grad_norm": 0.6853384971618652,
      "learning_rate": 3.9947368421052626e-05,
      "loss": 2.3881,
      "step": 125
    },
    {
      "epoch": 0.03040173724212812,
      "grad_norm": 0.8336564302444458,
      "learning_rate": 3.941473684210526e-05,
      "loss": 2.4547,
      "step": 126
    },
    {
      "epoch": 0.0306430208710339,
      "grad_norm": 0.7121319770812988,
      "learning_rate": 3.888210526315789e-05,
      "loss": 2.4652,
      "step": 127
    },
    {
      "epoch": 0.030884304499939678,
      "grad_norm": 0.7742940783500671,
      "learning_rate": 3.834947368421052e-05,
      "loss": 2.5142,
      "step": 128
    },
    {
      "epoch": 0.031125588128845458,
      "grad_norm": 0.7363916039466858,
      "learning_rate": 3.781684210526316e-05,
      "loss": 2.5376,
      "step": 129
    },
    {
      "epoch": 0.031366871757751234,
      "grad_norm": 0.7189915180206299,
      "learning_rate": 3.7284210526315786e-05,
      "loss": 2.2687,
      "step": 130
    },
    {
      "epoch": 0.03160815538665702,
      "grad_norm": 0.779494047164917,
      "learning_rate": 3.675157894736842e-05,
      "loss": 2.3155,
      "step": 131
    },
    {
      "epoch": 0.031849439015562794,
      "grad_norm": 0.7421276569366455,
      "learning_rate": 3.621894736842105e-05,
      "loss": 2.5427,
      "step": 132
    },
    {
      "epoch": 0.03209072264446857,
      "grad_norm": 0.7934028506278992,
      "learning_rate": 3.568631578947368e-05,
      "loss": 2.4174,
      "step": 133
    },
    {
      "epoch": 0.032332006273374354,
      "grad_norm": 0.7544096112251282,
      "learning_rate": 3.515368421052632e-05,
      "loss": 2.3226,
      "step": 134
    },
    {
      "epoch": 0.03257328990228013,
      "grad_norm": 0.8021891117095947,
      "learning_rate": 3.4621052631578945e-05,
      "loss": 2.3137,
      "step": 135
    },
    {
      "epoch": 0.03281457353118591,
      "grad_norm": 0.7787634134292603,
      "learning_rate": 3.408842105263158e-05,
      "loss": 2.4834,
      "step": 136
    },
    {
      "epoch": 0.03305585716009169,
      "grad_norm": 0.8131497502326965,
      "learning_rate": 3.355578947368421e-05,
      "loss": 2.4925,
      "step": 137
    },
    {
      "epoch": 0.03329714078899747,
      "grad_norm": 0.8343625068664551,
      "learning_rate": 3.302315789473684e-05,
      "loss": 2.3214,
      "step": 138
    },
    {
      "epoch": 0.033538424417903244,
      "grad_norm": 0.8716940879821777,
      "learning_rate": 3.249052631578947e-05,
      "loss": 2.3709,
      "step": 139
    },
    {
      "epoch": 0.03377970804680903,
      "grad_norm": 0.8946927785873413,
      "learning_rate": 3.1957894736842104e-05,
      "loss": 2.3264,
      "step": 140
    },
    {
      "epoch": 0.034020991675714804,
      "grad_norm": 0.8572210669517517,
      "learning_rate": 3.142526315789474e-05,
      "loss": 2.3503,
      "step": 141
    },
    {
      "epoch": 0.03426227530462058,
      "grad_norm": 0.9412319660186768,
      "learning_rate": 3.0892631578947366e-05,
      "loss": 2.5319,
      "step": 142
    },
    {
      "epoch": 0.03450355893352636,
      "grad_norm": 0.9973087906837463,
      "learning_rate": 3.0359999999999997e-05,
      "loss": 2.7493,
      "step": 143
    },
    {
      "epoch": 0.03474484256243214,
      "grad_norm": 1.2152442932128906,
      "learning_rate": 2.982736842105263e-05,
      "loss": 3.1229,
      "step": 144
    },
    {
      "epoch": 0.03498612619133792,
      "grad_norm": 1.004461407661438,
      "learning_rate": 2.9294736842105263e-05,
      "loss": 2.5304,
      "step": 145
    },
    {
      "epoch": 0.035227409820243694,
      "grad_norm": 0.9480993747711182,
      "learning_rate": 2.876210526315789e-05,
      "loss": 2.45,
      "step": 146
    },
    {
      "epoch": 0.03546869344914948,
      "grad_norm": 1.1422075033187866,
      "learning_rate": 2.8229473684210522e-05,
      "loss": 2.6944,
      "step": 147
    },
    {
      "epoch": 0.035709977078055254,
      "grad_norm": 1.04432213306427,
      "learning_rate": 2.7696842105263156e-05,
      "loss": 2.5529,
      "step": 148
    },
    {
      "epoch": 0.03595126070696103,
      "grad_norm": 1.1122273206710815,
      "learning_rate": 2.7164210526315788e-05,
      "loss": 2.5809,
      "step": 149
    },
    {
      "epoch": 0.036192544335866814,
      "grad_norm": 1.2705917358398438,
      "learning_rate": 2.663157894736842e-05,
      "loss": 2.462,
      "step": 150
    },
    {
      "epoch": 0.036192544335866814,
      "eval_loss": 2.4759206771850586,
      "eval_runtime": 178.4217,
      "eval_samples_per_second": 9.78,
      "eval_steps_per_second": 2.449,
      "step": 150
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.049427931902771e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}