{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9547511312217196,
  "eval_steps": 500,
  "global_step": 81,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03619909502262444,
      "grad_norm": 0.4522567093372345,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 1.6301,
      "step": 1
    },
    {
      "epoch": 0.07239819004524888,
      "grad_norm": 0.4915740489959717,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 1.6279,
      "step": 2
    },
    {
      "epoch": 0.1085972850678733,
      "grad_norm": 0.4293298125267029,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.5965,
      "step": 3
    },
    {
      "epoch": 0.14479638009049775,
      "grad_norm": 0.30257710814476013,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 1.6076,
      "step": 4
    },
    {
      "epoch": 0.18099547511312217,
      "grad_norm": 0.338920921087265,
      "learning_rate": 5.555555555555556e-05,
      "loss": 1.6144,
      "step": 5
    },
    {
      "epoch": 0.2171945701357466,
      "grad_norm": 0.393881618976593,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.5657,
      "step": 6
    },
    {
      "epoch": 0.25339366515837103,
      "grad_norm": 0.2913854718208313,
      "learning_rate": 7.777777777777778e-05,
      "loss": 1.5651,
      "step": 7
    },
    {
      "epoch": 0.2895927601809955,
      "grad_norm": 0.2615966498851776,
      "learning_rate": 8.888888888888889e-05,
      "loss": 1.5488,
      "step": 8
    },
    {
      "epoch": 0.3257918552036199,
      "grad_norm": 0.2777751386165619,
      "learning_rate": 0.0001,
      "loss": 1.5898,
      "step": 9
    },
    {
      "epoch": 0.36199095022624433,
      "grad_norm": 0.24253539741039276,
      "learning_rate": 9.99524110790929e-05,
      "loss": 1.5448,
      "step": 10
    },
    {
      "epoch": 0.39819004524886875,
      "grad_norm": 0.21929268538951874,
      "learning_rate": 9.980973490458728e-05,
      "loss": 1.5285,
      "step": 11
    },
    {
      "epoch": 0.4343891402714932,
      "grad_norm": 0.2206713855266571,
      "learning_rate": 9.957224306869053e-05,
      "loss": 1.5645,
      "step": 12
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.19960802793502808,
      "learning_rate": 9.924038765061042e-05,
      "loss": 1.4987,
      "step": 13
    },
    {
      "epoch": 0.5067873303167421,
      "grad_norm": 0.20623129606246948,
      "learning_rate": 9.881480035599667e-05,
      "loss": 1.4982,
      "step": 14
    },
    {
      "epoch": 0.5429864253393665,
      "grad_norm": 0.2134510725736618,
      "learning_rate": 9.829629131445342e-05,
      "loss": 1.5061,
      "step": 15
    },
    {
      "epoch": 0.579185520361991,
      "grad_norm": 0.20414741337299347,
      "learning_rate": 9.768584753741134e-05,
      "loss": 1.4963,
      "step": 16
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.19349144399166107,
      "learning_rate": 9.698463103929542e-05,
      "loss": 1.5242,
      "step": 17
    },
    {
      "epoch": 0.6515837104072398,
      "grad_norm": 0.19233722984790802,
      "learning_rate": 9.619397662556435e-05,
      "loss": 1.49,
      "step": 18
    },
    {
      "epoch": 0.6877828054298643,
      "grad_norm": 0.1920696496963501,
      "learning_rate": 9.53153893518325e-05,
      "loss": 1.5342,
      "step": 19
    },
    {
      "epoch": 0.7239819004524887,
      "grad_norm": 0.18896055221557617,
      "learning_rate": 9.435054165891109e-05,
      "loss": 1.5256,
      "step": 20
    },
    {
      "epoch": 0.7601809954751131,
      "grad_norm": 0.18282486498355865,
      "learning_rate": 9.330127018922194e-05,
      "loss": 1.5167,
      "step": 21
    },
    {
      "epoch": 0.7963800904977375,
      "grad_norm": 0.19715480506420135,
      "learning_rate": 9.21695722906443e-05,
      "loss": 1.5255,
      "step": 22
    },
    {
      "epoch": 0.832579185520362,
      "grad_norm": 0.17317330837249756,
      "learning_rate": 9.09576022144496e-05,
      "loss": 1.5062,
      "step": 23
    },
    {
      "epoch": 0.8687782805429864,
      "grad_norm": 0.18779075145721436,
      "learning_rate": 8.966766701456177e-05,
      "loss": 1.4894,
      "step": 24
    },
    {
      "epoch": 0.9049773755656109,
      "grad_norm": 0.1841159462928772,
      "learning_rate": 8.83022221559489e-05,
      "loss": 1.4553,
      "step": 25
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.1778552532196045,
      "learning_rate": 8.68638668405062e-05,
      "loss": 1.4824,
      "step": 26
    },
    {
      "epoch": 0.9773755656108597,
      "grad_norm": 0.18053092062473297,
      "learning_rate": 8.535533905932738e-05,
      "loss": 1.5244,
      "step": 27
    },
    {
      "epoch": 1.0248868778280542,
      "grad_norm": 0.17003145813941956,
      "learning_rate": 8.377951038078302e-05,
      "loss": 1.4473,
      "step": 28
    },
    {
      "epoch": 1.0610859728506787,
      "grad_norm": 0.1815570592880249,
      "learning_rate": 8.213938048432697e-05,
      "loss": 1.4101,
      "step": 29
    },
    {
      "epoch": 1.0972850678733033,
      "grad_norm": 0.17359577119350433,
      "learning_rate": 8.043807145043604e-05,
      "loss": 1.4621,
      "step": 30
    },
    {
      "epoch": 1.1334841628959276,
      "grad_norm": 0.18072284758090973,
      "learning_rate": 7.86788218175523e-05,
      "loss": 1.4011,
      "step": 31
    },
    {
      "epoch": 1.169683257918552,
      "grad_norm": 0.18027463555335999,
      "learning_rate": 7.68649804173412e-05,
      "loss": 1.4529,
      "step": 32
    },
    {
      "epoch": 1.2058823529411764,
      "grad_norm": 0.18900279700756073,
      "learning_rate": 7.500000000000001e-05,
      "loss": 1.4195,
      "step": 33
    },
    {
      "epoch": 1.242081447963801,
      "grad_norm": 0.17625436186790466,
      "learning_rate": 7.308743066175172e-05,
      "loss": 1.4106,
      "step": 34
    },
    {
      "epoch": 1.2782805429864252,
      "grad_norm": 0.18460573256015778,
      "learning_rate": 7.113091308703498e-05,
      "loss": 1.3482,
      "step": 35
    },
    {
      "epoch": 1.3144796380090498,
      "grad_norm": 0.1863405853509903,
      "learning_rate": 6.91341716182545e-05,
      "loss": 1.4463,
      "step": 36
    },
    {
      "epoch": 1.3506787330316743,
      "grad_norm": 0.188517764210701,
      "learning_rate": 6.710100716628344e-05,
      "loss": 1.3528,
      "step": 37
    },
    {
      "epoch": 1.3868778280542986,
      "grad_norm": 0.1890035718679428,
      "learning_rate": 6.503528997521366e-05,
      "loss": 1.3881,
      "step": 38
    },
    {
      "epoch": 1.4230769230769231,
      "grad_norm": 0.19418419897556305,
      "learning_rate": 6.294095225512603e-05,
      "loss": 1.374,
      "step": 39
    },
    {
      "epoch": 1.4592760180995474,
      "grad_norm": 0.1959460824728012,
      "learning_rate": 6.0821980696905146e-05,
      "loss": 1.3717,
      "step": 40
    },
    {
      "epoch": 1.495475113122172,
      "grad_norm": 0.20840130746364594,
      "learning_rate": 5.868240888334653e-05,
      "loss": 1.37,
      "step": 41
    },
    {
      "epoch": 1.5316742081447963,
      "grad_norm": 0.21801875531673431,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 1.359,
      "step": 42
    },
    {
      "epoch": 1.5678733031674208,
      "grad_norm": 0.20987379550933838,
      "learning_rate": 5.435778713738292e-05,
      "loss": 1.421,
      "step": 43
    },
    {
      "epoch": 1.6040723981900453,
      "grad_norm": 0.19880157709121704,
      "learning_rate": 5.218096936826681e-05,
      "loss": 1.4027,
      "step": 44
    },
    {
      "epoch": 1.6402714932126696,
      "grad_norm": 0.20954720675945282,
      "learning_rate": 5e-05,
      "loss": 1.3634,
      "step": 45
    },
    {
      "epoch": 1.6764705882352942,
      "grad_norm": 0.20119519531726837,
      "learning_rate": 4.781903063173321e-05,
      "loss": 1.361,
      "step": 46
    },
    {
      "epoch": 1.7126696832579187,
      "grad_norm": 0.20504230260849,
      "learning_rate": 4.564221286261709e-05,
      "loss": 1.3613,
      "step": 47
    },
    {
      "epoch": 1.748868778280543,
      "grad_norm": 0.20827656984329224,
      "learning_rate": 4.347369038899744e-05,
      "loss": 1.367,
      "step": 48
    },
    {
      "epoch": 1.7850678733031673,
      "grad_norm": 0.21221719682216644,
      "learning_rate": 4.131759111665349e-05,
      "loss": 1.3626,
      "step": 49
    },
    {
      "epoch": 1.8212669683257918,
      "grad_norm": 0.21247024834156036,
      "learning_rate": 3.917801930309486e-05,
      "loss": 1.3847,
      "step": 50
    },
    {
      "epoch": 1.8574660633484164,
      "grad_norm": 0.21873697638511658,
      "learning_rate": 3.705904774487396e-05,
      "loss": 1.3584,
      "step": 51
    },
    {
      "epoch": 1.8936651583710407,
      "grad_norm": 0.21476612985134125,
      "learning_rate": 3.4964710024786354e-05,
      "loss": 1.393,
      "step": 52
    },
    {
      "epoch": 1.9298642533936652,
      "grad_norm": 0.21541458368301392,
      "learning_rate": 3.289899283371657e-05,
      "loss": 1.3333,
      "step": 53
    },
    {
      "epoch": 1.9660633484162897,
      "grad_norm": 0.2195931226015091,
      "learning_rate": 3.086582838174551e-05,
      "loss": 1.3567,
      "step": 54
    },
    {
      "epoch": 2.013574660633484,
      "grad_norm": 0.22267796099185944,
      "learning_rate": 2.886908691296504e-05,
      "loss": 1.3388,
      "step": 55
    },
    {
      "epoch": 2.0497737556561084,
      "grad_norm": 0.2236703336238861,
      "learning_rate": 2.6912569338248315e-05,
      "loss": 1.3288,
      "step": 56
    },
    {
      "epoch": 2.085972850678733,
      "grad_norm": 0.22568458318710327,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.2998,
      "step": 57
    },
    {
      "epoch": 2.1221719457013575,
      "grad_norm": 0.22315552830696106,
      "learning_rate": 2.3135019582658802e-05,
      "loss": 1.2406,
      "step": 58
    },
    {
      "epoch": 2.158371040723982,
      "grad_norm": 0.22059525549411774,
      "learning_rate": 2.132117818244771e-05,
      "loss": 1.2579,
      "step": 59
    },
    {
      "epoch": 2.1945701357466065,
      "grad_norm": 0.24967165291309357,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 1.2737,
      "step": 60
    },
    {
      "epoch": 2.230769230769231,
      "grad_norm": 0.2367183119058609,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 1.3014,
      "step": 61
    },
    {
      "epoch": 2.266968325791855,
      "grad_norm": 0.2517261207103729,
      "learning_rate": 1.622048961921699e-05,
      "loss": 1.3528,
      "step": 62
    },
    {
      "epoch": 2.3031674208144794,
      "grad_norm": 0.235427126288414,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 1.2639,
      "step": 63
    },
    {
      "epoch": 2.339366515837104,
      "grad_norm": 0.22943593561649323,
      "learning_rate": 1.3136133159493802e-05,
      "loss": 1.3244,
      "step": 64
    },
    {
      "epoch": 2.3755656108597285,
      "grad_norm": 0.22623376548290253,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 1.3534,
      "step": 65
    },
    {
      "epoch": 2.411764705882353,
      "grad_norm": 0.240826815366745,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 1.2637,
      "step": 66
    },
    {
      "epoch": 2.4479638009049776,
      "grad_norm": 0.2174130380153656,
      "learning_rate": 9.042397785550405e-06,
      "loss": 1.3538,
      "step": 67
    },
    {
      "epoch": 2.484162895927602,
      "grad_norm": 0.23589667677879333,
      "learning_rate": 7.830427709355725e-06,
      "loss": 1.3247,
      "step": 68
    },
    {
      "epoch": 2.520361990950226,
      "grad_norm": 0.24112889170646667,
      "learning_rate": 6.698729810778065e-06,
      "loss": 1.2721,
      "step": 69
    },
    {
      "epoch": 2.5565610859728505,
      "grad_norm": 0.23095567524433136,
      "learning_rate": 5.649458341088915e-06,
      "loss": 1.2966,
      "step": 70
    },
    {
      "epoch": 2.5927601809954752,
      "grad_norm": 0.2425680309534073,
      "learning_rate": 4.684610648167503e-06,
      "loss": 1.2594,
      "step": 71
    },
    {
      "epoch": 2.6289592760180995,
      "grad_norm": 0.2282722145318985,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 1.2951,
      "step": 72
    },
    {
      "epoch": 2.665158371040724,
      "grad_norm": 0.2365112006664276,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 1.3408,
      "step": 73
    },
    {
      "epoch": 2.7013574660633486,
      "grad_norm": 0.23960916697978973,
      "learning_rate": 2.314152462588659e-06,
      "loss": 1.2951,
      "step": 74
    },
    {
      "epoch": 2.737556561085973,
      "grad_norm": 0.23407232761383057,
      "learning_rate": 1.70370868554659e-06,
      "loss": 1.2927,
      "step": 75
    },
    {
      "epoch": 2.773755656108597,
      "grad_norm": 0.23612752556800842,
      "learning_rate": 1.1851996440033319e-06,
      "loss": 1.3133,
      "step": 76
    },
    {
      "epoch": 2.8099547511312215,
      "grad_norm": 0.24510255455970764,
      "learning_rate": 7.596123493895991e-07,
      "loss": 1.3135,
      "step": 77
    },
    {
      "epoch": 2.8461538461538463,
      "grad_norm": 0.25504744052886963,
      "learning_rate": 4.277569313094809e-07,
      "loss": 1.2631,
      "step": 78
    },
    {
      "epoch": 2.8823529411764706,
      "grad_norm": 0.22783517837524414,
      "learning_rate": 1.9026509541272275e-07,
      "loss": 1.2773,
      "step": 79
    },
    {
      "epoch": 2.918552036199095,
      "grad_norm": 0.23234006762504578,
      "learning_rate": 4.7588920907110094e-08,
      "loss": 1.2997,
      "step": 80
    },
    {
      "epoch": 2.9547511312217196,
      "grad_norm": 0.24794724583625793,
      "learning_rate": 0.0,
      "loss": 1.268,
      "step": 81
    },
    {
      "epoch": 2.9547511312217196,
      "step": 81,
      "total_flos": 1.9929234183615939e+18,
      "train_loss": 1.4086421551527801,
      "train_runtime": 8849.9709,
      "train_samples_per_second": 0.598,
      "train_steps_per_second": 0.009
    }
  ],
  "logging_steps": 1,
  "max_steps": 81,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9929234183615939e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}