{
  "best_metric": 0.579968273639679,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.6498781478472786,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003249390739236393,
      "grad_norm": 0.6813653707504272,
      "learning_rate": 1.0100000000000002e-05,
      "loss": 0.5143,
      "step": 1
    },
    {
      "epoch": 0.003249390739236393,
      "eval_loss": 0.7816610336303711,
      "eval_runtime": 34.0242,
      "eval_samples_per_second": 121.825,
      "eval_steps_per_second": 3.821,
      "step": 1
    },
    {
      "epoch": 0.006498781478472786,
      "grad_norm": 0.9088014364242554,
      "learning_rate": 2.0200000000000003e-05,
      "loss": 0.6753,
      "step": 2
    },
    {
      "epoch": 0.00974817221770918,
      "grad_norm": 0.9956667423248291,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 0.7492,
      "step": 3
    },
    {
      "epoch": 0.012997562956945572,
      "grad_norm": 0.8958187699317932,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.7845,
      "step": 4
    },
    {
      "epoch": 0.016246953696181964,
      "grad_norm": 0.7788242697715759,
      "learning_rate": 5.05e-05,
      "loss": 0.7895,
      "step": 5
    },
    {
      "epoch": 0.01949634443541836,
      "grad_norm": 0.7416828274726868,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 0.8016,
      "step": 6
    },
    {
      "epoch": 0.022745735174654752,
      "grad_norm": 0.22832198441028595,
      "learning_rate": 7.07e-05,
      "loss": 0.4376,
      "step": 7
    },
    {
      "epoch": 0.025995125913891144,
      "grad_norm": 0.48874160647392273,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.5812,
      "step": 8
    },
    {
      "epoch": 0.02924451665312754,
      "grad_norm": 0.6231333017349243,
      "learning_rate": 9.09e-05,
      "loss": 0.6738,
      "step": 9
    },
    {
      "epoch": 0.03249390739236393,
      "grad_norm": 0.568499743938446,
      "learning_rate": 0.000101,
      "loss": 0.711,
      "step": 10
    },
    {
      "epoch": 0.03574329813160033,
      "grad_norm": 0.4888806641101837,
      "learning_rate": 0.00010046842105263158,
      "loss": 0.734,
      "step": 11
    },
    {
      "epoch": 0.03899268887083672,
      "grad_norm": 0.5277363657951355,
      "learning_rate": 9.993684210526315e-05,
      "loss": 0.7732,
      "step": 12
    },
    {
      "epoch": 0.04224207961007311,
      "grad_norm": 0.1946847289800644,
      "learning_rate": 9.940526315789473e-05,
      "loss": 0.4379,
      "step": 13
    },
    {
      "epoch": 0.045491470349309504,
      "grad_norm": 0.18279439210891724,
      "learning_rate": 9.887368421052632e-05,
      "loss": 0.5273,
      "step": 14
    },
    {
      "epoch": 0.048740861088545896,
      "grad_norm": 0.19591547548770905,
      "learning_rate": 9.83421052631579e-05,
      "loss": 0.6058,
      "step": 15
    },
    {
      "epoch": 0.05199025182778229,
      "grad_norm": 0.2230876386165619,
      "learning_rate": 9.781052631578948e-05,
      "loss": 0.7016,
      "step": 16
    },
    {
      "epoch": 0.05523964256701868,
      "grad_norm": 0.2236296534538269,
      "learning_rate": 9.727894736842106e-05,
      "loss": 0.6581,
      "step": 17
    },
    {
      "epoch": 0.05848903330625508,
      "grad_norm": 0.2454998642206192,
      "learning_rate": 9.674736842105263e-05,
      "loss": 0.699,
      "step": 18
    },
    {
      "epoch": 0.06173842404549147,
      "grad_norm": 0.17027240991592407,
      "learning_rate": 9.621578947368421e-05,
      "loss": 0.4311,
      "step": 19
    },
    {
      "epoch": 0.06498781478472786,
      "grad_norm": 0.1304379254579544,
      "learning_rate": 9.568421052631578e-05,
      "loss": 0.4936,
      "step": 20
    },
    {
      "epoch": 0.06823720552396426,
      "grad_norm": 0.20378950238227844,
      "learning_rate": 9.515263157894737e-05,
      "loss": 0.5676,
      "step": 21
    },
    {
      "epoch": 0.07148659626320066,
      "grad_norm": 0.24588386714458466,
      "learning_rate": 9.462105263157895e-05,
      "loss": 0.608,
      "step": 22
    },
    {
      "epoch": 0.07473598700243704,
      "grad_norm": 0.24846017360687256,
      "learning_rate": 9.408947368421054e-05,
      "loss": 0.6507,
      "step": 23
    },
    {
      "epoch": 0.07798537774167344,
      "grad_norm": 0.24984927475452423,
      "learning_rate": 9.355789473684211e-05,
      "loss": 0.6756,
      "step": 24
    },
    {
      "epoch": 0.08123476848090982,
      "grad_norm": 0.6067420840263367,
      "learning_rate": 9.302631578947369e-05,
      "loss": 0.7574,
      "step": 25
    },
    {
      "epoch": 0.08448415922014622,
      "grad_norm": 0.1186656579375267,
      "learning_rate": 9.249473684210526e-05,
      "loss": 0.439,
      "step": 26
    },
    {
      "epoch": 0.08773354995938261,
      "grad_norm": 0.15524183213710785,
      "learning_rate": 9.196315789473685e-05,
      "loss": 0.5471,
      "step": 27
    },
    {
      "epoch": 0.09098294069861901,
      "grad_norm": 0.173161119222641,
      "learning_rate": 9.143157894736843e-05,
      "loss": 0.6089,
      "step": 28
    },
    {
      "epoch": 0.09423233143785541,
      "grad_norm": 0.21757453680038452,
      "learning_rate": 9.09e-05,
      "loss": 0.6695,
      "step": 29
    },
    {
      "epoch": 0.09748172217709179,
      "grad_norm": 0.26508957147598267,
      "learning_rate": 9.036842105263158e-05,
      "loss": 0.6901,
      "step": 30
    },
    {
      "epoch": 0.10073111291632819,
      "grad_norm": 0.33836978673934937,
      "learning_rate": 8.983684210526316e-05,
      "loss": 0.6923,
      "step": 31
    },
    {
      "epoch": 0.10398050365556458,
      "grad_norm": 0.11899581551551819,
      "learning_rate": 8.930526315789474e-05,
      "loss": 0.3952,
      "step": 32
    },
    {
      "epoch": 0.10722989439480098,
      "grad_norm": 0.1592710018157959,
      "learning_rate": 8.877368421052632e-05,
      "loss": 0.5076,
      "step": 33
    },
    {
      "epoch": 0.11047928513403736,
      "grad_norm": 0.18337644636631012,
      "learning_rate": 8.82421052631579e-05,
      "loss": 0.5932,
      "step": 34
    },
    {
      "epoch": 0.11372867587327376,
      "grad_norm": 0.18385730683803558,
      "learning_rate": 8.771052631578948e-05,
      "loss": 0.6471,
      "step": 35
    },
    {
      "epoch": 0.11697806661251016,
      "grad_norm": 0.22672587633132935,
      "learning_rate": 8.717894736842105e-05,
      "loss": 0.6601,
      "step": 36
    },
    {
      "epoch": 0.12022745735174654,
      "grad_norm": 0.3419555425643921,
      "learning_rate": 8.664736842105263e-05,
      "loss": 0.714,
      "step": 37
    },
    {
      "epoch": 0.12347684809098294,
      "grad_norm": 0.11192555725574493,
      "learning_rate": 8.61157894736842e-05,
      "loss": 0.4217,
      "step": 38
    },
    {
      "epoch": 0.12672623883021933,
      "grad_norm": 0.11750304698944092,
      "learning_rate": 8.55842105263158e-05,
      "loss": 0.4873,
      "step": 39
    },
    {
      "epoch": 0.12997562956945571,
      "grad_norm": 0.13687068223953247,
      "learning_rate": 8.505263157894737e-05,
      "loss": 0.5625,
      "step": 40
    },
    {
      "epoch": 0.13322502030869213,
      "grad_norm": 0.18302011489868164,
      "learning_rate": 8.452105263157896e-05,
      "loss": 0.6415,
      "step": 41
    },
    {
      "epoch": 0.1364744110479285,
      "grad_norm": 0.2126861810684204,
      "learning_rate": 8.398947368421053e-05,
      "loss": 0.6605,
      "step": 42
    },
    {
      "epoch": 0.1397238017871649,
      "grad_norm": 0.2387421578168869,
      "learning_rate": 8.345789473684211e-05,
      "loss": 0.6936,
      "step": 43
    },
    {
      "epoch": 0.1429731925264013,
      "grad_norm": 0.1434362530708313,
      "learning_rate": 8.292631578947368e-05,
      "loss": 0.4438,
      "step": 44
    },
    {
      "epoch": 0.1462225832656377,
      "grad_norm": 0.0956588014960289,
      "learning_rate": 8.239473684210526e-05,
      "loss": 0.476,
      "step": 45
    },
    {
      "epoch": 0.14947197400487408,
      "grad_norm": 0.12229965627193451,
      "learning_rate": 8.186315789473683e-05,
      "loss": 0.5585,
      "step": 46
    },
    {
      "epoch": 0.15272136474411047,
      "grad_norm": 0.14256402850151062,
      "learning_rate": 8.133157894736842e-05,
      "loss": 0.6346,
      "step": 47
    },
    {
      "epoch": 0.15597075548334688,
      "grad_norm": 0.16563288867473602,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.6593,
      "step": 48
    },
    {
      "epoch": 0.15922014622258326,
      "grad_norm": 0.22236935794353485,
      "learning_rate": 8.026842105263159e-05,
      "loss": 0.6548,
      "step": 49
    },
    {
      "epoch": 0.16246953696181965,
      "grad_norm": 0.46490493416786194,
      "learning_rate": 7.973684210526316e-05,
      "loss": 0.7019,
      "step": 50
    },
    {
      "epoch": 0.16246953696181965,
      "eval_loss": 0.5981970429420471,
      "eval_runtime": 34.2238,
      "eval_samples_per_second": 121.114,
      "eval_steps_per_second": 3.799,
      "step": 50
    },
    {
      "epoch": 0.16571892770105606,
      "grad_norm": 0.08089729398488998,
      "learning_rate": 7.920526315789474e-05,
      "loss": 0.4069,
      "step": 51
    },
    {
      "epoch": 0.16896831844029245,
      "grad_norm": 0.1035551056265831,
      "learning_rate": 7.867368421052631e-05,
      "loss": 0.541,
      "step": 52
    },
    {
      "epoch": 0.17221770917952883,
      "grad_norm": 0.12616945803165436,
      "learning_rate": 7.814210526315789e-05,
      "loss": 0.6023,
      "step": 53
    },
    {
      "epoch": 0.17546709991876522,
      "grad_norm": 0.16298453509807587,
      "learning_rate": 7.761052631578946e-05,
      "loss": 0.6371,
      "step": 54
    },
    {
      "epoch": 0.17871649065800163,
      "grad_norm": 0.22030965983867645,
      "learning_rate": 7.707894736842105e-05,
      "loss": 0.661,
      "step": 55
    },
    {
      "epoch": 0.18196588139723802,
      "grad_norm": 0.31400930881500244,
      "learning_rate": 7.654736842105264e-05,
      "loss": 0.7236,
      "step": 56
    },
    {
      "epoch": 0.1852152721364744,
      "grad_norm": 0.08643659204244614,
      "learning_rate": 7.601578947368422e-05,
      "loss": 0.4073,
      "step": 57
    },
    {
      "epoch": 0.18846466287571081,
      "grad_norm": 0.09804336726665497,
      "learning_rate": 7.548421052631579e-05,
      "loss": 0.5029,
      "step": 58
    },
    {
      "epoch": 0.1917140536149472,
      "grad_norm": 0.11811637133359909,
      "learning_rate": 7.495263157894737e-05,
      "loss": 0.5798,
      "step": 59
    },
    {
      "epoch": 0.19496344435418358,
      "grad_norm": 0.14417557418346405,
      "learning_rate": 7.442105263157894e-05,
      "loss": 0.6386,
      "step": 60
    },
    {
      "epoch": 0.19821283509341997,
      "grad_norm": 0.18085996806621552,
      "learning_rate": 7.388947368421053e-05,
      "loss": 0.6438,
      "step": 61
    },
    {
      "epoch": 0.20146222583265638,
      "grad_norm": 0.26183441281318665,
      "learning_rate": 7.335789473684211e-05,
      "loss": 0.6888,
      "step": 62
    },
    {
      "epoch": 0.20471161657189277,
      "grad_norm": 0.09585064649581909,
      "learning_rate": 7.282631578947368e-05,
      "loss": 0.3934,
      "step": 63
    },
    {
      "epoch": 0.20796100731112915,
      "grad_norm": 0.09319886565208435,
      "learning_rate": 7.229473684210527e-05,
      "loss": 0.5066,
      "step": 64
    },
    {
      "epoch": 0.21121039805036557,
      "grad_norm": 0.1095961257815361,
      "learning_rate": 7.176315789473685e-05,
      "loss": 0.5636,
      "step": 65
    },
    {
      "epoch": 0.21445978878960195,
      "grad_norm": 0.1352343112230301,
      "learning_rate": 7.123157894736842e-05,
      "loss": 0.6154,
      "step": 66
    },
    {
      "epoch": 0.21770917952883834,
      "grad_norm": 0.14879107475280762,
      "learning_rate": 7.07e-05,
      "loss": 0.6146,
      "step": 67
    },
    {
      "epoch": 0.22095857026807472,
      "grad_norm": 0.21761707961559296,
      "learning_rate": 7.016842105263159e-05,
      "loss": 0.6835,
      "step": 68
    },
    {
      "epoch": 0.22420796100731114,
      "grad_norm": 0.12341579049825668,
      "learning_rate": 6.963684210526316e-05,
      "loss": 0.3693,
      "step": 69
    },
    {
      "epoch": 0.22745735174654752,
      "grad_norm": 0.09415262937545776,
      "learning_rate": 6.910526315789474e-05,
      "loss": 0.4705,
      "step": 70
    },
    {
      "epoch": 0.2307067424857839,
      "grad_norm": 0.11740969866514206,
      "learning_rate": 6.857368421052631e-05,
      "loss": 0.5741,
      "step": 71
    },
    {
      "epoch": 0.23395613322502032,
      "grad_norm": 0.1267632246017456,
      "learning_rate": 6.80421052631579e-05,
      "loss": 0.5971,
      "step": 72
    },
    {
      "epoch": 0.2372055239642567,
      "grad_norm": 0.15046332776546478,
      "learning_rate": 6.751052631578948e-05,
      "loss": 0.6468,
      "step": 73
    },
    {
      "epoch": 0.2404549147034931,
      "grad_norm": 0.1901494562625885,
      "learning_rate": 6.697894736842105e-05,
      "loss": 0.6531,
      "step": 74
    },
    {
      "epoch": 0.2437043054427295,
      "grad_norm": 0.384968101978302,
      "learning_rate": 6.644736842105264e-05,
      "loss": 0.6608,
      "step": 75
    },
    {
      "epoch": 0.2469536961819659,
      "grad_norm": 0.08166619390249252,
      "learning_rate": 6.591578947368422e-05,
      "loss": 0.4241,
      "step": 76
    },
    {
      "epoch": 0.2502030869212023,
      "grad_norm": 0.10392117500305176,
      "learning_rate": 6.538421052631579e-05,
      "loss": 0.5328,
      "step": 77
    },
    {
      "epoch": 0.25345247766043866,
      "grad_norm": 0.12360985577106476,
      "learning_rate": 6.485263157894737e-05,
      "loss": 0.5951,
      "step": 78
    },
    {
      "epoch": 0.25670186839967507,
      "grad_norm": 0.14392927289009094,
      "learning_rate": 6.432105263157894e-05,
      "loss": 0.6235,
      "step": 79
    },
    {
      "epoch": 0.25995125913891143,
      "grad_norm": 0.1928626447916031,
      "learning_rate": 6.378947368421053e-05,
      "loss": 0.6682,
      "step": 80
    },
    {
      "epoch": 0.26320064987814784,
      "grad_norm": 0.2776186764240265,
      "learning_rate": 6.32578947368421e-05,
      "loss": 0.6922,
      "step": 81
    },
    {
      "epoch": 0.26645004061738425,
      "grad_norm": 0.08794127404689789,
      "learning_rate": 6.27263157894737e-05,
      "loss": 0.4141,
      "step": 82
    },
    {
      "epoch": 0.2696994313566206,
      "grad_norm": 0.09980195760726929,
      "learning_rate": 6.219473684210527e-05,
      "loss": 0.506,
      "step": 83
    },
    {
      "epoch": 0.272948822095857,
      "grad_norm": 0.11950897425413132,
      "learning_rate": 6.166315789473685e-05,
      "loss": 0.584,
      "step": 84
    },
    {
      "epoch": 0.27619821283509344,
      "grad_norm": 0.13808846473693848,
      "learning_rate": 6.113157894736842e-05,
      "loss": 0.633,
      "step": 85
    },
    {
      "epoch": 0.2794476035743298,
      "grad_norm": 0.1677071899175644,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 0.651,
      "step": 86
    },
    {
      "epoch": 0.2826969943135662,
      "grad_norm": 0.24286992847919464,
      "learning_rate": 6.006842105263158e-05,
      "loss": 0.6916,
      "step": 87
    },
    {
      "epoch": 0.2859463850528026,
      "grad_norm": 0.11424943804740906,
      "learning_rate": 5.953684210526315e-05,
      "loss": 0.4227,
      "step": 88
    },
    {
      "epoch": 0.289195775792039,
      "grad_norm": 0.09863637387752533,
      "learning_rate": 5.900526315789474e-05,
      "loss": 0.4951,
      "step": 89
    },
    {
      "epoch": 0.2924451665312754,
      "grad_norm": 0.11521070450544357,
      "learning_rate": 5.847368421052632e-05,
      "loss": 0.5696,
      "step": 90
    },
    {
      "epoch": 0.2956945572705118,
      "grad_norm": 0.1330547034740448,
      "learning_rate": 5.79421052631579e-05,
      "loss": 0.6131,
      "step": 91
    },
    {
      "epoch": 0.29894394800974816,
      "grad_norm": 0.145342618227005,
      "learning_rate": 5.7410526315789475e-05,
      "loss": 0.6349,
      "step": 92
    },
    {
      "epoch": 0.3021933387489846,
      "grad_norm": 0.2079046219587326,
      "learning_rate": 5.687894736842105e-05,
      "loss": 0.6669,
      "step": 93
    },
    {
      "epoch": 0.30544272948822093,
      "grad_norm": 0.12806619703769684,
      "learning_rate": 5.6347368421052625e-05,
      "loss": 0.4033,
      "step": 94
    },
    {
      "epoch": 0.30869212022745735,
      "grad_norm": 0.09000737220048904,
      "learning_rate": 5.5815789473684214e-05,
      "loss": 0.4668,
      "step": 95
    },
    {
      "epoch": 0.31194151096669376,
      "grad_norm": 0.10959979891777039,
      "learning_rate": 5.5284210526315796e-05,
      "loss": 0.5692,
      "step": 96
    },
    {
      "epoch": 0.3151909017059301,
      "grad_norm": 0.1303456574678421,
      "learning_rate": 5.475263157894737e-05,
      "loss": 0.6188,
      "step": 97
    },
    {
      "epoch": 0.31844029244516653,
      "grad_norm": 0.1473805159330368,
      "learning_rate": 5.422105263157895e-05,
      "loss": 0.6352,
      "step": 98
    },
    {
      "epoch": 0.32168968318440294,
      "grad_norm": 0.1913599818944931,
      "learning_rate": 5.368947368421053e-05,
      "loss": 0.6548,
      "step": 99
    },
    {
      "epoch": 0.3249390739236393,
      "grad_norm": 0.4161045551300049,
      "learning_rate": 5.3157894736842104e-05,
      "loss": 0.6829,
      "step": 100
    },
    {
      "epoch": 0.3249390739236393,
      "eval_loss": 0.5865235328674316,
      "eval_runtime": 34.0488,
      "eval_samples_per_second": 121.737,
      "eval_steps_per_second": 3.818,
      "step": 100
    },
    {
      "epoch": 0.3281884646628757,
      "grad_norm": 0.0793076679110527,
      "learning_rate": 5.262631578947368e-05,
      "loss": 0.4153,
      "step": 101
    },
    {
      "epoch": 0.3314378554021121,
      "grad_norm": 0.10799999535083771,
      "learning_rate": 5.209473684210527e-05,
      "loss": 0.5407,
      "step": 102
    },
    {
      "epoch": 0.3346872461413485,
      "grad_norm": 0.12578538060188293,
      "learning_rate": 5.1563157894736844e-05,
      "loss": 0.5839,
      "step": 103
    },
    {
      "epoch": 0.3379366368805849,
      "grad_norm": 0.1581355482339859,
      "learning_rate": 5.1031578947368426e-05,
      "loss": 0.6407,
      "step": 104
    },
    {
      "epoch": 0.3411860276198213,
      "grad_norm": 0.1918567270040512,
      "learning_rate": 5.05e-05,
      "loss": 0.651,
      "step": 105
    },
    {
      "epoch": 0.34443541835905767,
      "grad_norm": 0.28396371006965637,
      "learning_rate": 4.9968421052631576e-05,
      "loss": 0.6952,
      "step": 106
    },
    {
      "epoch": 0.3476848090982941,
      "grad_norm": 0.0913185104727745,
      "learning_rate": 4.943684210526316e-05,
      "loss": 0.4104,
      "step": 107
    },
    {
      "epoch": 0.35093419983753044,
      "grad_norm": 0.09755459427833557,
      "learning_rate": 4.890526315789474e-05,
      "loss": 0.5118,
      "step": 108
    },
    {
      "epoch": 0.35418359057676685,
      "grad_norm": 0.11383837461471558,
      "learning_rate": 4.8373684210526316e-05,
      "loss": 0.5756,
      "step": 109
    },
    {
      "epoch": 0.35743298131600326,
      "grad_norm": 0.13957881927490234,
      "learning_rate": 4.784210526315789e-05,
      "loss": 0.6268,
      "step": 110
    },
    {
      "epoch": 0.3606823720552396,
      "grad_norm": 0.16021229326725006,
      "learning_rate": 4.731052631578947e-05,
      "loss": 0.6517,
      "step": 111
    },
    {
      "epoch": 0.36393176279447603,
      "grad_norm": 0.22842200100421906,
      "learning_rate": 4.6778947368421055e-05,
      "loss": 0.6824,
      "step": 112
    },
    {
      "epoch": 0.36718115353371245,
      "grad_norm": 0.09870794415473938,
      "learning_rate": 4.624736842105263e-05,
      "loss": 0.3942,
      "step": 113
    },
    {
      "epoch": 0.3704305442729488,
      "grad_norm": 0.09231571108102798,
      "learning_rate": 4.571578947368421e-05,
      "loss": 0.4683,
      "step": 114
    },
    {
      "epoch": 0.3736799350121852,
      "grad_norm": 0.10994287580251694,
      "learning_rate": 4.518421052631579e-05,
      "loss": 0.555,
      "step": 115
    },
    {
      "epoch": 0.37692932575142163,
      "grad_norm": 0.13546720147132874,
      "learning_rate": 4.465263157894737e-05,
      "loss": 0.632,
      "step": 116
    },
    {
      "epoch": 0.380178716490658,
      "grad_norm": 0.15742133557796478,
      "learning_rate": 4.412105263157895e-05,
      "loss": 0.6484,
      "step": 117
    },
    {
      "epoch": 0.3834281072298944,
      "grad_norm": 0.21697165071964264,
      "learning_rate": 4.358947368421053e-05,
      "loss": 0.66,
      "step": 118
    },
    {
      "epoch": 0.3866774979691308,
      "grad_norm": 0.13058695197105408,
      "learning_rate": 4.30578947368421e-05,
      "loss": 0.4018,
      "step": 119
    },
    {
      "epoch": 0.38992688870836717,
      "grad_norm": 0.09321828931570053,
      "learning_rate": 4.2526315789473685e-05,
      "loss": 0.4504,
      "step": 120
    },
    {
      "epoch": 0.3931762794476036,
      "grad_norm": 0.11127794533967972,
      "learning_rate": 4.199473684210527e-05,
      "loss": 0.5384,
      "step": 121
    },
    {
      "epoch": 0.39642567018683994,
      "grad_norm": 0.13234351575374603,
      "learning_rate": 4.146315789473684e-05,
      "loss": 0.5954,
      "step": 122
    },
    {
      "epoch": 0.39967506092607635,
      "grad_norm": 0.15013480186462402,
      "learning_rate": 4.093157894736842e-05,
      "loss": 0.6251,
      "step": 123
    },
    {
      "epoch": 0.40292445166531277,
      "grad_norm": 0.18615896999835968,
      "learning_rate": 4.0400000000000006e-05,
      "loss": 0.6394,
      "step": 124
    },
    {
      "epoch": 0.4061738424045491,
      "grad_norm": 0.3680824935436249,
      "learning_rate": 3.986842105263158e-05,
      "loss": 0.6591,
      "step": 125
    },
    {
      "epoch": 0.40942323314378554,
      "grad_norm": 0.08504093438386917,
      "learning_rate": 3.933684210526316e-05,
      "loss": 0.4255,
      "step": 126
    },
    {
      "epoch": 0.41267262388302195,
      "grad_norm": 0.10568774491548538,
      "learning_rate": 3.880526315789473e-05,
      "loss": 0.5556,
      "step": 127
    },
    {
      "epoch": 0.4159220146222583,
      "grad_norm": 0.12182536721229553,
      "learning_rate": 3.827368421052632e-05,
      "loss": 0.5852,
      "step": 128
    },
    {
      "epoch": 0.4191714053614947,
      "grad_norm": 0.1525968313217163,
      "learning_rate": 3.7742105263157896e-05,
      "loss": 0.6436,
      "step": 129
    },
    {
      "epoch": 0.42242079610073113,
      "grad_norm": 0.1934550702571869,
      "learning_rate": 3.721052631578947e-05,
      "loss": 0.6896,
      "step": 130
    },
    {
      "epoch": 0.4256701868399675,
      "grad_norm": 0.28480178117752075,
      "learning_rate": 3.6678947368421054e-05,
      "loss": 0.6857,
      "step": 131
    },
    {
      "epoch": 0.4289195775792039,
      "grad_norm": 0.09007880091667175,
      "learning_rate": 3.6147368421052636e-05,
      "loss": 0.3843,
      "step": 132
    },
    {
      "epoch": 0.4321689683184403,
      "grad_norm": 0.09930918365716934,
      "learning_rate": 3.561578947368421e-05,
      "loss": 0.5109,
      "step": 133
    },
    {
      "epoch": 0.4354183590576767,
      "grad_norm": 0.118385449051857,
      "learning_rate": 3.508421052631579e-05,
      "loss": 0.5836,
      "step": 134
    },
    {
      "epoch": 0.4386677497969131,
      "grad_norm": 0.139013409614563,
      "learning_rate": 3.455263157894737e-05,
      "loss": 0.6216,
      "step": 135
    },
    {
      "epoch": 0.44191714053614944,
      "grad_norm": 0.16059033572673798,
      "learning_rate": 3.402105263157895e-05,
      "loss": 0.6354,
      "step": 136
    },
    {
      "epoch": 0.44516653127538586,
      "grad_norm": 0.24489456415176392,
      "learning_rate": 3.3489473684210526e-05,
      "loss": 0.6692,
      "step": 137
    },
    {
      "epoch": 0.44841592201462227,
      "grad_norm": 0.10024583339691162,
      "learning_rate": 3.295789473684211e-05,
      "loss": 0.3742,
      "step": 138
    },
    {
      "epoch": 0.4516653127538586,
      "grad_norm": 0.09301915764808655,
      "learning_rate": 3.242631578947368e-05,
      "loss": 0.4654,
      "step": 139
    },
    {
      "epoch": 0.45491470349309504,
      "grad_norm": 0.11495403945446014,
      "learning_rate": 3.1894736842105265e-05,
      "loss": 0.5628,
      "step": 140
    },
    {
      "epoch": 0.45816409423233145,
      "grad_norm": 0.13312485814094543,
      "learning_rate": 3.136315789473685e-05,
      "loss": 0.5899,
      "step": 141
    },
    {
      "epoch": 0.4614134849715678,
      "grad_norm": 0.1566401571035385,
      "learning_rate": 3.083157894736842e-05,
      "loss": 0.6362,
      "step": 142
    },
    {
      "epoch": 0.4646628757108042,
      "grad_norm": 0.20983877778053284,
      "learning_rate": 3.0299999999999998e-05,
      "loss": 0.6727,
      "step": 143
    },
    {
      "epoch": 0.46791226645004064,
      "grad_norm": 0.13690727949142456,
      "learning_rate": 2.9768421052631577e-05,
      "loss": 0.4128,
      "step": 144
    },
    {
      "epoch": 0.471161657189277,
      "grad_norm": 0.0922754630446434,
      "learning_rate": 2.923684210526316e-05,
      "loss": 0.4803,
      "step": 145
    },
    {
      "epoch": 0.4744110479285134,
      "grad_norm": 0.10565061867237091,
      "learning_rate": 2.8705263157894737e-05,
      "loss": 0.547,
      "step": 146
    },
    {
      "epoch": 0.4776604386677498,
      "grad_norm": 0.13177412748336792,
      "learning_rate": 2.8173684210526313e-05,
      "loss": 0.6094,
      "step": 147
    },
    {
      "epoch": 0.4809098294069862,
      "grad_norm": 0.14827612042427063,
      "learning_rate": 2.7642105263157898e-05,
      "loss": 0.6221,
      "step": 148
    },
    {
      "epoch": 0.4841592201462226,
      "grad_norm": 0.19302710890769958,
      "learning_rate": 2.7110526315789473e-05,
      "loss": 0.6625,
      "step": 149
    },
    {
      "epoch": 0.487408610885459,
      "grad_norm": 0.37328875064849854,
      "learning_rate": 2.6578947368421052e-05,
      "loss": 0.6865,
      "step": 150
    },
    {
      "epoch": 0.487408610885459,
      "eval_loss": 0.5818656086921692,
      "eval_runtime": 34.0476,
      "eval_samples_per_second": 121.741,
      "eval_steps_per_second": 3.818,
      "step": 150
    },
    {
      "epoch": 0.49065800162469536,
      "grad_norm": 0.07802988588809967,
      "learning_rate": 2.6047368421052634e-05,
      "loss": 0.4146,
      "step": 151
    },
    {
      "epoch": 0.4939073923639318,
      "grad_norm": 0.09983320534229279,
      "learning_rate": 2.5515789473684213e-05,
      "loss": 0.4931,
      "step": 152
    },
    {
      "epoch": 0.49715678310316813,
      "grad_norm": 0.11766521632671356,
      "learning_rate": 2.4984210526315788e-05,
      "loss": 0.554,
      "step": 153
    },
    {
      "epoch": 0.5004061738424046,
      "grad_norm": 0.15151403844356537,
      "learning_rate": 2.445263157894737e-05,
      "loss": 0.6179,
      "step": 154
    },
    {
      "epoch": 0.503655564581641,
      "grad_norm": 0.1727585345506668,
      "learning_rate": 2.3921052631578946e-05,
      "loss": 0.6374,
      "step": 155
    },
    {
      "epoch": 0.5069049553208773,
      "grad_norm": 0.26166626811027527,
      "learning_rate": 2.3389473684210528e-05,
      "loss": 0.6664,
      "step": 156
    },
    {
      "epoch": 0.5101543460601138,
      "grad_norm": 0.08893446624279022,
      "learning_rate": 2.2857894736842106e-05,
      "loss": 0.4093,
      "step": 157
    },
    {
      "epoch": 0.5134037367993501,
      "grad_norm": 0.10088402032852173,
      "learning_rate": 2.2326315789473685e-05,
      "loss": 0.4977,
      "step": 158
    },
    {
      "epoch": 0.5166531275385865,
      "grad_norm": 0.11405667662620544,
      "learning_rate": 2.1794736842105264e-05,
      "loss": 0.5581,
      "step": 159
    },
    {
      "epoch": 0.5199025182778229,
      "grad_norm": 0.13935838639736176,
      "learning_rate": 2.1263157894736842e-05,
      "loss": 0.6182,
      "step": 160
    },
    {
      "epoch": 0.5231519090170593,
      "grad_norm": 0.16066418588161469,
      "learning_rate": 2.073157894736842e-05,
      "loss": 0.6034,
      "step": 161
    },
    {
      "epoch": 0.5264012997562957,
      "grad_norm": 0.23469877243041992,
      "learning_rate": 2.0200000000000003e-05,
      "loss": 0.6524,
      "step": 162
    },
    {
      "epoch": 0.529650690495532,
      "grad_norm": 0.10431526601314545,
      "learning_rate": 1.966842105263158e-05,
      "loss": 0.4082,
      "step": 163
    },
    {
      "epoch": 0.5329000812347685,
      "grad_norm": 0.09575897455215454,
      "learning_rate": 1.913684210526316e-05,
      "loss": 0.4975,
      "step": 164
    },
    {
      "epoch": 0.5361494719740049,
      "grad_norm": 0.11640910804271698,
      "learning_rate": 1.8605263157894736e-05,
      "loss": 0.5596,
      "step": 165
    },
    {
      "epoch": 0.5393988627132412,
      "grad_norm": 0.13785609602928162,
      "learning_rate": 1.8073684210526318e-05,
      "loss": 0.6194,
      "step": 166
    },
    {
      "epoch": 0.5426482534524777,
      "grad_norm": 0.15416337549686432,
      "learning_rate": 1.7542105263157897e-05,
      "loss": 0.6026,
      "step": 167
    },
    {
      "epoch": 0.545897644191714,
      "grad_norm": 0.211830735206604,
      "learning_rate": 1.7010526315789475e-05,
      "loss": 0.6696,
      "step": 168
    },
    {
      "epoch": 0.5491470349309504,
      "grad_norm": 0.12884663045406342,
      "learning_rate": 1.6478947368421054e-05,
      "loss": 0.3994,
      "step": 169
    },
    {
      "epoch": 0.5523964256701869,
      "grad_norm": 0.08794397115707397,
      "learning_rate": 1.5947368421052633e-05,
      "loss": 0.4575,
      "step": 170
    },
    {
      "epoch": 0.5556458164094232,
      "grad_norm": 0.10627046972513199,
      "learning_rate": 1.541578947368421e-05,
      "loss": 0.5387,
      "step": 171
    },
    {
      "epoch": 0.5588952071486596,
      "grad_norm": 0.12478437274694443,
      "learning_rate": 1.4884210526315788e-05,
      "loss": 0.5855,
      "step": 172
    },
    {
      "epoch": 0.5621445978878961,
      "grad_norm": 0.14587360620498657,
      "learning_rate": 1.4352631578947369e-05,
      "loss": 0.6146,
      "step": 173
    },
    {
      "epoch": 0.5653939886271324,
      "grad_norm": 0.18961061537265778,
      "learning_rate": 1.3821052631578949e-05,
      "loss": 0.6532,
      "step": 174
    },
    {
      "epoch": 0.5686433793663688,
      "grad_norm": 0.40683814883232117,
      "learning_rate": 1.3289473684210526e-05,
      "loss": 0.6996,
      "step": 175
    },
    {
      "epoch": 0.5718927701056052,
      "grad_norm": 0.08547256141901016,
      "learning_rate": 1.2757894736842106e-05,
      "loss": 0.4415,
      "step": 176
    },
    {
      "epoch": 0.5751421608448416,
      "grad_norm": 0.10484316200017929,
      "learning_rate": 1.2226315789473685e-05,
      "loss": 0.5393,
      "step": 177
    },
    {
      "epoch": 0.578391551584078,
      "grad_norm": 0.12205840647220612,
      "learning_rate": 1.1694736842105264e-05,
      "loss": 0.5638,
      "step": 178
    },
    {
      "epoch": 0.5816409423233144,
      "grad_norm": 0.1463274359703064,
      "learning_rate": 1.1163157894736842e-05,
      "loss": 0.6221,
      "step": 179
    },
    {
      "epoch": 0.5848903330625508,
      "grad_norm": 0.17216245830059052,
      "learning_rate": 1.0631578947368421e-05,
      "loss": 0.628,
      "step": 180
    },
    {
      "epoch": 0.5881397238017871,
      "grad_norm": 0.2724607586860657,
      "learning_rate": 1.0100000000000002e-05,
      "loss": 0.6714,
      "step": 181
    },
    {
      "epoch": 0.5913891145410236,
      "grad_norm": 0.0893363282084465,
      "learning_rate": 9.56842105263158e-06,
      "loss": 0.3896,
      "step": 182
    },
    {
      "epoch": 0.59463850528026,
      "grad_norm": 0.10149896144866943,
      "learning_rate": 9.036842105263159e-06,
      "loss": 0.5208,
      "step": 183
    },
    {
      "epoch": 0.5978878960194963,
      "grad_norm": 0.12005976587533951,
      "learning_rate": 8.505263157894738e-06,
      "loss": 0.5721,
      "step": 184
    },
    {
      "epoch": 0.6011372867587328,
      "grad_norm": 0.14969772100448608,
      "learning_rate": 7.973684210526316e-06,
      "loss": 0.6332,
      "step": 185
    },
    {
      "epoch": 0.6043866774979691,
      "grad_norm": 0.16679374873638153,
      "learning_rate": 7.442105263157894e-06,
      "loss": 0.6444,
      "step": 186
    },
    {
      "epoch": 0.6076360682372055,
      "grad_norm": 0.24390056729316711,
      "learning_rate": 6.9105263157894745e-06,
      "loss": 0.6854,
      "step": 187
    },
    {
      "epoch": 0.6108854589764419,
      "grad_norm": 0.10056529939174652,
      "learning_rate": 6.378947368421053e-06,
      "loss": 0.3859,
      "step": 188
    },
    {
      "epoch": 0.6141348497156783,
      "grad_norm": 0.09450063109397888,
      "learning_rate": 5.847368421052632e-06,
      "loss": 0.4978,
      "step": 189
    },
    {
      "epoch": 0.6173842404549147,
      "grad_norm": 0.11468089371919632,
      "learning_rate": 5.315789473684211e-06,
      "loss": 0.5595,
      "step": 190
    },
    {
      "epoch": 0.620633631194151,
      "grad_norm": 0.1362944394350052,
      "learning_rate": 4.78421052631579e-06,
      "loss": 0.6046,
      "step": 191
    },
    {
      "epoch": 0.6238830219333875,
      "grad_norm": 0.15677259862422943,
      "learning_rate": 4.252631578947369e-06,
      "loss": 0.6272,
      "step": 192
    },
    {
      "epoch": 0.6271324126726239,
      "grad_norm": 0.21030394732952118,
      "learning_rate": 3.721052631578947e-06,
      "loss": 0.6784,
      "step": 193
    },
    {
      "epoch": 0.6303818034118602,
      "grad_norm": 0.12939949333667755,
      "learning_rate": 3.1894736842105266e-06,
      "loss": 0.4134,
      "step": 194
    },
    {
      "epoch": 0.6336311941510967,
      "grad_norm": 0.08825131505727768,
      "learning_rate": 2.6578947368421053e-06,
      "loss": 0.4701,
      "step": 195
    },
    {
      "epoch": 0.6368805848903331,
      "grad_norm": 0.10833675414323807,
      "learning_rate": 2.1263157894736844e-06,
      "loss": 0.5399,
      "step": 196
    },
    {
      "epoch": 0.6401299756295694,
      "grad_norm": 0.13064682483673096,
      "learning_rate": 1.5947368421052633e-06,
      "loss": 0.6119,
      "step": 197
    },
    {
      "epoch": 0.6433793663688059,
      "grad_norm": 0.14711295068264008,
      "learning_rate": 1.0631578947368422e-06,
      "loss": 0.6367,
      "step": 198
    },
    {
      "epoch": 0.6466287571080422,
      "grad_norm": 0.19511045515537262,
      "learning_rate": 5.315789473684211e-07,
      "loss": 0.6588,
      "step": 199
    },
    {
      "epoch": 0.6498781478472786,
      "grad_norm": 0.38982707262039185,
      "learning_rate": 0.0,
      "loss": 0.6643,
      "step": 200
    },
    {
      "epoch": 0.6498781478472786,
      "eval_loss": 0.579968273639679,
      "eval_runtime": 34.056,
      "eval_samples_per_second": 121.711,
      "eval_steps_per_second": 3.817,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.4905559397158093e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}