diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,4686 @@
+{
+  "best_metric": 0.014902754686772823,
+  "best_model_checkpoint": "/home/paperspace/Data/models/akoul_whitehorseliquidity_25c/llm3br256/checkpoint-400",
+  "epoch": 5.0,
+  "eval_steps": 5,
+  "global_step": 540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.009259259259259259,
+      "grad_norm": 0.29716095328330994,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.1002,
+      "step": 1
+    },
+    {
+      "epoch": 0.018518518518518517,
+      "grad_norm": 0.2648535370826721,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0936,
+      "step": 2
+    },
+    {
+      "epoch": 0.027777777777777776,
+      "grad_norm": 0.24819649755954742,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0898,
+      "step": 3
+    },
+    {
+      "epoch": 0.037037037037037035,
+      "grad_norm": 0.23442289233207703,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.087,
+      "step": 4
+    },
+    {
+      "epoch": 0.046296296296296294,
+      "grad_norm": 0.26300737261772156,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0904,
+      "step": 5
+    },
+    {
+      "epoch": 0.046296296296296294,
+      "eval_loss": 0.0950983464717865,
+      "eval_runtime": 11.9584,
+      "eval_samples_per_second": 4.181,
+      "eval_steps_per_second": 1.087,
+      "step": 5
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 0.18399731814861298,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0805,
+      "step": 6
+    },
+    {
+      "epoch": 0.06481481481481481,
+      "grad_norm": 0.19827856123447418,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.0782,
+      "step": 7
+    },
+    {
+      "epoch": 0.07407407407407407,
+      "grad_norm": 0.13050280511379242,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0636,
+      "step": 8
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 0.12110771238803864,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.056,
+      "step": 9
+    },
+    {
+      "epoch": 0.09259259259259259,
+      "grad_norm": 0.1111820638179779,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.053,
+      "step": 10
+    },
+    {
+      "epoch": 0.09259259259259259,
+      "eval_loss": 0.04887561500072479,
+      "eval_runtime": 9.1057,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 10
+    },
+    {
+      "epoch": 0.10185185185185185,
+      "grad_norm": 0.0779903382062912,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0538,
+      "step": 11
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 0.08193033933639526,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0398,
+      "step": 12
+    },
+    {
+      "epoch": 0.12037037037037036,
+      "grad_norm": 0.0821649506688118,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.0473,
+      "step": 13
+    },
+    {
+      "epoch": 0.12962962962962962,
+      "grad_norm": 0.07107188552618027,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0386,
+      "step": 14
+    },
+    {
+      "epoch": 0.1388888888888889,
+      "grad_norm": 0.05971238389611244,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0417,
+      "step": 15
+    },
+    {
+      "epoch": 0.1388888888888889,
+      "eval_loss": 0.04156189784407616,
+      "eval_runtime": 9.1211,
+      "eval_samples_per_second": 5.482,
+      "eval_steps_per_second": 1.425,
+      "step": 15
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 0.05262186750769615,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.0384,
+      "step": 16
+    },
+    {
+      "epoch": 0.1574074074074074,
+      "grad_norm": 0.05361900106072426,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.0378,
+      "step": 17
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.05355929210782051,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0399,
+      "step": 18
+    },
+    {
+      "epoch": 0.17592592592592593,
+      "grad_norm": 0.04563885182142258,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.0368,
+      "step": 19
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "grad_norm": 0.060624465346336365,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0396,
+      "step": 20
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "eval_loss": 0.03584723547101021,
+      "eval_runtime": 9.1162,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 20
+    },
+    {
+      "epoch": 0.19444444444444445,
+      "grad_norm": 0.0525534488260746,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0364,
+      "step": 21
+    },
+    {
+      "epoch": 0.2037037037037037,
+      "grad_norm": 0.041657958179712296,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.034,
+      "step": 22
+    },
+    {
+      "epoch": 0.21296296296296297,
+      "grad_norm": 0.04589791223406792,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.0317,
+      "step": 23
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.04220304638147354,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0339,
+      "step": 24
+    },
+    {
+      "epoch": 0.23148148148148148,
+      "grad_norm": 0.03630352392792702,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.029,
+      "step": 25
+    },
+    {
+      "epoch": 0.23148148148148148,
+      "eval_loss": 0.03286580368876457,
+      "eval_runtime": 9.1191,
+      "eval_samples_per_second": 5.483,
+      "eval_steps_per_second": 1.426,
+      "step": 25
+    },
+    {
+      "epoch": 0.24074074074074073,
+      "grad_norm": 0.04235522821545601,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.0326,
+      "step": 26
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.04675336927175522,
+      "learning_rate": 5e-05,
+      "loss": 0.03,
+      "step": 27
+    },
+    {
+      "epoch": 0.25925925925925924,
+      "grad_norm": 0.039461418986320496,
+      "learning_rate": 5.185185185185185e-05,
+      "loss": 0.0328,
+      "step": 28
+    },
+    {
+      "epoch": 0.26851851851851855,
+      "grad_norm": 0.044042930006980896,
+      "learning_rate": 5.370370370370371e-05,
+      "loss": 0.0294,
+      "step": 29
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 0.044502489268779755,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0311,
+      "step": 30
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "eval_loss": 0.030865700915455818,
+      "eval_runtime": 9.1099,
+      "eval_samples_per_second": 5.489,
+      "eval_steps_per_second": 1.427,
+      "step": 30
+    },
+    {
+      "epoch": 0.28703703703703703,
+      "grad_norm": 0.04979817569255829,
+      "learning_rate": 5.740740740740741e-05,
+      "loss": 0.0292,
+      "step": 31
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.04573828727006912,
+      "learning_rate": 5.925925925925926e-05,
+      "loss": 0.0346,
+      "step": 32
+    },
+    {
+      "epoch": 0.3055555555555556,
+      "grad_norm": 0.0410350002348423,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0295,
+      "step": 33
+    },
+    {
+      "epoch": 0.3148148148148148,
+      "grad_norm": 0.0416686087846756,
+      "learning_rate": 6.296296296296296e-05,
+      "loss": 0.0267,
+      "step": 34
+    },
+    {
+      "epoch": 0.32407407407407407,
+      "grad_norm": 0.042319901287555695,
+      "learning_rate": 6.481481481481482e-05,
+      "loss": 0.0295,
+      "step": 35
+    },
+    {
+      "epoch": 0.32407407407407407,
+      "eval_loss": 0.028042705729603767,
+      "eval_runtime": 9.1376,
+      "eval_samples_per_second": 5.472,
+      "eval_steps_per_second": 1.423,
+      "step": 35
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.037845220416784286,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0319,
+      "step": 36
+    },
+    {
+      "epoch": 0.3425925925925926,
+      "grad_norm": 0.03568718954920769,
+      "learning_rate": 6.851851851851852e-05,
+      "loss": 0.0346,
+      "step": 37
+    },
+    {
+      "epoch": 0.35185185185185186,
+      "grad_norm": 0.037281136959791183,
+      "learning_rate": 7.037037037037038e-05,
+      "loss": 0.031,
+      "step": 38
+    },
+    {
+      "epoch": 0.3611111111111111,
+      "grad_norm": 0.03607446327805519,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.0335,
+      "step": 39
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.03654631972312927,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.0262,
+      "step": 40
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "eval_loss": 0.026602942496538162,
+      "eval_runtime": 9.1124,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 40
+    },
+    {
+      "epoch": 0.37962962962962965,
+      "grad_norm": 0.039490777999162674,
+      "learning_rate": 7.592592592592593e-05,
+      "loss": 0.0252,
+      "step": 41
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 0.036680739372968674,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0242,
+      "step": 42
+    },
+    {
+      "epoch": 0.39814814814814814,
+      "grad_norm": 0.040739599615335464,
+      "learning_rate": 7.962962962962964e-05,
+      "loss": 0.025,
+      "step": 43
+    },
+    {
+      "epoch": 0.4074074074074074,
+      "grad_norm": 0.04679260402917862,
+      "learning_rate": 8.148148148148148e-05,
+      "loss": 0.0212,
+      "step": 44
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 0.04656214639544487,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.0272,
+      "step": 45
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "eval_loss": 0.02608887106180191,
+      "eval_runtime": 9.1343,
+      "eval_samples_per_second": 5.474,
+      "eval_steps_per_second": 1.423,
+      "step": 45
+    },
+    {
+      "epoch": 0.42592592592592593,
+      "grad_norm": 0.04525485262274742,
+      "learning_rate": 8.518518518518518e-05,
+      "loss": 0.0274,
+      "step": 46
+    },
+    {
+      "epoch": 0.4351851851851852,
+      "grad_norm": 0.03210742771625519,
+      "learning_rate": 8.703703703703704e-05,
+      "loss": 0.0283,
+      "step": 47
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.03675089031457901,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0242,
+      "step": 48
+    },
+    {
+      "epoch": 0.4537037037037037,
+      "grad_norm": 0.03396710753440857,
+      "learning_rate": 9.074074074074075e-05,
+      "loss": 0.0239,
+      "step": 49
+    },
+    {
+      "epoch": 0.46296296296296297,
+      "grad_norm": 0.02745971269905567,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 0.0224,
+      "step": 50
+    },
+    {
+      "epoch": 0.46296296296296297,
+      "eval_loss": 0.02490057609975338,
+      "eval_runtime": 9.1102,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 50
+    },
+    {
+      "epoch": 0.4722222222222222,
+      "grad_norm": 0.04084627702832222,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0252,
+      "step": 51
+    },
+    {
+      "epoch": 0.48148148148148145,
+      "grad_norm": 0.033021993935108185,
+      "learning_rate": 9.62962962962963e-05,
+      "loss": 0.0228,
+      "step": 52
+    },
+    {
+      "epoch": 0.49074074074074076,
+      "grad_norm": 0.034785784780979156,
+      "learning_rate": 9.814814814814815e-05,
+      "loss": 0.0259,
+      "step": 53
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.03407888114452362,
+      "learning_rate": 0.0001,
+      "loss": 0.0239,
+      "step": 54
+    },
+    {
+      "epoch": 0.5092592592592593,
+      "grad_norm": 0.03268973529338837,
+      "learning_rate": 9.99989553622803e-05,
+      "loss": 0.0229,
+      "step": 55
+    },
+    {
+      "epoch": 0.5092592592592593,
+      "eval_loss": 0.02450372651219368,
+      "eval_runtime": 9.1421,
+      "eval_samples_per_second": 5.469,
+      "eval_steps_per_second": 1.422,
+      "step": 55
+    },
+    {
+      "epoch": 0.5185185185185185,
+      "grad_norm": 0.032378531992435455,
+      "learning_rate": 9.999582149277187e-05,
+      "loss": 0.0219,
+      "step": 56
+    },
+    {
+      "epoch": 0.5277777777777778,
+      "grad_norm": 0.03997437283396721,
+      "learning_rate": 9.999059852242507e-05,
+      "loss": 0.0248,
+      "step": 57
+    },
+    {
+      "epoch": 0.5370370370370371,
+      "grad_norm": 0.04024836793541908,
+      "learning_rate": 9.998328666948438e-05,
+      "loss": 0.0194,
+      "step": 58
+    },
+    {
+      "epoch": 0.5462962962962963,
+      "grad_norm": 0.03850249573588371,
+      "learning_rate": 9.997388623947928e-05,
+      "loss": 0.0251,
+      "step": 59
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.03326913341879845,
+      "learning_rate": 9.996239762521151e-05,
+      "loss": 0.0233,
+      "step": 60
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "eval_loss": 0.023316912353038788,
+      "eval_runtime": 9.1353,
+      "eval_samples_per_second": 5.473,
+      "eval_steps_per_second": 1.423,
+      "step": 60
+    },
+    {
+      "epoch": 0.5648148148148148,
+      "grad_norm": 0.034179024398326874,
+      "learning_rate": 9.994882130673868e-05,
+      "loss": 0.0222,
+      "step": 61
+    },
+    {
+      "epoch": 0.5740740740740741,
+      "grad_norm": 0.031797800213098526,
+      "learning_rate": 9.993315785135416e-05,
+      "loss": 0.0272,
+      "step": 62
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 0.03183833882212639,
+      "learning_rate": 9.991540791356342e-05,
+      "loss": 0.0241,
+      "step": 63
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.025173548609018326,
+      "learning_rate": 9.989557223505661e-05,
+      "loss": 0.0216,
+      "step": 64
+    },
+    {
+      "epoch": 0.6018518518518519,
+      "grad_norm": 0.04935009032487869,
+      "learning_rate": 9.987365164467767e-05,
+      "loss": 0.0217,
+      "step": 65
+    },
+    {
+      "epoch": 0.6018518518518519,
+      "eval_loss": 0.02255990356206894,
+      "eval_runtime": 9.1207,
+      "eval_samples_per_second": 5.482,
+      "eval_steps_per_second": 1.425,
+      "step": 65
+    },
+    {
+      "epoch": 0.6111111111111112,
+      "grad_norm": 0.02904060110449791,
+      "learning_rate": 9.98496470583896e-05,
+      "loss": 0.0213,
+      "step": 66
+    },
+    {
+      "epoch": 0.6203703703703703,
+      "grad_norm": 0.046014755964279175,
+      "learning_rate": 9.982355947923629e-05,
+      "loss": 0.018,
+      "step": 67
+    },
+    {
+      "epoch": 0.6296296296296297,
+      "grad_norm": 0.0354795977473259,
+      "learning_rate": 9.979538999730047e-05,
+      "loss": 0.0199,
+      "step": 68
+    },
+    {
+      "epoch": 0.6388888888888888,
+      "grad_norm": 0.03308796137571335,
+      "learning_rate": 9.976513978965829e-05,
+      "loss": 0.0239,
+      "step": 69
+    },
+    {
+      "epoch": 0.6481481481481481,
+      "grad_norm": 0.03860899433493614,
+      "learning_rate": 9.973281012033007e-05,
+      "loss": 0.0247,
+      "step": 70
+    },
+    {
+      "epoch": 0.6481481481481481,
+      "eval_loss": 0.022898558527231216,
+      "eval_runtime": 9.1074,
+      "eval_samples_per_second": 5.49,
+      "eval_steps_per_second": 1.427,
+      "step": 70
+    },
+    {
+      "epoch": 0.6574074074074074,
+      "grad_norm": 0.028213078156113625,
+      "learning_rate": 9.969840234022749e-05,
+      "loss": 0.0197,
+      "step": 71
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.024581043049693108,
+      "learning_rate": 9.966191788709716e-05,
+      "loss": 0.0207,
+      "step": 72
+    },
+    {
+      "epoch": 0.6759259259259259,
+      "grad_norm": 0.026658454909920692,
+      "learning_rate": 9.962335828546048e-05,
+      "loss": 0.0214,
+      "step": 73
+    },
+    {
+      "epoch": 0.6851851851851852,
+      "grad_norm": 0.034941576421260834,
+      "learning_rate": 9.958272514655006e-05,
+      "loss": 0.0205,
+      "step": 74
+    },
+    {
+      "epoch": 0.6944444444444444,
+      "grad_norm": 0.03060038387775421,
+      "learning_rate": 9.954002016824227e-05,
+      "loss": 0.0193,
+      "step": 75
+    },
+    {
+      "epoch": 0.6944444444444444,
+      "eval_loss": 0.02283317781984806,
+      "eval_runtime": 9.1512,
+      "eval_samples_per_second": 5.464,
+      "eval_steps_per_second": 1.421,
+      "step": 75
+    },
+    {
+      "epoch": 0.7037037037037037,
+      "grad_norm": 0.0313015952706337,
+      "learning_rate": 9.949524513498636e-05,
+      "loss": 0.0206,
+      "step": 76
+    },
+    {
+      "epoch": 0.7129629629629629,
+      "grad_norm": 0.03317766636610031,
+      "learning_rate": 9.944840191772987e-05,
+      "loss": 0.0217,
+      "step": 77
+    },
+    {
+      "epoch": 0.7222222222222222,
+      "grad_norm": 0.027911782264709473,
+      "learning_rate": 9.939949247384046e-05,
+      "loss": 0.0196,
+      "step": 78
+    },
+    {
+      "epoch": 0.7314814814814815,
+      "grad_norm": 0.028807291761040688,
+      "learning_rate": 9.934851884702414e-05,
+      "loss": 0.0223,
+      "step": 79
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.03152855485677719,
+      "learning_rate": 9.929548316723982e-05,
+      "loss": 0.0173,
+      "step": 80
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "eval_loss": 0.021335698664188385,
+      "eval_runtime": 9.1689,
+      "eval_samples_per_second": 5.453,
+      "eval_steps_per_second": 1.418,
+      "step": 80
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.03250882402062416,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 0.0231,
+      "step": 81
+    },
+    {
+      "epoch": 0.7592592592592593,
+      "grad_norm": 0.030853938311338425,
+      "learning_rate": 9.918323459933005e-05,
+      "loss": 0.0224,
+      "step": 82
+    },
+    {
+      "epoch": 0.7685185185185185,
+      "grad_norm": 0.03431202098727226,
+      "learning_rate": 9.912402640156811e-05,
+      "loss": 0.0223,
+      "step": 83
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 0.027050426229834557,
+      "learning_rate": 9.906276553136923e-05,
+      "loss": 0.0198,
+      "step": 84
+    },
+    {
+      "epoch": 0.7870370370370371,
+      "grad_norm": 0.03224191442131996,
+      "learning_rate": 9.899945454855006e-05,
+      "loss": 0.0207,
+      "step": 85
+    },
+    {
+      "epoch": 0.7870370370370371,
+      "eval_loss": 0.020375357940793037,
+      "eval_runtime": 9.1362,
+      "eval_samples_per_second": 5.473,
+      "eval_steps_per_second": 1.423,
+      "step": 85
+    },
+    {
+      "epoch": 0.7962962962962963,
+      "grad_norm": 0.028706278651952744,
+      "learning_rate": 9.893409609859222e-05,
+      "loss": 0.0197,
+      "step": 86
+    },
+    {
+      "epoch": 0.8055555555555556,
+      "grad_norm": 0.02814578451216221,
+      "learning_rate": 9.88666929125318e-05,
+      "loss": 0.0199,
+      "step": 87
+    },
+    {
+      "epoch": 0.8148148148148148,
+      "grad_norm": 0.028775395825505257,
+      "learning_rate": 9.879724780684519e-05,
+      "loss": 0.0169,
+      "step": 88
+    },
+    {
+      "epoch": 0.8240740740740741,
+      "grad_norm": 0.030078047886490822,
+      "learning_rate": 9.872576368333151e-05,
+      "loss": 0.0209,
+      "step": 89
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.031860969960689545,
+      "learning_rate": 9.865224352899119e-05,
+      "loss": 0.0213,
+      "step": 90
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_loss": 0.019939038902521133,
+      "eval_runtime": 9.1287,
+      "eval_samples_per_second": 5.477,
+      "eval_steps_per_second": 1.424,
+      "step": 90
+    },
+    {
+      "epoch": 0.8425925925925926,
+      "grad_norm": 0.03415157273411751,
+      "learning_rate": 9.857669041590134e-05,
+      "loss": 0.021,
+      "step": 91
+    },
+    {
+      "epoch": 0.8518518518518519,
+      "grad_norm": 0.032674115151166916,
+      "learning_rate": 9.849910750108717e-05,
+      "loss": 0.0207,
+      "step": 92
+    },
+    {
+      "epoch": 0.8611111111111112,
+      "grad_norm": 0.02941475249826908,
+      "learning_rate": 9.84194980263903e-05,
+      "loss": 0.0196,
+      "step": 93
+    },
+    {
+      "epoch": 0.8703703703703703,
+      "grad_norm": 0.036115583032369614,
+      "learning_rate": 9.83378653183331e-05,
+      "loss": 0.0178,
+      "step": 94
+    },
+    {
+      "epoch": 0.8796296296296297,
+      "grad_norm": 0.03358744457364082,
+      "learning_rate": 9.825421278797983e-05,
+      "loss": 0.0199,
+      "step": 95
+    },
+    {
+      "epoch": 0.8796296296296297,
+      "eval_loss": 0.020193172618746758,
+      "eval_runtime": 9.1141,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 95
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.029014358296990395,
+      "learning_rate": 9.816854393079403e-05,
+      "loss": 0.0219,
+      "step": 96
+    },
+    {
+      "epoch": 0.8981481481481481,
+      "grad_norm": 0.042931754142045975,
+      "learning_rate": 9.808086232649246e-05,
+      "loss": 0.0185,
+      "step": 97
+    },
+    {
+      "epoch": 0.9074074074074074,
+      "grad_norm": 0.029089825227856636,
+      "learning_rate": 9.799117163889559e-05,
+      "loss": 0.021,
+      "step": 98
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 0.03154176101088524,
+      "learning_rate": 9.789947561577445e-05,
+      "loss": 0.02,
+      "step": 99
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "grad_norm": 0.027786221355199814,
+      "learning_rate": 9.780577808869398e-05,
+      "loss": 0.0188,
+      "step": 100
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "eval_loss": 0.02070247381925583,
+      "eval_runtime": 9.1159,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 100
+    },
+    {
+      "epoch": 0.9351851851851852,
+      "grad_norm": 0.030518539249897003,
+      "learning_rate": 9.771008297285307e-05,
+      "loss": 0.0218,
+      "step": 101
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 0.024817178025841713,
+      "learning_rate": 9.761239426692077e-05,
+      "loss": 0.0202,
+      "step": 102
+    },
+    {
+      "epoch": 0.9537037037037037,
+      "grad_norm": 0.025192229077219963,
+      "learning_rate": 9.751271605286941e-05,
+      "loss": 0.0197,
+      "step": 103
+    },
+    {
+      "epoch": 0.9629629629629629,
+      "grad_norm": 0.02538897655904293,
+      "learning_rate": 9.741105249580383e-05,
+      "loss": 0.02,
+      "step": 104
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "grad_norm": 0.025440450757741928,
+      "learning_rate": 9.730740784378753e-05,
+      "loss": 0.0193,
+      "step": 105
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "eval_loss": 0.020300446078181267,
+      "eval_runtime": 9.126,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 1.425,
+      "step": 105
+    },
+    {
+      "epoch": 0.9814814814814815,
+      "grad_norm": 0.02362542785704136,
+      "learning_rate": 9.7201786427665e-05,
+      "loss": 0.0202,
+      "step": 106
+    },
+    {
+      "epoch": 0.9907407407407407,
+      "grad_norm": 0.022390421479940414,
+      "learning_rate": 9.709419266088086e-05,
+      "loss": 0.0188,
+      "step": 107
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.026193244382739067,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.022,
+      "step": 108
+    },
+    {
+      "epoch": 1.0092592592592593,
+      "grad_norm": 0.028253022581338882,
+      "learning_rate": 9.687310614099675e-05,
+      "loss": 0.0159,
+      "step": 109
+    },
+    {
+      "epoch": 1.0185185185185186,
+      "grad_norm": 0.02241157554090023,
+      "learning_rate": 9.67596226261095e-05,
+      "loss": 0.016,
+      "step": 110
+    },
+    {
+      "epoch": 1.0185185185185186,
+      "eval_loss": 0.01969613879919052,
+      "eval_runtime": 9.1053,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 110
+    },
+    {
+      "epoch": 1.0277777777777777,
+      "grad_norm": 0.027405373752117157,
+      "learning_rate": 9.664418523660004e-05,
+      "loss": 0.014,
+      "step": 111
+    },
+    {
+      "epoch": 1.037037037037037,
+      "grad_norm": 0.032646384090185165,
+      "learning_rate": 9.652679879607843e-05,
+      "loss": 0.0172,
+      "step": 112
+    },
+    {
+      "epoch": 1.0462962962962963,
+      "grad_norm": 0.02552163228392601,
+      "learning_rate": 9.640746820959684e-05,
+      "loss": 0.014,
+      "step": 113
+    },
+    {
+      "epoch": 1.0555555555555556,
+      "grad_norm": 0.022228199988603592,
+      "learning_rate": 9.628619846344454e-05,
+      "loss": 0.0172,
+      "step": 114
+    },
+    {
+      "epoch": 1.0648148148148149,
+      "grad_norm": 0.028009962290525436,
+      "learning_rate": 9.616299462493952e-05,
+      "loss": 0.0166,
+      "step": 115
+    },
+    {
+      "epoch": 1.0648148148148149,
+      "eval_loss": 0.019864549860358238,
+      "eval_runtime": 9.122,
+      "eval_samples_per_second": 5.481,
+      "eval_steps_per_second": 1.425,
+      "step": 115
+    },
+    {
+      "epoch": 1.074074074074074,
+      "grad_norm": 0.025030331686139107,
+      "learning_rate": 9.603786184221693e-05,
+      "loss": 0.0195,
+      "step": 116
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "grad_norm": 0.030586065724492073,
+      "learning_rate": 9.591080534401371e-05,
+      "loss": 0.015,
+      "step": 117
+    },
+    {
+      "epoch": 1.0925925925925926,
+      "grad_norm": 0.02425476722419262,
+      "learning_rate": 9.57818304394503e-05,
+      "loss": 0.0183,
+      "step": 118
+    },
+    {
+      "epoch": 1.1018518518518519,
+      "grad_norm": 0.03203345090150833,
+      "learning_rate": 9.565094251780871e-05,
+      "loss": 0.0172,
+      "step": 119
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.03028124012053013,
+      "learning_rate": 9.551814704830734e-05,
+      "loss": 0.0189,
+      "step": 120
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "eval_loss": 0.019504941999912262,
+      "eval_runtime": 9.1171,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 120
+    },
+    {
+      "epoch": 1.1203703703703705,
+      "grad_norm": 0.026934562250971794,
+      "learning_rate": 9.538344957987244e-05,
+      "loss": 0.0132,
+      "step": 121
+    },
+    {
+      "epoch": 1.1296296296296295,
+      "grad_norm": 0.02392655238509178,
+      "learning_rate": 9.524685574090627e-05,
+      "loss": 0.0184,
+      "step": 122
+    },
+    {
+      "epoch": 1.1388888888888888,
+      "grad_norm": 0.02336742728948593,
+      "learning_rate": 9.51083712390519e-05,
+      "loss": 0.0155,
+      "step": 123
+    },
+    {
+      "epoch": 1.1481481481481481,
+      "grad_norm": 0.025306498631834984,
+      "learning_rate": 9.496800186095466e-05,
+      "loss": 0.0156,
+      "step": 124
+    },
+    {
+      "epoch": 1.1574074074074074,
+      "grad_norm": 0.02764940820634365,
+      "learning_rate": 9.482575347202047e-05,
+      "loss": 0.0211,
+      "step": 125
+    },
+    {
+      "epoch": 1.1574074074074074,
+      "eval_loss": 0.018362991511821747,
+      "eval_runtime": 9.1297,
+      "eval_samples_per_second": 5.477,
+      "eval_steps_per_second": 1.424,
+      "step": 125
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 0.02213912270963192,
+      "learning_rate": 9.468163201617062e-05,
+      "loss": 0.0178,
+      "step": 126
+    },
+    {
+      "epoch": 1.175925925925926,
+      "grad_norm": 0.03320689871907234,
+      "learning_rate": 9.453564351559348e-05,
+      "loss": 0.0148,
+      "step": 127
+    },
+    {
+      "epoch": 1.1851851851851851,
+      "grad_norm": 0.023370925337076187,
+      "learning_rate": 9.438779407049281e-05,
+      "loss": 0.0174,
+      "step": 128
+    },
+    {
+      "epoch": 1.1944444444444444,
+      "grad_norm": 0.02848099358379841,
+      "learning_rate": 9.423808985883289e-05,
+      "loss": 0.0174,
+      "step": 129
+    },
+    {
+      "epoch": 1.2037037037037037,
+      "grad_norm": 0.02608056552708149,
+      "learning_rate": 9.40865371360804e-05,
+      "loss": 0.0171,
+      "step": 130
+    },
+    {
+      "epoch": 1.2037037037037037,
+      "eval_loss": 0.018851976841688156,
+      "eval_runtime": 9.1046,
+      "eval_samples_per_second": 5.492,
+      "eval_steps_per_second": 1.428,
+      "step": 130
+    },
+    {
+      "epoch": 1.212962962962963,
+      "grad_norm": 0.02152630314230919,
+      "learning_rate": 9.393314223494296e-05,
+      "loss": 0.0172,
+      "step": 131
+    },
+    {
+      "epoch": 1.2222222222222223,
+      "grad_norm": 0.02550230175256729,
+      "learning_rate": 9.377791156510455e-05,
+      "loss": 0.016,
+      "step": 132
+    },
+    {
+      "epoch": 1.2314814814814814,
+      "grad_norm": 0.025004474446177483,
+      "learning_rate": 9.362085161295769e-05,
+      "loss": 0.0163,
+      "step": 133
+    },
+    {
+      "epoch": 1.2407407407407407,
+      "grad_norm": 0.026416007429361343,
+      "learning_rate": 9.346196894133239e-05,
+      "loss": 0.0165,
+      "step": 134
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.029432326555252075,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.0191,
+      "step": 135
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.019194327294826508,
+      "eval_runtime": 9.1131,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 135
+    },
+    {
+      "epoch": 1.2592592592592593,
+      "grad_norm": 0.03440408781170845,
+      "learning_rate": 9.313876207150543e-05,
+      "loss": 0.0165,
+      "step": 136
+    },
+    {
+      "epoch": 1.2685185185185186,
+      "grad_norm": 0.025614989921450615,
+      "learning_rate": 9.297445137866727e-05,
+      "loss": 0.0162,
+      "step": 137
+    },
+    {
+      "epoch": 1.2777777777777777,
+      "grad_norm": 0.02456337958574295,
+      "learning_rate": 9.280834497651334e-05,
+      "loss": 0.0192,
+      "step": 138
+    },
+    {
+      "epoch": 1.287037037037037,
+      "grad_norm": 0.051101330667734146,
+      "learning_rate": 9.264044980588416e-05,
+      "loss": 0.015,
+      "step": 139
+    },
+    {
+      "epoch": 1.2962962962962963,
+      "grad_norm": 0.03369716554880142,
+      "learning_rate": 9.247077288236488e-05,
+      "loss": 0.0184,
+      "step": 140
+    },
+    {
+      "epoch": 1.2962962962962963,
+      "eval_loss": 0.018648317083716393,
+      "eval_runtime": 9.1079,
+      "eval_samples_per_second": 5.49,
+      "eval_steps_per_second": 1.427,
+      "step": 140
+    },
+    {
+      "epoch": 1.3055555555555556,
+      "grad_norm": 0.024168213829398155,
+      "learning_rate": 9.229932129599205e-05,
+      "loss": 0.0166,
+      "step": 141
+    },
+    {
+      "epoch": 1.3148148148148149,
+      "grad_norm": 0.027960045263171196,
+      "learning_rate": 9.212610221095748e-05,
+      "loss": 0.0157,
+      "step": 142
+    },
+    {
+      "epoch": 1.324074074074074,
+      "grad_norm": 0.023985836654901505,
+      "learning_rate": 9.195112286530873e-05,
+      "loss": 0.0178,
+      "step": 143
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.026084545999765396,
+      "learning_rate": 9.177439057064683e-05,
+      "loss": 0.0164,
+      "step": 144
+    },
+    {
+      "epoch": 1.3425925925925926,
+      "grad_norm": 0.022582337260246277,
+      "learning_rate": 9.159591271182058e-05,
+      "loss": 0.0162,
+      "step": 145
+    },
+    {
+      "epoch": 1.3425925925925926,
+      "eval_loss": 0.018656810745596886,
+      "eval_runtime": 9.1149,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 145
+    },
+    {
+      "epoch": 1.3518518518518519,
+      "grad_norm": 0.030290907248854637,
+      "learning_rate": 9.141569674661817e-05,
+      "loss": 0.021,
+      "step": 146
+    },
+    {
+      "epoch": 1.3611111111111112,
+      "grad_norm": 0.026109322905540466,
+      "learning_rate": 9.123375020545535e-05,
+      "loss": 0.0162,
+      "step": 147
+    },
+    {
+      "epoch": 1.3703703703703702,
+      "grad_norm": 0.02652176469564438,
+      "learning_rate": 9.105008069106093e-05,
+      "loss": 0.0169,
+      "step": 148
+    },
+    {
+      "epoch": 1.3796296296296298,
+      "grad_norm": 0.024147020652890205,
+      "learning_rate": 9.086469587815904e-05,
+      "loss": 0.0162,
+      "step": 149
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 0.021294649690389633,
+      "learning_rate": 9.067760351314838e-05,
+      "loss": 0.0165,
+      "step": 150
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "eval_loss": 0.018213987350463867,
+      "eval_runtime": 9.1247,
+      "eval_samples_per_second": 5.48,
+      "eval_steps_per_second": 1.425,
+      "step": 150
+    },
+    {
+      "epoch": 1.3981481481481481,
+      "grad_norm": 0.02462903782725334,
+      "learning_rate": 9.048881141377863e-05,
+      "loss": 0.0204,
+      "step": 151
+    },
+    {
+      "epoch": 1.4074074074074074,
+      "grad_norm": 0.024652326479554176,
+      "learning_rate": 9.029832746882371e-05,
+      "loss": 0.0164,
+      "step": 152
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "grad_norm": 0.026834659278392792,
+      "learning_rate": 9.01061596377522e-05,
+      "loss": 0.018,
+      "step": 153
+    },
+    {
+      "epoch": 1.425925925925926,
+      "grad_norm": 0.02342064492404461,
+      "learning_rate": 8.991231595039465e-05,
+      "loss": 0.0156,
+      "step": 154
+    },
+    {
+      "epoch": 1.4351851851851851,
+      "grad_norm": 0.026441222056746483,
+      "learning_rate": 8.97168045066082e-05,
+      "loss": 0.0157,
+      "step": 155
+    },
+    {
+      "epoch": 1.4351851851851851,
+      "eval_loss": 0.01855114847421646,
+      "eval_runtime": 9.124,
+      "eval_samples_per_second": 5.48,
+      "eval_steps_per_second": 1.425,
+      "step": 155
+    },
+    {
+      "epoch": 1.4444444444444444,
+      "grad_norm": 0.01796615496277809,
+      "learning_rate": 8.951963347593797e-05,
+      "loss": 0.0165,
+      "step": 156
+    },
+    {
+      "epoch": 1.4537037037037037,
+      "grad_norm": 0.02256671153008938,
+      "learning_rate": 8.932081109727582e-05,
+      "loss": 0.0201,
+      "step": 157
+    },
+    {
+      "epoch": 1.462962962962963,
+      "grad_norm": 0.028528334572911263,
+      "learning_rate": 8.912034567851599e-05,
+      "loss": 0.0182,
+      "step": 158
+    },
+    {
+      "epoch": 1.4722222222222223,
+      "grad_norm": 0.029104968532919884,
+      "learning_rate": 8.891824559620801e-05,
+      "loss": 0.0153,
+      "step": 159
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.02003669925034046,
+      "learning_rate": 8.871451929520663e-05,
+      "loss": 0.0159,
+      "step": 160
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "eval_loss": 0.01888095587491989,
+      "eval_runtime": 9.1172,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 160
+    },
+    {
+      "epoch": 1.4907407407407407,
+      "grad_norm": 0.019447356462478638,
+      "learning_rate": 8.850917528831899e-05,
+      "loss": 0.0163,
+      "step": 161
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.03438901901245117,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0125,
+      "step": 162
+    },
+    {
+      "epoch": 1.5092592592592593,
+      "grad_norm": 0.026535626500844955,
+      "learning_rate": 8.809366854573831e-05,
+      "loss": 0.0175,
+      "step": 163
+    },
+    {
+      "epoch": 1.5185185185185186,
+      "grad_norm": 0.029025647789239883,
+      "learning_rate": 8.78835231722059e-05,
+      "loss": 0.0164,
+      "step": 164
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "grad_norm": 0.025528129190206528,
+      "learning_rate": 8.767179481638303e-05,
+      "loss": 0.0174,
+      "step": 165
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "eval_loss": 0.018690049648284912,
+      "eval_runtime": 9.1481,
+      "eval_samples_per_second": 5.466,
+      "eval_steps_per_second": 1.421,
+      "step": 165
+    },
+    {
+      "epoch": 1.5370370370370372,
+      "grad_norm": 0.025675086304545403,
+      "learning_rate": 8.745849232544681e-05,
+      "loss": 0.0179,
+      "step": 166
+    },
+    {
+      "epoch": 1.5462962962962963,
+      "grad_norm": 0.027451254427433014,
+      "learning_rate": 8.724362461235029e-05,
+      "loss": 0.0169,
+      "step": 167
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 0.026652028784155846,
+      "learning_rate": 8.702720065545024e-05,
+      "loss": 0.0168,
+      "step": 168
+    },
+    {
+      "epoch": 1.5648148148148149,
+      "grad_norm": 0.030202018097043037,
+      "learning_rate": 8.680922949813178e-05,
+      "loss": 0.0162,
+      "step": 169
+    },
+    {
+      "epoch": 1.574074074074074,
+      "grad_norm": 0.027389824390411377,
+      "learning_rate": 8.658972024843062e-05,
+      "loss": 0.0184,
+      "step": 170
+    },
+    {
+      "epoch": 1.574074074074074,
+      "eval_loss": 0.018272995948791504,
+      "eval_runtime": 9.1448,
+      "eval_samples_per_second": 5.468,
+      "eval_steps_per_second": 1.422,
+      "step": 170
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 0.025648167356848717,
+      "learning_rate": 8.636868207865244e-05,
+      "loss": 0.0152,
+      "step": 171
+    },
+    {
+      "epoch": 1.5925925925925926,
+      "grad_norm": 0.02472120150923729,
+      "learning_rate": 8.614612422498964e-05,
+      "loss": 0.0153,
+      "step": 172
+    },
+    {
+      "epoch": 1.6018518518518519,
+      "grad_norm": 0.020042769610881805,
+      "learning_rate": 8.592205598713539e-05,
+      "loss": 0.017,
+      "step": 173
+    },
+    {
+      "epoch": 1.6111111111111112,
+      "grad_norm": 0.029423648491501808,
+      "learning_rate": 8.569648672789497e-05,
+      "loss": 0.0158,
+      "step": 174
+    },
+    {
+      "epoch": 1.6203703703703702,
+      "grad_norm": 0.02159775421023369,
+      "learning_rate": 8.546942587279465e-05,
+      "loss": 0.0165,
+      "step": 175
+    },
+    {
+      "epoch": 1.6203703703703702,
+      "eval_loss": 0.018273252993822098,
+      "eval_runtime": 9.118,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 175
+    },
+    {
+      "epoch": 1.6296296296296298,
+      "grad_norm": 0.024837305769324303,
+      "learning_rate": 8.524088290968781e-05,
+      "loss": 0.0187,
+      "step": 176
+    },
+    {
+      "epoch": 1.6388888888888888,
+      "grad_norm": 0.02383432537317276,
+      "learning_rate": 8.501086738835843e-05,
+      "loss": 0.0181,
+      "step": 177
+    },
+    {
+      "epoch": 1.6481481481481481,
+      "grad_norm": 0.025743911042809486,
+      "learning_rate": 8.47793889201221e-05,
+      "loss": 0.0171,
+      "step": 178
+    },
+    {
+      "epoch": 1.6574074074074074,
+      "grad_norm": 0.023100929334759712,
+      "learning_rate": 8.45464571774244e-05,
+      "loss": 0.021,
+      "step": 179
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.02667200192809105,
+      "learning_rate": 8.43120818934367e-05,
+      "loss": 0.0173,
+      "step": 180
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_loss": 0.01778573729097843,
+      "eval_runtime": 9.1324,
+      "eval_samples_per_second": 5.475,
+      "eval_steps_per_second": 1.424,
+      "step": 180
+    },
+    {
+      "epoch": 1.675925925925926,
+      "grad_norm": 0.02880384773015976,
+      "learning_rate": 8.407627286164948e-05,
+      "loss": 0.015,
+      "step": 181
+    },
+    {
+      "epoch": 1.6851851851851851,
+      "grad_norm": 0.030301645398139954,
+      "learning_rate": 8.383903993546311e-05,
+      "loss": 0.0157,
+      "step": 182
+    },
+    {
+      "epoch": 1.6944444444444444,
+      "grad_norm": 0.021445374935865402,
+      "learning_rate": 8.360039302777612e-05,
+      "loss": 0.0181,
+      "step": 183
+    },
+    {
+      "epoch": 1.7037037037037037,
+      "grad_norm": 0.023577649146318436,
+      "learning_rate": 8.336034211057098e-05,
+      "loss": 0.0153,
+      "step": 184
+    },
+    {
+      "epoch": 1.7129629629629628,
+      "grad_norm": 0.02492811530828476,
+      "learning_rate": 8.31188972144974e-05,
+      "loss": 0.0131,
+      "step": 185
+    },
+    {
+      "epoch": 1.7129629629629628,
+      "eval_loss": 0.017187727615237236,
+      "eval_runtime": 9.1252,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 1.425,
+      "step": 185
+    },
+    {
+      "epoch": 1.7222222222222223,
+      "grad_norm": 0.023155970498919487,
+      "learning_rate": 8.28760684284532e-05,
+      "loss": 0.0162,
+      "step": 186
+    },
+    {
+      "epoch": 1.7314814814814814,
+      "grad_norm": 0.02491271123290062,
+      "learning_rate": 8.263186589916273e-05,
+      "loss": 0.0137,
+      "step": 187
+    },
+    {
+      "epoch": 1.7407407407407407,
+      "grad_norm": 0.02165275253355503,
+      "learning_rate": 8.238629983075294e-05,
+      "loss": 0.0143,
+      "step": 188
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 0.024284129962325096,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0144,
+      "step": 189
+    },
+    {
+      "epoch": 1.7592592592592593,
+      "grad_norm": 0.027395077049732208,
+      "learning_rate": 8.18911181775353e-05,
+      "loss": 0.0132,
+      "step": 190
+    },
+    {
+      "epoch": 1.7592592592592593,
+      "eval_loss": 0.018012873828411102,
+      "eval_runtime": 9.1149,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 190
+    },
+    {
+      "epoch": 1.7685185185185186,
+      "grad_norm": 0.02639261819422245,
+      "learning_rate": 8.164152328414476e-05,
+      "loss": 0.0156,
+      "step": 191
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.02319464646279812,
+      "learning_rate": 8.139060623360493e-05,
+      "loss": 0.0121,
+      "step": 192
+    },
+    {
+      "epoch": 1.7870370370370372,
+      "grad_norm": 0.020444169640541077,
+      "learning_rate": 8.113837751061246e-05,
+      "loss": 0.0156,
+      "step": 193
+    },
+    {
+      "epoch": 1.7962962962962963,
+      "grad_norm": 0.03843529522418976,
+      "learning_rate": 8.088484765467286e-05,
+      "loss": 0.0202,
+      "step": 194
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 0.03014414757490158,
+      "learning_rate": 8.063002725966015e-05,
+      "loss": 0.0157,
+      "step": 195
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "eval_loss": 0.018071575090289116,
+      "eval_runtime": 9.1428,
+      "eval_samples_per_second": 5.469,
+      "eval_steps_per_second": 1.422,
+      "step": 195
+    },
+    {
+      "epoch": 1.8148148148148149,
+      "grad_norm": 0.028225911781191826,
+      "learning_rate": 8.037392697337418e-05,
+      "loss": 0.0152,
+      "step": 196
+    },
+    {
+      "epoch": 1.824074074074074,
+      "grad_norm": 0.022350864484906197,
+      "learning_rate": 8.011655749709575e-05,
+      "loss": 0.0147,
+      "step": 197
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 0.023073699325323105,
+      "learning_rate": 7.985792958513931e-05,
+      "loss": 0.0142,
+      "step": 198
+    },
+    {
+      "epoch": 1.8425925925925926,
+      "grad_norm": 0.027160046622157097,
+      "learning_rate": 7.95980540444038e-05,
+      "loss": 0.0181,
+      "step": 199
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.02501911297440529,
+      "learning_rate": 7.93369417339209e-05,
+      "loss": 0.0154,
+      "step": 200
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "eval_loss": 0.01711750030517578,
+      "eval_runtime": 9.1469,
+      "eval_samples_per_second": 5.466,
+      "eval_steps_per_second": 1.421,
+      "step": 200
+    },
+    {
+      "epoch": 1.8611111111111112,
+      "grad_norm": 0.02209513448178768,
+      "learning_rate": 7.907460356440133e-05,
+      "loss": 0.0156,
+      "step": 201
+    },
+    {
+      "epoch": 1.8703703703703702,
+      "grad_norm": 0.022372853010892868,
+      "learning_rate": 7.881105049777901e-05,
+      "loss": 0.0182,
+      "step": 202
+    },
+    {
+      "epoch": 1.8796296296296298,
+      "grad_norm": 0.02874351665377617,
+      "learning_rate": 7.854629354675291e-05,
+      "loss": 0.0145,
+      "step": 203
+    },
+    {
+      "epoch": 1.8888888888888888,
+      "grad_norm": 0.025754928588867188,
+      "learning_rate": 7.828034377432693e-05,
+      "loss": 0.0161,
+      "step": 204
+    },
+    {
+      "epoch": 1.8981481481481481,
+      "grad_norm": 0.023868247866630554,
+      "learning_rate": 7.801321229334764e-05,
+      "loss": 0.0139,
+      "step": 205
+    },
+    {
+      "epoch": 1.8981481481481481,
+      "eval_loss": 0.01687374897301197,
+      "eval_runtime": 9.1148,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 205
+    },
+    {
+      "epoch": 1.9074074074074074,
+      "grad_norm": 0.02167942002415657,
+      "learning_rate": 7.774491026603985e-05,
+      "loss": 0.0172,
+      "step": 206
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 0.028955647721886635,
+      "learning_rate": 7.74754489035403e-05,
+      "loss": 0.0182,
+      "step": 207
+    },
+    {
+      "epoch": 1.925925925925926,
+      "grad_norm": 0.023490311577916145,
+      "learning_rate": 7.720483946542914e-05,
+      "loss": 0.0176,
+      "step": 208
+    },
+    {
+      "epoch": 1.9351851851851851,
+      "grad_norm": 0.02635806053876877,
+      "learning_rate": 7.69330932592594e-05,
+      "loss": 0.0149,
+      "step": 209
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "grad_norm": 0.02554040215909481,
+      "learning_rate": 7.666022164008457e-05,
+      "loss": 0.0169,
+      "step": 210
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "eval_loss": 0.016974864527583122,
+      "eval_runtime": 9.1008,
+      "eval_samples_per_second": 5.494,
+      "eval_steps_per_second": 1.428,
+      "step": 210
+    },
+    {
+      "epoch": 1.9537037037037037,
+      "grad_norm": 0.02924305759370327,
+      "learning_rate": 7.63862360099841e-05,
+      "loss": 0.0148,
+      "step": 211
+    },
+    {
+      "epoch": 1.9629629629629628,
+      "grad_norm": 0.020948631688952446,
+      "learning_rate": 7.611114781758692e-05,
+      "loss": 0.0158,
+      "step": 212
+    },
+    {
+      "epoch": 1.9722222222222223,
+      "grad_norm": 0.021703558042645454,
+      "learning_rate": 7.583496855759316e-05,
+      "loss": 0.0172,
+      "step": 213
+    },
+    {
+      "epoch": 1.9814814814814814,
+      "grad_norm": 0.022922605276107788,
+      "learning_rate": 7.555770977029367e-05,
+      "loss": 0.0149,
+      "step": 214
+    },
+    {
+      "epoch": 1.9907407407407407,
+      "grad_norm": 0.025769095867872238,
+      "learning_rate": 7.527938304108795e-05,
+      "loss": 0.0158,
+      "step": 215
+    },
+    {
+      "epoch": 1.9907407407407407,
+      "eval_loss": 0.017042405903339386,
+      "eval_runtime": 9.1168,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 215
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.03371057286858559,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0126,
+      "step": 216
+    },
+    {
+      "epoch": 2.009259259259259,
+      "grad_norm": 0.01711084321141243,
+      "learning_rate": 7.471957232119234e-05,
+      "loss": 0.0142,
+      "step": 217
+    },
+    {
+      "epoch": 2.0185185185185186,
+      "grad_norm": 0.023618614301085472,
+      "learning_rate": 7.443811172247821e-05,
+      "loss": 0.0151,
+      "step": 218
+    },
+    {
+      "epoch": 2.0277777777777777,
+      "grad_norm": 0.02181304432451725,
+      "learning_rate": 7.415562996483192e-05,
+      "loss": 0.0132,
+      "step": 219
+    },
+    {
+      "epoch": 2.037037037037037,
+      "grad_norm": 0.020521776750683784,
+      "learning_rate": 7.387213885189746e-05,
+      "loss": 0.0139,
+      "step": 220
+    },
+    {
+      "epoch": 2.037037037037037,
+      "eval_loss": 0.01702064275741577,
+      "eval_runtime": 9.1369,
+      "eval_samples_per_second": 5.472,
+      "eval_steps_per_second": 1.423,
+      "step": 220
+    },
+    {
+      "epoch": 2.0462962962962963,
+      "grad_norm": 0.022209780290722847,
+      "learning_rate": 7.358765022949519e-05,
+      "loss": 0.0152,
+      "step": 221
+    },
+    {
+      "epoch": 2.0555555555555554,
+      "grad_norm": 0.02240665629506111,
+      "learning_rate": 7.330217598512695e-05,
+      "loss": 0.0136,
+      "step": 222
+    },
+    {
+      "epoch": 2.064814814814815,
+      "grad_norm": 0.024021176621317863,
+      "learning_rate": 7.30157280474793e-05,
+      "loss": 0.0134,
+      "step": 223
+    },
+    {
+      "epoch": 2.074074074074074,
+      "grad_norm": 0.022297382354736328,
+      "learning_rate": 7.272831838592503e-05,
+      "loss": 0.0158,
+      "step": 224
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.023189576342701912,
+      "learning_rate": 7.243995901002312e-05,
+      "loss": 0.0146,
+      "step": 225
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "eval_loss": 0.017011733725667,
+      "eval_runtime": 9.1385,
+      "eval_samples_per_second": 5.471,
+      "eval_steps_per_second": 1.423,
+      "step": 225
+    },
+    {
+      "epoch": 2.0925925925925926,
+      "grad_norm": 0.02641259878873825,
+      "learning_rate": 7.215066196901676e-05,
+      "loss": 0.0149,
+      "step": 226
+    },
+    {
+      "epoch": 2.1018518518518516,
+      "grad_norm": 0.02105395309627056,
+      "learning_rate": 7.186043935133005e-05,
+      "loss": 0.0105,
+      "step": 227
+    },
+    {
+      "epoch": 2.111111111111111,
+      "grad_norm": 0.020818866789340973,
+      "learning_rate": 7.156930328406268e-05,
+      "loss": 0.0144,
+      "step": 228
+    },
+    {
+      "epoch": 2.1203703703703702,
+      "grad_norm": 0.028699271380901337,
+      "learning_rate": 7.127726593248337e-05,
+      "loss": 0.0134,
+      "step": 229
+    },
+    {
+      "epoch": 2.1296296296296298,
+      "grad_norm": 0.025844816118478775,
+      "learning_rate": 7.098433949952146e-05,
+      "loss": 0.0115,
+      "step": 230
+    },
+    {
+      "epoch": 2.1296296296296298,
+      "eval_loss": 0.017404422163963318,
+      "eval_runtime": 9.1138,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 230
+    },
+    {
+      "epoch": 2.138888888888889,
+      "grad_norm": 0.02628181129693985,
+      "learning_rate": 7.069053622525696e-05,
+      "loss": 0.0135,
+      "step": 231
+    },
+    {
+      "epoch": 2.148148148148148,
+      "grad_norm": 0.03826741501688957,
+      "learning_rate": 7.039586838640919e-05,
+      "loss": 0.013,
+      "step": 232
+    },
+    {
+      "epoch": 2.1574074074074074,
+      "grad_norm": 0.02549687772989273,
+      "learning_rate": 7.01003482958237e-05,
+      "loss": 0.0112,
+      "step": 233
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "grad_norm": 0.02850032038986683,
+      "learning_rate": 6.980398830195785e-05,
+      "loss": 0.0114,
+      "step": 234
+    },
+    {
+      "epoch": 2.175925925925926,
+      "grad_norm": 0.028789905831217766,
+      "learning_rate": 6.950680078836474e-05,
+      "loss": 0.0138,
+      "step": 235
+    },
+    {
+      "epoch": 2.175925925925926,
+      "eval_loss": 0.016838619485497475,
+      "eval_runtime": 9.1141,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 235
+    },
+    {
+      "epoch": 2.185185185185185,
+      "grad_norm": 0.024276968091726303,
+      "learning_rate": 6.920879817317589e-05,
+      "loss": 0.0156,
+      "step": 236
+    },
+    {
+      "epoch": 2.1944444444444446,
+      "grad_norm": 0.02652347832918167,
+      "learning_rate": 6.890999290858214e-05,
+      "loss": 0.0111,
+      "step": 237
+    },
+    {
+      "epoch": 2.2037037037037037,
+      "grad_norm": 0.03363705053925514,
+      "learning_rate": 6.861039748031351e-05,
+      "loss": 0.0155,
+      "step": 238
+    },
+    {
+      "epoch": 2.212962962962963,
+      "grad_norm": 0.025364842265844345,
+      "learning_rate": 6.83100244071174e-05,
+      "loss": 0.0127,
+      "step": 239
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.024912815541028976,
+      "learning_rate": 6.800888624023553e-05,
+      "loss": 0.0138,
+      "step": 240
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "eval_loss": 0.017057882621884346,
+      "eval_runtime": 9.1505,
+      "eval_samples_per_second": 5.464,
+      "eval_steps_per_second": 1.421,
+      "step": 240
+    },
+    {
+      "epoch": 2.2314814814814814,
+      "grad_norm": 0.031296826899051666,
+      "learning_rate": 6.770699556287939e-05,
+      "loss": 0.0138,
+      "step": 241
+    },
+    {
+      "epoch": 2.240740740740741,
+      "grad_norm": 0.03207860141992569,
+      "learning_rate": 6.740436498970452e-05,
+      "loss": 0.0128,
+      "step": 242
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 0.027626443654298782,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0142,
+      "step": 243
+    },
+    {
+      "epoch": 2.259259259259259,
+      "grad_norm": 0.025963863357901573,
+      "learning_rate": 6.679693476857711e-05,
+      "loss": 0.0137,
+      "step": 244
+    },
+    {
+      "epoch": 2.2685185185185186,
+      "grad_norm": 0.022552739828824997,
+      "learning_rate": 6.649216050240539e-05,
+      "loss": 0.0134,
+      "step": 245
+    },
+    {
+      "epoch": 2.2685185185185186,
+      "eval_loss": 0.016679909080266953,
+      "eval_runtime": 9.1095,
+      "eval_samples_per_second": 5.489,
+      "eval_steps_per_second": 1.427,
+      "step": 245
+    },
+    {
+      "epoch": 2.2777777777777777,
+      "grad_norm": 0.0247825738042593,
+      "learning_rate": 6.618669710291606e-05,
+      "loss": 0.0116,
+      "step": 246
+    },
+    {
+      "epoch": 2.287037037037037,
+      "grad_norm": 0.021808508783578873,
+      "learning_rate": 6.588055733405266e-05,
+      "loss": 0.014,
+      "step": 247
+    },
+    {
+      "epoch": 2.2962962962962963,
+      "grad_norm": 0.025087367743253708,
+      "learning_rate": 6.557375398802123e-05,
+      "loss": 0.0167,
+      "step": 248
+    },
+    {
+      "epoch": 2.3055555555555554,
+      "grad_norm": 0.022722622379660606,
+      "learning_rate": 6.526629988475567e-05,
+      "loss": 0.013,
+      "step": 249
+    },
+    {
+      "epoch": 2.314814814814815,
+      "grad_norm": 0.023495636880397797,
+      "learning_rate": 6.495820787138209e-05,
+      "loss": 0.0167,
+      "step": 250
+    },
+    {
+      "epoch": 2.314814814814815,
+      "eval_loss": 0.016377143561840057,
+      "eval_runtime": 9.1133,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 250
+    },
+    {
+      "epoch": 2.324074074074074,
+      "grad_norm": 0.021211953833699226,
+      "learning_rate": 6.464949082168204e-05,
+      "loss": 0.0125,
+      "step": 251
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.022748148068785667,
+      "learning_rate": 6.434016163555452e-05,
+      "loss": 0.0121,
+      "step": 252
+    },
+    {
+      "epoch": 2.3425925925925926,
+      "grad_norm": 0.021960506215691566,
+      "learning_rate": 6.403023323847695e-05,
+      "loss": 0.0159,
+      "step": 253
+    },
+    {
+      "epoch": 2.351851851851852,
+      "grad_norm": 0.02572719193994999,
+      "learning_rate": 6.371971858096508e-05,
+      "loss": 0.0137,
+      "step": 254
+    },
+    {
+      "epoch": 2.361111111111111,
+      "grad_norm": 0.027611717581748962,
+      "learning_rate": 6.340863063803188e-05,
+      "loss": 0.0123,
+      "step": 255
+    },
+    {
+      "epoch": 2.361111111111111,
+      "eval_loss": 0.016414109617471695,
+      "eval_runtime": 9.1093,
+      "eval_samples_per_second": 5.489,
+      "eval_steps_per_second": 1.427,
+      "step": 255
+    },
+    {
+      "epoch": 2.3703703703703702,
+      "grad_norm": 0.026147907599806786,
+      "learning_rate": 6.30969824086453e-05,
+      "loss": 0.012,
+      "step": 256
+    },
+    {
+      "epoch": 2.3796296296296298,
+      "grad_norm": 0.026667073369026184,
+      "learning_rate": 6.27847869151852e-05,
+      "loss": 0.0127,
+      "step": 257
+    },
+    {
+      "epoch": 2.388888888888889,
+      "grad_norm": 0.023840012028813362,
+      "learning_rate": 6.247205720289907e-05,
+      "loss": 0.0141,
+      "step": 258
+    },
+    {
+      "epoch": 2.398148148148148,
+      "grad_norm": 0.028697500005364418,
+      "learning_rate": 6.215880633935708e-05,
+      "loss": 0.0135,
+      "step": 259
+    },
+    {
+      "epoch": 2.4074074074074074,
+      "grad_norm": 0.029124466702342033,
+      "learning_rate": 6.184504741390596e-05,
+      "loss": 0.0139,
+      "step": 260
+    },
+    {
+      "epoch": 2.4074074074074074,
+      "eval_loss": 0.016279693692922592,
+      "eval_runtime": 9.1162,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 260
+    },
+    {
+      "epoch": 2.4166666666666665,
+      "grad_norm": 0.020265506580471992,
+      "learning_rate": 6.153079353712201e-05,
+      "loss": 0.0129,
+      "step": 261
+    },
+    {
+      "epoch": 2.425925925925926,
+      "grad_norm": 0.020486822351813316,
+      "learning_rate": 6.121605784026339e-05,
+      "loss": 0.0114,
+      "step": 262
+    },
+    {
+      "epoch": 2.435185185185185,
+      "grad_norm": 0.02432914823293686,
+      "learning_rate": 6.09008534747213e-05,
+      "loss": 0.0138,
+      "step": 263
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 0.027614833787083626,
+      "learning_rate": 6.058519361147055e-05,
+      "loss": 0.0118,
+      "step": 264
+    },
+    {
+      "epoch": 2.4537037037037037,
+      "grad_norm": 0.03493235632777214,
+      "learning_rate": 6.02690914405191e-05,
+      "loss": 0.0125,
+      "step": 265
+    },
+    {
+      "epoch": 2.4537037037037037,
+      "eval_loss": 0.016143780201673508,
+      "eval_runtime": 9.2054,
+      "eval_samples_per_second": 5.432,
+      "eval_steps_per_second": 1.412,
+      "step": 265
+    },
+    {
+      "epoch": 2.462962962962963,
+      "grad_norm": 0.024250265210866928,
+      "learning_rate": 5.995256017035703e-05,
+      "loss": 0.0139,
+      "step": 266
+    },
+    {
+      "epoch": 2.4722222222222223,
+      "grad_norm": 0.022808292880654335,
+      "learning_rate": 5.963561302740449e-05,
+      "loss": 0.0162,
+      "step": 267
+    },
+    {
+      "epoch": 2.4814814814814814,
+      "grad_norm": 0.03109206259250641,
+      "learning_rate": 5.9318263255459116e-05,
+      "loss": 0.0123,
+      "step": 268
+    },
+    {
+      "epoch": 2.490740740740741,
+      "grad_norm": 0.02985144406557083,
+      "learning_rate": 5.900052411514257e-05,
+      "loss": 0.015,
+      "step": 269
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.024866314604878426,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0126,
+      "step": 270
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.016046511009335518,
+      "eval_runtime": 9.1128,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 270
+    },
+    {
+      "epoch": 2.5092592592592595,
+      "grad_norm": 0.0215854924172163,
+      "learning_rate": 5.836393085267776e-05,
+      "loss": 0.0133,
+      "step": 271
+    },
+    {
+      "epoch": 2.5185185185185186,
+      "grad_norm": 0.02321489341557026,
+      "learning_rate": 5.804510333090287e-05,
+      "loss": 0.0175,
+      "step": 272
+    },
+    {
+      "epoch": 2.5277777777777777,
+      "grad_norm": 0.024908283725380898,
+      "learning_rate": 5.772593964039203e-05,
+      "loss": 0.0116,
+      "step": 273
+    },
+    {
+      "epoch": 2.537037037037037,
+      "grad_norm": 0.02571980282664299,
+      "learning_rate": 5.740645311756245e-05,
+      "loss": 0.0125,
+      "step": 274
+    },
+    {
+      "epoch": 2.5462962962962963,
+      "grad_norm": 0.022897284477949142,
+      "learning_rate": 5.708665711232103e-05,
+      "loss": 0.0138,
+      "step": 275
+    },
+    {
+      "epoch": 2.5462962962962963,
+      "eval_loss": 0.016013609245419502,
+      "eval_runtime": 9.1743,
+      "eval_samples_per_second": 5.45,
+      "eval_steps_per_second": 1.417,
+      "step": 275
+    },
+    {
+      "epoch": 2.5555555555555554,
+      "grad_norm": 0.023732876405119896,
+      "learning_rate": 5.6766564987506566e-05,
+      "loss": 0.0136,
+      "step": 276
+    },
+    {
+      "epoch": 2.564814814814815,
+      "grad_norm": 0.024980880320072174,
+      "learning_rate": 5.644619011833133e-05,
+      "loss": 0.0131,
+      "step": 277
+    },
+    {
+      "epoch": 2.574074074074074,
+      "grad_norm": 0.023262949660420418,
+      "learning_rate": 5.6125545891822274e-05,
+      "loss": 0.0143,
+      "step": 278
+    },
+    {
+      "epoch": 2.5833333333333335,
+      "grad_norm": 0.024468230083584785,
+      "learning_rate": 5.5804645706261514e-05,
+      "loss": 0.0148,
+      "step": 279
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.020350055769085884,
+      "learning_rate": 5.548350297062659e-05,
+      "loss": 0.0125,
+      "step": 280
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "eval_loss": 0.015153205953538418,
+      "eval_runtime": 9.1126,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 280
+    },
+    {
+      "epoch": 2.601851851851852,
+      "grad_norm": 0.027165360748767853,
+      "learning_rate": 5.516213110403009e-05,
+      "loss": 0.0093,
+      "step": 281
+    },
+    {
+      "epoch": 2.611111111111111,
+      "grad_norm": 0.021070580929517746,
+      "learning_rate": 5.484054353515896e-05,
+      "loss": 0.0138,
+      "step": 282
+    },
+    {
+      "epoch": 2.6203703703703702,
+      "grad_norm": 0.025997430086135864,
+      "learning_rate": 5.451875370171341e-05,
+      "loss": 0.0121,
+      "step": 283
+    },
+    {
+      "epoch": 2.6296296296296298,
+      "grad_norm": 0.02517426759004593,
+      "learning_rate": 5.419677504984534e-05,
+      "loss": 0.0126,
+      "step": 284
+    },
+    {
+      "epoch": 2.638888888888889,
+      "grad_norm": 0.025812286883592606,
+      "learning_rate": 5.387462103359655e-05,
+      "loss": 0.0133,
+      "step": 285
+    },
+    {
+      "epoch": 2.638888888888889,
+      "eval_loss": 0.016152961179614067,
+      "eval_runtime": 9.1127,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 285
+    },
+    {
+      "epoch": 2.648148148148148,
+      "grad_norm": 0.02393972873687744,
+      "learning_rate": 5.355230511433651e-05,
+      "loss": 0.0136,
+      "step": 286
+    },
+    {
+      "epoch": 2.6574074074074074,
+      "grad_norm": 0.021706297993659973,
+      "learning_rate": 5.32298407601999e-05,
+      "loss": 0.0133,
+      "step": 287
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.026299407705664635,
+      "learning_rate": 5.290724144552379e-05,
+      "loss": 0.0143,
+      "step": 288
+    },
+    {
+      "epoch": 2.675925925925926,
+      "grad_norm": 0.030511364340782166,
+      "learning_rate": 5.258452065028473e-05,
+      "loss": 0.0137,
+      "step": 289
+    },
+    {
+      "epoch": 2.685185185185185,
+      "grad_norm": 0.024854540824890137,
+      "learning_rate": 5.226169185953532e-05,
+      "loss": 0.0125,
+      "step": 290
+    },
+    {
+      "epoch": 2.685185185185185,
+      "eval_loss": 0.016076602041721344,
+      "eval_runtime": 9.1632,
+      "eval_samples_per_second": 5.457,
+      "eval_steps_per_second": 1.419,
+      "step": 290
+    },
+    {
+      "epoch": 2.6944444444444446,
+      "grad_norm": 0.022800520062446594,
+      "learning_rate": 5.193876856284085e-05,
+      "loss": 0.012,
+      "step": 291
+    },
+    {
+      "epoch": 2.7037037037037037,
+      "grad_norm": 0.021870015189051628,
+      "learning_rate": 5.1615764253715536e-05,
+      "loss": 0.0136,
+      "step": 292
+    },
+    {
+      "epoch": 2.712962962962963,
+      "grad_norm": 0.020156167447566986,
+      "learning_rate": 5.129269242905882e-05,
+      "loss": 0.012,
+      "step": 293
+    },
+    {
+      "epoch": 2.7222222222222223,
+      "grad_norm": 0.019064266234636307,
+      "learning_rate": 5.096956658859122e-05,
+      "loss": 0.0137,
+      "step": 294
+    },
+    {
+      "epoch": 2.7314814814814814,
+      "grad_norm": 0.027288921177387238,
+      "learning_rate": 5.064640023429043e-05,
+      "loss": 0.0147,
+      "step": 295
+    },
+    {
+      "epoch": 2.7314814814814814,
+      "eval_loss": 0.01584070920944214,
+      "eval_runtime": 9.1151,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 295
+    },
+    {
+      "epoch": 2.7407407407407405,
+      "grad_norm": 0.02484748885035515,
+      "learning_rate": 5.0323206869826966e-05,
+      "loss": 0.0111,
+      "step": 296
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.02521962858736515,
+      "learning_rate": 5e-05,
+      "loss": 0.0134,
+      "step": 297
+    },
+    {
+      "epoch": 2.7592592592592595,
+      "grad_norm": 0.023346634581685066,
+      "learning_rate": 4.967679313017303e-05,
+      "loss": 0.0124,
+      "step": 298
+    },
+    {
+      "epoch": 2.7685185185185186,
+      "grad_norm": 0.021654650568962097,
+      "learning_rate": 4.9353599765709584e-05,
+      "loss": 0.0144,
+      "step": 299
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 0.021227596327662468,
+      "learning_rate": 4.903043341140879e-05,
+      "loss": 0.0134,
+      "step": 300
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "eval_loss": 0.016122175380587578,
+      "eval_runtime": 9.1019,
+      "eval_samples_per_second": 5.493,
+      "eval_steps_per_second": 1.428,
+      "step": 300
+    },
+    {
+      "epoch": 2.787037037037037,
+      "grad_norm": 0.024656914174556732,
+      "learning_rate": 4.870730757094121e-05,
+      "loss": 0.0123,
+      "step": 301
+    },
+    {
+      "epoch": 2.7962962962962963,
+      "grad_norm": 0.02583468146622181,
+      "learning_rate": 4.8384235746284476e-05,
+      "loss": 0.015,
+      "step": 302
+    },
+    {
+      "epoch": 2.8055555555555554,
+      "grad_norm": 0.022909915074706078,
+      "learning_rate": 4.806123143715916e-05,
+      "loss": 0.0142,
+      "step": 303
+    },
+    {
+      "epoch": 2.814814814814815,
+      "grad_norm": 0.02014041878283024,
+      "learning_rate": 4.7738308140464685e-05,
+      "loss": 0.0131,
+      "step": 304
+    },
+    {
+      "epoch": 2.824074074074074,
+      "grad_norm": 0.022683143615722656,
+      "learning_rate": 4.7415479349715275e-05,
+      "loss": 0.0124,
+      "step": 305
+    },
+    {
+      "epoch": 2.824074074074074,
+      "eval_loss": 0.015797268599271774,
+      "eval_runtime": 9.1281,
+      "eval_samples_per_second": 5.478,
+      "eval_steps_per_second": 1.424,
+      "step": 305
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "grad_norm": 0.025906002148985863,
+      "learning_rate": 4.709275855447621e-05,
+      "loss": 0.0154,
+      "step": 306
+    },
+    {
+      "epoch": 2.8425925925925926,
+      "grad_norm": 0.027820315212011337,
+      "learning_rate": 4.677015923980011e-05,
+      "loss": 0.0138,
+      "step": 307
+    },
+    {
+      "epoch": 2.851851851851852,
+      "grad_norm": 0.023744860664010048,
+      "learning_rate": 4.6447694885663514e-05,
+      "loss": 0.0124,
+      "step": 308
+    },
+    {
+      "epoch": 2.861111111111111,
+      "grad_norm": 0.026518192142248154,
+      "learning_rate": 4.612537896640346e-05,
+      "loss": 0.0155,
+      "step": 309
+    },
+    {
+      "epoch": 2.8703703703703702,
+      "grad_norm": 0.020426657050848007,
+      "learning_rate": 4.5803224950154656e-05,
+      "loss": 0.0132,
+      "step": 310
+    },
+    {
+      "epoch": 2.8703703703703702,
+      "eval_loss": 0.015400240197777748,
+      "eval_runtime": 9.1185,
+      "eval_samples_per_second": 5.483,
+      "eval_steps_per_second": 1.426,
+      "step": 310
+    },
+    {
+      "epoch": 2.8796296296296298,
+      "grad_norm": 0.022766800597310066,
+      "learning_rate": 4.54812462982866e-05,
+      "loss": 0.0139,
+      "step": 311
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 0.021728193387389183,
+      "learning_rate": 4.515945646484105e-05,
+      "loss": 0.0133,
+      "step": 312
+    },
+    {
+      "epoch": 2.898148148148148,
+      "grad_norm": 0.0226016603410244,
+      "learning_rate": 4.4837868895969936e-05,
+      "loss": 0.0126,
+      "step": 313
+    },
+    {
+      "epoch": 2.9074074074074074,
+      "grad_norm": 0.027723975479602814,
+      "learning_rate": 4.451649702937342e-05,
+      "loss": 0.0106,
+      "step": 314
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.01856391504406929,
+      "learning_rate": 4.4195354293738484e-05,
+      "loss": 0.0146,
+      "step": 315
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "eval_loss": 0.015166966244578362,
+      "eval_runtime": 9.1172,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 315
+    },
+    {
+      "epoch": 2.925925925925926,
+      "grad_norm": 0.019857853651046753,
+      "learning_rate": 4.387445410817774e-05,
+      "loss": 0.0124,
+      "step": 316
+    },
+    {
+      "epoch": 2.935185185185185,
+      "grad_norm": 0.025410892441868782,
+      "learning_rate": 4.355380988166867e-05,
+      "loss": 0.0119,
+      "step": 317
+    },
+    {
+      "epoch": 2.9444444444444446,
+      "grad_norm": 0.02312655746936798,
+      "learning_rate": 4.323343501249346e-05,
+      "loss": 0.0144,
+      "step": 318
+    },
+    {
+      "epoch": 2.9537037037037037,
+      "grad_norm": 0.022076064720749855,
+      "learning_rate": 4.2913342887678985e-05,
+      "loss": 0.0117,
+      "step": 319
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.023769903928041458,
+      "learning_rate": 4.259354688243757e-05,
+      "loss": 0.014,
+      "step": 320
+    },
+    {
+      "epoch": 2.962962962962963,
+      "eval_loss": 0.014957955107092857,
+      "eval_runtime": 9.1101,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 320
+    },
+    {
+      "epoch": 2.9722222222222223,
+      "grad_norm": 0.023904340341687202,
+      "learning_rate": 4.227406035960798e-05,
+      "loss": 0.0121,
+      "step": 321
+    },
+    {
+      "epoch": 2.9814814814814814,
+      "grad_norm": 0.02383498102426529,
+      "learning_rate": 4.195489666909713e-05,
+      "loss": 0.0119,
+      "step": 322
+    },
+    {
+      "epoch": 2.9907407407407405,
+      "grad_norm": 0.03048449568450451,
+      "learning_rate": 4.1636069147322246e-05,
+      "loss": 0.0136,
+      "step": 323
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.023879334330558777,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0137,
+      "step": 324
+    },
+    {
+      "epoch": 3.009259259259259,
+      "grad_norm": 0.025208691135048866,
+      "learning_rate": 4.099947588485744e-05,
+      "loss": 0.0122,
+      "step": 325
+    },
+    {
+      "epoch": 3.009259259259259,
+      "eval_loss": 0.015089023858308792,
+      "eval_runtime": 9.116,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 325
+    },
+    {
+      "epoch": 3.0185185185185186,
+      "grad_norm": 0.020718788728117943,
+      "learning_rate": 4.06817367445409e-05,
+      "loss": 0.0095,
+      "step": 326
+    },
+    {
+      "epoch": 3.0277777777777777,
+      "grad_norm": 0.024810951203107834,
+      "learning_rate": 4.036438697259551e-05,
+      "loss": 0.0134,
+      "step": 327
+    },
+    {
+      "epoch": 3.037037037037037,
+      "grad_norm": 0.019842958077788353,
+      "learning_rate": 4.004743982964298e-05,
+      "loss": 0.0122,
+      "step": 328
+    },
+    {
+      "epoch": 3.0462962962962963,
+      "grad_norm": 0.01818239875137806,
+      "learning_rate": 3.97309085594809e-05,
+      "loss": 0.0101,
+      "step": 329
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "grad_norm": 0.022604303434491158,
+      "learning_rate": 3.941480638852948e-05,
+      "loss": 0.0118,
+      "step": 330
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "eval_loss": 0.015503546223044395,
+      "eval_runtime": 9.1063,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 330
+    },
+    {
+      "epoch": 3.064814814814815,
+      "grad_norm": 0.024690452963113785,
+      "learning_rate": 3.909914652527871e-05,
+      "loss": 0.0109,
+      "step": 331
+    },
+    {
+      "epoch": 3.074074074074074,
+      "grad_norm": 0.02343621291220188,
+      "learning_rate": 3.878394215973663e-05,
+      "loss": 0.0123,
+      "step": 332
+    },
+    {
+      "epoch": 3.0833333333333335,
+      "grad_norm": 0.026170087978243828,
+      "learning_rate": 3.846920646287799e-05,
+      "loss": 0.0122,
+      "step": 333
+    },
+    {
+      "epoch": 3.0925925925925926,
+      "grad_norm": 0.024799769744277,
+      "learning_rate": 3.815495258609404e-05,
+      "loss": 0.0125,
+      "step": 334
+    },
+    {
+      "epoch": 3.1018518518518516,
+      "grad_norm": 0.02072787657380104,
+      "learning_rate": 3.784119366064293e-05,
+      "loss": 0.0108,
+      "step": 335
+    },
+    {
+      "epoch": 3.1018518518518516,
+      "eval_loss": 0.0155374426394701,
+      "eval_runtime": 9.1152,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 335
+    },
+    {
+      "epoch": 3.111111111111111,
+      "grad_norm": 0.021989421918988228,
+      "learning_rate": 3.752794279710094e-05,
+      "loss": 0.0114,
+      "step": 336
+    },
+    {
+      "epoch": 3.1203703703703702,
+      "grad_norm": 0.03829918056726456,
+      "learning_rate": 3.721521308481482e-05,
+      "loss": 0.0101,
+      "step": 337
+    },
+    {
+      "epoch": 3.1296296296296298,
+      "grad_norm": 0.029835987836122513,
+      "learning_rate": 3.6903017591354706e-05,
+      "loss": 0.0107,
+      "step": 338
+    },
+    {
+      "epoch": 3.138888888888889,
+      "grad_norm": 0.02231847681105137,
+      "learning_rate": 3.6591369361968124e-05,
+      "loss": 0.012,
+      "step": 339
+    },
+    {
+      "epoch": 3.148148148148148,
+      "grad_norm": 0.02263280376791954,
+      "learning_rate": 3.628028141903493e-05,
+      "loss": 0.0103,
+      "step": 340
+    },
+    {
+      "epoch": 3.148148148148148,
+      "eval_loss": 0.01546421181410551,
+      "eval_runtime": 9.1199,
+      "eval_samples_per_second": 5.483,
+      "eval_steps_per_second": 1.425,
+      "step": 340
+    },
+    {
+      "epoch": 3.1574074074074074,
+      "grad_norm": 0.023618226870894432,
+      "learning_rate": 3.596976676152306e-05,
+      "loss": 0.0116,
+      "step": 341
+    },
+    {
+      "epoch": 3.1666666666666665,
+      "grad_norm": 0.02577986940741539,
+      "learning_rate": 3.5659838364445505e-05,
+      "loss": 0.0108,
+      "step": 342
+    },
+    {
+      "epoch": 3.175925925925926,
+      "grad_norm": 0.026071948930621147,
+      "learning_rate": 3.535050917831797e-05,
+      "loss": 0.0108,
+      "step": 343
+    },
+    {
+      "epoch": 3.185185185185185,
+      "grad_norm": 0.038238752633333206,
+      "learning_rate": 3.5041792128617927e-05,
+      "loss": 0.0094,
+      "step": 344
+    },
+    {
+      "epoch": 3.1944444444444446,
+      "grad_norm": 0.029051663354039192,
+      "learning_rate": 3.473370011524435e-05,
+      "loss": 0.0099,
+      "step": 345
+    },
+    {
+      "epoch": 3.1944444444444446,
+      "eval_loss": 0.015372861176729202,
+      "eval_runtime": 9.1378,
+      "eval_samples_per_second": 5.472,
+      "eval_steps_per_second": 1.423,
+      "step": 345
+    },
+    {
+      "epoch": 3.2037037037037037,
+      "grad_norm": 0.022384386509656906,
+      "learning_rate": 3.442624601197877e-05,
+      "loss": 0.0096,
+      "step": 346
+    },
+    {
+      "epoch": 3.212962962962963,
+      "grad_norm": 0.024341940879821777,
+      "learning_rate": 3.4119442665947344e-05,
+      "loss": 0.0094,
+      "step": 347
+    },
+    {
+      "epoch": 3.2222222222222223,
+      "grad_norm": 0.02119499258697033,
+      "learning_rate": 3.381330289708396e-05,
+      "loss": 0.011,
+      "step": 348
+    },
+    {
+      "epoch": 3.2314814814814814,
+      "grad_norm": 0.025269504636526108,
+      "learning_rate": 3.350783949759462e-05,
+      "loss": 0.0105,
+      "step": 349
+    },
+    {
+      "epoch": 3.240740740740741,
+      "grad_norm": 0.02428189478814602,
+      "learning_rate": 3.3203065231422904e-05,
+      "loss": 0.0115,
+      "step": 350
+    },
+    {
+      "epoch": 3.240740740740741,
+      "eval_loss": 0.015474287793040276,
+      "eval_runtime": 9.1142,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 350
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 0.027830710634589195,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.014,
+      "step": 351
+    },
+    {
+      "epoch": 3.259259259259259,
+      "grad_norm": 0.026644067838788033,
+      "learning_rate": 3.2595635010295475e-05,
+      "loss": 0.0132,
+      "step": 352
+    },
+    {
+      "epoch": 3.2685185185185186,
+      "grad_norm": 0.028307707980275154,
+      "learning_rate": 3.2293004437120624e-05,
+      "loss": 0.0093,
+      "step": 353
+    },
+    {
+      "epoch": 3.2777777777777777,
+      "grad_norm": 0.03480321913957596,
+      "learning_rate": 3.199111375976449e-05,
+      "loss": 0.0107,
+      "step": 354
+    },
+    {
+      "epoch": 3.287037037037037,
+      "grad_norm": 0.029546814039349556,
+      "learning_rate": 3.1689975592882603e-05,
+      "loss": 0.0099,
+      "step": 355
+    },
+    {
+      "epoch": 3.287037037037037,
+      "eval_loss": 0.015444349497556686,
+      "eval_runtime": 9.1458,
+      "eval_samples_per_second": 5.467,
+      "eval_steps_per_second": 1.421,
+      "step": 355
+    },
+    {
+      "epoch": 3.2962962962962963,
+      "grad_norm": 0.02437739446759224,
+      "learning_rate": 3.1389602519686515e-05,
+      "loss": 0.0118,
+      "step": 356
+    },
+    {
+      "epoch": 3.3055555555555554,
+      "grad_norm": 0.029530519619584084,
+      "learning_rate": 3.109000709141788e-05,
+      "loss": 0.0121,
+      "step": 357
+    },
+    {
+      "epoch": 3.314814814814815,
+      "grad_norm": 0.029449855908751488,
+      "learning_rate": 3.079120182682412e-05,
+      "loss": 0.0099,
+      "step": 358
+    },
+    {
+      "epoch": 3.324074074074074,
+      "grad_norm": 0.020589128136634827,
+      "learning_rate": 3.049319921163526e-05,
+      "loss": 0.0119,
+      "step": 359
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.02450876496732235,
+      "learning_rate": 3.019601169804216e-05,
+      "loss": 0.0129,
+      "step": 360
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 0.0157760102301836,
+      "eval_runtime": 9.1103,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 360
+    },
+    {
+      "epoch": 3.3425925925925926,
+      "grad_norm": 0.0208604596555233,
+      "learning_rate": 2.9899651704176325e-05,
+      "loss": 0.011,
+      "step": 361
+    },
+    {
+      "epoch": 3.351851851851852,
+      "grad_norm": 0.025153055787086487,
+      "learning_rate": 2.9604131613590824e-05,
+      "loss": 0.0109,
+      "step": 362
+    },
+    {
+      "epoch": 3.361111111111111,
+      "grad_norm": 0.021455859765410423,
+      "learning_rate": 2.9309463774743046e-05,
+      "loss": 0.0122,
+      "step": 363
+    },
+    {
+      "epoch": 3.3703703703703702,
+      "grad_norm": 0.01964252069592476,
+      "learning_rate": 2.901566050047855e-05,
+      "loss": 0.0113,
+      "step": 364
+    },
+    {
+      "epoch": 3.3796296296296298,
+      "grad_norm": 0.020809266716241837,
+      "learning_rate": 2.872273406751664e-05,
+      "loss": 0.0105,
+      "step": 365
+    },
+    {
+      "epoch": 3.3796296296296298,
+      "eval_loss": 0.015391937457025051,
+      "eval_runtime": 9.111,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 365
+    },
+    {
+      "epoch": 3.388888888888889,
+      "grad_norm": 0.025048566982150078,
+      "learning_rate": 2.8430696715937337e-05,
+      "loss": 0.0107,
+      "step": 366
+    },
+    {
+      "epoch": 3.398148148148148,
+      "grad_norm": 0.024674881249666214,
+      "learning_rate": 2.8139560648669962e-05,
+      "loss": 0.0113,
+      "step": 367
+    },
+    {
+      "epoch": 3.4074074074074074,
+      "grad_norm": 0.025468124076724052,
+      "learning_rate": 2.7849338030983257e-05,
+      "loss": 0.012,
+      "step": 368
+    },
+    {
+      "epoch": 3.4166666666666665,
+      "grad_norm": 0.022864418104290962,
+      "learning_rate": 2.7560040989976892e-05,
+      "loss": 0.01,
+      "step": 369
+    },
+    {
+      "epoch": 3.425925925925926,
+      "grad_norm": 0.02258789725601673,
+      "learning_rate": 2.7271681614074973e-05,
+      "loss": 0.0121,
+      "step": 370
+    },
+    {
+      "epoch": 3.425925925925926,
+      "eval_loss": 0.015503110364079475,
+      "eval_runtime": 9.1077,
+      "eval_samples_per_second": 5.49,
+      "eval_steps_per_second": 1.427,
+      "step": 370
+    },
+    {
+      "epoch": 3.435185185185185,
+      "grad_norm": 0.025097696110606194,
+      "learning_rate": 2.6984271952520722e-05,
+      "loss": 0.0104,
+      "step": 371
+    },
+    {
+      "epoch": 3.4444444444444446,
+      "grad_norm": 0.028177309781312943,
+      "learning_rate": 2.6697824014873075e-05,
+      "loss": 0.0132,
+      "step": 372
+    },
+    {
+      "epoch": 3.4537037037037037,
+      "grad_norm": 0.026587417349219322,
+      "learning_rate": 2.641234977050484e-05,
+      "loss": 0.0085,
+      "step": 373
+    },
+    {
+      "epoch": 3.462962962962963,
+      "grad_norm": 0.0189076978713274,
+      "learning_rate": 2.612786114810255e-05,
+      "loss": 0.0096,
+      "step": 374
+    },
+    {
+      "epoch": 3.4722222222222223,
+      "grad_norm": 0.029332995414733887,
+      "learning_rate": 2.5844370035168073e-05,
+      "loss": 0.0096,
+      "step": 375
+    },
+    {
+      "epoch": 3.4722222222222223,
+      "eval_loss": 0.015461472794413567,
+      "eval_runtime": 9.1144,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 375
+    },
+    {
+      "epoch": 3.4814814814814814,
+      "grad_norm": 0.02185731939971447,
+      "learning_rate": 2.5561888277521794e-05,
+      "loss": 0.0098,
+      "step": 376
+    },
+    {
+      "epoch": 3.490740740740741,
+      "grad_norm": 0.026887575164437294,
+      "learning_rate": 2.528042767880766e-05,
+      "loss": 0.0114,
+      "step": 377
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.023131586611270905,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0112,
+      "step": 378
+    },
+    {
+      "epoch": 3.5092592592592595,
+      "grad_norm": 0.028937749564647675,
+      "learning_rate": 2.4720616958912053e-05,
+      "loss": 0.0121,
+      "step": 379
+    },
+    {
+      "epoch": 3.5185185185185186,
+      "grad_norm": 0.032668791711330414,
+      "learning_rate": 2.4442290229706344e-05,
+      "loss": 0.0112,
+      "step": 380
+    },
+    {
+      "epoch": 3.5185185185185186,
+      "eval_loss": 0.015212837606668472,
+      "eval_runtime": 9.1177,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 380
+    },
+    {
+      "epoch": 3.5277777777777777,
+      "grad_norm": 0.02449023723602295,
+      "learning_rate": 2.4165031442406855e-05,
+      "loss": 0.0117,
+      "step": 381
+    },
+    {
+      "epoch": 3.537037037037037,
+      "grad_norm": 0.025157004594802856,
+      "learning_rate": 2.3888852182413085e-05,
+      "loss": 0.0091,
+      "step": 382
+    },
+    {
+      "epoch": 3.5462962962962963,
+      "grad_norm": 0.03108743578195572,
+      "learning_rate": 2.361376399001592e-05,
+      "loss": 0.0108,
+      "step": 383
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 0.021932488307356834,
+      "learning_rate": 2.333977835991545e-05,
+      "loss": 0.0093,
+      "step": 384
+    },
+    {
+      "epoch": 3.564814814814815,
+      "grad_norm": 0.026496881619095802,
+      "learning_rate": 2.3066906740740623e-05,
+      "loss": 0.0118,
+      "step": 385
+    },
+    {
+      "epoch": 3.564814814814815,
+      "eval_loss": 0.01467986311763525,
+      "eval_runtime": 9.1127,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.427,
+      "step": 385
+    },
+    {
+      "epoch": 3.574074074074074,
+      "grad_norm": 0.024211710318922997,
+      "learning_rate": 2.2795160534570864e-05,
+      "loss": 0.0086,
+      "step": 386
+    },
+    {
+      "epoch": 3.5833333333333335,
+      "grad_norm": 0.023977207019925117,
+      "learning_rate": 2.25245510964597e-05,
+      "loss": 0.0128,
+      "step": 387
+    },
+    {
+      "epoch": 3.5925925925925926,
+      "grad_norm": 0.02136526070535183,
+      "learning_rate": 2.225508973396016e-05,
+      "loss": 0.0121,
+      "step": 388
+    },
+    {
+      "epoch": 3.601851851851852,
+      "grad_norm": 0.026328187435865402,
+      "learning_rate": 2.198678770665238e-05,
+      "loss": 0.0108,
+      "step": 389
+    },
+    {
+      "epoch": 3.611111111111111,
+      "grad_norm": 0.02159940078854561,
+      "learning_rate": 2.171965622567308e-05,
+      "loss": 0.0082,
+      "step": 390
+    },
+    {
+      "epoch": 3.611111111111111,
+      "eval_loss": 0.014544774778187275,
+      "eval_runtime": 9.1133,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 1.426,
+      "step": 390
+    },
+    {
+      "epoch": 3.6203703703703702,
+      "grad_norm": 0.02303987927734852,
+      "learning_rate": 2.1453706453247087e-05,
+      "loss": 0.0092,
+      "step": 391
+    },
+    {
+      "epoch": 3.6296296296296298,
+      "grad_norm": 0.027734337374567986,
+      "learning_rate": 2.1188949502220983e-05,
+      "loss": 0.0101,
+      "step": 392
+    },
+    {
+      "epoch": 3.638888888888889,
+      "grad_norm": 0.02069096453487873,
+      "learning_rate": 2.0925396435598664e-05,
+      "loss": 0.0111,
+      "step": 393
+    },
+    {
+      "epoch": 3.648148148148148,
+      "grad_norm": 0.02777431532740593,
+      "learning_rate": 2.066305826607911e-05,
+      "loss": 0.0091,
+      "step": 394
+    },
+    {
+      "epoch": 3.6574074074074074,
+      "grad_norm": 0.02333620935678482,
+      "learning_rate": 2.0401945955596206e-05,
+      "loss": 0.0112,
+      "step": 395
+    },
+    {
+      "epoch": 3.6574074074074074,
+      "eval_loss": 0.01460795197635889,
+      "eval_runtime": 9.1059,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 395
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 0.022142188623547554,
+      "learning_rate": 2.0142070414860704e-05,
+      "loss": 0.01,
+      "step": 396
+    },
+    {
+      "epoch": 3.675925925925926,
+      "grad_norm": 0.01749616675078869,
+      "learning_rate": 1.9883442502904283e-05,
+      "loss": 0.0095,
+      "step": 397
+    },
+    {
+      "epoch": 3.685185185185185,
+      "grad_norm": 0.02393367514014244,
+      "learning_rate": 1.9626073026625818e-05,
+      "loss": 0.0095,
+      "step": 398
+    },
+    {
+      "epoch": 3.6944444444444446,
+      "grad_norm": 0.023465050384402275,
+      "learning_rate": 1.936997274033986e-05,
+      "loss": 0.0108,
+      "step": 399
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 0.023157304152846336,
+      "learning_rate": 1.9115152345327152e-05,
+      "loss": 0.0086,
+      "step": 400
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "eval_loss": 0.014902754686772823,
+      "eval_runtime": 9.1616,
+      "eval_samples_per_second": 5.458,
+      "eval_steps_per_second": 1.419,
+      "step": 400
+    },
+    {
+      "epoch": 3.712962962962963,
+      "grad_norm": 0.021799901500344276,
+      "learning_rate": 1.8861622489387555e-05,
+      "loss": 0.0128,
+      "step": 401
+    },
+    {
+      "epoch": 3.7222222222222223,
+      "grad_norm": 0.03070679120719433,
+      "learning_rate": 1.8609393766395085e-05,
+      "loss": 0.0123,
+      "step": 402
+    },
+    {
+      "epoch": 3.7314814814814814,
+      "grad_norm": 0.02543518878519535,
+      "learning_rate": 1.835847671585526e-05,
+      "loss": 0.0114,
+      "step": 403
+    },
+    {
+      "epoch": 3.7407407407407405,
+      "grad_norm": 0.027585655450820923,
+      "learning_rate": 1.8108881822464696e-05,
+      "loss": 0.0099,
+      "step": 404
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.02352389506995678,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0102,
+      "step": 405
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 0.014981208369135857,
+      "eval_runtime": 9.1106,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 405
+    },
+    {
+      "epoch": 3.7592592592592595,
+      "grad_norm": 0.02560283988714218,
+      "learning_rate": 1.7613700169247056e-05,
+      "loss": 0.012,
+      "step": 406
+    },
+    {
+      "epoch": 3.7685185185185186,
+      "grad_norm": 0.026089752092957497,
+      "learning_rate": 1.7368134100837287e-05,
+      "loss": 0.0088,
+      "step": 407
+    },
+    {
+      "epoch": 3.7777777777777777,
+      "grad_norm": 0.030365899205207825,
+      "learning_rate": 1.7123931571546827e-05,
+      "loss": 0.0119,
+      "step": 408
+    },
+    {
+      "epoch": 3.787037037037037,
+      "grad_norm": 0.031558796763420105,
+      "learning_rate": 1.6881102785502616e-05,
+      "loss": 0.011,
+      "step": 409
+    },
+    {
+      "epoch": 3.7962962962962963,
+      "grad_norm": 0.030366325750947,
+      "learning_rate": 1.6639657889429018e-05,
+      "loss": 0.0116,
+      "step": 410
+    },
+    {
+      "epoch": 3.7962962962962963,
+      "eval_loss": 0.014859426766633987,
+      "eval_runtime": 9.1059,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 410
+    },
+    {
+      "epoch": 3.8055555555555554,
+      "grad_norm": 0.025008074939250946,
+      "learning_rate": 1.639960697222388e-05,
+      "loss": 0.0106,
+      "step": 411
+    },
+    {
+      "epoch": 3.814814814814815,
+      "grad_norm": 0.028196556493639946,
+      "learning_rate": 1.6160960064536908e-05,
+      "loss": 0.0113,
+      "step": 412
+    },
+    {
+      "epoch": 3.824074074074074,
+      "grad_norm": 0.02165764756500721,
+      "learning_rate": 1.592372713835055e-05,
+      "loss": 0.0115,
+      "step": 413
+    },
+    {
+      "epoch": 3.8333333333333335,
+      "grad_norm": 0.020175475627183914,
+      "learning_rate": 1.5687918106563326e-05,
+      "loss": 0.0112,
+      "step": 414
+    },
+    {
+      "epoch": 3.8425925925925926,
+      "grad_norm": 0.027304671704769135,
+      "learning_rate": 1.545354282257562e-05,
+      "loss": 0.0126,
+      "step": 415
+    },
+    {
+      "epoch": 3.8425925925925926,
+      "eval_loss": 0.014735485427081585,
+      "eval_runtime": 9.198,
+      "eval_samples_per_second": 5.436,
+      "eval_steps_per_second": 1.413,
+      "step": 415
+    },
+    {
+      "epoch": 3.851851851851852,
+      "grad_norm": 0.026429716497659683,
+      "learning_rate": 1.52206110798779e-05,
+      "loss": 0.0103,
+      "step": 416
+    },
+    {
+      "epoch": 3.861111111111111,
+      "grad_norm": 0.02409077063202858,
+      "learning_rate": 1.4989132611641576e-05,
+      "loss": 0.012,
+      "step": 417
+    },
+    {
+      "epoch": 3.8703703703703702,
+      "grad_norm": 0.02310461364686489,
+      "learning_rate": 1.4759117090312197e-05,
+      "loss": 0.0096,
+      "step": 418
+    },
+    {
+      "epoch": 3.8796296296296298,
+      "grad_norm": 0.026219584047794342,
+      "learning_rate": 1.453057412720536e-05,
+      "loss": 0.0094,
+      "step": 419
+    },
+    {
+      "epoch": 3.888888888888889,
+      "grad_norm": 0.027541201561689377,
+      "learning_rate": 1.4303513272105057e-05,
+      "loss": 0.0112,
+      "step": 420
+    },
+    {
+      "epoch": 3.888888888888889,
+      "eval_loss": 0.014594363048672676,
+      "eval_runtime": 9.1304,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 1.424,
+      "step": 420
+    },
+    {
+      "epoch": 3.898148148148148,
+      "grad_norm": 0.024942217394709587,
+      "learning_rate": 1.4077944012864636e-05,
+      "loss": 0.0093,
+      "step": 421
+    },
+    {
+      "epoch": 3.9074074074074074,
+      "grad_norm": 0.018137283623218536,
+      "learning_rate": 1.3853875775010355e-05,
+      "loss": 0.0102,
+      "step": 422
+    },
+    {
+      "epoch": 3.9166666666666665,
+      "grad_norm": 0.021817779168486595,
+      "learning_rate": 1.3631317921347563e-05,
+      "loss": 0.0084,
+      "step": 423
+    },
+    {
+      "epoch": 3.925925925925926,
+      "grad_norm": 0.023799235001206398,
+      "learning_rate": 1.3410279751569399e-05,
+      "loss": 0.0122,
+      "step": 424
+    },
+    {
+      "epoch": 3.935185185185185,
+      "grad_norm": 0.030764896422624588,
+      "learning_rate": 1.3190770501868243e-05,
+      "loss": 0.0107,
+      "step": 425
+    },
+    {
+      "epoch": 3.935185185185185,
+      "eval_loss": 0.014631365425884724,
+      "eval_runtime": 9.1149,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 425
+    },
+    {
+      "epoch": 3.9444444444444446,
+      "grad_norm": 0.022886106744408607,
+      "learning_rate": 1.297279934454978e-05,
+      "loss": 0.0096,
+      "step": 426
+    },
+    {
+      "epoch": 3.9537037037037037,
+      "grad_norm": 0.03152737021446228,
+      "learning_rate": 1.2756375387649716e-05,
+      "loss": 0.0124,
+      "step": 427
+    },
+    {
+      "epoch": 3.962962962962963,
+      "grad_norm": 0.02872036211192608,
+      "learning_rate": 1.25415076745532e-05,
+      "loss": 0.0091,
+      "step": 428
+    },
+    {
+      "epoch": 3.9722222222222223,
+      "grad_norm": 0.021184636279940605,
+      "learning_rate": 1.2328205183616965e-05,
+      "loss": 0.0105,
+      "step": 429
+    },
+    {
+      "epoch": 3.9814814814814814,
+      "grad_norm": 0.02112959884107113,
+      "learning_rate": 1.2116476827794104e-05,
+      "loss": 0.0113,
+      "step": 430
+    },
+    {
+      "epoch": 3.9814814814814814,
+      "eval_loss": 0.01471536885946989,
+      "eval_runtime": 9.116,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 430
+    },
+    {
+      "epoch": 3.9907407407407405,
+      "grad_norm": 0.019945990294218063,
+      "learning_rate": 1.1906331454261704e-05,
+      "loss": 0.0093,
+      "step": 431
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.023910805583000183,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.011,
+      "step": 432
+    },
+    {
+      "epoch": 4.0092592592592595,
+      "grad_norm": 0.01957758143544197,
+      "learning_rate": 1.1490824711681025e-05,
+      "loss": 0.0094,
+      "step": 433
+    },
+    {
+      "epoch": 4.018518518518518,
+      "grad_norm": 0.02563118375837803,
+      "learning_rate": 1.1285480704793377e-05,
+      "loss": 0.0093,
+      "step": 434
+    },
+    {
+      "epoch": 4.027777777777778,
+      "grad_norm": 0.026251764968037605,
+      "learning_rate": 1.1081754403791999e-05,
+      "loss": 0.0091,
+      "step": 435
+    },
+    {
+      "epoch": 4.027777777777778,
+      "eval_loss": 0.014734329655766487,
+      "eval_runtime": 9.1592,
+      "eval_samples_per_second": 5.459,
+      "eval_steps_per_second": 1.419,
+      "step": 435
+    },
+    {
+      "epoch": 4.037037037037037,
+      "grad_norm": 0.025834446772933006,
+      "learning_rate": 1.0879654321484012e-05,
+      "loss": 0.0067,
+      "step": 436
+    },
+    {
+      "epoch": 4.046296296296297,
+      "grad_norm": 0.0185233224183321,
+      "learning_rate": 1.0679188902724191e-05,
+      "loss": 0.0108,
+      "step": 437
+    },
+    {
+      "epoch": 4.055555555555555,
+      "grad_norm": 0.021918736398220062,
+      "learning_rate": 1.0480366524062042e-05,
+      "loss": 0.0088,
+      "step": 438
+    },
+    {
+      "epoch": 4.064814814814815,
+      "grad_norm": 0.03142661973834038,
+      "learning_rate": 1.0283195493391823e-05,
+      "loss": 0.0103,
+      "step": 439
+    },
+    {
+      "epoch": 4.074074074074074,
+      "grad_norm": 0.023410873487591743,
+      "learning_rate": 1.008768404960535e-05,
+      "loss": 0.0094,
+      "step": 440
+    },
+    {
+      "epoch": 4.074074074074074,
+      "eval_loss": 0.014965096488595009,
+      "eval_runtime": 9.1135,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 440
+    },
+    {
+      "epoch": 4.083333333333333,
+      "grad_norm": 0.02943902276456356,
+      "learning_rate": 9.893840362247809e-06,
+      "loss": 0.0056,
+      "step": 441
+    },
+    {
+      "epoch": 4.092592592592593,
+      "grad_norm": 0.021431270986795425,
+      "learning_rate": 9.701672531176286e-06,
+      "loss": 0.0089,
+      "step": 442
+    },
+    {
+      "epoch": 4.101851851851852,
+      "grad_norm": 0.02797669917345047,
+      "learning_rate": 9.511188586221376e-06,
+      "loss": 0.0092,
+      "step": 443
+    },
+    {
+      "epoch": 4.111111111111111,
+      "grad_norm": 0.02437691204249859,
+      "learning_rate": 9.322396486851626e-06,
+      "loss": 0.0104,
+      "step": 444
+    },
+    {
+      "epoch": 4.12037037037037,
+      "grad_norm": 0.024811841547489166,
+      "learning_rate": 9.135304121840976e-06,
+      "loss": 0.0096,
+      "step": 445
+    },
+    {
+      "epoch": 4.12037037037037,
+      "eval_loss": 0.014996801503002644,
+      "eval_runtime": 9.1094,
+      "eval_samples_per_second": 5.489,
+      "eval_steps_per_second": 1.427,
+      "step": 445
+    },
+    {
+      "epoch": 4.12962962962963,
+      "grad_norm": 0.0309213325381279,
+      "learning_rate": 8.949919308939082e-06,
+      "loss": 0.0109,
+      "step": 446
+    },
+    {
+      "epoch": 4.138888888888889,
+      "grad_norm": 0.023763932287693024,
+      "learning_rate": 8.766249794544662e-06,
+      "loss": 0.0073,
+      "step": 447
+    },
+    {
+      "epoch": 4.148148148148148,
+      "grad_norm": 0.023741643875837326,
+      "learning_rate": 8.584303253381847e-06,
+      "loss": 0.0105,
+      "step": 448
+    },
+    {
+      "epoch": 4.157407407407407,
+      "grad_norm": 0.02090543322265148,
+      "learning_rate": 8.404087288179424e-06,
+      "loss": 0.0096,
+      "step": 449
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.026315612718462944,
+      "learning_rate": 8.225609429353187e-06,
+      "loss": 0.0091,
+      "step": 450
+    },
+    {
+      "epoch": 4.166666666666667,
+      "eval_loss": 0.015186839736998081,
+      "eval_runtime": 9.1241,
+      "eval_samples_per_second": 5.48,
+      "eval_steps_per_second": 1.425,
+      "step": 450
+    },
+    {
+      "epoch": 4.175925925925926,
+      "grad_norm": 0.023099206387996674,
+      "learning_rate": 8.048877134691268e-06,
+      "loss": 0.0091,
+      "step": 451
+    },
+    {
+      "epoch": 4.185185185185185,
+      "grad_norm": 0.027901167050004005,
+      "learning_rate": 7.873897789042523e-06,
+      "loss": 0.0092,
+      "step": 452
+    },
+    {
+      "epoch": 4.194444444444445,
+      "grad_norm": 0.025486482307314873,
+      "learning_rate": 7.700678704007947e-06,
+      "loss": 0.0077,
+      "step": 453
+    },
+    {
+      "epoch": 4.203703703703703,
+      "grad_norm": 0.0233286302536726,
+      "learning_rate": 7.529227117635135e-06,
+      "loss": 0.0077,
+      "step": 454
+    },
+    {
+      "epoch": 4.212962962962963,
+      "grad_norm": 0.023314587771892548,
+      "learning_rate": 7.35955019411585e-06,
+      "loss": 0.0089,
+      "step": 455
+    },
+    {
+      "epoch": 4.212962962962963,
+      "eval_loss": 0.015497377142310143,
+      "eval_runtime": 9.1064,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 1.428,
+      "step": 455
+    },
+    {
+      "epoch": 4.222222222222222,
+      "grad_norm": 0.021640775725245476,
+      "learning_rate": 7.191655023486682e-06,
+      "loss": 0.01,
+      "step": 456
+    },
+    {
+      "epoch": 4.231481481481482,
+      "grad_norm": 0.027831410989165306,
+      "learning_rate": 7.02554862133275e-06,
+      "loss": 0.0105,
+      "step": 457
+    },
+    {
+      "epoch": 4.2407407407407405,
+      "grad_norm": 0.023242153227329254,
+      "learning_rate": 6.861237928494579e-06,
+      "loss": 0.009,
+      "step": 458
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 0.02775505743920803,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0102,
+      "step": 459
+    },
+    {
+      "epoch": 4.2592592592592595,
+      "grad_norm": 0.0267843846231699,
+      "learning_rate": 6.53803105866761e-06,
+      "loss": 0.0063,
+      "step": 460
+    },
+    {
+      "epoch": 4.2592592592592595,
+      "eval_loss": 0.01563325710594654,
+      "eval_runtime": 9.111,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 460
+    },
+    {
+      "epoch": 4.268518518518518,
+      "grad_norm": 0.02488654851913452,
+      "learning_rate": 6.379148387042316e-06,
+      "loss": 0.01,
+      "step": 461
+    },
+    {
+      "epoch": 4.277777777777778,
+      "grad_norm": 0.024208445101976395,
+      "learning_rate": 6.222088434895462e-06,
+      "loss": 0.0072,
+      "step": 462
+    },
+    {
+      "epoch": 4.287037037037037,
+      "grad_norm": 0.023147890344262123,
+      "learning_rate": 6.066857765057055e-06,
+      "loss": 0.0088,
+      "step": 463
+    },
+    {
+      "epoch": 4.296296296296296,
+      "grad_norm": 0.029451172798871994,
+      "learning_rate": 5.9134628639196e-06,
+      "loss": 0.0085,
+      "step": 464
+    },
+    {
+      "epoch": 4.305555555555555,
+      "grad_norm": 0.02764413133263588,
+      "learning_rate": 5.7619101411671095e-06,
+      "loss": 0.0099,
+      "step": 465
+    },
+    {
+      "epoch": 4.305555555555555,
+      "eval_loss": 0.015693385154008865,
+      "eval_runtime": 9.1176,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 1.426,
+      "step": 465
+    },
+    {
+      "epoch": 4.314814814814815,
+      "grad_norm": 0.021906448528170586,
+      "learning_rate": 5.6122059295072085e-06,
+      "loss": 0.0096,
+      "step": 466
+    },
+    {
+      "epoch": 4.324074074074074,
+      "grad_norm": 0.02385389618575573,
+      "learning_rate": 5.464356484406535e-06,
+      "loss": 0.0072,
+      "step": 467
+    },
+    {
+      "epoch": 4.333333333333333,
+      "grad_norm": 0.026357507333159447,
+      "learning_rate": 5.318367983829392e-06,
+      "loss": 0.0079,
+      "step": 468
+    },
+    {
+      "epoch": 4.342592592592593,
+      "grad_norm": 0.026002187281847,
+      "learning_rate": 5.174246527979531e-06,
+      "loss": 0.0095,
+      "step": 469
+    },
+    {
+      "epoch": 4.351851851851852,
+      "grad_norm": 0.02679777517914772,
+      "learning_rate": 5.031998139045352e-06,
+      "loss": 0.0085,
+      "step": 470
+    },
+    {
+      "epoch": 4.351851851851852,
+      "eval_loss": 0.015615792945027351,
+      "eval_runtime": 9.1365,
+      "eval_samples_per_second": 5.473,
+      "eval_steps_per_second": 1.423,
+      "step": 470
+    },
+    {
+      "epoch": 4.361111111111111,
+      "grad_norm": 0.023431269451975822,
+      "learning_rate": 4.891628760948114e-06,
+      "loss": 0.009,
+      "step": 471
+    },
+    {
+      "epoch": 4.37037037037037,
+      "grad_norm": 0.02848837524652481,
+      "learning_rate": 4.7531442590937335e-06,
+      "loss": 0.0102,
+      "step": 472
+    },
+    {
+      "epoch": 4.37962962962963,
+      "grad_norm": 0.026586227118968964,
+      "learning_rate": 4.616550420127563e-06,
+      "loss": 0.0078,
+      "step": 473
+    },
+    {
+      "epoch": 4.388888888888889,
+      "grad_norm": 0.025660747662186623,
+      "learning_rate": 4.4818529516926726e-06,
+      "loss": 0.0086,
+      "step": 474
+    },
+    {
+      "epoch": 4.398148148148148,
+      "grad_norm": 0.02436869405210018,
+      "learning_rate": 4.349057482191299e-06,
+      "loss": 0.011,
+      "step": 475
+    },
+    {
+      "epoch": 4.398148148148148,
+      "eval_loss": 0.015554042533040047,
+      "eval_runtime": 9.1142,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 475
+    },
+    {
+      "epoch": 4.407407407407407,
+      "grad_norm": 0.02513139322400093,
+      "learning_rate": 4.218169560549706e-06,
+      "loss": 0.0108,
+      "step": 476
+    },
+    {
+      "epoch": 4.416666666666667,
+      "grad_norm": 0.027343349531292915,
+      "learning_rate": 4.089194655986306e-06,
+      "loss": 0.0099,
+      "step": 477
+    },
+    {
+      "epoch": 4.425925925925926,
+      "grad_norm": 0.02374204248189926,
+      "learning_rate": 3.962138157783085e-06,
+      "loss": 0.0095,
+      "step": 478
+    },
+    {
+      "epoch": 4.435185185185185,
+      "grad_norm": 0.04114212468266487,
+      "learning_rate": 3.837005375060482e-06,
+      "loss": 0.0089,
+      "step": 479
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.024016965180635452,
+      "learning_rate": 3.7138015365554833e-06,
+      "loss": 0.0067,
+      "step": 480
+    },
+    {
+      "epoch": 4.444444444444445,
+      "eval_loss": 0.01539613213390112,
+      "eval_runtime": 9.1246,
+      "eval_samples_per_second": 5.48,
+      "eval_steps_per_second": 1.425,
+      "step": 480
+    },
+    {
+      "epoch": 4.453703703703704,
+      "grad_norm": 0.02901994250714779,
+      "learning_rate": 3.5925317904031587e-06,
+      "loss": 0.0087,
+      "step": 481
+    },
+    {
+      "epoch": 4.462962962962963,
+      "grad_norm": 0.020981522276997566,
+      "learning_rate": 3.4732012039215776e-06,
+      "loss": 0.011,
+      "step": 482
+    },
+    {
+      "epoch": 4.472222222222222,
+      "grad_norm": 0.023783011361956596,
+      "learning_rate": 3.3558147633999728e-06,
+      "loss": 0.0096,
+      "step": 483
+    },
+    {
+      "epoch": 4.481481481481482,
+      "grad_norm": 0.02081628330051899,
+      "learning_rate": 3.2403773738905187e-06,
+      "loss": 0.0087,
+      "step": 484
+    },
+    {
+      "epoch": 4.4907407407407405,
+      "grad_norm": 0.024986054748296738,
+      "learning_rate": 3.126893859003249e-06,
+      "loss": 0.0092,
+      "step": 485
+    },
+    {
+      "epoch": 4.4907407407407405,
+      "eval_loss": 0.015287145972251892,
+      "eval_runtime": 9.1097,
+      "eval_samples_per_second": 5.489,
+      "eval_steps_per_second": 1.427,
+      "step": 485
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.032323963940143585,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0086,
+      "step": 486
+    },
+    {
+      "epoch": 4.5092592592592595,
+      "grad_norm": 0.02963520959019661,
+      "learning_rate": 2.9058073391191375e-06,
+      "loss": 0.0068,
+      "step": 487
+    },
+    {
+      "epoch": 4.518518518518518,
+      "grad_norm": 0.035344675183296204,
+      "learning_rate": 2.798213572335001e-06,
+      "loss": 0.0062,
+      "step": 488
+    },
+    {
+      "epoch": 4.527777777777778,
+      "grad_norm": 0.026800939813256264,
+      "learning_rate": 2.692592156212487e-06,
+      "loss": 0.0092,
+      "step": 489
+    },
+    {
+      "epoch": 4.537037037037037,
+      "grad_norm": 0.024116506800055504,
+      "learning_rate": 2.5889475041961765e-06,
+      "loss": 0.0072,
+      "step": 490
+    },
+    {
+      "epoch": 4.537037037037037,
+      "eval_loss": 0.015211592428386211,
+      "eval_runtime": 9.1184,
+      "eval_samples_per_second": 5.483,
+      "eval_steps_per_second": 1.426,
+      "step": 490
+    },
+    {
+      "epoch": 4.546296296296296,
+      "grad_norm": 0.027498748153448105,
+      "learning_rate": 2.4872839471306084e-06,
+      "loss": 0.0082,
+      "step": 491
+    },
+    {
+      "epoch": 4.555555555555555,
+      "grad_norm": 0.026998436078429222,
+      "learning_rate": 2.3876057330792346e-06,
+      "loss": 0.008,
+      "step": 492
+    },
+    {
+      "epoch": 4.564814814814815,
+      "grad_norm": 0.023703446611762047,
+      "learning_rate": 2.2899170271469428e-06,
+      "loss": 0.011,
+      "step": 493
+    },
+    {
+      "epoch": 4.574074074074074,
+      "grad_norm": 0.019968930631875992,
+      "learning_rate": 2.1942219113060212e-06,
+      "loss": 0.0075,
+      "step": 494
+    },
+    {
+      "epoch": 4.583333333333333,
+      "grad_norm": 0.02214980125427246,
+      "learning_rate": 2.100524384225555e-06,
+      "loss": 0.0078,
+      "step": 495
+    },
+    {
+      "epoch": 4.583333333333333,
+      "eval_loss": 0.015181516297161579,
+      "eval_runtime": 9.1214,
+      "eval_samples_per_second": 5.482,
+      "eval_steps_per_second": 1.425,
+      "step": 495
+    },
+    {
+      "epoch": 4.592592592592593,
+      "grad_norm": 0.025330157950520515,
+      "learning_rate": 2.0088283611044036e-06,
+      "loss": 0.0062,
+      "step": 496
+    },
+    {
+      "epoch": 4.601851851851852,
+      "grad_norm": 0.019013626500964165,
+      "learning_rate": 1.9191376735075427e-06,
+      "loss": 0.0088,
+      "step": 497
+    },
+    {
+      "epoch": 4.611111111111111,
+      "grad_norm": 0.022145694121718407,
+      "learning_rate": 1.8314560692059835e-06,
+      "loss": 0.0089,
+      "step": 498
+    },
+    {
+      "epoch": 4.62037037037037,
+      "grad_norm": 0.023724934086203575,
+      "learning_rate": 1.7457872120201779e-06,
+      "loss": 0.0086,
+      "step": 499
+    },
+    {
+      "epoch": 4.62962962962963,
+      "grad_norm": 0.020578699186444283,
+      "learning_rate": 1.6621346816668992e-06,
+      "loss": 0.0091,
+      "step": 500
+    },
+    {
+      "epoch": 4.62962962962963,
+      "eval_loss": 0.015207822434604168,
+      "eval_runtime": 9.1136,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 500
+    },
+    {
+      "epoch": 4.638888888888889,
+      "grad_norm": 0.024306217208504677,
+      "learning_rate": 1.5805019736097104e-06,
+      "loss": 0.009,
+      "step": 501
+    },
+    {
+      "epoch": 4.648148148148148,
+      "grad_norm": 0.020744021981954575,
+      "learning_rate": 1.5008924989128258e-06,
+      "loss": 0.0089,
+      "step": 502
+    },
+    {
+      "epoch": 4.657407407407407,
+      "grad_norm": 0.02516799047589302,
+      "learning_rate": 1.4233095840986753e-06,
+      "loss": 0.0093,
+      "step": 503
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.024567998945713043,
+      "learning_rate": 1.3477564710088098e-06,
+      "loss": 0.0094,
+      "step": 504
+    },
+    {
+      "epoch": 4.675925925925926,
+      "grad_norm": 0.024358859285712242,
+      "learning_rate": 1.2742363166685034e-06,
+      "loss": 0.007,
+      "step": 505
+    },
+    {
+      "epoch": 4.675925925925926,
+      "eval_loss": 0.015200878493487835,
+      "eval_runtime": 9.1155,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 505
+    },
+    {
+      "epoch": 4.685185185185185,
+      "grad_norm": 0.023163504898548126,
+      "learning_rate": 1.2027521931548214e-06,
+      "loss": 0.0074,
+      "step": 506
+    },
+    {
+      "epoch": 4.694444444444445,
+      "grad_norm": 0.023604586720466614,
+      "learning_rate": 1.1333070874682216e-06,
+      "loss": 0.0093,
+      "step": 507
+    },
+    {
+      "epoch": 4.703703703703704,
+      "grad_norm": 0.02068418823182583,
+      "learning_rate": 1.0659039014077944e-06,
+      "loss": 0.0084,
+      "step": 508
+    },
+    {
+      "epoch": 4.712962962962963,
+      "grad_norm": 0.02598651312291622,
+      "learning_rate": 1.0005454514499414e-06,
+      "loss": 0.0088,
+      "step": 509
+    },
+    {
+      "epoch": 4.722222222222222,
+      "grad_norm": 0.02512424811720848,
+      "learning_rate": 9.372344686307655e-07,
+      "loss": 0.0064,
+      "step": 510
+    },
+    {
+      "epoch": 4.722222222222222,
+      "eval_loss": 0.01521637849509716,
+      "eval_runtime": 9.1143,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 510
+    },
+    {
+      "epoch": 4.731481481481482,
+      "grad_norm": 0.021041063591837883,
+      "learning_rate": 8.759735984318895e-07,
+      "loss": 0.0096,
+      "step": 511
+    },
+    {
+      "epoch": 4.7407407407407405,
+      "grad_norm": 0.025718161836266518,
+      "learning_rate": 8.167654006699443e-07,
+      "loss": 0.0077,
+      "step": 512
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.02913082391023636,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0072,
+      "step": 513
+    },
+    {
+      "epoch": 4.7592592592592595,
+      "grad_norm": 0.026588505133986473,
+      "learning_rate": 7.04516832760177e-07,
+      "loss": 0.0094,
+      "step": 514
+    },
+    {
+      "epoch": 4.768518518518518,
+      "grad_norm": 0.023728126659989357,
+      "learning_rate": 6.514811529758747e-07,
+      "loss": 0.0099,
+      "step": 515
+    },
+    {
+      "epoch": 4.768518518518518,
+      "eval_loss": 0.01521516963839531,
+      "eval_runtime": 9.1511,
+      "eval_samples_per_second": 5.464,
+      "eval_steps_per_second": 1.421,
+      "step": 515
+    },
+    {
+      "epoch": 4.777777777777778,
+      "grad_norm": 0.03438512608408928,
+      "learning_rate": 6.005075261595494e-07,
+      "loss": 0.0086,
+      "step": 516
+    },
+    {
+      "epoch": 4.787037037037037,
+      "grad_norm": 0.019554298371076584,
+      "learning_rate": 5.515980822701439e-07,
+      "loss": 0.0092,
+      "step": 517
+    },
+    {
+      "epoch": 4.796296296296296,
+      "grad_norm": 0.0235204566270113,
+      "learning_rate": 5.047548650136513e-07,
+      "loss": 0.009,
+      "step": 518
+    },
+    {
+      "epoch": 4.805555555555555,
+      "grad_norm": 0.023747643455863,
+      "learning_rate": 4.5997983175773417e-07,
+      "loss": 0.0092,
+      "step": 519
+    },
+    {
+      "epoch": 4.814814814814815,
+      "grad_norm": 0.02751827985048294,
+      "learning_rate": 4.1727485344994486e-07,
+      "loss": 0.0088,
+      "step": 520
+    },
+    {
+      "epoch": 4.814814814814815,
+      "eval_loss": 0.015235532075166702,
+      "eval_runtime": 9.1256,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 1.425,
+      "step": 520
+    },
+    {
+      "epoch": 4.824074074074074,
+      "grad_norm": 0.026621591299772263,
+      "learning_rate": 3.766417145395218e-07,
+      "loss": 0.0086,
+      "step": 521
+    },
+    {
+      "epoch": 4.833333333333333,
+      "grad_norm": 0.01991841197013855,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 0.0084,
+      "step": 522
+    },
+    {
+      "epoch": 4.842592592592593,
+      "grad_norm": 0.023508219048380852,
+      "learning_rate": 3.0159765977250673e-07,
+      "loss": 0.0103,
+      "step": 523
+    },
+    {
+      "epoch": 4.851851851851852,
+      "grad_norm": 0.02976732887327671,
+      "learning_rate": 2.671898796699268e-07,
+      "loss": 0.0084,
+      "step": 524
+    },
+    {
+      "epoch": 4.861111111111111,
+      "grad_norm": 0.02255621738731861,
+      "learning_rate": 2.3486021034170857e-07,
+      "loss": 0.0089,
+      "step": 525
+    },
+    {
+      "epoch": 4.861111111111111,
+      "eval_loss": 0.015216498635709286,
+      "eval_runtime": 9.1106,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 1.427,
+      "step": 525
+    },
+    {
+      "epoch": 4.87037037037037,
+      "grad_norm": 0.025215914472937584,
+      "learning_rate": 2.0461000269953456e-07,
+      "loss": 0.0075,
+      "step": 526
+    },
+    {
+      "epoch": 4.87962962962963,
+      "grad_norm": 0.02554066851735115,
+      "learning_rate": 1.7644052076371542e-07,
+      "loss": 0.0083,
+      "step": 527
+    },
+    {
+      "epoch": 4.888888888888889,
+      "grad_norm": 0.02162836864590645,
+      "learning_rate": 1.503529416103988e-07,
+      "loss": 0.009,
+      "step": 528
+    },
+    {
+      "epoch": 4.898148148148148,
+      "grad_norm": 0.02335723116993904,
+      "learning_rate": 1.2634835532233657e-07,
+      "loss": 0.0093,
+      "step": 529
+    },
+    {
+      "epoch": 4.907407407407407,
+      "grad_norm": 0.02844967506825924,
+      "learning_rate": 1.044277649433989e-07,
+      "loss": 0.0083,
+      "step": 530
+    },
+    {
+      "epoch": 4.907407407407407,
+      "eval_loss": 0.015229844488203526,
+      "eval_runtime": 9.1406,
+      "eval_samples_per_second": 5.47,
+      "eval_steps_per_second": 1.422,
+      "step": 530
+    },
+    {
+      "epoch": 4.916666666666667,
+      "grad_norm": 0.02188325859606266,
+      "learning_rate": 8.459208643659122e-08,
+      "loss": 0.0084,
+      "step": 531
+    },
+    {
+      "epoch": 4.925925925925926,
+      "grad_norm": 0.026782654225826263,
+      "learning_rate": 6.684214864584038e-08,
+      "loss": 0.009,
+      "step": 532
+    },
+    {
+      "epoch": 4.935185185185185,
+      "grad_norm": 0.024010982364416122,
+      "learning_rate": 5.11786932613223e-08,
+      "loss": 0.0055,
+      "step": 533
+    },
+    {
+      "epoch": 4.944444444444445,
+      "grad_norm": 0.02621973119676113,
+      "learning_rate": 3.760237478849793e-08,
+      "loss": 0.0093,
+      "step": 534
+    },
+    {
+      "epoch": 4.953703703703704,
+      "grad_norm": 0.02257387712597847,
+      "learning_rate": 2.6113760520735108e-08,
+      "loss": 0.0103,
+      "step": 535
+    },
+    {
+      "epoch": 4.953703703703704,
+      "eval_loss": 0.015256751328706741,
+      "eval_runtime": 9.1156,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 1.426,
+      "step": 535
+    },
+    {
+      "epoch": 4.962962962962963,
+      "grad_norm": 0.02289225161075592,
+      "learning_rate": 1.6713330515627513e-08,
+      "loss": 0.0106,
+      "step": 536
+    },
+    {
+      "epoch": 4.972222222222222,
+      "grad_norm": 0.032289694994688034,
+      "learning_rate": 9.401477574932926e-09,
+      "loss": 0.0074,
+      "step": 537
+    },
+    {
+      "epoch": 4.981481481481482,
+      "grad_norm": 0.0215620007365942,
+      "learning_rate": 4.178507228136397e-09,
+      "loss": 0.0082,
+      "step": 538
+    },
+    {
+      "epoch": 4.9907407407407405,
+      "grad_norm": 0.02391226962208748,
+      "learning_rate": 1.0446377197104173e-09,
+      "loss": 0.0085,
+      "step": 539
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0241775494068861,
+      "learning_rate": 0.0,
+      "loss": 0.0092,
+      "step": 540
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.01526525616645813,
+      "eval_runtime": 9.1149,
+      "eval_samples_per_second": 5.486,
+      "eval_steps_per_second": 1.426,
+      "step": 540
+    },
+    {
+      "epoch": 5.0,
+      "step": 540,
+      "total_flos": 1.2254685925518213e+18,
+      "train_loss": 0.016027936152251506,
+      "train_runtime": 9839.9649,
+      "train_samples_per_second": 1.756,
+      "train_steps_per_second": 0.055
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 540,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2254685925518213e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}