End of training

Browse files

Files changed (7) hide show

README.md +11 -11
adapter_1/adapter_config.json +2 -2
adapter_1/adapter_model.safetensors +1 -1
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
trainer_state.json +493 -493
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2137
 ## Model description
@@ -49,16 +49,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.0681        | 1.0   | 546  | 0.1955          |
-| 0.0367        | 2.0   | 1092 | 0.1992          |
-| 0.0382        | 3.0   | 1638 | 0.1857          |
-| 0.0189        | 4.0   | 2184 | 0.1970          |
-| 0.0274        | 5.0   | 2730 | 0.1894          |
-| 0.02          | 6.0   | 3276 | 0.1877          |
-| 0.0087        | 7.0   | 3822 | 0.1908          |
-| 0.0066        | 8.0   | 4368 | 0.2085          |
-| 0.0055        | 9.0   | 4914 | 0.2100          |
-| 0.0013        | 10.0  | 5460 | 0.2137          |
 ### Framework versions

 This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2212
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.0726        | 1.0   | 546  | 0.2210          |
+| 0.0419        | 2.0   | 1092 | 0.2139          |
+| 0.0322        | 3.0   | 1638 | 0.1935          |
+| 0.0175        | 4.0   | 2184 | 0.1896          |
+| 0.0266        | 5.0   | 2730 | 0.1927          |
+| 0.0178        | 6.0   | 3276 | 0.2013          |
+| 0.0081        | 7.0   | 3822 | 0.1979          |
+| 0.0081        | 8.0   | 4368 | 0.2113          |
+| 0.0018        | 9.0   | 4914 | 0.2146          |
+| 0.0015        | 10.0  | 5460 | 0.2212          |
 ### Framework versions

adapter_1/adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_1/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abb0ebdc47891ae516deaeab040b653abd88b2dceb9990155159ce05013d93b9
 size 14176064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b28887bcb66a49c5a999c6eb3d3de767b7cce7fddc9b4c82e33787479d628aa8
 size 14176064

adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de7195721032862164c68a850217a7bbc5a0df6dd26266eb5ee8c195bfb57721
 size 14176064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c76afb1d27a22a98d2438cd165915fee99c1936be55a353c091f790c722bdd2
 size 14176064

trainer_state.json CHANGED Viewed

@@ -10,1617 +10,1617 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "grad_norm": Infinity,
-      "learning_rate": 0.00044,
-      "loss": 4.1397,
       "step": 25
     },
     {
       "epoch": 0.09,
-      "grad_norm": 0.8320172429084778,
-      "learning_rate": 0.00094,
-      "loss": 1.0739,
       "step": 50
     },
     {
       "epoch": 0.14,
-      "grad_norm": 1.5708420276641846,
-      "learning_rate": 0.0009959334565619224,
-      "loss": 0.4997,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "grad_norm": 0.5893439650535583,
-      "learning_rate": 0.000991312384473198,
-      "loss": 0.1246,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "grad_norm": 2.0901906490325928,
-      "learning_rate": 0.0009866913123844732,
-      "loss": 0.1273,
       "step": 125
     },
     {
       "epoch": 0.27,
-      "grad_norm": 0.9590554237365723,
-      "learning_rate": 0.0009820702402957486,
-      "loss": 0.1257,
       "step": 150
     },
     {
       "epoch": 0.32,
-      "grad_norm": 1.531774878501892,
-      "learning_rate": 0.000977449168207024,
-      "loss": 0.1024,
       "step": 175
     },
     {
       "epoch": 0.37,
-      "grad_norm": 1.2284561395645142,
-      "learning_rate": 0.0009728280961182994,
-      "loss": 0.1041,
       "step": 200
     },
     {
       "epoch": 0.41,
-      "grad_norm": 1.0752886533737183,
-      "learning_rate": 0.0009682070240295749,
-      "loss": 0.1225,
       "step": 225
     },
     {
       "epoch": 0.46,
-      "grad_norm": 0.7119214534759521,
-      "learning_rate": 0.0009635859519408503,
-      "loss": 0.0904,
       "step": 250
     },
     {
       "epoch": 0.5,
-      "grad_norm": 1.0164552927017212,
-      "learning_rate": 0.0009589648798521257,
-      "loss": 0.0773,
       "step": 275
     },
     {
       "epoch": 0.55,
-      "grad_norm": 0.4222384989261627,
-      "learning_rate": 0.0009543438077634012,
-      "loss": 0.2081,
       "step": 300
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.17551083862781525,
-      "learning_rate": 0.0009497227356746766,
-      "loss": 0.0863,
       "step": 325
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.41848981380462646,
-      "learning_rate": 0.000945101663585952,
-      "loss": 0.0632,
       "step": 350
     },
     {
       "epoch": 0.69,
-      "grad_norm": 0.7539293766021729,
-      "learning_rate": 0.0009404805914972274,
-      "loss": 0.077,
       "step": 375
     },
     {
       "epoch": 0.73,
-      "grad_norm": 0.3750676214694977,
-      "learning_rate": 0.0009358595194085028,
-      "loss": 0.0948,
       "step": 400
     },
     {
       "epoch": 0.78,
-      "grad_norm": 0.33498436212539673,
-      "learning_rate": 0.0009312384473197783,
-      "loss": 0.077,
       "step": 425
     },
     {
       "epoch": 0.82,
-      "grad_norm": 0.43420735001564026,
-      "learning_rate": 0.0009266173752310536,
-      "loss": 0.0729,
       "step": 450
     },
     {
       "epoch": 0.87,
-      "grad_norm": 1.0590511560440063,
       "learning_rate": 0.0009219963031423291,
-      "loss": 0.0816,
       "step": 475
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.34223881363868713,
       "learning_rate": 0.0009173752310536044,
-      "loss": 0.0567,
       "step": 500
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.26913997530937195,
       "learning_rate": 0.0009127541589648799,
-      "loss": 0.0681,
       "step": 525
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.19546650350093842,
-      "eval_runtime": 175.4508,
-      "eval_samples_per_second": 4.634,
-      "eval_steps_per_second": 0.775,
       "step": 546
     },
     {
       "epoch": 1.01,
-      "grad_norm": 0.41807565093040466,
       "learning_rate": 0.0009081330868761552,
-      "loss": 0.0365,
       "step": 550
     },
     {
       "epoch": 1.05,
-      "grad_norm": 0.8459017872810364,
       "learning_rate": 0.0009035120147874307,
-      "loss": 0.0481,
       "step": 575
     },
     {
       "epoch": 1.1,
-      "grad_norm": 0.21556143462657928,
       "learning_rate": 0.000898890942698706,
-      "loss": 0.0426,
       "step": 600
     },
     {
       "epoch": 1.14,
-      "grad_norm": 0.06540340185165405,
       "learning_rate": 0.0008942698706099815,
-      "loss": 0.0435,
       "step": 625
     },
     {
       "epoch": 1.19,
-      "grad_norm": 0.8853626251220703,
       "learning_rate": 0.0008896487985212569,
-      "loss": 0.0668,
       "step": 650
     },
     {
       "epoch": 1.24,
-      "grad_norm": 0.2227557897567749,
       "learning_rate": 0.0008850277264325323,
-      "loss": 0.0373,
       "step": 675
     },
     {
       "epoch": 1.28,
-      "grad_norm": 0.5395527482032776,
       "learning_rate": 0.0008804066543438077,
-      "loss": 0.0505,
       "step": 700
     },
     {
       "epoch": 1.33,
-      "grad_norm": 0.47810012102127075,
       "learning_rate": 0.0008757855822550833,
-      "loss": 0.0619,
       "step": 725
     },
     {
       "epoch": 1.37,
-      "grad_norm": 0.41824525594711304,
       "learning_rate": 0.0008711645101663586,
-      "loss": 0.0505,
       "step": 750
     },
     {
       "epoch": 1.42,
-      "grad_norm": 0.35845717787742615,
       "learning_rate": 0.0008665434380776341,
-      "loss": 0.0556,
       "step": 775
     },
     {
       "epoch": 1.47,
-      "grad_norm": 0.591626763343811,
       "learning_rate": 0.0008619223659889095,
-      "loss": 0.0452,
       "step": 800
     },
     {
       "epoch": 1.51,
-      "grad_norm": 0.52753746509552,
       "learning_rate": 0.0008573012939001849,
-      "loss": 0.0413,
       "step": 825
     },
     {
       "epoch": 1.56,
-      "grad_norm": 0.17933356761932373,
       "learning_rate": 0.0008526802218114603,
-      "loss": 0.0264,
       "step": 850
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.4725402891635895,
       "learning_rate": 0.0008480591497227357,
-      "loss": 0.0503,
       "step": 875
     },
     {
       "epoch": 1.65,
-      "grad_norm": 0.43168240785598755,
       "learning_rate": 0.0008434380776340112,
-      "loss": 0.0543,
       "step": 900
     },
     {
       "epoch": 1.69,
-      "grad_norm": 0.15935927629470825,
       "learning_rate": 0.0008388170055452865,
-      "loss": 0.0625,
       "step": 925
     },
     {
       "epoch": 1.74,
-      "grad_norm": 0.1527830809354782,
       "learning_rate": 0.000834195933456562,
-      "loss": 0.0338,
       "step": 950
     },
     {
       "epoch": 1.79,
-      "grad_norm": 0.6140448451042175,
       "learning_rate": 0.0008295748613678373,
-      "loss": 0.0391,
       "step": 975
     },
     {
       "epoch": 1.83,
-      "grad_norm": 0.34989482164382935,
       "learning_rate": 0.0008249537892791128,
-      "loss": 0.0428,
       "step": 1000
     },
     {
       "epoch": 1.88,
-      "grad_norm": 1.364334225654602,
       "learning_rate": 0.0008203327171903881,
-      "loss": 0.0452,
       "step": 1025
     },
     {
       "epoch": 1.92,
-      "grad_norm": 0.4410119354724884,
       "learning_rate": 0.0008157116451016636,
-      "loss": 0.0519,
       "step": 1050
     },
     {
       "epoch": 1.97,
-      "grad_norm": 0.018156496807932854,
       "learning_rate": 0.000811090573012939,
-      "loss": 0.0367,
       "step": 1075
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.19916145503520966,
-      "eval_runtime": 174.1191,
-      "eval_samples_per_second": 4.669,
       "eval_steps_per_second": 0.781,
       "step": 1092
     },
     {
       "epoch": 2.01,
-      "grad_norm": 0.2884193956851959,
       "learning_rate": 0.0008064695009242144,
-      "loss": 0.0437,
       "step": 1100
     },
     {
       "epoch": 2.06,
-      "grad_norm": 0.14955410361289978,
       "learning_rate": 0.0008018484288354898,
-      "loss": 0.0332,
       "step": 1125
     },
     {
       "epoch": 2.11,
-      "grad_norm": 0.016795417293906212,
       "learning_rate": 0.0007972273567467652,
-      "loss": 0.0614,
       "step": 1150
     },
     {
       "epoch": 2.15,
-      "grad_norm": 0.272935688495636,
       "learning_rate": 0.0007926062846580406,
-      "loss": 0.0354,
       "step": 1175
     },
     {
       "epoch": 2.2,
-      "grad_norm": 0.181545689702034,
       "learning_rate": 0.0007879852125693162,
-      "loss": 0.0477,
       "step": 1200
     },
     {
       "epoch": 2.24,
-      "grad_norm": 0.14347945153713226,
       "learning_rate": 0.0007833641404805915,
-      "loss": 0.0285,
       "step": 1225
     },
     {
       "epoch": 2.29,
-      "grad_norm": 0.1175965741276741,
       "learning_rate": 0.000778743068391867,
-      "loss": 0.0398,
       "step": 1250
     },
     {
       "epoch": 2.34,
-      "grad_norm": 0.089854396879673,
       "learning_rate": 0.0007741219963031424,
-      "loss": 0.0473,
       "step": 1275
     },
     {
       "epoch": 2.38,
-      "grad_norm": 0.3998129665851593,
       "learning_rate": 0.0007695009242144178,
-      "loss": 0.0425,
       "step": 1300
     },
     {
       "epoch": 2.43,
-      "grad_norm": 0.42039960622787476,
       "learning_rate": 0.0007648798521256932,
-      "loss": 0.0404,
       "step": 1325
     },
     {
       "epoch": 2.47,
-      "grad_norm": 0.3940460979938507,
       "learning_rate": 0.0007602587800369686,
-      "loss": 0.0381,
       "step": 1350
     },
     {
       "epoch": 2.52,
-      "grad_norm": 0.37924668192863464,
       "learning_rate": 0.0007556377079482441,
-      "loss": 0.0397,
       "step": 1375
     },
     {
       "epoch": 2.56,
-      "grad_norm": 0.46505168080329895,
       "learning_rate": 0.0007510166358595194,
-      "loss": 0.0348,
       "step": 1400
     },
     {
       "epoch": 2.61,
-      "grad_norm": 0.2604403495788574,
       "learning_rate": 0.0007463955637707949,
-      "loss": 0.036,
       "step": 1425
     },
     {
       "epoch": 2.66,
-      "grad_norm": 0.4742681384086609,
       "learning_rate": 0.0007417744916820702,
-      "loss": 0.0216,
       "step": 1450
     },
     {
       "epoch": 2.7,
-      "grad_norm": 0.5116605162620544,
       "learning_rate": 0.0007371534195933457,
-      "loss": 0.0281,
       "step": 1475
     },
     {
       "epoch": 2.75,
-      "grad_norm": 0.8539583683013916,
       "learning_rate": 0.000732532347504621,
-      "loss": 0.0347,
       "step": 1500
     },
     {
       "epoch": 2.79,
-      "grad_norm": 1.8664207458496094,
       "learning_rate": 0.0007279112754158965,
-      "loss": 0.045,
       "step": 1525
     },
     {
       "epoch": 2.84,
-      "grad_norm": 0.18790672719478607,
       "learning_rate": 0.0007232902033271719,
-      "loss": 0.0233,
       "step": 1550
     },
     {
       "epoch": 2.88,
-      "grad_norm": 0.31298670172691345,
       "learning_rate": 0.0007186691312384473,
-      "loss": 0.0337,
       "step": 1575
     },
     {
       "epoch": 2.93,
-      "grad_norm": 0.8353794813156128,
       "learning_rate": 0.0007140480591497227,
-      "loss": 0.0387,
       "step": 1600
     },
     {
       "epoch": 2.98,
-      "grad_norm": 0.08966954797506332,
       "learning_rate": 0.0007094269870609981,
-      "loss": 0.0382,
       "step": 1625
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.18573200702667236,
-      "eval_runtime": 175.912,
-      "eval_samples_per_second": 4.622,
-      "eval_steps_per_second": 0.773,
       "step": 1638
     },
     {
       "epoch": 3.02,
-      "grad_norm": 0.039618588984012604,
       "learning_rate": 0.0007048059149722735,
-      "loss": 0.0353,
       "step": 1650
     },
     {
       "epoch": 3.07,
-      "grad_norm": 0.3156013488769531,
       "learning_rate": 0.000700184842883549,
-      "loss": 0.0318,
       "step": 1675
     },
     {
       "epoch": 3.11,
-      "grad_norm": 1.9033042192459106,
       "learning_rate": 0.0006955637707948245,
-      "loss": 0.0273,
       "step": 1700
     },
     {
       "epoch": 3.16,
-      "grad_norm": 0.32316115498542786,
       "learning_rate": 0.0006909426987060999,
-      "loss": 0.035,
       "step": 1725
     },
     {
       "epoch": 3.21,
-      "grad_norm": 0.5656726956367493,
       "learning_rate": 0.0006863216266173753,
-      "loss": 0.0311,
       "step": 1750
     },
     {
       "epoch": 3.25,
-      "grad_norm": 0.032537270337343216,
       "learning_rate": 0.0006817005545286507,
-      "loss": 0.0274,
       "step": 1775
     },
     {
       "epoch": 3.3,
-      "grad_norm": 0.30572062730789185,
       "learning_rate": 0.0006770794824399261,
-      "loss": 0.0362,
       "step": 1800
     },
     {
       "epoch": 3.34,
-      "grad_norm": 0.3374157249927521,
       "learning_rate": 0.0006724584103512015,
-      "loss": 0.0305,
       "step": 1825
     },
     {
       "epoch": 3.39,
-      "grad_norm": 0.1089138388633728,
       "learning_rate": 0.000667837338262477,
-      "loss": 0.0301,
       "step": 1850
     },
     {
       "epoch": 3.43,
-      "grad_norm": 0.10849720984697342,
       "learning_rate": 0.0006632162661737523,
-      "loss": 0.0241,
       "step": 1875
     },
     {
       "epoch": 3.48,
-      "grad_norm": 0.11349553614854813,
       "learning_rate": 0.0006585951940850278,
-      "loss": 0.0218,
       "step": 1900
     },
     {
       "epoch": 3.53,
-      "grad_norm": 0.3237963616847992,
       "learning_rate": 0.0006539741219963031,
-      "loss": 0.019,
       "step": 1925
     },
     {
       "epoch": 3.57,
-      "grad_norm": 0.5101845860481262,
       "learning_rate": 0.0006493530499075786,
-      "loss": 0.0244,
       "step": 1950
     },
     {
       "epoch": 3.62,
-      "grad_norm": 0.010137775912880898,
       "learning_rate": 0.0006447319778188539,
-      "loss": 0.0304,
       "step": 1975
     },
     {
       "epoch": 3.66,
-      "grad_norm": 0.8954480886459351,
       "learning_rate": 0.0006401109057301294,
-      "loss": 0.0306,
       "step": 2000
     },
     {
       "epoch": 3.71,
-      "grad_norm": 0.014889650978147984,
       "learning_rate": 0.0006354898336414048,
-      "loss": 0.0251,
       "step": 2025
     },
     {
       "epoch": 3.75,
-      "grad_norm": 0.0878029614686966,
       "learning_rate": 0.0006308687615526802,
-      "loss": 0.0341,
       "step": 2050
     },
     {
       "epoch": 3.8,
-      "grad_norm": 0.13351218402385712,
       "learning_rate": 0.0006262476894639556,
-      "loss": 0.0246,
       "step": 2075
     },
     {
       "epoch": 3.85,
-      "grad_norm": 0.3208947479724884,
       "learning_rate": 0.000621626617375231,
-      "loss": 0.0248,
       "step": 2100
     },
     {
       "epoch": 3.89,
-      "grad_norm": 0.42570358514785767,
       "learning_rate": 0.0006170055452865064,
-      "loss": 0.0358,
       "step": 2125
     },
     {
       "epoch": 3.94,
-      "grad_norm": 0.131515234708786,
       "learning_rate": 0.000612384473197782,
-      "loss": 0.0355,
       "step": 2150
     },
     {
       "epoch": 3.98,
-      "grad_norm": 0.12344180792570114,
       "learning_rate": 0.0006077634011090574,
-      "loss": 0.0189,
       "step": 2175
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.19701677560806274,
-      "eval_runtime": 176.7126,
-      "eval_samples_per_second": 4.601,
-      "eval_steps_per_second": 0.77,
       "step": 2184
     },
     {
       "epoch": 4.03,
-      "grad_norm": 0.10986749082803726,
       "learning_rate": 0.0006031423290203328,
-      "loss": 0.0259,
       "step": 2200
     },
     {
       "epoch": 4.08,
-      "grad_norm": 0.46528518199920654,
       "learning_rate": 0.0005985212569316082,
-      "loss": 0.022,
       "step": 2225
     },
     {
       "epoch": 4.12,
-      "grad_norm": 0.2069913148880005,
       "learning_rate": 0.0005939001848428836,
-      "loss": 0.015,
       "step": 2250
     },
     {
       "epoch": 4.17,
-      "grad_norm": 0.34658578038215637,
       "learning_rate": 0.000589279112754159,
-      "loss": 0.0299,
       "step": 2275
     },
     {
       "epoch": 4.21,
-      "grad_norm": 0.18868118524551392,
       "learning_rate": 0.0005846580406654344,
-      "loss": 0.0174,
       "step": 2300
     },
     {
       "epoch": 4.26,
-      "grad_norm": 0.33069688081741333,
       "learning_rate": 0.0005800369685767099,
-      "loss": 0.0216,
       "step": 2325
     },
     {
       "epoch": 4.3,
-      "grad_norm": 0.7511343955993652,
       "learning_rate": 0.0005754158964879852,
-      "loss": 0.0157,
       "step": 2350
     },
     {
       "epoch": 4.35,
-      "grad_norm": 0.27277225255966187,
       "learning_rate": 0.0005707948243992607,
-      "loss": 0.0198,
       "step": 2375
     },
     {
       "epoch": 4.4,
-      "grad_norm": 2.3098878860473633,
       "learning_rate": 0.000566173752310536,
-      "loss": 0.026,
       "step": 2400
     },
     {
       "epoch": 4.44,
-      "grad_norm": 0.39823707938194275,
       "learning_rate": 0.0005615526802218115,
-      "loss": 0.0118,
       "step": 2425
     },
     {
       "epoch": 4.49,
-      "grad_norm": 0.2773701250553131,
       "learning_rate": 0.0005569316081330868,
-      "loss": 0.0319,
       "step": 2450
     },
     {
       "epoch": 4.53,
-      "grad_norm": 0.2549929916858673,
       "learning_rate": 0.0005523105360443623,
-      "loss": 0.0164,
       "step": 2475
     },
     {
       "epoch": 4.58,
-      "grad_norm": 3.1059272289276123,
       "learning_rate": 0.0005476894639556377,
-      "loss": 0.0231,
       "step": 2500
     },
     {
       "epoch": 4.62,
-      "grad_norm": 0.10516056418418884,
       "learning_rate": 0.0005430683918669131,
-      "loss": 0.0262,
       "step": 2525
     },
     {
       "epoch": 4.67,
-      "grad_norm": 0.046087902039289474,
       "learning_rate": 0.0005384473197781885,
-      "loss": 0.0212,
       "step": 2550
     },
     {
       "epoch": 4.72,
-      "grad_norm": 0.9207663536071777,
       "learning_rate": 0.0005338262476894639,
-      "loss": 0.018,
       "step": 2575
     },
     {
       "epoch": 4.76,
-      "grad_norm": 0.5687919855117798,
       "learning_rate": 0.0005292051756007393,
-      "loss": 0.0255,
       "step": 2600
     },
     {
       "epoch": 4.81,
-      "grad_norm": 0.006184098310768604,
       "learning_rate": 0.0005245841035120147,
-      "loss": 0.0207,
       "step": 2625
     },
     {
       "epoch": 4.85,
-      "grad_norm": 0.5442487597465515,
       "learning_rate": 0.0005199630314232903,
-      "loss": 0.0192,
       "step": 2650
     },
     {
       "epoch": 4.9,
-      "grad_norm": 0.031753990799188614,
       "learning_rate": 0.0005153419593345657,
-      "loss": 0.015,
       "step": 2675
     },
     {
       "epoch": 4.95,
-      "grad_norm": 0.022051149979233742,
       "learning_rate": 0.0005107208872458411,
-      "loss": 0.0252,
       "step": 2700
     },
     {
       "epoch": 4.99,
-      "grad_norm": 0.17456993460655212,
       "learning_rate": 0.0005060998151571165,
-      "loss": 0.0274,
       "step": 2725
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.18937160074710846,
-      "eval_runtime": 177.0599,
-      "eval_samples_per_second": 4.592,
-      "eval_steps_per_second": 0.768,
       "step": 2730
     },
     {
       "epoch": 5.04,
-      "grad_norm": 0.643435537815094,
       "learning_rate": 0.0005014787430683919,
-      "loss": 0.0211,
       "step": 2750
     },
     {
       "epoch": 5.08,
-      "grad_norm": 0.35862746834754944,
       "learning_rate": 0.0004968576709796673,
-      "loss": 0.0073,
       "step": 2775
     },
     {
       "epoch": 5.13,
-      "grad_norm": 0.5732066035270691,
       "learning_rate": 0.0004922365988909427,
-      "loss": 0.0083,
       "step": 2800
     },
     {
       "epoch": 5.17,
-      "grad_norm": 0.21464449167251587,
       "learning_rate": 0.0004876155268022181,
-      "loss": 0.0104,
       "step": 2825
     },
     {
       "epoch": 5.22,
-      "grad_norm": 0.1674581915140152,
       "learning_rate": 0.0004829944547134935,
-      "loss": 0.0093,
       "step": 2850
     },
     {
       "epoch": 5.27,
-      "grad_norm": 0.03593946248292923,
       "learning_rate": 0.000478373382624769,
-      "loss": 0.0119,
       "step": 2875
     },
     {
       "epoch": 5.31,
-      "grad_norm": 0.18074722588062286,
       "learning_rate": 0.0004737523105360444,
-      "loss": 0.0097,
       "step": 2900
     },
     {
       "epoch": 5.36,
-      "grad_norm": 0.06277300417423248,
       "learning_rate": 0.0004691312384473198,
-      "loss": 0.0137,
       "step": 2925
     },
     {
       "epoch": 5.4,
-      "grad_norm": 0.20016886293888092,
       "learning_rate": 0.0004645101663585952,
-      "loss": 0.0204,
       "step": 2950
     },
     {
       "epoch": 5.45,
-      "grad_norm": 0.1815144419670105,
       "learning_rate": 0.0004598890942698706,
-      "loss": 0.0162,
       "step": 2975
     },
     {
       "epoch": 5.49,
-      "grad_norm": 0.5112192034721375,
       "learning_rate": 0.00045526802218114607,
-      "loss": 0.0131,
       "step": 3000
     },
     {
       "epoch": 5.54,
-      "grad_norm": 0.1796441674232483,
       "learning_rate": 0.0004506469500924215,
-      "loss": 0.0176,
       "step": 3025
     },
     {
       "epoch": 5.59,
-      "grad_norm": 0.4108269214630127,
       "learning_rate": 0.0004460258780036969,
-      "loss": 0.0196,
       "step": 3050
     },
     {
       "epoch": 5.63,
-      "grad_norm": 0.4271663427352905,
       "learning_rate": 0.0004414048059149723,
-      "loss": 0.017,
       "step": 3075
     },
     {
       "epoch": 5.68,
-      "grad_norm": 0.2981961667537689,
       "learning_rate": 0.0004367837338262477,
-      "loss": 0.012,
       "step": 3100
     },
     {
       "epoch": 5.72,
-      "grad_norm": 0.392818808555603,
       "learning_rate": 0.0004321626617375231,
-      "loss": 0.0115,
       "step": 3125
     },
     {
       "epoch": 5.77,
-      "grad_norm": 0.00586000457406044,
       "learning_rate": 0.0004275415896487985,
-      "loss": 0.0115,
       "step": 3150
     },
     {
       "epoch": 5.82,
-      "grad_norm": 0.2224288433790207,
       "learning_rate": 0.0004229205175600739,
       "loss": 0.0127,
       "step": 3175
     },
     {
       "epoch": 5.86,
-      "grad_norm": 0.28421640396118164,
       "learning_rate": 0.00041829944547134933,
-      "loss": 0.0124,
       "step": 3200
     },
     {
       "epoch": 5.91,
-      "grad_norm": 0.3791782557964325,
       "learning_rate": 0.00041367837338262474,
-      "loss": 0.016,
       "step": 3225
     },
     {
       "epoch": 5.95,
-      "grad_norm": 0.12688513100147247,
       "learning_rate": 0.0004090573012939002,
-      "loss": 0.0212,
       "step": 3250
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.009004692547023296,
       "learning_rate": 0.0004044362292051756,
-      "loss": 0.02,
       "step": 3275
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.18766650557518005,
-      "eval_runtime": 177.5092,
-      "eval_samples_per_second": 4.58,
-      "eval_steps_per_second": 0.766,
       "step": 3276
     },
     {
       "epoch": 6.04,
-      "grad_norm": 0.014529082924127579,
       "learning_rate": 0.000399815157116451,
-      "loss": 0.012,
       "step": 3300
     },
     {
       "epoch": 6.09,
-      "grad_norm": 0.16003918647766113,
       "learning_rate": 0.0003951940850277264,
-      "loss": 0.0078,
       "step": 3325
     },
     {
       "epoch": 6.14,
-      "grad_norm": 0.042826466262340546,
       "learning_rate": 0.0003905730129390019,
-      "loss": 0.0116,
       "step": 3350
     },
     {
       "epoch": 6.18,
-      "grad_norm": 0.0034067954402416945,
       "learning_rate": 0.0003859519408502773,
-      "loss": 0.006,
       "step": 3375
     },
     {
       "epoch": 6.23,
-      "grad_norm": 0.005681981332600117,
       "learning_rate": 0.0003813308687615527,
-      "loss": 0.0088,
       "step": 3400
     },
     {
       "epoch": 6.27,
-      "grad_norm": 0.05403963476419449,
       "learning_rate": 0.0003767097966728281,
-      "loss": 0.0104,
       "step": 3425
     },
     {
       "epoch": 6.32,
-      "grad_norm": 0.1421121209859848,
       "learning_rate": 0.0003720887245841035,
-      "loss": 0.0066,
       "step": 3450
     },
     {
       "epoch": 6.36,
-      "grad_norm": 0.02004937455058098,
       "learning_rate": 0.0003674676524953789,
-      "loss": 0.0075,
       "step": 3475
     },
     {
       "epoch": 6.41,
-      "grad_norm": 0.009357332251966,
       "learning_rate": 0.0003628465804066544,
-      "loss": 0.0065,
       "step": 3500
     },
     {
       "epoch": 6.46,
-      "grad_norm": 0.01666351594030857,
       "learning_rate": 0.0003582255083179298,
-      "loss": 0.006,
       "step": 3525
     },
     {
       "epoch": 6.5,
-      "grad_norm": 0.24134355783462524,
       "learning_rate": 0.0003536044362292052,
-      "loss": 0.0088,
       "step": 3550
     },
     {
       "epoch": 6.55,
-      "grad_norm": 0.14924415946006775,
       "learning_rate": 0.0003489833641404806,
-      "loss": 0.007,
       "step": 3575
     },
     {
       "epoch": 6.59,
-      "grad_norm": 0.12202003598213196,
       "learning_rate": 0.000344362292051756,
-      "loss": 0.0101,
       "step": 3600
     },
     {
       "epoch": 6.64,
-      "grad_norm": 0.0060227783396840096,
       "learning_rate": 0.0003397412199630314,
-      "loss": 0.0117,
       "step": 3625
     },
     {
       "epoch": 6.68,
-      "grad_norm": 0.3869228959083557,
       "learning_rate": 0.0003351201478743068,
-      "loss": 0.0151,
       "step": 3650
     },
     {
       "epoch": 6.73,
-      "grad_norm": 0.018938152119517326,
       "learning_rate": 0.00033049907578558223,
-      "loss": 0.0076,
       "step": 3675
     },
     {
       "epoch": 6.78,
-      "grad_norm": 0.018859045580029488,
       "learning_rate": 0.00032587800369685764,
-      "loss": 0.0085,
       "step": 3700
     },
     {
       "epoch": 6.82,
-      "grad_norm": 0.08804900199174881,
       "learning_rate": 0.0003212569316081331,
-      "loss": 0.0097,
       "step": 3725
     },
     {
       "epoch": 6.87,
-      "grad_norm": 0.3045863211154938,
       "learning_rate": 0.0003166358595194085,
-      "loss": 0.0132,
       "step": 3750
     },
     {
       "epoch": 6.91,
-      "grad_norm": 0.022158470004796982,
       "learning_rate": 0.0003120147874306839,
-      "loss": 0.0124,
       "step": 3775
     },
     {
       "epoch": 6.96,
-      "grad_norm": 0.15056921541690826,
       "learning_rate": 0.0003073937153419594,
-      "loss": 0.0087,
       "step": 3800
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.19078923761844635,
-      "eval_runtime": 177.5513,
-      "eval_samples_per_second": 4.579,
-      "eval_steps_per_second": 0.766,
       "step": 3822
     },
     {
       "epoch": 7.01,
-      "grad_norm": 0.04336291924118996,
       "learning_rate": 0.0003027726432532348,
-      "loss": 0.0086,
       "step": 3825
     },
     {
       "epoch": 7.05,
-      "grad_norm": 0.0327971875667572,
       "learning_rate": 0.0002981515711645102,
-      "loss": 0.0084,
       "step": 3850
     },
     {
       "epoch": 7.1,
-      "grad_norm": 0.0314444899559021,
       "learning_rate": 0.0002935304990757856,
-      "loss": 0.0048,
       "step": 3875
     },
     {
       "epoch": 7.14,
-      "grad_norm": 0.17276029288768768,
       "learning_rate": 0.000288909426987061,
-      "loss": 0.007,
       "step": 3900
     },
     {
       "epoch": 7.19,
-      "grad_norm": 0.18024314939975739,
       "learning_rate": 0.0002842883548983364,
-      "loss": 0.0074,
       "step": 3925
     },
     {
       "epoch": 7.23,
-      "grad_norm": 0.01734893210232258,
       "learning_rate": 0.0002796672828096118,
-      "loss": 0.0071,
       "step": 3950
     },
     {
       "epoch": 7.28,
-      "grad_norm": 0.01721636950969696,
       "learning_rate": 0.0002750462107208873,
-      "loss": 0.0123,
       "step": 3975
     },
     {
       "epoch": 7.33,
-      "grad_norm": 0.03225923702120781,
       "learning_rate": 0.0002704251386321627,
-      "loss": 0.0061,
       "step": 4000
     },
     {
       "epoch": 7.37,
-      "grad_norm": 0.10785706341266632,
       "learning_rate": 0.0002658040665434381,
-      "loss": 0.0071,
       "step": 4025
     },
     {
       "epoch": 7.42,
-      "grad_norm": 0.02195531316101551,
       "learning_rate": 0.0002611829944547135,
-      "loss": 0.0067,
       "step": 4050
     },
     {
       "epoch": 7.46,
-      "grad_norm": 0.025887854397296906,
       "learning_rate": 0.0002565619223659889,
-      "loss": 0.0072,
       "step": 4075
     },
     {
       "epoch": 7.51,
-      "grad_norm": 1.8573029041290283,
       "learning_rate": 0.0002519408502772643,
-      "loss": 0.0044,
       "step": 4100
     },
     {
       "epoch": 7.55,
-      "grad_norm": 0.41556769609451294,
       "learning_rate": 0.0002473197781885397,
-      "loss": 0.0076,
       "step": 4125
     },
     {
       "epoch": 7.6,
-      "grad_norm": 0.0036406666040420532,
       "learning_rate": 0.0002426987060998152,
-      "loss": 0.0054,
       "step": 4150
     },
     {
       "epoch": 7.65,
-      "grad_norm": 0.1950559765100479,
       "learning_rate": 0.0002380776340110906,
-      "loss": 0.0052,
       "step": 4175
     },
     {
       "epoch": 7.69,
-      "grad_norm": 0.01785474270582199,
       "learning_rate": 0.000233456561922366,
-      "loss": 0.007,
       "step": 4200
     },
     {
       "epoch": 7.74,
-      "grad_norm": 0.26933544874191284,
       "learning_rate": 0.0002288354898336414,
-      "loss": 0.0048,
       "step": 4225
     },
     {
       "epoch": 7.78,
-      "grad_norm": 0.19295917451381683,
       "learning_rate": 0.00022421441774491682,
-      "loss": 0.0035,
       "step": 4250
     },
     {
       "epoch": 7.83,
-      "grad_norm": 0.008535887114703655,
       "learning_rate": 0.00021959334565619225,
-      "loss": 0.0063,
       "step": 4275
     },
     {
       "epoch": 7.88,
-      "grad_norm": 0.16601914167404175,
       "learning_rate": 0.00021497227356746766,
-      "loss": 0.0049,
       "step": 4300
     },
     {
       "epoch": 7.92,
-      "grad_norm": 0.25450438261032104,
       "learning_rate": 0.00021035120147874306,
-      "loss": 0.0069,
       "step": 4325
     },
     {
       "epoch": 7.97,
-      "grad_norm": 0.049375709146261215,
       "learning_rate": 0.00020573012939001847,
-      "loss": 0.0066,
       "step": 4350
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.2085200548171997,
-      "eval_runtime": 177.9722,
-      "eval_samples_per_second": 4.568,
-      "eval_steps_per_second": 0.764,
       "step": 4368
     },
     {
       "epoch": 8.01,
-      "grad_norm": 0.06922808289527893,
       "learning_rate": 0.00020110905730129388,
-      "loss": 0.0042,
       "step": 4375
     },
     {
       "epoch": 8.06,
-      "grad_norm": 0.04170389473438263,
       "learning_rate": 0.00019648798521256934,
-      "loss": 0.0037,
       "step": 4400
     },
     {
       "epoch": 8.1,
-      "grad_norm": 0.010052547790110111,
       "learning_rate": 0.00019186691312384475,
-      "loss": 0.0029,
       "step": 4425
     },
     {
       "epoch": 8.15,
-      "grad_norm": 0.25184884667396545,
       "learning_rate": 0.00018724584103512016,
-      "loss": 0.0039,
       "step": 4450
     },
     {
       "epoch": 8.2,
-      "grad_norm": 0.07106045633554459,
       "learning_rate": 0.00018262476894639556,
-      "loss": 0.0039,
       "step": 4475
     },
     {
       "epoch": 8.24,
-      "grad_norm": 0.002000249456614256,
       "learning_rate": 0.00017800369685767097,
-      "loss": 0.0056,
       "step": 4500
     },
     {
       "epoch": 8.29,
-      "grad_norm": 0.025201383978128433,
       "learning_rate": 0.0001733826247689464,
-      "loss": 0.0031,
       "step": 4525
     },
     {
       "epoch": 8.33,
-      "grad_norm": 0.0007307173800654709,
       "learning_rate": 0.0001687615526802218,
-      "loss": 0.0031,
       "step": 4550
     },
     {
       "epoch": 8.38,
-      "grad_norm": 0.010259617120027542,
       "learning_rate": 0.00016414048059149722,
-      "loss": 0.0036,
       "step": 4575
     },
     {
       "epoch": 8.42,
-      "grad_norm": 0.004237270914018154,
       "learning_rate": 0.00015951940850277263,
-      "loss": 0.0038,
       "step": 4600
     },
     {
       "epoch": 8.47,
-      "grad_norm": 0.02443511225283146,
       "learning_rate": 0.0001548983364140481,
-      "loss": 0.0044,
       "step": 4625
     },
     {
       "epoch": 8.52,
-      "grad_norm": 0.039590246975421906,
       "learning_rate": 0.0001502772643253235,
-      "loss": 0.0019,
       "step": 4650
     },
     {
       "epoch": 8.56,
-      "grad_norm": 0.30276018381118774,
       "learning_rate": 0.0001456561922365989,
-      "loss": 0.0023,
       "step": 4675
     },
     {
       "epoch": 8.61,
-      "grad_norm": 0.05218060687184334,
       "learning_rate": 0.0001410351201478743,
-      "loss": 0.003,
       "step": 4700
     },
     {
       "epoch": 8.65,
-      "grad_norm": 0.02608703263103962,
       "learning_rate": 0.00013641404805914972,
-      "loss": 0.0027,
       "step": 4725
     },
     {
       "epoch": 8.7,
-      "grad_norm": 0.007796884514391422,
       "learning_rate": 0.00013179297597042515,
-      "loss": 0.0038,
       "step": 4750
     },
     {
       "epoch": 8.75,
-      "grad_norm": 0.008572472259402275,
       "learning_rate": 0.00012717190388170056,
-      "loss": 0.0018,
       "step": 4775
     },
     {
       "epoch": 8.79,
-      "grad_norm": 0.0034019711893051863,
       "learning_rate": 0.00012255083179297597,
-      "loss": 0.003,
       "step": 4800
     },
     {
       "epoch": 8.84,
-      "grad_norm": 0.003986136056482792,
       "learning_rate": 0.00011792975970425139,
-      "loss": 0.0047,
       "step": 4825
     },
     {
       "epoch": 8.88,
-      "grad_norm": 0.055789873003959656,
       "learning_rate": 0.00011330868761552681,
-      "loss": 0.0021,
       "step": 4850
     },
     {
       "epoch": 8.93,
-      "grad_norm": 0.07775359600782394,
       "learning_rate": 0.00010868761552680221,
-      "loss": 0.0032,
       "step": 4875
     },
     {
       "epoch": 8.97,
-      "grad_norm": 0.0017645555781200528,
       "learning_rate": 0.00010406654343807764,
-      "loss": 0.0055,
       "step": 4900
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.21004897356033325,
-      "eval_runtime": 178.8955,
-      "eval_samples_per_second": 4.545,
-      "eval_steps_per_second": 0.76,
       "step": 4914
     },
     {
       "epoch": 9.02,
-      "grad_norm": 0.22125497460365295,
       "learning_rate": 9.944547134935306e-05,
-      "loss": 0.0031,
       "step": 4925
     },
     {
       "epoch": 9.07,
-      "grad_norm": 0.003768475726246834,
       "learning_rate": 9.482439926062846e-05,
       "loss": 0.0013,
       "step": 4950
     },
     {
       "epoch": 9.11,
-      "grad_norm": 0.013520549982786179,
       "learning_rate": 9.020332717190388e-05,
-      "loss": 0.0025,
       "step": 4975
     },
     {
       "epoch": 9.16,
-      "grad_norm": 0.009503871202468872,
       "learning_rate": 8.558225508317929e-05,
-      "loss": 0.0024,
       "step": 5000
     },
     {
       "epoch": 9.2,
-      "grad_norm": 0.0057460549287498,
       "learning_rate": 8.096118299445473e-05,
-      "loss": 0.0015,
       "step": 5025
     },
     {
       "epoch": 9.25,
-      "grad_norm": 0.06969017535448074,
       "learning_rate": 7.634011090573013e-05,
-      "loss": 0.0017,
       "step": 5050
     },
     {
       "epoch": 9.29,
-      "grad_norm": 0.1530989110469818,
       "learning_rate": 7.171903881700554e-05,
-      "loss": 0.0022,
       "step": 5075
     },
     {
       "epoch": 9.34,
-      "grad_norm": 0.1752089112997055,
       "learning_rate": 6.709796672828096e-05,
-      "loss": 0.0018,
       "step": 5100
     },
     {
       "epoch": 9.39,
-      "grad_norm": 0.023138588294386864,
       "learning_rate": 6.247689463955638e-05,
-      "loss": 0.0014,
       "step": 5125
     },
     {
       "epoch": 9.43,
-      "grad_norm": 0.005098209250718355,
       "learning_rate": 5.785582255083179e-05,
-      "loss": 0.0012,
       "step": 5150
     },
     {
       "epoch": 9.48,
-      "grad_norm": 0.007919879630208015,
       "learning_rate": 5.323475046210721e-05,
-      "loss": 0.0023,
       "step": 5175
     },
     {
       "epoch": 9.52,
-      "grad_norm": 0.0019298276165500283,
       "learning_rate": 4.8613678373382625e-05,
-      "loss": 0.0015,
       "step": 5200
     },
     {
       "epoch": 9.57,
-      "grad_norm": 0.0023822402581572533,
       "learning_rate": 4.3992606284658045e-05,
-      "loss": 0.0011,
       "step": 5225
     },
     {
       "epoch": 9.62,
-      "grad_norm": 0.03612617775797844,
       "learning_rate": 3.937153419593346e-05,
       "loss": 0.001,
       "step": 5250
     },
     {
       "epoch": 9.66,
-      "grad_norm": 0.03683371841907501,
       "learning_rate": 3.4750462107208874e-05,
-      "loss": 0.0016,
       "step": 5275
     },
     {
       "epoch": 9.71,
-      "grad_norm": 0.04906224459409714,
       "learning_rate": 3.012939001848429e-05,
-      "loss": 0.0022,
       "step": 5300
     },
     {
       "epoch": 9.75,
-      "grad_norm": 0.08069704473018646,
       "learning_rate": 2.5508317929759705e-05,
-      "loss": 0.0015,
       "step": 5325
     },
     {
       "epoch": 9.8,
-      "grad_norm": 0.13353778421878815,
       "learning_rate": 2.088724584103512e-05,
-      "loss": 0.0013,
       "step": 5350
     },
     {
       "epoch": 9.84,
-      "grad_norm": 0.10152421146631241,
       "learning_rate": 1.6266173752310537e-05,
-      "loss": 0.0015,
       "step": 5375
     },
     {
       "epoch": 9.89,
-      "grad_norm": 0.010886043310165405,
       "learning_rate": 1.1645101663585952e-05,
-      "loss": 0.0017,
       "step": 5400
     },
     {
       "epoch": 9.94,
-      "grad_norm": 0.009057571180164814,
       "learning_rate": 7.024029574861368e-06,
-      "loss": 0.0016,
       "step": 5425
     },
     {
       "epoch": 9.98,
-      "grad_norm": 0.020738158375024796,
       "learning_rate": 2.402957486136784e-06,
-      "loss": 0.0013,
       "step": 5450
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.21373072266578674,
-      "eval_runtime": 177.6097,
-      "eval_samples_per_second": 4.577,
-      "eval_steps_per_second": 0.766,
       "step": 5460
     },
     {
       "epoch": 10.0,
       "step": 5460,
       "total_flos": 9.7789895073792e+18,
-      "train_loss": 0.05130936206342318,
-      "train_runtime": 10728.949,
-      "train_samples_per_second": 3.051,
       "train_steps_per_second": 0.509
     }
   ],

   "log_history": [
     {
       "epoch": 0.05,
+      "grad_norm": 0.4075450599193573,
+      "learning_rate": 0.0005,
+      "loss": 0.0571,
       "step": 25
     },
     {
       "epoch": 0.09,
+      "grad_norm": 0.5959680676460266,
+      "learning_rate": 0.001,
+      "loss": 0.0853,
       "step": 50
     },
     {
       "epoch": 0.14,
+      "grad_norm": 1.1371592283248901,
+      "learning_rate": 0.0009955637707948243,
+      "loss": 0.0983,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "grad_norm": 1.7857468128204346,
+      "learning_rate": 0.0009911275415896488,
+      "loss": 0.0689,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "grad_norm": 1.947630763053894,
+      "learning_rate": 0.0009865064695009243,
+      "loss": 0.0834,
       "step": 125
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.750166654586792,
+      "learning_rate": 0.0009818853974121996,
+      "loss": 0.0655,
       "step": 150
     },
     {
       "epoch": 0.32,
+      "grad_norm": 3.860727548599243,
+      "learning_rate": 0.000977264325323475,
+      "loss": 0.0554,
       "step": 175
     },
     {
       "epoch": 0.37,
+      "grad_norm": 0.3753944933414459,
+      "learning_rate": 0.0009726432532347505,
+      "loss": 0.0785,
       "step": 200
     },
     {
       "epoch": 0.41,
+      "grad_norm": 0.4372863471508026,
+      "learning_rate": 0.0009680221811460259,
+      "loss": 0.063,
       "step": 225
     },
     {
       "epoch": 0.46,
+      "grad_norm": 0.31646546721458435,
+      "learning_rate": 0.0009634011090573013,
+      "loss": 0.0487,
       "step": 250
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.8565055131912231,
+      "learning_rate": 0.0009587800369685768,
+      "loss": 0.0586,
       "step": 275
     },
     {
       "epoch": 0.55,
+      "grad_norm": 0.5980587601661682,
+      "learning_rate": 0.0009541589648798521,
+      "loss": 0.0683,
       "step": 300
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.2764056324958801,
+      "learning_rate": 0.0009495378927911276,
+      "loss": 0.0697,
       "step": 325
     },
     {
       "epoch": 0.64,
+      "grad_norm": 1.5360766649246216,
+      "learning_rate": 0.0009449168207024029,
+      "loss": 0.0639,
       "step": 350
     },
     {
       "epoch": 0.69,
+      "grad_norm": 0.38272273540496826,
+      "learning_rate": 0.0009402957486136784,
+      "loss": 0.0816,
       "step": 375
     },
     {
       "epoch": 0.73,
+      "grad_norm": 0.362632155418396,
+      "learning_rate": 0.0009356746765249538,
+      "loss": 0.0734,
       "step": 400
     },
     {
       "epoch": 0.78,
+      "grad_norm": 1.5462536811828613,
+      "learning_rate": 0.0009310536044362292,
+      "loss": 0.2255,
       "step": 425
     },
     {
       "epoch": 0.82,
+      "grad_norm": 0.6713312268257141,
+      "learning_rate": 0.0009264325323475047,
+      "loss": 0.1296,
       "step": 450
     },
     {
       "epoch": 0.87,
+      "grad_norm": 0.8870647549629211,
       "learning_rate": 0.0009219963031423291,
+      "loss": 0.0904,
       "step": 475
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.4918694496154785,
       "learning_rate": 0.0009173752310536044,
+      "loss": 0.0689,
       "step": 500
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.3674885630607605,
       "learning_rate": 0.0009127541589648799,
+      "loss": 0.0726,
       "step": 525
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.2210056632757187,
+      "eval_runtime": 173.4286,
+      "eval_samples_per_second": 4.688,
+      "eval_steps_per_second": 0.784,
       "step": 546
     },
     {
       "epoch": 1.01,
+      "grad_norm": 0.8691617250442505,
       "learning_rate": 0.0009081330868761552,
+      "loss": 0.0421,
       "step": 550
     },
     {
       "epoch": 1.05,
+      "grad_norm": 0.8861550688743591,
       "learning_rate": 0.0009035120147874307,
+      "loss": 0.058,
       "step": 575
     },
     {
       "epoch": 1.1,
+      "grad_norm": 0.10453300923109055,
       "learning_rate": 0.000898890942698706,
+      "loss": 0.0391,
       "step": 600
     },
     {
       "epoch": 1.14,
+      "grad_norm": 0.11498710513114929,
       "learning_rate": 0.0008942698706099815,
+      "loss": 0.0413,
       "step": 625
     },
     {
       "epoch": 1.19,
+      "grad_norm": 0.3542003333568573,
       "learning_rate": 0.0008896487985212569,
+      "loss": 0.0764,
       "step": 650
     },
     {
       "epoch": 1.24,
+      "grad_norm": 0.5665566921234131,
       "learning_rate": 0.0008850277264325323,
+      "loss": 0.0464,
       "step": 675
     },
     {
       "epoch": 1.28,
+      "grad_norm": 0.37183037400245667,
       "learning_rate": 0.0008804066543438077,
+      "loss": 0.0557,
       "step": 700
     },
     {
       "epoch": 1.33,
+      "grad_norm": 2.33689546585083,
       "learning_rate": 0.0008757855822550833,
+      "loss": 0.0723,
       "step": 725
     },
     {
       "epoch": 1.37,
+      "grad_norm": 0.47746214270591736,
       "learning_rate": 0.0008711645101663586,
+      "loss": 0.0613,
       "step": 750
     },
     {
       "epoch": 1.42,
+      "grad_norm": 0.5573539137840271,
       "learning_rate": 0.0008665434380776341,
+      "loss": 0.0581,
       "step": 775
     },
     {
       "epoch": 1.47,
+      "grad_norm": 0.5228638648986816,
       "learning_rate": 0.0008619223659889095,
+      "loss": 0.0438,
       "step": 800
     },
     {
       "epoch": 1.51,
+      "grad_norm": 1.0585103034973145,
       "learning_rate": 0.0008573012939001849,
+      "loss": 0.0357,
       "step": 825
     },
     {
       "epoch": 1.56,
+      "grad_norm": 0.13868175446987152,
       "learning_rate": 0.0008526802218114603,
+      "loss": 0.0374,
       "step": 850
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.43853959441185,
       "learning_rate": 0.0008480591497227357,
+      "loss": 0.0482,
       "step": 875
     },
     {
       "epoch": 1.65,
+      "grad_norm": 0.47208574414253235,
       "learning_rate": 0.0008434380776340112,
+      "loss": 0.0551,
       "step": 900
     },
     {
       "epoch": 1.69,
+      "grad_norm": 0.2631681561470032,
       "learning_rate": 0.0008388170055452865,
+      "loss": 0.0717,
       "step": 925
     },
     {
       "epoch": 1.74,
+      "grad_norm": 0.23163950443267822,
       "learning_rate": 0.000834195933456562,
+      "loss": 0.0415,
       "step": 950
     },
     {
       "epoch": 1.79,
+      "grad_norm": 0.45487725734710693,
       "learning_rate": 0.0008295748613678373,
+      "loss": 0.0392,
       "step": 975
     },
     {
       "epoch": 1.83,
+      "grad_norm": 0.40454888343811035,
       "learning_rate": 0.0008249537892791128,
+      "loss": 0.0342,
       "step": 1000
     },
     {
       "epoch": 1.88,
+      "grad_norm": 0.10719649493694305,
       "learning_rate": 0.0008203327171903881,
+      "loss": 0.0499,
       "step": 1025
     },
     {
       "epoch": 1.92,
+      "grad_norm": 0.5795795917510986,
       "learning_rate": 0.0008157116451016636,
+      "loss": 0.0553,
       "step": 1050
     },
     {
       "epoch": 1.97,
+      "grad_norm": 0.2069532871246338,
       "learning_rate": 0.000811090573012939,
+      "loss": 0.0419,
       "step": 1075
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.21386997401714325,
+      "eval_runtime": 174.0952,
+      "eval_samples_per_second": 4.67,
       "eval_steps_per_second": 0.781,
       "step": 1092
     },
     {
       "epoch": 2.01,
+      "grad_norm": 0.170976459980011,
       "learning_rate": 0.0008064695009242144,
+      "loss": 0.0373,
       "step": 1100
     },
     {
       "epoch": 2.06,
+      "grad_norm": 0.10965342819690704,
       "learning_rate": 0.0008018484288354898,
+      "loss": 0.0286,
       "step": 1125
     },
     {
       "epoch": 2.11,
+      "grad_norm": 0.02158469147980213,
       "learning_rate": 0.0007972273567467652,
+      "loss": 0.05,
       "step": 1150
     },
     {
       "epoch": 2.15,
+      "grad_norm": 1.0225136280059814,
       "learning_rate": 0.0007926062846580406,
+      "loss": 0.0423,
       "step": 1175
     },
     {
       "epoch": 2.2,
+      "grad_norm": 0.09866318106651306,
       "learning_rate": 0.0007879852125693162,
+      "loss": 0.0376,
       "step": 1200
     },
     {
       "epoch": 2.24,
+      "grad_norm": 0.23199380934238434,
       "learning_rate": 0.0007833641404805915,
+      "loss": 0.0293,
       "step": 1225
     },
     {
       "epoch": 2.29,
+      "grad_norm": 0.05752483755350113,
       "learning_rate": 0.000778743068391867,
+      "loss": 0.0381,
       "step": 1250
     },
     {
       "epoch": 2.34,
+      "grad_norm": 0.13506996631622314,
       "learning_rate": 0.0007741219963031424,
+      "loss": 0.0394,
       "step": 1275
     },
     {
       "epoch": 2.38,
+      "grad_norm": 1.1013309955596924,
       "learning_rate": 0.0007695009242144178,
+      "loss": 0.0394,
       "step": 1300
     },
     {
       "epoch": 2.43,
+      "grad_norm": 0.43956679105758667,
       "learning_rate": 0.0007648798521256932,
+      "loss": 0.0459,
       "step": 1325
     },
     {
       "epoch": 2.47,
+      "grad_norm": 0.39061295986175537,
       "learning_rate": 0.0007602587800369686,
+      "loss": 0.037,
       "step": 1350
     },
     {
       "epoch": 2.52,
+      "grad_norm": 0.2657981216907501,
       "learning_rate": 0.0007556377079482441,
+      "loss": 0.0327,
       "step": 1375
     },
     {
       "epoch": 2.56,
+      "grad_norm": 0.4138255715370178,
       "learning_rate": 0.0007510166358595194,
+      "loss": 0.0307,
       "step": 1400
     },
     {
       "epoch": 2.61,
+      "grad_norm": 0.32367995381355286,
       "learning_rate": 0.0007463955637707949,
+      "loss": 0.0335,
       "step": 1425
     },
     {
       "epoch": 2.66,
+      "grad_norm": 0.5355994701385498,
       "learning_rate": 0.0007417744916820702,
+      "loss": 0.0262,
       "step": 1450
     },
     {
       "epoch": 2.7,
+      "grad_norm": 3.182929039001465,
       "learning_rate": 0.0007371534195933457,
+      "loss": 0.0302,
       "step": 1475
     },
     {
       "epoch": 2.75,
+      "grad_norm": 0.9068237543106079,
       "learning_rate": 0.000732532347504621,
+      "loss": 0.0318,
       "step": 1500
     },
     {
       "epoch": 2.79,
+      "grad_norm": 0.804796576499939,
       "learning_rate": 0.0007279112754158965,
+      "loss": 0.0462,
       "step": 1525
     },
     {
       "epoch": 2.84,
+      "grad_norm": 0.40627536177635193,
       "learning_rate": 0.0007232902033271719,
+      "loss": 0.0226,
       "step": 1550
     },
     {
       "epoch": 2.88,
+      "grad_norm": 0.2852160632610321,
       "learning_rate": 0.0007186691312384473,
+      "loss": 0.0327,
       "step": 1575
     },
     {
       "epoch": 2.93,
+      "grad_norm": 0.5738157629966736,
       "learning_rate": 0.0007140480591497227,
+      "loss": 0.0317,
       "step": 1600
     },
     {
       "epoch": 2.98,
+      "grad_norm": 0.2782443165779114,
       "learning_rate": 0.0007094269870609981,
+      "loss": 0.0322,
       "step": 1625
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.1934811770915985,
+      "eval_runtime": 175.4238,
+      "eval_samples_per_second": 4.634,
+      "eval_steps_per_second": 0.775,
       "step": 1638
     },
     {
       "epoch": 3.02,
+      "grad_norm": 0.027267010882496834,
       "learning_rate": 0.0007048059149722735,
+      "loss": 0.0248,
       "step": 1650
     },
     {
       "epoch": 3.07,
+      "grad_norm": 0.23983055353164673,
       "learning_rate": 0.000700184842883549,
+      "loss": 0.0252,
       "step": 1675
     },
     {
       "epoch": 3.11,
+      "grad_norm": 0.03389419987797737,
       "learning_rate": 0.0006955637707948245,
+      "loss": 0.0216,
       "step": 1700
     },
     {
       "epoch": 3.16,
+      "grad_norm": 2.448323965072632,
       "learning_rate": 0.0006909426987060999,
+      "loss": 0.0402,
       "step": 1725
     },
     {
       "epoch": 3.21,
+      "grad_norm": 0.5986452102661133,
       "learning_rate": 0.0006863216266173753,
+      "loss": 0.0349,
       "step": 1750
     },
     {
       "epoch": 3.25,
+      "grad_norm": 0.046656377613544464,
       "learning_rate": 0.0006817005545286507,
+      "loss": 0.0179,
       "step": 1775
     },
     {
       "epoch": 3.3,
+      "grad_norm": 0.2432301789522171,
       "learning_rate": 0.0006770794824399261,
+      "loss": 0.0261,
       "step": 1800
     },
     {
       "epoch": 3.34,
+      "grad_norm": 0.4144662022590637,
       "learning_rate": 0.0006724584103512015,
+      "loss": 0.0256,
       "step": 1825
     },
     {
       "epoch": 3.39,
+      "grad_norm": 0.27171510457992554,
       "learning_rate": 0.000667837338262477,
+      "loss": 0.0322,
       "step": 1850
     },
     {
       "epoch": 3.43,
+      "grad_norm": 0.1022319346666336,
       "learning_rate": 0.0006632162661737523,
+      "loss": 0.0293,
       "step": 1875
     },
     {
       "epoch": 3.48,
+      "grad_norm": 0.16478094458580017,
       "learning_rate": 0.0006585951940850278,
+      "loss": 0.0178,
       "step": 1900
     },
     {
       "epoch": 3.53,
+      "grad_norm": 0.1675555408000946,
       "learning_rate": 0.0006539741219963031,
+      "loss": 0.0174,
       "step": 1925
     },
     {
       "epoch": 3.57,
+      "grad_norm": 0.39023590087890625,
       "learning_rate": 0.0006493530499075786,
+      "loss": 0.0149,
       "step": 1950
     },
     {
       "epoch": 3.62,
+      "grad_norm": 0.025721503421664238,
       "learning_rate": 0.0006447319778188539,
+      "loss": 0.0231,
       "step": 1975
     },
     {
       "epoch": 3.66,
+      "grad_norm": 0.3088337182998657,
       "learning_rate": 0.0006401109057301294,
+      "loss": 0.0283,
       "step": 2000
     },
     {
       "epoch": 3.71,
+      "grad_norm": 0.06729228049516678,
       "learning_rate": 0.0006354898336414048,
+      "loss": 0.0204,
       "step": 2025
     },
     {
       "epoch": 3.75,
+      "grad_norm": 0.18552298843860626,
       "learning_rate": 0.0006308687615526802,
+      "loss": 0.0274,
       "step": 2050
     },
     {
       "epoch": 3.8,
+      "grad_norm": 0.08045148104429245,
       "learning_rate": 0.0006262476894639556,
+      "loss": 0.0218,
       "step": 2075
     },
     {
       "epoch": 3.85,
+      "grad_norm": 0.6443850994110107,
       "learning_rate": 0.000621626617375231,
+      "loss": 0.0207,
       "step": 2100
     },
     {
       "epoch": 3.89,
+      "grad_norm": 0.6463542580604553,
       "learning_rate": 0.0006170055452865064,
+      "loss": 0.0322,
       "step": 2125
     },
     {
       "epoch": 3.94,
+      "grad_norm": 0.2903934419155121,
       "learning_rate": 0.000612384473197782,
+      "loss": 0.031,
       "step": 2150
     },
     {
       "epoch": 3.98,
+      "grad_norm": 0.1343035101890564,
       "learning_rate": 0.0006077634011090574,
+      "loss": 0.0175,
       "step": 2175
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.1896440088748932,
+      "eval_runtime": 176.3159,
+      "eval_samples_per_second": 4.611,
+      "eval_steps_per_second": 0.771,
       "step": 2184
     },
     {
       "epoch": 4.03,
+      "grad_norm": 0.10466930270195007,
       "learning_rate": 0.0006031423290203328,
+      "loss": 0.0215,
       "step": 2200
     },
     {
       "epoch": 4.08,
+      "grad_norm": 0.35988566279411316,
       "learning_rate": 0.0005985212569316082,
+      "loss": 0.0193,
       "step": 2225
     },
     {
       "epoch": 4.12,
+      "grad_norm": 0.16410423815250397,
       "learning_rate": 0.0005939001848428836,
+      "loss": 0.0143,
       "step": 2250
     },
     {
       "epoch": 4.17,
+      "grad_norm": 0.2650511562824249,
       "learning_rate": 0.000589279112754159,
+      "loss": 0.0268,
       "step": 2275
     },
     {
       "epoch": 4.21,
+      "grad_norm": 0.2793768048286438,
       "learning_rate": 0.0005846580406654344,
+      "loss": 0.0159,
       "step": 2300
     },
     {
       "epoch": 4.26,
+      "grad_norm": 2.7625114917755127,
       "learning_rate": 0.0005800369685767099,
+      "loss": 0.0226,
       "step": 2325
     },
     {
       "epoch": 4.3,
+      "grad_norm": 0.45461520552635193,
       "learning_rate": 0.0005754158964879852,
+      "loss": 0.0137,
       "step": 2350
     },
     {
       "epoch": 4.35,
+      "grad_norm": 0.28511613607406616,
       "learning_rate": 0.0005707948243992607,
+      "loss": 0.0184,
       "step": 2375
     },
     {
       "epoch": 4.4,
+      "grad_norm": 0.5333670377731323,
       "learning_rate": 0.000566173752310536,
+      "loss": 0.0186,
       "step": 2400
     },
     {
       "epoch": 4.44,
+      "grad_norm": 0.41222718358039856,
       "learning_rate": 0.0005615526802218115,
+      "loss": 0.011,
       "step": 2425
     },
     {
       "epoch": 4.49,
+      "grad_norm": 0.27146583795547485,
       "learning_rate": 0.0005569316081330868,
+      "loss": 0.0165,
       "step": 2450
     },
     {
       "epoch": 4.53,
+      "grad_norm": 0.29553595185279846,
       "learning_rate": 0.0005523105360443623,
+      "loss": 0.0138,
       "step": 2475
     },
     {
       "epoch": 4.58,
+      "grad_norm": 0.13532432913780212,
       "learning_rate": 0.0005476894639556377,
+      "loss": 0.0167,
       "step": 2500
     },
     {
       "epoch": 4.62,
+      "grad_norm": 0.10051342844963074,
       "learning_rate": 0.0005430683918669131,
+      "loss": 0.0152,
       "step": 2525
     },
     {
       "epoch": 4.67,
+      "grad_norm": 0.023720353841781616,
       "learning_rate": 0.0005384473197781885,
+      "loss": 0.0155,
       "step": 2550
     },
     {
       "epoch": 4.72,
+      "grad_norm": 0.2686695456504822,
       "learning_rate": 0.0005338262476894639,
+      "loss": 0.0125,
       "step": 2575
     },
     {
       "epoch": 4.76,
+      "grad_norm": 0.33857473731040955,
       "learning_rate": 0.0005292051756007393,
+      "loss": 0.0332,
       "step": 2600
     },
     {
       "epoch": 4.81,
+      "grad_norm": 0.0131806880235672,
       "learning_rate": 0.0005245841035120147,
+      "loss": 0.014,
       "step": 2625
     },
     {
       "epoch": 4.85,
+      "grad_norm": 0.4342842698097229,
       "learning_rate": 0.0005199630314232903,
+      "loss": 0.016,
       "step": 2650
     },
     {
       "epoch": 4.9,
+      "grad_norm": 0.005540889222174883,
       "learning_rate": 0.0005153419593345657,
+      "loss": 0.0134,
       "step": 2675
     },
     {
       "epoch": 4.95,
+      "grad_norm": 0.004122666083276272,
       "learning_rate": 0.0005107208872458411,
+      "loss": 0.0223,
       "step": 2700
     },
     {
       "epoch": 4.99,
+      "grad_norm": 0.14384405314922333,
       "learning_rate": 0.0005060998151571165,
+      "loss": 0.0266,
       "step": 2725
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.19267761707305908,
+      "eval_runtime": 179.8301,
+      "eval_samples_per_second": 4.521,
+      "eval_steps_per_second": 0.756,
       "step": 2730
     },
     {
       "epoch": 5.04,
+      "grad_norm": 0.3819844126701355,
       "learning_rate": 0.0005014787430683919,
+      "loss": 0.0166,
       "step": 2750
     },
     {
       "epoch": 5.08,
+      "grad_norm": 0.27138832211494446,
       "learning_rate": 0.0004968576709796673,
+      "loss": 0.0056,
       "step": 2775
     },
     {
       "epoch": 5.13,
+      "grad_norm": 0.36033156514167786,
       "learning_rate": 0.0004922365988909427,
+      "loss": 0.0084,
       "step": 2800
     },
     {
       "epoch": 5.17,
+      "grad_norm": 0.3422500789165497,
       "learning_rate": 0.0004876155268022181,
+      "loss": 0.0089,
       "step": 2825
     },
     {
       "epoch": 5.22,
+      "grad_norm": 0.12272176891565323,
       "learning_rate": 0.0004829944547134935,
+      "loss": 0.0079,
       "step": 2850
     },
     {
       "epoch": 5.27,
+      "grad_norm": 0.03446231782436371,
       "learning_rate": 0.000478373382624769,
+      "loss": 0.011,
       "step": 2875
     },
     {
       "epoch": 5.31,
+      "grad_norm": 0.2042599320411682,
       "learning_rate": 0.0004737523105360444,
+      "loss": 0.0091,
       "step": 2900
     },
     {
       "epoch": 5.36,
+      "grad_norm": 0.18888217210769653,
       "learning_rate": 0.0004691312384473198,
+      "loss": 0.0146,
       "step": 2925
     },
     {
       "epoch": 5.4,
+      "grad_norm": 4.216693878173828,
       "learning_rate": 0.0004645101663585952,
+      "loss": 0.0162,
       "step": 2950
     },
     {
       "epoch": 5.45,
+      "grad_norm": 0.20249082148075104,
       "learning_rate": 0.0004598890942698706,
+      "loss": 0.0193,
       "step": 2975
     },
     {
       "epoch": 5.49,
+      "grad_norm": 0.37886273860931396,
       "learning_rate": 0.00045526802218114607,
+      "loss": 0.0163,
       "step": 3000
     },
     {
       "epoch": 5.54,
+      "grad_norm": 0.24141408503055573,
       "learning_rate": 0.0004506469500924215,
+      "loss": 0.0147,
       "step": 3025
     },
     {
       "epoch": 5.59,
+      "grad_norm": 0.23406554758548737,
       "learning_rate": 0.0004460258780036969,
+      "loss": 0.0145,
       "step": 3050
     },
     {
       "epoch": 5.63,
+      "grad_norm": 0.355023056268692,
       "learning_rate": 0.0004414048059149723,
+      "loss": 0.0144,
       "step": 3075
     },
     {
       "epoch": 5.68,
+      "grad_norm": 0.18628603219985962,
       "learning_rate": 0.0004367837338262477,
+      "loss": 0.0105,
       "step": 3100
     },
     {
       "epoch": 5.72,
+      "grad_norm": 0.328931987285614,
       "learning_rate": 0.0004321626617375231,
+      "loss": 0.0107,
       "step": 3125
     },
     {
       "epoch": 5.77,
+      "grad_norm": 0.004133810754865408,
       "learning_rate": 0.0004275415896487985,
+      "loss": 0.01,
       "step": 3150
     },
     {
       "epoch": 5.82,
+      "grad_norm": 0.036314379423856735,
       "learning_rate": 0.0004229205175600739,
       "loss": 0.0127,
       "step": 3175
     },
     {
       "epoch": 5.86,
+      "grad_norm": 0.27704620361328125,
       "learning_rate": 0.00041829944547134933,
+      "loss": 0.0111,
       "step": 3200
     },
     {
       "epoch": 5.91,
+      "grad_norm": 0.5109962821006775,
       "learning_rate": 0.00041367837338262474,
+      "loss": 0.0157,
       "step": 3225
     },
     {
       "epoch": 5.95,
+      "grad_norm": 0.09048620611429214,
       "learning_rate": 0.0004090573012939002,
+      "loss": 0.0184,
       "step": 3250
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.010707640089094639,
       "learning_rate": 0.0004044362292051756,
+      "loss": 0.0178,
       "step": 3275
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.20126062631607056,
+      "eval_runtime": 179.6758,
+      "eval_samples_per_second": 4.525,
+      "eval_steps_per_second": 0.757,
       "step": 3276
     },
     {
       "epoch": 6.04,
+      "grad_norm": 0.013095181435346603,
       "learning_rate": 0.000399815157116451,
+      "loss": 0.0106,
       "step": 3300
     },
     {
       "epoch": 6.09,
+      "grad_norm": 0.15969859063625336,
       "learning_rate": 0.0003951940850277264,
+      "loss": 0.0098,
       "step": 3325
     },
     {
       "epoch": 6.14,
+      "grad_norm": 0.09395785629749298,
       "learning_rate": 0.0003905730129390019,
+      "loss": 0.012,
       "step": 3350
     },
     {
       "epoch": 6.18,
+      "grad_norm": 0.010071701370179653,
       "learning_rate": 0.0003859519408502773,
+      "loss": 0.0071,
       "step": 3375
     },
     {
       "epoch": 6.23,
+      "grad_norm": 0.005003762431442738,
       "learning_rate": 0.0003813308687615527,
+      "loss": 0.0093,
       "step": 3400
     },
     {
       "epoch": 6.27,
+      "grad_norm": 0.01751079224050045,
       "learning_rate": 0.0003767097966728281,
+      "loss": 0.0093,
       "step": 3425
     },
     {
       "epoch": 6.32,
+      "grad_norm": 0.048858534544706345,
       "learning_rate": 0.0003720887245841035,
+      "loss": 0.0092,
       "step": 3450
     },
     {
       "epoch": 6.36,
+      "grad_norm": 0.05492233484983444,
       "learning_rate": 0.0003674676524953789,
+      "loss": 0.0137,
       "step": 3475
     },
     {
       "epoch": 6.41,
+      "grad_norm": 0.011647823266685009,
       "learning_rate": 0.0003628465804066544,
+      "loss": 0.008,
       "step": 3500
     },
     {
       "epoch": 6.46,
+      "grad_norm": 0.02023889683187008,
       "learning_rate": 0.0003582255083179298,
+      "loss": 0.0064,
       "step": 3525
     },
     {
       "epoch": 6.5,
+      "grad_norm": 0.1093795895576477,
       "learning_rate": 0.0003536044362292052,
+      "loss": 0.0087,
       "step": 3550
     },
     {
       "epoch": 6.55,
+      "grad_norm": 0.33639025688171387,
       "learning_rate": 0.0003489833641404806,
+      "loss": 0.0127,
       "step": 3575
     },
     {
       "epoch": 6.59,
+      "grad_norm": 0.08823797106742859,
       "learning_rate": 0.000344362292051756,
+      "loss": 0.0112,
       "step": 3600
     },
     {
       "epoch": 6.64,
+      "grad_norm": 0.052434779703617096,
       "learning_rate": 0.0003397412199630314,
+      "loss": 0.0116,
       "step": 3625
     },
     {
       "epoch": 6.68,
+      "grad_norm": 0.1535090208053589,
       "learning_rate": 0.0003351201478743068,
+      "loss": 0.011,
       "step": 3650
     },
     {
       "epoch": 6.73,
+      "grad_norm": 0.2711283564567566,
       "learning_rate": 0.00033049907578558223,
+      "loss": 0.007,
       "step": 3675
     },
     {
       "epoch": 6.78,
+      "grad_norm": 0.006919647566974163,
       "learning_rate": 0.00032587800369685764,
+      "loss": 0.0098,
       "step": 3700
     },
     {
       "epoch": 6.82,
+      "grad_norm": 0.03872460126876831,
       "learning_rate": 0.0003212569316081331,
+      "loss": 0.0092,
       "step": 3725
     },
     {
       "epoch": 6.87,
+      "grad_norm": 0.0396348237991333,
       "learning_rate": 0.0003166358595194085,
+      "loss": 0.0126,
       "step": 3750
     },
     {
       "epoch": 6.91,
+      "grad_norm": 0.008865280076861382,
       "learning_rate": 0.0003120147874306839,
+      "loss": 0.0097,
       "step": 3775
     },
     {
       "epoch": 6.96,
+      "grad_norm": 0.2857593894004822,
       "learning_rate": 0.0003073937153419594,
+      "loss": 0.0081,
       "step": 3800
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.19787272810935974,
+      "eval_runtime": 178.7624,
+      "eval_samples_per_second": 4.548,
+      "eval_steps_per_second": 0.761,
       "step": 3822
     },
     {
       "epoch": 7.01,
+      "grad_norm": 0.162245973944664,
       "learning_rate": 0.0003027726432532348,
+      "loss": 0.0091,
       "step": 3825
     },
     {
       "epoch": 7.05,
+      "grad_norm": 0.08275479078292847,
       "learning_rate": 0.0002981515711645102,
+      "loss": 0.0064,
       "step": 3850
     },
     {
       "epoch": 7.1,
+      "grad_norm": 0.04956310614943504,
       "learning_rate": 0.0002935304990757856,
+      "loss": 0.0033,
       "step": 3875
     },
     {
       "epoch": 7.14,
+      "grad_norm": 0.2950696647167206,
       "learning_rate": 0.000288909426987061,
+      "loss": 0.0059,
       "step": 3900
     },
     {
       "epoch": 7.19,
+      "grad_norm": 0.16667646169662476,
       "learning_rate": 0.0002842883548983364,
+      "loss": 0.0065,
       "step": 3925
     },
     {
       "epoch": 7.23,
+      "grad_norm": 0.018928788602352142,
       "learning_rate": 0.0002796672828096118,
+      "loss": 0.0053,
       "step": 3950
     },
     {
       "epoch": 7.28,
+      "grad_norm": 0.01914687640964985,
       "learning_rate": 0.0002750462107208873,
+      "loss": 0.0058,
       "step": 3975
     },
     {
       "epoch": 7.33,
+      "grad_norm": 0.009565665386617184,
       "learning_rate": 0.0002704251386321627,
+      "loss": 0.0042,
       "step": 4000
     },
     {
       "epoch": 7.37,
+      "grad_norm": 0.10117679834365845,
       "learning_rate": 0.0002658040665434381,
+      "loss": 0.0081,
       "step": 4025
     },
     {
       "epoch": 7.42,
+      "grad_norm": 0.10825569927692413,
       "learning_rate": 0.0002611829944547135,
+      "loss": 0.0088,
       "step": 4050
     },
     {
       "epoch": 7.46,
+      "grad_norm": 0.008808852173388004,
       "learning_rate": 0.0002565619223659889,
+      "loss": 0.0052,
       "step": 4075
     },
     {
       "epoch": 7.51,
+      "grad_norm": 0.0186983160674572,
       "learning_rate": 0.0002519408502772643,
+      "loss": 0.0051,
       "step": 4100
     },
     {
       "epoch": 7.55,
+      "grad_norm": 0.07354945689439774,
       "learning_rate": 0.0002473197781885397,
+      "loss": 0.0055,
       "step": 4125
     },
     {
       "epoch": 7.6,
+      "grad_norm": 0.0021155644208192825,
       "learning_rate": 0.0002426987060998152,
+      "loss": 0.0044,
       "step": 4150
     },
     {
       "epoch": 7.65,
+      "grad_norm": 0.08616074174642563,
       "learning_rate": 0.0002380776340110906,
+      "loss": 0.0037,
       "step": 4175
     },
     {
       "epoch": 7.69,
+      "grad_norm": 0.009911403059959412,
       "learning_rate": 0.000233456561922366,
+      "loss": 0.0073,
       "step": 4200
     },
     {
       "epoch": 7.74,
+      "grad_norm": 0.36762863397598267,
       "learning_rate": 0.0002288354898336414,
+      "loss": 0.004,
       "step": 4225
     },
     {
       "epoch": 7.78,
+      "grad_norm": 0.0590713806450367,
       "learning_rate": 0.00022421441774491682,
+      "loss": 0.0034,
       "step": 4250
     },
     {
       "epoch": 7.83,
+      "grad_norm": 0.0876949205994606,
       "learning_rate": 0.00021959334565619225,
+      "loss": 0.0061,
       "step": 4275
     },
     {
       "epoch": 7.88,
+      "grad_norm": 0.2488565295934677,
       "learning_rate": 0.00021497227356746766,
+      "loss": 0.0047,
       "step": 4300
     },
     {
       "epoch": 7.92,
+      "grad_norm": 0.16184526681900024,
       "learning_rate": 0.00021035120147874306,
+      "loss": 0.0064,
       "step": 4325
     },
     {
       "epoch": 7.97,
+      "grad_norm": 0.025223182514309883,
       "learning_rate": 0.00020573012939001847,
+      "loss": 0.0081,
       "step": 4350
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.21132159233093262,
+      "eval_runtime": 178.6799,
+      "eval_samples_per_second": 4.55,
+      "eval_steps_per_second": 0.761,
       "step": 4368
     },
     {
       "epoch": 8.01,
+      "grad_norm": 0.04916756972670555,
       "learning_rate": 0.00020110905730129388,
+      "loss": 0.0049,
       "step": 4375
     },
     {
       "epoch": 8.06,
+      "grad_norm": 0.010703769512474537,
       "learning_rate": 0.00019648798521256934,
+      "loss": 0.0034,
       "step": 4400
     },
     {
       "epoch": 8.1,
+      "grad_norm": 0.004313566256314516,
       "learning_rate": 0.00019186691312384475,
+      "loss": 0.003,
       "step": 4425
     },
     {
       "epoch": 8.15,
+      "grad_norm": 0.18936963379383087,
       "learning_rate": 0.00018724584103512016,
+      "loss": 0.004,
       "step": 4450
     },
     {
       "epoch": 8.2,
+      "grad_norm": 0.0596047043800354,
       "learning_rate": 0.00018262476894639556,
+      "loss": 0.0027,
       "step": 4475
     },
     {
       "epoch": 8.24,
+      "grad_norm": 0.0016723590670153499,
       "learning_rate": 0.00017800369685767097,
+      "loss": 0.0037,
       "step": 4500
     },
     {
       "epoch": 8.29,
+      "grad_norm": 0.026407798752188683,
       "learning_rate": 0.0001733826247689464,
+      "loss": 0.0026,
       "step": 4525
     },
     {
       "epoch": 8.33,
+      "grad_norm": 0.004466090817004442,
       "learning_rate": 0.0001687615526802218,
+      "loss": 0.0044,
       "step": 4550
     },
     {
       "epoch": 8.38,
+      "grad_norm": 0.013297215104103088,
       "learning_rate": 0.00016414048059149722,
+      "loss": 0.0044,
       "step": 4575
     },
     {
       "epoch": 8.42,
+      "grad_norm": 0.013365192338824272,
       "learning_rate": 0.00015951940850277263,
+      "loss": 0.0033,
       "step": 4600
     },
     {
       "epoch": 8.47,
+      "grad_norm": 0.32592836022377014,
       "learning_rate": 0.0001548983364140481,
+      "loss": 0.0056,
       "step": 4625
     },
     {
       "epoch": 8.52,
+      "grad_norm": 0.023310931399464607,
       "learning_rate": 0.0001502772643253235,
+      "loss": 0.0017,
       "step": 4650
     },
     {
       "epoch": 8.56,
+      "grad_norm": 0.0938984677195549,
       "learning_rate": 0.0001456561922365989,
+      "loss": 0.0028,
       "step": 4675
     },
     {
       "epoch": 8.61,
+      "grad_norm": 0.006782053969800472,
       "learning_rate": 0.0001410351201478743,
+      "loss": 0.0019,
       "step": 4700
     },
     {
       "epoch": 8.65,
+      "grad_norm": 0.08395280689001083,
       "learning_rate": 0.00013641404805914972,
+      "loss": 0.0024,
       "step": 4725
     },
     {
       "epoch": 8.7,
+      "grad_norm": 0.04261644929647446,
       "learning_rate": 0.00013179297597042515,
+      "loss": 0.0029,
       "step": 4750
     },
     {
       "epoch": 8.75,
+      "grad_norm": 0.020602483302354813,
       "learning_rate": 0.00012717190388170056,
+      "loss": 0.0025,
       "step": 4775
     },
     {
       "epoch": 8.79,
+      "grad_norm": 0.0013005019864067435,
       "learning_rate": 0.00012255083179297597,
+      "loss": 0.0024,
       "step": 4800
     },
     {
       "epoch": 8.84,
+      "grad_norm": 0.0019000261090695858,
       "learning_rate": 0.00011792975970425139,
+      "loss": 0.004,
       "step": 4825
     },
     {
       "epoch": 8.88,
+      "grad_norm": 0.02021609991788864,
       "learning_rate": 0.00011330868761552681,
+      "loss": 0.0023,
       "step": 4850
     },
     {
       "epoch": 8.93,
+      "grad_norm": 0.012654704973101616,
       "learning_rate": 0.00010868761552680221,
+      "loss": 0.0036,
       "step": 4875
     },
     {
       "epoch": 8.97,
+      "grad_norm": 0.009410886093974113,
       "learning_rate": 0.00010406654343807764,
+      "loss": 0.0018,
       "step": 4900
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.2146490514278412,
+      "eval_runtime": 176.7137,
+      "eval_samples_per_second": 4.601,
+      "eval_steps_per_second": 0.77,
       "step": 4914
     },
     {
       "epoch": 9.02,
+      "grad_norm": 0.00876565556973219,
       "learning_rate": 9.944547134935306e-05,
+      "loss": 0.0024,
       "step": 4925
     },
     {
       "epoch": 9.07,
+      "grad_norm": 0.001896819332614541,
       "learning_rate": 9.482439926062846e-05,
       "loss": 0.0013,
       "step": 4950
     },
     {
       "epoch": 9.11,
+      "grad_norm": 0.007586441468447447,
       "learning_rate": 9.020332717190388e-05,
+      "loss": 0.0017,
       "step": 4975
     },
     {
       "epoch": 9.16,
+      "grad_norm": 0.006564935203641653,
       "learning_rate": 8.558225508317929e-05,
+      "loss": 0.003,
       "step": 5000
     },
     {
       "epoch": 9.2,
+      "grad_norm": 0.005424303933978081,
       "learning_rate": 8.096118299445473e-05,
+      "loss": 0.0014,
       "step": 5025
     },
     {
       "epoch": 9.25,
+      "grad_norm": 0.0165091622620821,
       "learning_rate": 7.634011090573013e-05,
+      "loss": 0.0027,
       "step": 5050
     },
     {
       "epoch": 9.29,
+      "grad_norm": 0.09231999516487122,
       "learning_rate": 7.171903881700554e-05,
+      "loss": 0.0018,
       "step": 5075
     },
     {
       "epoch": 9.34,
+      "grad_norm": 0.16238878667354584,
       "learning_rate": 6.709796672828096e-05,
+      "loss": 0.0015,
       "step": 5100
     },
     {
       "epoch": 9.39,
+      "grad_norm": 0.04476441815495491,
       "learning_rate": 6.247689463955638e-05,
+      "loss": 0.0011,
       "step": 5125
     },
     {
       "epoch": 9.43,
+      "grad_norm": 0.00874653086066246,
       "learning_rate": 5.785582255083179e-05,
+      "loss": 0.0008,
       "step": 5150
     },
     {
       "epoch": 9.48,
+      "grad_norm": 0.010477906093001366,
       "learning_rate": 5.323475046210721e-05,
+      "loss": 0.0021,
       "step": 5175
     },
     {
       "epoch": 9.52,
+      "grad_norm": 0.00953985471278429,
       "learning_rate": 4.8613678373382625e-05,
+      "loss": 0.0017,
       "step": 5200
     },
     {
       "epoch": 9.57,
+      "grad_norm": 0.0022518846672028303,
       "learning_rate": 4.3992606284658045e-05,
+      "loss": 0.0019,
       "step": 5225
     },
     {
       "epoch": 9.62,
+      "grad_norm": 0.037685129791498184,
       "learning_rate": 3.937153419593346e-05,
       "loss": 0.001,
       "step": 5250
     },
     {
       "epoch": 9.66,
+      "grad_norm": 0.08190955966711044,
       "learning_rate": 3.4750462107208874e-05,
+      "loss": 0.0017,
       "step": 5275
     },
     {
       "epoch": 9.71,
+      "grad_norm": 0.017375241965055466,
       "learning_rate": 3.012939001848429e-05,
+      "loss": 0.0016,
       "step": 5300
     },
     {
       "epoch": 9.75,
+      "grad_norm": 0.03486447408795357,
       "learning_rate": 2.5508317929759705e-05,
+      "loss": 0.0012,
       "step": 5325
     },
     {
       "epoch": 9.8,
+      "grad_norm": 0.0786125510931015,
       "learning_rate": 2.088724584103512e-05,
+      "loss": 0.0012,
       "step": 5350
     },
     {
       "epoch": 9.84,
+      "grad_norm": 0.09049534052610397,
       "learning_rate": 1.6266173752310537e-05,
+      "loss": 0.0012,
       "step": 5375
     },
     {
       "epoch": 9.89,
+      "grad_norm": 0.012832165695726871,
       "learning_rate": 1.1645101663585952e-05,
+      "loss": 0.0014,
       "step": 5400
     },
     {
       "epoch": 9.94,
+      "grad_norm": 0.006516186986118555,
       "learning_rate": 7.024029574861368e-06,
+      "loss": 0.0015,
       "step": 5425
     },
     {
       "epoch": 9.98,
+      "grad_norm": 0.02494051493704319,
       "learning_rate": 2.402957486136784e-06,
+      "loss": 0.0015,
       "step": 5450
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.221242755651474,
+      "eval_runtime": 176.7742,
+      "eval_samples_per_second": 4.599,
+      "eval_steps_per_second": 0.769,
       "step": 5460
     },
     {
       "epoch": 10.0,
       "step": 5460,
       "total_flos": 9.7789895073792e+18,
+      "train_loss": 0.024085146698745945,
+      "train_runtime": 10729.5864,
+      "train_samples_per_second": 3.05,
       "train_steps_per_second": 0.509
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d450ec50cab4188af1d2f839c282d646159565242704493acf7a0046664a3f1
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bd466f2e7cc2734735d5e5c8279377c63a93a1f9a6913853ad505a1a2013446
 size 5112