neko-llm
/

Qwen3-32B-HLE

@@ -1,8 +1,8 @@
 {
-    "total_flos": 1.279280082405294e+17,
-    "train_loss": 0.5150357365608216,
-    "train_runtime": 1208.0268,
     "train_samples": 15921,
-    "train_samples_per_second": 0.795,
-    "train_steps_per_second": 0.004
 }

 {
+    "total_flos": 2.496956368699785e+18,
+    "train_loss": 0.33275703743100166,
+    "train_runtime": 21613.1094,
     "train_samples": 15921,
+    "train_samples_per_second": 0.863,
+    "train_steps_per_second": 0.005
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 1.279280082405294e+17,
-    "train_loss": 0.5150357365608216,
-    "train_runtime": 1208.0268,
     "train_samples": 15921,
-    "train_samples_per_second": 0.795,
-    "train_steps_per_second": 0.004
 }

 {
+    "total_flos": 2.496956368699785e+18,
+    "train_loss": 0.33275703743100166,
+    "train_runtime": 21613.1094,
     "train_samples": 15921,
+    "train_samples_per_second": 0.863,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -2,16 +2,16 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2564102564102564,
   "eval_steps": 500,
-  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05128205128205128,
-      "grad_norm": 2.7185363699514093,
       "learning_rate": 0.0,
       "loss": 0.5757,
       "num_tokens": 6240601.0,
@@ -19,51 +19,811 @@
     },
     {
       "epoch": 0.10256410256410256,
-      "grad_norm": 2.7385019113690348,
-      "learning_rate": 4e-05,
       "loss": 0.5766,
       "num_tokens": 12512622.0,
       "step": 2
     },
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 2.3932904803502724,
-      "learning_rate": 3.472792206135786e-05,
-      "loss": 0.4872,
       "num_tokens": 18771271.0,
       "step": 3
     },
     {
       "epoch": 0.20512820512820512,
-      "grad_norm": 1.998212103285214,
-      "learning_rate": 2.2000000000000003e-05,
-      "loss": 0.475,
       "num_tokens": 25037339.0,
       "step": 4
     },
     {
       "epoch": 0.2564102564102564,
-      "grad_norm": 0.7904919909169668,
-      "learning_rate": 9.272077938642147e-06,
-      "loss": 0.4606,
       "num_tokens": 31263584.0,
       "step": 5
     },
     {
-      "epoch": 0.2564102564102564,
-      "step": 5,
-      "total_flos": 1.279280082405294e+17,
-      "train_loss": 0.5150357365608216,
-      "train_runtime": 1208.0268,
-      "train_samples_per_second": 0.795,
-      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 1,
-  "max_steps": 5,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -76,7 +836,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.279280082405294e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05128205128205128,
+      "grad_norm": 2.718615561225469,
       "learning_rate": 0.0,
       "loss": 0.5757,
       "num_tokens": 6240601.0,
     },
     {
       "epoch": 0.10256410256410256,
+      "grad_norm": 2.7384427318262325,
+      "learning_rate": 1.3333333333333333e-05,
       "loss": 0.5766,
       "num_tokens": 12512622.0,
       "step": 2
     },
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 1.9843963750520588,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.5242,
       "num_tokens": 18771271.0,
       "step": 3
     },
     {
       "epoch": 0.20512820512820512,
+      "grad_norm": 2.12777357229112,
+      "learning_rate": 4e-05,
+      "loss": 0.4917,
       "num_tokens": 25037339.0,
       "step": 4
     },
     {
       "epoch": 0.2564102564102564,
+      "grad_norm": 2.062032488995502,
+      "learning_rate": 3.9990560242819274e-05,
+      "loss": 0.4871,
       "num_tokens": 31263584.0,
       "step": 5
     },
     {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 0.7945484310641507,
+      "learning_rate": 3.996225087227881e-05,
+      "loss": 0.4538,
+      "num_tokens": 37544028.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.358974358974359,
+      "grad_norm": 0.860696592609233,
+      "learning_rate": 3.991510158099905e-05,
+      "loss": 0.4585,
+      "num_tokens": 43782393.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.41025641025641024,
+      "grad_norm": 0.505429642395346,
+      "learning_rate": 3.9849161822075655e-05,
+      "loss": 0.4423,
+      "num_tokens": 50063870.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 0.7741144627099796,
+      "learning_rate": 3.976450075721003e-05,
+      "loss": 0.4439,
+      "num_tokens": 56308984.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.5128205128205128,
+      "grad_norm": 0.40862829974318693,
+      "learning_rate": 3.9661207184168305e-05,
+      "loss": 0.4234,
+      "num_tokens": 62545986.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.5641025641025641,
+      "grad_norm": 0.4739349747902679,
+      "learning_rate": 3.953938944364467e-05,
+      "loss": 0.4171,
+      "num_tokens": 68774917.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.36916258563551035,
+      "learning_rate": 3.939917530562701e-05,
+      "loss": 0.4182,
+      "num_tokens": 75056519.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.33745730043472655,
+      "learning_rate": 3.9240711835383766e-05,
+      "loss": 0.3968,
+      "num_tokens": 81319039.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.717948717948718,
+      "grad_norm": 0.3682996169134089,
+      "learning_rate": 3.9064165239212874e-05,
+      "loss": 0.4167,
+      "num_tokens": 87572805.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.2610361232979272,
+      "learning_rate": 3.886972069011419e-05,
+      "loss": 0.4076,
+      "num_tokens": 93846455.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.8205128205128205,
+      "grad_norm": 0.2574923493976134,
+      "learning_rate": 3.865758213356868e-05,
+      "loss": 0.3931,
+      "num_tokens": 100128858.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.8717948717948718,
+      "grad_norm": 0.25582043047449654,
+      "learning_rate": 3.8427972073627724e-05,
+      "loss": 0.4034,
+      "num_tokens": 106382537.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 0.22629074274698618,
+      "learning_rate": 3.818113133953712e-05,
+      "loss": 0.3938,
+      "num_tokens": 112641128.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.9743589743589743,
+      "grad_norm": 0.1995507432503149,
+      "learning_rate": 3.791731883314043e-05,
+      "loss": 0.4007,
+      "num_tokens": 118920817.0,
+      "step": 19
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.1995507432503149,
+      "learning_rate": 3.763681125732672e-05,
+      "loss": 0.3794,
+      "num_tokens": 120361037.0,
+      "step": 20
+    },
+    {
+      "epoch": 1.0512820512820513,
+      "grad_norm": 0.34048667122818044,
+      "learning_rate": 3.733990282580745e-05,
+      "loss": 0.3631,
+      "num_tokens": 126640793.0,
+      "step": 21
+    },
+    {
+      "epoch": 1.1025641025641026,
+      "grad_norm": 0.19615438837401894,
+      "learning_rate": 3.7026904954526884e-05,
+      "loss": 0.3736,
+      "num_tokens": 132891349.0,
+      "step": 22
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 0.16644896220477234,
+      "learning_rate": 3.6698145935029794e-05,
+      "loss": 0.3773,
+      "num_tokens": 139140959.0,
+      "step": 23
+    },
+    {
+      "epoch": 1.205128205128205,
+      "grad_norm": 0.22809017244958504,
+      "learning_rate": 3.6353970590128975e-05,
+      "loss": 0.3763,
+      "num_tokens": 145391352.0,
+      "step": 24
+    },
+    {
+      "epoch": 1.2564102564102564,
+      "grad_norm": 0.16923970327686066,
+      "learning_rate": 3.599473991223369e-05,
+      "loss": 0.3644,
+      "num_tokens": 151670841.0,
+      "step": 25
+    },
+    {
+      "epoch": 1.3076923076923077,
+      "grad_norm": 0.17762206878485046,
+      "learning_rate": 3.5620830684718515e-05,
+      "loss": 0.3614,
+      "num_tokens": 157951707.0,
+      "step": 26
+    },
+    {
+      "epoch": 1.358974358974359,
+      "grad_norm": 0.17590149731091576,
+      "learning_rate": 3.523263508672961e-05,
+      "loss": 0.3678,
+      "num_tokens": 164210738.0,
+      "step": 27
+    },
+    {
+      "epoch": 1.4102564102564101,
+      "grad_norm": 0.1385680492384403,
+      "learning_rate": 3.483056028184293e-05,
+      "loss": 0.3636,
+      "num_tokens": 170465186.0,
+      "step": 28
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": 0.15559805698049264,
+      "learning_rate": 3.441502799100588e-05,
+      "loss": 0.3728,
+      "num_tokens": 176747206.0,
+      "step": 29
+    },
+    {
+      "epoch": 1.5128205128205128,
+      "grad_norm": 0.14563346219653364,
+      "learning_rate": 3.398647405021026e-05,
+      "loss": 0.3653,
+      "num_tokens": 183011405.0,
+      "step": 30
+    },
+    {
+      "epoch": 1.564102564102564,
+      "grad_norm": 0.13958012967685854,
+      "learning_rate": 3.354534795336052e-05,
+      "loss": 0.3701,
+      "num_tokens": 189245121.0,
+      "step": 31
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.11987296091737516,
+      "learning_rate": 3.3092112380816696e-05,
+      "loss": 0.3543,
+      "num_tokens": 195525140.0,
+      "step": 32
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.14628950900383383,
+      "learning_rate": 3.262724271410661e-05,
+      "loss": 0.3564,
+      "num_tokens": 201755990.0,
+      "step": 33
+    },
+    {
+      "epoch": 1.717948717948718,
+      "grad_norm": 0.10624435308415683,
+      "learning_rate": 3.2151226537316315e-05,
+      "loss": 0.3555,
+      "num_tokens": 208001091.0,
+      "step": 34
+    },
+    {
+      "epoch": 1.7692307692307692,
+      "grad_norm": 0.13312768270680841,
+      "learning_rate": 3.166456312568171e-05,
+      "loss": 0.367,
+      "num_tokens": 214269555.0,
+      "step": 35
+    },
+    {
+      "epoch": 1.8205128205128205,
+      "grad_norm": 0.11882236522455852,
+      "learning_rate": 3.116776292191774e-05,
+      "loss": 0.3492,
+      "num_tokens": 220504752.0,
+      "step": 36
+    },
+    {
+      "epoch": 1.8717948717948718,
+      "grad_norm": 0.1108379812394889,
+      "learning_rate": 3.0661347000834496e-05,
+      "loss": 0.3603,
+      "num_tokens": 226746431.0,
+      "step": 37
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 0.1209856619633538,
+      "learning_rate": 3.0145846522801703e-05,
+      "loss": 0.364,
+      "num_tokens": 233000985.0,
+      "step": 38
+    },
+    {
+      "epoch": 1.9743589743589745,
+      "grad_norm": 0.11419043533635012,
+      "learning_rate": 2.962180217663483e-05,
+      "loss": 0.3555,
+      "num_tokens": 239282562.0,
+      "step": 39
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.18167550021785242,
+      "learning_rate": 2.908976361248717e-05,
+      "loss": 0.3489,
+      "num_tokens": 240721535.0,
+      "step": 40
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 0.15212860008317705,
+      "learning_rate": 2.855028886534278e-05,
+      "loss": 0.3218,
+      "num_tokens": 246968297.0,
+      "step": 41
+    },
+    {
+      "epoch": 2.1025641025641026,
+      "grad_norm": 0.1298804530561056,
+      "learning_rate": 2.8003943769714776e-05,
+      "loss": 0.3299,
+      "num_tokens": 253234954.0,
+      "step": 42
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 0.1405980356910723,
+      "learning_rate": 2.7451301366163116e-05,
+      "loss": 0.3196,
+      "num_tokens": 259516218.0,
+      "step": 43
+    },
+    {
+      "epoch": 2.2051282051282053,
+      "grad_norm": 0.10364248867045861,
+      "learning_rate": 2.6892941300254176e-05,
+      "loss": 0.3287,
+      "num_tokens": 265777892.0,
+      "step": 44
+    },
+    {
+      "epoch": 2.2564102564102564,
+      "grad_norm": 0.1283238256584598,
+      "learning_rate": 2.6329449214592568e-05,
+      "loss": 0.3268,
+      "num_tokens": 272038252.0,
+      "step": 45
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 0.09763592234171578,
+      "learning_rate": 2.5761416134562955e-05,
+      "loss": 0.3126,
+      "num_tokens": 278296569.0,
+      "step": 46
+    },
+    {
+      "epoch": 2.358974358974359,
+      "grad_norm": 0.11539957768743261,
+      "learning_rate": 2.5189437848426016e-05,
+      "loss": 0.3241,
+      "num_tokens": 284513318.0,
+      "step": 47
+    },
+    {
+      "epoch": 2.41025641025641,
+      "grad_norm": 0.10255646114610974,
+      "learning_rate": 2.461411428241883e-05,
+      "loss": 0.313,
+      "num_tokens": 290793851.0,
+      "step": 48
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 0.11056138494167911,
+      "learning_rate": 2.403604887151512e-05,
+      "loss": 0.3142,
+      "num_tokens": 297038281.0,
+      "step": 49
+    },
+    {
+      "epoch": 2.5128205128205128,
+      "grad_norm": 0.09087426235660283,
+      "learning_rate": 2.3455847926505283e-05,
+      "loss": 0.3237,
+      "num_tokens": 303309073.0,
+      "step": 50
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.09942623723641979,
+      "learning_rate": 2.287411999806007e-05,
+      "loss": 0.31,
+      "num_tokens": 309590829.0,
+      "step": 51
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.0814248146482854,
+      "learning_rate": 2.2291475238445033e-05,
+      "loss": 0.3211,
+      "num_tokens": 315858116.0,
+      "step": 52
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.09568614448485548,
+      "learning_rate": 2.1708524761554973e-05,
+      "loss": 0.3177,
+      "num_tokens": 322118809.0,
+      "step": 53
+    },
+    {
+      "epoch": 2.717948717948718,
+      "grad_norm": 0.07964923658403533,
+      "learning_rate": 2.112588000193994e-05,
+      "loss": 0.319,
+      "num_tokens": 328400995.0,
+      "step": 54
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 0.08309011179734216,
+      "learning_rate": 2.054415207349473e-05,
+      "loss": 0.3203,
+      "num_tokens": 334639597.0,
+      "step": 55
+    },
+    {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 0.08196424816532498,
+      "learning_rate": 1.9963951128484886e-05,
+      "loss": 0.3221,
+      "num_tokens": 340841925.0,
+      "step": 56
+    },
+    {
+      "epoch": 2.871794871794872,
+      "grad_norm": 0.07847272582125499,
+      "learning_rate": 1.9385885717581182e-05,
+      "loss": 0.3133,
+      "num_tokens": 347123519.0,
+      "step": 57
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 0.07759377817882507,
+      "learning_rate": 1.8810562151573993e-05,
+      "loss": 0.3039,
+      "num_tokens": 353396517.0,
+      "step": 58
+    },
+    {
+      "epoch": 2.9743589743589745,
+      "grad_norm": 0.08098128127962194,
+      "learning_rate": 1.823858386543705e-05,
+      "loss": 0.3097,
+      "num_tokens": 359678782.0,
+      "step": 59
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.08098128127962194,
+      "learning_rate": 1.7670550785407444e-05,
+      "loss": 0.311,
+      "num_tokens": 361081292.0,
+      "step": 60
+    },
+    {
+      "epoch": 3.051282051282051,
+      "grad_norm": 0.1219526450192946,
+      "learning_rate": 1.710705869974583e-05,
+      "loss": 0.2909,
+      "num_tokens": 367363606.0,
+      "step": 61
+    },
+    {
+      "epoch": 3.1025641025641026,
+      "grad_norm": 0.09709390348755251,
+      "learning_rate": 1.6548698633836893e-05,
+      "loss": 0.2929,
+      "num_tokens": 373623626.0,
+      "step": 62
+    },
+    {
+      "epoch": 3.1538461538461537,
+      "grad_norm": 0.09032197466642125,
+      "learning_rate": 1.5996056230285237e-05,
+      "loss": 0.2881,
+      "num_tokens": 379905390.0,
+      "step": 63
+    },
+    {
+      "epoch": 3.2051282051282053,
+      "grad_norm": 0.09593201487472482,
+      "learning_rate": 1.5449711134657224e-05,
+      "loss": 0.2849,
+      "num_tokens": 386151857.0,
+      "step": 64
+    },
+    {
+      "epoch": 3.2564102564102564,
+      "grad_norm": 0.08482876184821657,
+      "learning_rate": 1.4910236387512837e-05,
+      "loss": 0.2849,
+      "num_tokens": 392391728.0,
+      "step": 65
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 0.08786917404760929,
+      "learning_rate": 1.4378197823365186e-05,
+      "loss": 0.2919,
+      "num_tokens": 398635444.0,
+      "step": 66
+    },
+    {
+      "epoch": 3.358974358974359,
+      "grad_norm": 0.09124789781748067,
+      "learning_rate": 1.3854153477198305e-05,
+      "loss": 0.2877,
+      "num_tokens": 404884484.0,
+      "step": 67
+    },
+    {
+      "epoch": 3.41025641025641,
+      "grad_norm": 0.08376420028878678,
+      "learning_rate": 1.3338652999165511e-05,
+      "loss": 0.2787,
+      "num_tokens": 411165857.0,
+      "step": 68
+    },
+    {
+      "epoch": 3.4615384615384617,
+      "grad_norm": 0.08461395911230184,
+      "learning_rate": 1.2832237078082272e-05,
+      "loss": 0.2874,
+      "num_tokens": 417447084.0,
+      "step": 69
+    },
+    {
+      "epoch": 3.5128205128205128,
+      "grad_norm": 0.0805797686999939,
+      "learning_rate": 1.2335436874318293e-05,
+      "loss": 0.2868,
+      "num_tokens": 423708369.0,
+      "step": 70
+    },
+    {
+      "epoch": 3.564102564102564,
+      "grad_norm": 0.0812369216368886,
+      "learning_rate": 1.1848773462683684e-05,
+      "loss": 0.2731,
+      "num_tokens": 429917854.0,
+      "step": 71
+    },
+    {
+      "epoch": 3.6153846153846154,
+      "grad_norm": 0.08068456709857151,
+      "learning_rate": 1.13727572858934e-05,
+      "loss": 0.2766,
+      "num_tokens": 436166148.0,
+      "step": 72
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 0.07330776888938495,
+      "learning_rate": 1.0907887619183308e-05,
+      "loss": 0.2815,
+      "num_tokens": 442404416.0,
+      "step": 73
+    },
+    {
+      "epoch": 3.717948717948718,
+      "grad_norm": 0.07750844403333255,
+      "learning_rate": 1.0454652046639486e-05,
+      "loss": 0.2765,
+      "num_tokens": 448671262.0,
+      "step": 74
+    },
+    {
+      "epoch": 3.769230769230769,
+      "grad_norm": 0.06910018245510882,
+      "learning_rate": 1.0013525949789745e-05,
+      "loss": 0.2765,
+      "num_tokens": 454908778.0,
+      "step": 75
+    },
+    {
+      "epoch": 3.8205128205128203,
+      "grad_norm": 0.06772004012970233,
+      "learning_rate": 9.584972008994123e-06,
+      "loss": 0.2761,
+      "num_tokens": 461176026.0,
+      "step": 76
+    },
+    {
+      "epoch": 3.871794871794872,
+      "grad_norm": 0.06449052728723467,
+      "learning_rate": 9.16943971815708e-06,
+      "loss": 0.2718,
+      "num_tokens": 467459020.0,
+      "step": 77
+    },
+    {
+      "epoch": 3.9230769230769234,
+      "grad_norm": 0.06591642004614524,
+      "learning_rate": 8.767364913270399e-06,
+      "loss": 0.2686,
+      "num_tokens": 473721944.0,
+      "step": 78
+    },
+    {
+      "epoch": 3.9743589743589745,
+      "grad_norm": 0.05776576407058006,
+      "learning_rate": 8.379169315281485e-06,
+      "loss": 0.2763,
+      "num_tokens": 480002563.0,
+      "step": 79
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.13745363566927554,
+      "learning_rate": 8.005260087766318e-06,
+      "loss": 0.268,
+      "num_tokens": 481441850.0,
+      "step": 80
+    },
+    {
+      "epoch": 4.051282051282051,
+      "grad_norm": 0.09534028423404649,
+      "learning_rate": 7.646029409871029e-06,
+      "loss": 0.2577,
+      "num_tokens": 487660172.0,
+      "step": 81
+    },
+    {
+      "epoch": 4.102564102564102,
+      "grad_norm": 0.06997274489921491,
+      "learning_rate": 7.301854064970202e-06,
+      "loss": 0.2557,
+      "num_tokens": 493912073.0,
+      "step": 82
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 0.08755702656310224,
+      "learning_rate": 6.973095045473124e-06,
+      "loss": 0.2604,
+      "num_tokens": 500168012.0,
+      "step": 83
+    },
+    {
+      "epoch": 4.205128205128205,
+      "grad_norm": 0.08888143272022463,
+      "learning_rate": 6.660097174192556e-06,
+      "loss": 0.2629,
+      "num_tokens": 506448923.0,
+      "step": 84
+    },
+    {
+      "epoch": 4.256410256410256,
+      "grad_norm": 0.06765618005674934,
+      "learning_rate": 6.363188742673281e-06,
+      "loss": 0.2597,
+      "num_tokens": 512697543.0,
+      "step": 85
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 0.08077914878872741,
+      "learning_rate": 6.082681166859579e-06,
+      "loss": 0.2565,
+      "num_tokens": 518952837.0,
+      "step": 86
+    },
+    {
+      "epoch": 4.358974358974359,
+      "grad_norm": 0.07580797752338386,
+      "learning_rate": 5.818868660462886e-06,
+      "loss": 0.2622,
+      "num_tokens": 525234697.0,
+      "step": 87
+    },
+    {
+      "epoch": 4.410256410256411,
+      "grad_norm": 0.06618677478470034,
+      "learning_rate": 5.5720279263722795e-06,
+      "loss": 0.2571,
+      "num_tokens": 531495708.0,
+      "step": 88
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 0.0680578770532582,
+      "learning_rate": 5.342417866431326e-06,
+      "loss": 0.2583,
+      "num_tokens": 537744492.0,
+      "step": 89
+    },
+    {
+      "epoch": 4.512820512820513,
+      "grad_norm": 0.0730363106871515,
+      "learning_rate": 5.130279309885817e-06,
+      "loss": 0.2523,
+      "num_tokens": 544012162.0,
+      "step": 90
+    },
+    {
+      "epoch": 4.564102564102564,
+      "grad_norm": 0.06548896520491608,
+      "learning_rate": 4.935834760787133e-06,
+      "loss": 0.2556,
+      "num_tokens": 550280847.0,
+      "step": 91
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.06057215331898529,
+      "learning_rate": 4.7592881646162336e-06,
+      "loss": 0.2534,
+      "num_tokens": 556540016.0,
+      "step": 92
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.0660973563878409,
+      "learning_rate": 4.600824694373e-06,
+      "loss": 0.259,
+      "num_tokens": 562819807.0,
+      "step": 93
+    },
+    {
+      "epoch": 4.717948717948718,
+      "grad_norm": 0.06127804475677186,
+      "learning_rate": 4.460610556355333e-06,
+      "loss": 0.2516,
+      "num_tokens": 569101952.0,
+      "step": 94
+    },
+    {
+      "epoch": 4.769230769230769,
+      "grad_norm": 0.06055474487432341,
+      "learning_rate": 4.338792815831698e-06,
+      "loss": 0.2496,
+      "num_tokens": 575336966.0,
+      "step": 95
+    },
+    {
+      "epoch": 4.82051282051282,
+      "grad_norm": 0.05900101598712522,
+      "learning_rate": 4.2354992427899674e-06,
+      "loss": 0.2525,
+      "num_tokens": 581620237.0,
+      "step": 96
+    },
+    {
+      "epoch": 4.871794871794872,
+      "grad_norm": 0.06942816751525951,
+      "learning_rate": 4.150838177924349e-06,
+      "loss": 0.2589,
+      "num_tokens": 587875142.0,
+      "step": 97
+    },
+    {
+      "epoch": 4.923076923076923,
+      "grad_norm": 0.06137215301815073,
+      "learning_rate": 4.0848984190009495e-06,
+      "loss": 0.2616,
+      "num_tokens": 594142883.0,
+      "step": 98
+    },
+    {
+      "epoch": 4.9743589743589745,
+      "grad_norm": 0.06146449383500362,
+      "learning_rate": 4.037749127721191e-06,
+      "loss": 0.2508,
+      "num_tokens": 600408547.0,
+      "step": 99
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.06146449383500362,
+      "learning_rate": 4.009439757180732e-06,
+      "loss": 0.247,
+      "num_tokens": 601802442.0,
+      "step": 100
+    },
+    {
+      "epoch": 5.0,
+      "step": 100,
+      "total_flos": 2.496956368699785e+18,
+      "train_loss": 0.33275703743100166,
+      "train_runtime": 21613.1094,
+      "train_samples_per_second": 0.863,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 1,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2.496956368699785e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null