End of training

Browse files

Files changed (5) hide show

README.md +1 -1
all_results.json +6 -6
runs/Jan12_17-57-19_GAN-SVR/events.out.tfevents.1736694740.GAN-SVR.3870842.4 +2 -2
test_results.json +6 -6
trainer_state.json +780 -309

README.md CHANGED Viewed

@@ -18,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1814
 - Accuracy: 0.4883
 ## Model description

 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.1806
 - Accuracy: 0.4883
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.03125,
-    "eval_accuracy": 0.25752508361204013,
-    "eval_loss": 3.0235204696655273,
-    "eval_runtime": 157.8403,
-    "eval_samples_per_second": 1.894,
-    "eval_steps_per_second": 0.063
 }

 {
+    "epoch": 30.03125,
+    "eval_accuracy": 0.4882943143812709,
+    "eval_loss": 2.180596113204956,
+    "eval_runtime": 179.6038,
+    "eval_samples_per_second": 1.665,
+    "eval_steps_per_second": 0.056
 }

runs/Jan12_17-57-19_GAN-SVR/events.out.tfevents.1736694740.GAN-SVR.3870842.4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c0d6d3585cbc49ec1dfb467b11a21b44f1b626da41caf1f23cba4d5c3a7b00a
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a4152e639af0b4173a211351cdff00a09ef6d111370e2b8acf891f431281470
+size 734

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.03125,
-    "eval_accuracy": 0.25752508361204013,
-    "eval_loss": 3.0235204696655273,
-    "eval_runtime": 157.8403,
-    "eval_samples_per_second": 1.894,
-    "eval_steps_per_second": 0.063
 }

 {
+    "epoch": 30.03125,
+    "eval_accuracy": 0.4882943143812709,
+    "eval_loss": 2.180596113204956,
+    "eval_runtime": 179.6038,
+    "eval_samples_per_second": 1.665,
+    "eval_steps_per_second": 0.056
 }

trainer_state.json CHANGED Viewed

@@ -1,523 +1,994 @@
 {
-  "best_metric": 0.25752508361204013,
-  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-465",
-  "epoch": 15.03125,
   "eval_steps": 500,
-  "global_step": 480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.020833333333333332,
-      "grad_norm": 4.865664958953857,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 4.2486,
       "step": 10
     },
     {
-      "epoch": 0.041666666666666664,
-      "grad_norm": 5.374879837036133,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 4.2806,
       "step": 20
     },
     {
-      "epoch": 0.0625,
-      "grad_norm": 4.254001140594482,
-      "learning_rate": 3.125e-05,
-      "loss": 4.2682,
       "step": 30
     },
     {
-      "epoch": 0.06458333333333334,
       "eval_accuracy": 0.0033444816053511705,
-      "eval_loss": 4.24931526184082,
-      "eval_runtime": 156.0528,
-      "eval_samples_per_second": 1.916,
-      "eval_steps_per_second": 0.064,
       "step": 31
     },
     {
-      "epoch": 1.01875,
-      "grad_norm": 3.580606698989868,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 4.249,
       "step": 40
     },
     {
-      "epoch": 1.0395833333333333,
-      "grad_norm": 3.6750593185424805,
-      "learning_rate": 4.976851851851852e-05,
-      "loss": 4.2497,
       "step": 50
     },
     {
-      "epoch": 1.0604166666666666,
-      "grad_norm": 3.427530527114868,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 4.2584,
       "step": 60
     },
     {
-      "epoch": 1.0645833333333334,
-      "eval_accuracy": 0.013377926421404682,
-      "eval_loss": 4.243381023406982,
-      "eval_runtime": 184.9,
-      "eval_samples_per_second": 1.617,
-      "eval_steps_per_second": 0.054,
       "step": 62
     },
     {
-      "epoch": 2.0166666666666666,
-      "grad_norm": 3.5070836544036865,
-      "learning_rate": 4.745370370370371e-05,
-      "loss": 4.221,
       "step": 70
     },
     {
-      "epoch": 2.0375,
-      "grad_norm": 3.814365863800049,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 4.249,
       "step": 80
     },
     {
-      "epoch": 2.058333333333333,
-      "grad_norm": 3.279081344604492,
-      "learning_rate": 4.5138888888888894e-05,
-      "loss": 4.2518,
       "step": 90
     },
     {
-      "epoch": 2.064583333333333,
-      "eval_accuracy": 0.016722408026755852,
-      "eval_loss": 4.224606990814209,
-      "eval_runtime": 182.615,
-      "eval_samples_per_second": 1.637,
-      "eval_steps_per_second": 0.055,
       "step": 93
     },
     {
-      "epoch": 3.0145833333333334,
-      "grad_norm": 2.9108073711395264,
-      "learning_rate": 4.3981481481481486e-05,
-      "loss": 4.2168,
       "step": 100
     },
     {
-      "epoch": 3.035416666666667,
-      "grad_norm": 3.1853749752044678,
-      "learning_rate": 4.282407407407408e-05,
-      "loss": 4.2103,
       "step": 110
     },
     {
-      "epoch": 3.05625,
-      "grad_norm": 3.1384546756744385,
-      "learning_rate": 4.166666666666667e-05,
       "loss": 4.2445,
       "step": 120
     },
     {
-      "epoch": 3.064583333333333,
       "eval_accuracy": 0.006688963210702341,
-      "eval_loss": 4.220835208892822,
-      "eval_runtime": 172.1522,
-      "eval_samples_per_second": 1.737,
-      "eval_steps_per_second": 0.058,
       "step": 124
     },
     {
-      "epoch": 4.0125,
-      "grad_norm": 2.7196435928344727,
-      "learning_rate": 4.0509259259259265e-05,
-      "loss": 4.2159,
       "step": 130
     },
     {
-      "epoch": 4.033333333333333,
-      "grad_norm": 2.6634223461151123,
-      "learning_rate": 3.935185185185186e-05,
-      "loss": 4.2063,
       "step": 140
     },
     {
-      "epoch": 4.054166666666666,
-      "grad_norm": 2.5531411170959473,
-      "learning_rate": 3.8194444444444444e-05,
-      "loss": 4.2272,
       "step": 150
     },
     {
-      "epoch": 4.064583333333333,
       "eval_accuracy": 0.010033444816053512,
-      "eval_loss": 4.223015308380127,
-      "eval_runtime": 163.7094,
-      "eval_samples_per_second": 1.826,
-      "eval_steps_per_second": 0.061,
       "step": 155
     },
     {
-      "epoch": 5.010416666666667,
-      "grad_norm": 2.824289321899414,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 4.2151,
       "step": 160
     },
     {
-      "epoch": 5.03125,
-      "grad_norm": 2.8366966247558594,
-      "learning_rate": 3.587962962962963e-05,
-      "loss": 4.183,
       "step": 170
     },
     {
-      "epoch": 5.052083333333333,
-      "grad_norm": 3.340677499771118,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 4.205,
       "step": 180
     },
     {
-      "epoch": 5.064583333333333,
-      "eval_accuracy": 0.023411371237458192,
-      "eval_loss": 4.211067199707031,
-      "eval_runtime": 166.937,
-      "eval_samples_per_second": 1.791,
-      "eval_steps_per_second": 0.06,
       "step": 186
     },
     {
-      "epoch": 6.008333333333334,
-      "grad_norm": 2.784593105316162,
-      "learning_rate": 3.3564814814814815e-05,
-      "loss": 4.1898,
       "step": 190
     },
     {
-      "epoch": 6.029166666666667,
-      "grad_norm": 3.389150381088257,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 4.1386,
       "step": 200
     },
     {
-      "epoch": 6.05,
-      "grad_norm": 3.5054867267608643,
-      "learning_rate": 3.125e-05,
-      "loss": 4.1238,
       "step": 210
     },
     {
-      "epoch": 6.064583333333333,
-      "eval_accuracy": 0.03678929765886288,
-      "eval_loss": 4.111179828643799,
-      "eval_runtime": 161.8854,
-      "eval_samples_per_second": 1.847,
-      "eval_steps_per_second": 0.062,
       "step": 217
     },
     {
-      "epoch": 7.00625,
-      "grad_norm": 4.150498867034912,
-      "learning_rate": 3.0092592592592593e-05,
-      "loss": 4.0898,
       "step": 220
     },
     {
-      "epoch": 7.027083333333334,
-      "grad_norm": 4.683104038238525,
-      "learning_rate": 2.8935185185185186e-05,
-      "loss": 4.0073,
       "step": 230
     },
     {
-      "epoch": 7.047916666666667,
-      "grad_norm": 4.379587650299072,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 3.9136,
       "step": 240
     },
     {
-      "epoch": 7.064583333333333,
-      "eval_accuracy": 0.07357859531772576,
-      "eval_loss": 3.8529512882232666,
-      "eval_runtime": 164.2718,
-      "eval_samples_per_second": 1.82,
-      "eval_steps_per_second": 0.061,
       "step": 248
     },
     {
-      "epoch": 8.004166666666666,
-      "grad_norm": 5.4900078773498535,
-      "learning_rate": 2.6620370370370372e-05,
-      "loss": 3.8304,
       "step": 250
     },
     {
-      "epoch": 8.025,
-      "grad_norm": 4.974089622497559,
-      "learning_rate": 2.5462962962962965e-05,
-      "loss": 3.7169,
       "step": 260
     },
     {
-      "epoch": 8.045833333333333,
-      "grad_norm": 5.386253833770752,
-      "learning_rate": 2.4305555555555558e-05,
-      "loss": 3.6241,
       "step": 270
     },
     {
-      "epoch": 8.064583333333333,
-      "eval_accuracy": 0.11705685618729098,
-      "eval_loss": 3.6734354496002197,
-      "eval_runtime": 159.295,
-      "eval_samples_per_second": 1.877,
-      "eval_steps_per_second": 0.063,
       "step": 279
     },
     {
-      "epoch": 9.002083333333333,
-      "grad_norm": 5.429062843322754,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 3.4885,
       "step": 280
     },
     {
-      "epoch": 9.022916666666667,
-      "grad_norm": 5.275113105773926,
-      "learning_rate": 2.1990740740740743e-05,
-      "loss": 3.4022,
       "step": 290
     },
     {
-      "epoch": 9.04375,
-      "grad_norm": 6.2369704246521,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 3.2977,
       "step": 300
     },
     {
-      "epoch": 9.064583333333333,
-      "grad_norm": 13.635384559631348,
-      "learning_rate": 1.967592592592593e-05,
-      "loss": 3.3103,
       "step": 310
     },
     {
-      "epoch": 9.064583333333333,
       "eval_accuracy": 0.10702341137123746,
-      "eval_loss": 3.5260610580444336,
-      "eval_runtime": 170.757,
-      "eval_samples_per_second": 1.751,
-      "eval_steps_per_second": 0.059,
       "step": 310
     },
     {
-      "epoch": 10.020833333333334,
-      "grad_norm": 6.099160194396973,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 3.1017,
       "step": 320
     },
     {
-      "epoch": 10.041666666666666,
-      "grad_norm": 8.271078109741211,
-      "learning_rate": 1.736111111111111e-05,
-      "loss": 3.0604,
       "step": 330
     },
     {
-      "epoch": 10.0625,
-      "grad_norm": 6.345729827880859,
-      "learning_rate": 1.6203703703703704e-05,
-      "loss": 3.0981,
       "step": 340
     },
     {
-      "epoch": 10.064583333333333,
-      "eval_accuracy": 0.16387959866220736,
-      "eval_loss": 3.3859572410583496,
-      "eval_runtime": 165.4502,
-      "eval_samples_per_second": 1.807,
-      "eval_steps_per_second": 0.06,
       "step": 341
     },
     {
-      "epoch": 11.01875,
-      "grad_norm": 6.985031604766846,
-      "learning_rate": 1.5046296296296297e-05,
-      "loss": 2.9706,
       "step": 350
     },
     {
-      "epoch": 11.039583333333333,
-      "grad_norm": 6.81059455871582,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 2.916,
       "step": 360
     },
     {
-      "epoch": 11.060416666666667,
-      "grad_norm": 6.5202436447143555,
-      "learning_rate": 1.2731481481481482e-05,
-      "loss": 2.8216,
       "step": 370
     },
     {
-      "epoch": 11.064583333333333,
-      "eval_accuracy": 0.2140468227424749,
-      "eval_loss": 3.179076671600342,
-      "eval_runtime": 163.8066,
-      "eval_samples_per_second": 1.825,
-      "eval_steps_per_second": 0.061,
       "step": 372
     },
     {
-      "epoch": 12.016666666666667,
-      "grad_norm": 5.686159610748291,
-      "learning_rate": 1.1574074074074075e-05,
-      "loss": 2.7755,
       "step": 380
     },
     {
-      "epoch": 12.0375,
-      "grad_norm": 6.596237659454346,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 2.824,
       "step": 390
     },
     {
-      "epoch": 12.058333333333334,
-      "grad_norm": 7.551661968231201,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 2.6108,
       "step": 400
     },
     {
-      "epoch": 12.064583333333333,
-      "eval_accuracy": 0.24414715719063546,
-      "eval_loss": 3.1618316173553467,
-      "eval_runtime": 177.1262,
-      "eval_samples_per_second": 1.688,
-      "eval_steps_per_second": 0.056,
       "step": 403
     },
     {
-      "epoch": 13.014583333333333,
-      "grad_norm": 6.725275039672852,
-      "learning_rate": 8.101851851851852e-06,
-      "loss": 2.7309,
       "step": 410
     },
     {
-      "epoch": 13.035416666666666,
-      "grad_norm": 7.1535563468933105,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 2.6451,
       "step": 420
     },
     {
-      "epoch": 13.05625,
-      "grad_norm": 7.705063819885254,
-      "learning_rate": 5.787037037037038e-06,
-      "loss": 2.598,
       "step": 430
     },
     {
-      "epoch": 13.064583333333333,
-      "eval_accuracy": 0.23411371237458195,
-      "eval_loss": 3.0792758464813232,
-      "eval_runtime": 186.6022,
-      "eval_samples_per_second": 1.602,
-      "eval_steps_per_second": 0.054,
       "step": 434
     },
     {
-      "epoch": 14.0125,
-      "grad_norm": 5.5132927894592285,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 2.5532,
       "step": 440
     },
     {
-      "epoch": 14.033333333333333,
-      "grad_norm": 6.853929042816162,
-      "learning_rate": 3.4722222222222224e-06,
-      "loss": 2.56,
       "step": 450
     },
     {
-      "epoch": 14.054166666666667,
-      "grad_norm": 6.731771469116211,
-      "learning_rate": 2.3148148148148148e-06,
-      "loss": 2.5023,
       "step": 460
     },
     {
-      "epoch": 14.064583333333333,
-      "eval_accuracy": 0.25752508361204013,
-      "eval_loss": 3.019373893737793,
-      "eval_runtime": 155.2839,
-      "eval_samples_per_second": 1.926,
-      "eval_steps_per_second": 0.064,
       "step": 465
     },
     {
-      "epoch": 15.010416666666666,
-      "grad_norm": 6.570545673370361,
-      "learning_rate": 1.1574074074074074e-06,
-      "loss": 2.5538,
       "step": 470
     },
     {
-      "epoch": 15.03125,
-      "grad_norm": 6.480160236358643,
-      "learning_rate": 0.0,
-      "loss": 2.513,
       "step": 480
     },
     {
-      "epoch": 15.03125,
-      "eval_accuracy": 0.23745819397993312,
-      "eval_loss": 3.0668206214904785,
-      "eval_runtime": 187.3659,
-      "eval_samples_per_second": 1.596,
-      "eval_steps_per_second": 0.053,
-      "step": 480
     },
     {
-      "epoch": 15.03125,
-      "step": 480,
-      "total_flos": 1.8664399999458017e+19,
-      "train_loss": 3.5868410070737204,
-      "train_runtime": 12231.8484,
-      "train_samples_per_second": 1.256,
-      "train_steps_per_second": 0.039
     },
     {
-      "epoch": 15.03125,
-      "eval_accuracy": 0.25752508361204013,
-      "eval_loss": 3.0240976810455322,
-      "eval_runtime": 158.7962,
-      "eval_samples_per_second": 1.883,
-      "eval_steps_per_second": 0.063,
-      "step": 480
     },
     {
-      "epoch": 15.03125,
-      "eval_accuracy": 0.25752508361204013,
-      "eval_loss": 3.0235204696655273,
-      "eval_runtime": 157.8403,
       "eval_samples_per_second": 1.894,
       "eval_steps_per_second": 0.063,
-      "step": 480
     }
   ],
   "logging_steps": 10,
-  "max_steps": 480,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
@@ -533,7 +1004,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8664399999458017e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4882943143812709,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-806",
+  "epoch": 30.03125,
   "eval_steps": 500,
+  "global_step": 960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.010416666666666666,
+      "grad_norm": 4.111547470092773,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 4.2127,
       "step": 10
     },
     {
+      "epoch": 0.020833333333333332,
+      "grad_norm": 4.218038082122803,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 4.2247,
       "step": 20
     },
     {
+      "epoch": 0.03125,
+      "grad_norm": 3.766047954559326,
+      "learning_rate": 1.5625e-05,
+      "loss": 4.2427,
       "step": 30
     },
     {
+      "epoch": 0.03229166666666667,
       "eval_accuracy": 0.0033444816053511705,
+      "eval_loss": 4.22645378112793,
+      "eval_runtime": 157.4916,
+      "eval_samples_per_second": 1.899,
+      "eval_steps_per_second": 0.063,
       "step": 31
     },
     {
+      "epoch": 1.009375,
+      "grad_norm": 4.1204304695129395,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 4.2374,
       "step": 40
     },
     {
+      "epoch": 1.0197916666666667,
+      "grad_norm": 4.202085971832275,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 4.228,
       "step": 50
     },
     {
+      "epoch": 1.0302083333333334,
+      "grad_norm": 3.5194547176361084,
+      "learning_rate": 3.125e-05,
+      "loss": 4.2321,
       "step": 60
     },
     {
+      "epoch": 1.0322916666666666,
+      "eval_accuracy": 0.010033444816053512,
+      "eval_loss": 4.223534107208252,
+      "eval_runtime": 156.7976,
+      "eval_samples_per_second": 1.907,
+      "eval_steps_per_second": 0.064,
       "step": 62
     },
     {
+      "epoch": 2.0083333333333333,
+      "grad_norm": 3.131030559539795,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 4.2293,
       "step": 70
     },
     {
+      "epoch": 2.01875,
+      "grad_norm": 3.120128631591797,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 4.2347,
       "step": 80
     },
     {
+      "epoch": 2.029166666666667,
+      "grad_norm": 3.0988192558288574,
+      "learning_rate": 4.6875e-05,
+      "loss": 4.24,
       "step": 90
     },
     {
+      "epoch": 2.0322916666666666,
+      "eval_accuracy": 0.010033444816053512,
+      "eval_loss": 4.228224754333496,
+      "eval_runtime": 156.5504,
+      "eval_samples_per_second": 1.91,
+      "eval_steps_per_second": 0.064,
       "step": 93
     },
     {
+      "epoch": 3.0072916666666667,
+      "grad_norm": 3.102827310562134,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 4.2195,
       "step": 100
     },
     {
+      "epoch": 3.017708333333333,
+      "grad_norm": 2.8366568088531494,
+      "learning_rate": 4.9189814814814815e-05,
+      "loss": 4.2354,
       "step": 110
     },
     {
+      "epoch": 3.028125,
+      "grad_norm": 3.0085482597351074,
+      "learning_rate": 4.8611111111111115e-05,
       "loss": 4.2445,
       "step": 120
     },
     {
+      "epoch": 3.0322916666666666,
       "eval_accuracy": 0.006688963210702341,
+      "eval_loss": 4.224982261657715,
+      "eval_runtime": 151.1437,
+      "eval_samples_per_second": 1.978,
+      "eval_steps_per_second": 0.066,
       "step": 124
     },
     {
+      "epoch": 4.00625,
+      "grad_norm": 3.300618886947632,
+      "learning_rate": 4.803240740740741e-05,
+      "loss": 4.2226,
       "step": 130
     },
     {
+      "epoch": 4.016666666666667,
+      "grad_norm": 3.202220916748047,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 4.2265,
       "step": 140
     },
     {
+      "epoch": 4.027083333333334,
+      "grad_norm": 2.977271556854248,
+      "learning_rate": 4.6875e-05,
+      "loss": 4.2327,
       "step": 150
     },
     {
+      "epoch": 4.032291666666667,
       "eval_accuracy": 0.010033444816053512,
+      "eval_loss": 4.2244367599487305,
+      "eval_runtime": 156.5602,
+      "eval_samples_per_second": 1.91,
+      "eval_steps_per_second": 0.064,
       "step": 155
     },
     {
+      "epoch": 5.005208333333333,
+      "grad_norm": 3.7291171550750732,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 4.2106,
       "step": 160
     },
     {
+      "epoch": 5.015625,
+      "grad_norm": 3.581210136413574,
+      "learning_rate": 4.5717592592592594e-05,
+      "loss": 4.2112,
       "step": 170
     },
     {
+      "epoch": 5.026041666666667,
+      "grad_norm": 3.7153217792510986,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 4.2104,
       "step": 180
     },
     {
+      "epoch": 5.032291666666667,
+      "eval_accuracy": 0.020066889632107024,
+      "eval_loss": 4.2100114822387695,
+      "eval_runtime": 150.442,
+      "eval_samples_per_second": 1.987,
+      "eval_steps_per_second": 0.066,
       "step": 186
     },
     {
+      "epoch": 6.004166666666666,
+      "grad_norm": 3.1238365173339844,
+      "learning_rate": 4.456018518518519e-05,
+      "loss": 4.2205,
       "step": 190
     },
     {
+      "epoch": 6.014583333333333,
+      "grad_norm": 3.4233925342559814,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 4.2012,
       "step": 200
     },
     {
+      "epoch": 6.025,
+      "grad_norm": 3.511300563812256,
+      "learning_rate": 4.340277777777778e-05,
+      "loss": 4.2374,
       "step": 210
     },
     {
+      "epoch": 6.032291666666667,
+      "eval_accuracy": 0.006688963210702341,
+      "eval_loss": 4.2022294998168945,
+      "eval_runtime": 153.3689,
+      "eval_samples_per_second": 1.95,
+      "eval_steps_per_second": 0.065,
       "step": 217
     },
     {
+      "epoch": 7.003125,
+      "grad_norm": 3.343992233276367,
+      "learning_rate": 4.282407407407408e-05,
+      "loss": 4.2055,
       "step": 220
     },
     {
+      "epoch": 7.013541666666667,
+      "grad_norm": 2.911720037460327,
+      "learning_rate": 4.224537037037037e-05,
+      "loss": 4.1687,
       "step": 230
     },
     {
+      "epoch": 7.023958333333334,
+      "grad_norm": 3.1043291091918945,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 4.1597,
       "step": 240
     },
     {
+      "epoch": 7.032291666666667,
+      "eval_accuracy": 0.030100334448160536,
+      "eval_loss": 4.118756294250488,
+      "eval_runtime": 152.3194,
+      "eval_samples_per_second": 1.963,
+      "eval_steps_per_second": 0.066,
       "step": 248
     },
     {
+      "epoch": 8.002083333333333,
+      "grad_norm": 3.4208502769470215,
+      "learning_rate": 4.1087962962962965e-05,
+      "loss": 4.1418,
       "step": 250
     },
     {
+      "epoch": 8.0125,
+      "grad_norm": 4.338245868682861,
+      "learning_rate": 4.0509259259259265e-05,
+      "loss": 4.0753,
       "step": 260
     },
     {
+      "epoch": 8.022916666666667,
+      "grad_norm": 4.86409854888916,
+      "learning_rate": 3.993055555555556e-05,
+      "loss": 4.0522,
       "step": 270
     },
     {
+      "epoch": 8.032291666666667,
+      "eval_accuracy": 0.07023411371237458,
+      "eval_loss": 3.935123920440674,
+      "eval_runtime": 155.145,
+      "eval_samples_per_second": 1.927,
+      "eval_steps_per_second": 0.064,
       "step": 279
     },
     {
+      "epoch": 9.001041666666667,
+      "grad_norm": 4.609180927276611,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 3.9967,
       "step": 280
     },
     {
+      "epoch": 9.011458333333334,
+      "grad_norm": 5.407143592834473,
+      "learning_rate": 3.877314814814815e-05,
+      "loss": 3.8626,
       "step": 290
     },
     {
+      "epoch": 9.021875,
+      "grad_norm": 4.2119598388671875,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 3.821,
       "step": 300
     },
     {
+      "epoch": 9.032291666666667,
+      "grad_norm": 14.079527854919434,
+      "learning_rate": 3.7615740740740744e-05,
+      "loss": 3.768,
       "step": 310
     },
     {
+      "epoch": 9.032291666666667,
       "eval_accuracy": 0.10702341137123746,
+      "eval_loss": 3.680009126663208,
+      "eval_runtime": 152.6981,
+      "eval_samples_per_second": 1.958,
+      "eval_steps_per_second": 0.065,
       "step": 310
     },
     {
+      "epoch": 10.010416666666666,
+      "grad_norm": 4.879744529724121,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 3.54,
       "step": 320
     },
     {
+      "epoch": 10.020833333333334,
+      "grad_norm": 6.769280910491943,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 3.6435,
       "step": 330
     },
     {
+      "epoch": 10.03125,
+      "grad_norm": 6.974754810333252,
+      "learning_rate": 3.587962962962963e-05,
+      "loss": 3.5147,
       "step": 340
     },
     {
+      "epoch": 10.032291666666667,
+      "eval_accuracy": 0.11036789297658862,
+      "eval_loss": 3.541635036468506,
+      "eval_runtime": 156.1418,
+      "eval_samples_per_second": 1.915,
+      "eval_steps_per_second": 0.064,
       "step": 341
     },
     {
+      "epoch": 11.009375,
+      "grad_norm": 6.004092216491699,
+      "learning_rate": 3.530092592592593e-05,
+      "loss": 3.2736,
       "step": 350
     },
     {
+      "epoch": 11.019791666666666,
+      "grad_norm": 4.7057905197143555,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 3.2459,
       "step": 360
     },
     {
+      "epoch": 11.030208333333333,
+      "grad_norm": 7.564170837402344,
+      "learning_rate": 3.414351851851852e-05,
+      "loss": 3.2878,
       "step": 370
     },
     {
+      "epoch": 11.032291666666667,
+      "eval_accuracy": 0.07023411371237458,
+      "eval_loss": 3.707416534423828,
+      "eval_runtime": 151.3197,
+      "eval_samples_per_second": 1.976,
+      "eval_steps_per_second": 0.066,
       "step": 372
     },
     {
+      "epoch": 12.008333333333333,
+      "grad_norm": 6.44061279296875,
+      "learning_rate": 3.3564814814814815e-05,
+      "loss": 3.048,
       "step": 380
     },
     {
+      "epoch": 12.01875,
+      "grad_norm": 6.303668022155762,
+      "learning_rate": 3.2986111111111115e-05,
+      "loss": 3.0619,
       "step": 390
     },
     {
+      "epoch": 12.029166666666667,
+      "grad_norm": 7.074206352233887,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 2.9491,
       "step": 400
     },
     {
+      "epoch": 12.032291666666667,
+      "eval_accuracy": 0.10702341137123746,
+      "eval_loss": 3.3954155445098877,
+      "eval_runtime": 154.7501,
+      "eval_samples_per_second": 1.932,
+      "eval_steps_per_second": 0.065,
       "step": 403
     },
     {
+      "epoch": 13.007291666666667,
+      "grad_norm": 6.961267471313477,
+      "learning_rate": 3.182870370370371e-05,
+      "loss": 2.8801,
       "step": 410
     },
     {
+      "epoch": 13.017708333333333,
+      "grad_norm": 5.816298007965088,
+      "learning_rate": 3.125e-05,
+      "loss": 2.9025,
       "step": 420
     },
     {
+      "epoch": 13.028125,
+      "grad_norm": 10.059369087219238,
+      "learning_rate": 3.06712962962963e-05,
+      "loss": 2.806,
       "step": 430
     },
     {
+      "epoch": 13.032291666666667,
+      "eval_accuracy": 0.1705685618729097,
+      "eval_loss": 3.2551913261413574,
+      "eval_runtime": 154.5283,
+      "eval_samples_per_second": 1.935,
+      "eval_steps_per_second": 0.065,
       "step": 434
     },
     {
+      "epoch": 14.00625,
+      "grad_norm": 6.142374515533447,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 2.6302,
       "step": 440
     },
     {
+      "epoch": 14.016666666666667,
+      "grad_norm": 5.806746959686279,
+      "learning_rate": 2.951388888888889e-05,
+      "loss": 2.5778,
       "step": 450
     },
     {
+      "epoch": 14.027083333333334,
+      "grad_norm": 6.683168888092041,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 2.4568,
       "step": 460
     },
     {
+      "epoch": 14.032291666666667,
+      "eval_accuracy": 0.2040133779264214,
+      "eval_loss": 3.0654280185699463,
+      "eval_runtime": 155.0,
+      "eval_samples_per_second": 1.929,
+      "eval_steps_per_second": 0.065,
       "step": 465
     },
     {
+      "epoch": 15.005208333333334,
+      "grad_norm": 8.81658935546875,
+      "learning_rate": 2.8356481481481483e-05,
+      "loss": 2.4185,
       "step": 470
     },
     {
+      "epoch": 15.015625,
+      "grad_norm": 17.862884521484375,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 2.3865,
       "step": 480
     },
     {
+      "epoch": 15.026041666666666,
+      "grad_norm": 7.982626438140869,
+      "learning_rate": 2.7199074074074076e-05,
+      "loss": 2.3102,
+      "step": 490
     },
     {
+      "epoch": 15.032291666666667,
+      "eval_accuracy": 0.3010033444816054,
+      "eval_loss": 2.7440292835235596,
+      "eval_runtime": 154.0941,
+      "eval_samples_per_second": 1.94,
+      "eval_steps_per_second": 0.065,
+      "step": 496
     },
     {
+      "epoch": 16.004166666666666,
+      "grad_norm": 7.09642219543457,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 2.1208,
+      "step": 500
     },
     {
+      "epoch": 16.014583333333334,
+      "grad_norm": 7.21767520904541,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 2.1481,
+      "step": 510
+    },
+    {
+      "epoch": 16.025,
+      "grad_norm": 8.300311088562012,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 2.2079,
+      "step": 520
+    },
+    {
+      "epoch": 16.032291666666666,
+      "eval_accuracy": 0.31438127090301005,
+      "eval_loss": 2.6789305210113525,
+      "eval_runtime": 157.8279,
       "eval_samples_per_second": 1.894,
       "eval_steps_per_second": 0.063,
+      "step": 527
+    },
+    {
+      "epoch": 17.003125,
+      "grad_norm": 8.606009483337402,
+      "learning_rate": 2.488425925925926e-05,
+      "loss": 2.0646,
+      "step": 530
+    },
+    {
+      "epoch": 17.013541666666665,
+      "grad_norm": 7.775322437286377,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 1.9341,
+      "step": 540
+    },
+    {
+      "epoch": 17.023958333333333,
+      "grad_norm": 7.849579811096191,
+      "learning_rate": 2.3726851851851854e-05,
+      "loss": 1.9638,
+      "step": 550
+    },
+    {
+      "epoch": 17.032291666666666,
+      "eval_accuracy": 0.36789297658862874,
+      "eval_loss": 2.5920491218566895,
+      "eval_runtime": 157.1641,
+      "eval_samples_per_second": 1.902,
+      "eval_steps_per_second": 0.064,
+      "step": 558
+    },
+    {
+      "epoch": 18.002083333333335,
+      "grad_norm": 10.023223876953125,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 2.0018,
+      "step": 560
+    },
+    {
+      "epoch": 18.0125,
+      "grad_norm": 7.027205467224121,
+      "learning_rate": 2.2569444444444447e-05,
+      "loss": 1.8571,
+      "step": 570
+    },
+    {
+      "epoch": 18.022916666666667,
+      "grad_norm": 9.41115665435791,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 1.7914,
+      "step": 580
+    },
+    {
+      "epoch": 18.032291666666666,
+      "eval_accuracy": 0.3377926421404682,
+      "eval_loss": 2.6151952743530273,
+      "eval_runtime": 162.3006,
+      "eval_samples_per_second": 1.842,
+      "eval_steps_per_second": 0.062,
+      "step": 589
+    },
+    {
+      "epoch": 19.001041666666666,
+      "grad_norm": 9.176055908203125,
+      "learning_rate": 2.141203703703704e-05,
+      "loss": 1.8165,
+      "step": 590
+    },
+    {
+      "epoch": 19.011458333333334,
+      "grad_norm": 7.396921157836914,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.6863,
+      "step": 600
+    },
+    {
+      "epoch": 19.021875,
+      "grad_norm": 9.088372230529785,
+      "learning_rate": 2.0254629629629632e-05,
+      "loss": 1.597,
+      "step": 610
+    },
+    {
+      "epoch": 19.032291666666666,
+      "grad_norm": 16.782529830932617,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 1.6925,
+      "step": 620
+    },
+    {
+      "epoch": 19.032291666666666,
+      "eval_accuracy": 0.34448160535117056,
+      "eval_loss": 2.5970685482025146,
+      "eval_runtime": 161.5247,
+      "eval_samples_per_second": 1.851,
+      "eval_steps_per_second": 0.062,
+      "step": 620
+    },
+    {
+      "epoch": 20.010416666666668,
+      "grad_norm": 10.128305435180664,
+      "learning_rate": 1.9097222222222222e-05,
+      "loss": 1.6303,
+      "step": 630
+    },
+    {
+      "epoch": 20.020833333333332,
+      "grad_norm": 8.396921157836914,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.6306,
+      "step": 640
+    },
+    {
+      "epoch": 20.03125,
+      "grad_norm": 8.574676513671875,
+      "learning_rate": 1.7939814814814815e-05,
+      "loss": 1.5124,
+      "step": 650
+    },
+    {
+      "epoch": 20.032291666666666,
+      "eval_accuracy": 0.34782608695652173,
+      "eval_loss": 2.5766701698303223,
+      "eval_runtime": 162.6227,
+      "eval_samples_per_second": 1.839,
+      "eval_steps_per_second": 0.061,
+      "step": 651
+    },
+    {
+      "epoch": 21.009375,
+      "grad_norm": 8.482582092285156,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 1.5163,
+      "step": 660
+    },
+    {
+      "epoch": 21.019791666666666,
+      "grad_norm": 7.806921482086182,
+      "learning_rate": 1.6782407407407408e-05,
+      "loss": 1.4579,
+      "step": 670
+    },
+    {
+      "epoch": 21.030208333333334,
+      "grad_norm": 10.889120101928711,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 1.4834,
+      "step": 680
+    },
+    {
+      "epoch": 21.032291666666666,
+      "eval_accuracy": 0.3879598662207358,
+      "eval_loss": 2.4438529014587402,
+      "eval_runtime": 163.8828,
+      "eval_samples_per_second": 1.824,
+      "eval_steps_per_second": 0.061,
+      "step": 682
+    },
+    {
+      "epoch": 22.008333333333333,
+      "grad_norm": 8.548680305480957,
+      "learning_rate": 1.5625e-05,
+      "loss": 1.3913,
+      "step": 690
+    },
+    {
+      "epoch": 22.01875,
+      "grad_norm": 10.439925193786621,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 1.4161,
+      "step": 700
+    },
+    {
+      "epoch": 22.029166666666665,
+      "grad_norm": 8.317498207092285,
+      "learning_rate": 1.4467592592592593e-05,
+      "loss": 1.4565,
+      "step": 710
+    },
+    {
+      "epoch": 22.032291666666666,
+      "eval_accuracy": 0.38461538461538464,
+      "eval_loss": 2.405748128890991,
+      "eval_runtime": 162.732,
+      "eval_samples_per_second": 1.837,
+      "eval_steps_per_second": 0.061,
+      "step": 713
+    },
+    {
+      "epoch": 23.007291666666667,
+      "grad_norm": 8.510457038879395,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 1.4043,
+      "step": 720
+    },
+    {
+      "epoch": 23.017708333333335,
+      "grad_norm": 9.268413543701172,
+      "learning_rate": 1.3310185185185186e-05,
+      "loss": 1.2734,
+      "step": 730
+    },
+    {
+      "epoch": 23.028125,
+      "grad_norm": 8.000787734985352,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 1.279,
+      "step": 740
+    },
+    {
+      "epoch": 23.032291666666666,
+      "eval_accuracy": 0.35451505016722407,
+      "eval_loss": 2.550072193145752,
+      "eval_runtime": 160.4305,
+      "eval_samples_per_second": 1.864,
+      "eval_steps_per_second": 0.062,
+      "step": 744
+    },
+    {
+      "epoch": 24.00625,
+      "grad_norm": 8.658973693847656,
+      "learning_rate": 1.2152777777777779e-05,
+      "loss": 1.1963,
+      "step": 750
+    },
+    {
+      "epoch": 24.016666666666666,
+      "grad_norm": 7.558023929595947,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 1.2601,
+      "step": 760
+    },
+    {
+      "epoch": 24.027083333333334,
+      "grad_norm": 9.91243839263916,
+      "learning_rate": 1.0995370370370372e-05,
+      "loss": 1.1477,
+      "step": 770
+    },
+    {
+      "epoch": 24.032291666666666,
+      "eval_accuracy": 0.44816053511705684,
+      "eval_loss": 2.3246614933013916,
+      "eval_runtime": 157.9743,
+      "eval_samples_per_second": 1.893,
+      "eval_steps_per_second": 0.063,
+      "step": 775
+    },
+    {
+      "epoch": 25.005208333333332,
+      "grad_norm": 10.049819946289062,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.1727,
+      "step": 780
+    },
+    {
+      "epoch": 25.015625,
+      "grad_norm": 8.463665008544922,
+      "learning_rate": 9.837962962962964e-06,
+      "loss": 1.1207,
+      "step": 790
+    },
+    {
+      "epoch": 25.026041666666668,
+      "grad_norm": 7.52623176574707,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 1.2573,
+      "step": 800
+    },
+    {
+      "epoch": 25.032291666666666,
+      "eval_accuracy": 0.4882943143812709,
+      "eval_loss": 2.1776490211486816,
+      "eval_runtime": 158.1033,
+      "eval_samples_per_second": 1.891,
+      "eval_steps_per_second": 0.063,
+      "step": 806
+    },
+    {
+      "epoch": 26.004166666666666,
+      "grad_norm": 9.336162567138672,
+      "learning_rate": 8.680555555555556e-06,
+      "loss": 1.1791,
+      "step": 810
+    },
+    {
+      "epoch": 26.014583333333334,
+      "grad_norm": 6.728664875030518,
+      "learning_rate": 8.101851851851852e-06,
+      "loss": 1.1284,
+      "step": 820
+    },
+    {
+      "epoch": 26.025,
+      "grad_norm": 7.307468414306641,
+      "learning_rate": 7.523148148148148e-06,
+      "loss": 1.0825,
+      "step": 830
+    },
+    {
+      "epoch": 26.032291666666666,
+      "eval_accuracy": 0.4782608695652174,
+      "eval_loss": 2.14430832862854,
+      "eval_runtime": 156.854,
+      "eval_samples_per_second": 1.906,
+      "eval_steps_per_second": 0.064,
+      "step": 837
+    },
+    {
+      "epoch": 27.003125,
+      "grad_norm": 8.843693733215332,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 1.1431,
+      "step": 840
+    },
+    {
+      "epoch": 27.013541666666665,
+      "grad_norm": 9.648551940917969,
+      "learning_rate": 6.365740740740741e-06,
+      "loss": 1.0873,
+      "step": 850
+    },
+    {
+      "epoch": 27.023958333333333,
+      "grad_norm": 10.551318168640137,
+      "learning_rate": 5.787037037037038e-06,
+      "loss": 1.2121,
+      "step": 860
+    },
+    {
+      "epoch": 27.032291666666666,
+      "eval_accuracy": 0.4782608695652174,
+      "eval_loss": 2.149031639099121,
+      "eval_runtime": 156.4789,
+      "eval_samples_per_second": 1.911,
+      "eval_steps_per_second": 0.064,
+      "step": 868
+    },
+    {
+      "epoch": 28.002083333333335,
+      "grad_norm": 7.037572383880615,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 1.0147,
+      "step": 870
+    },
+    {
+      "epoch": 28.0125,
+      "grad_norm": 11.031582832336426,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 1.0574,
+      "step": 880
+    },
+    {
+      "epoch": 28.022916666666667,
+      "grad_norm": 7.408577919006348,
+      "learning_rate": 4.050925925925926e-06,
+      "loss": 1.0887,
+      "step": 890
+    },
+    {
+      "epoch": 28.032291666666666,
+      "eval_accuracy": 0.47157190635451507,
+      "eval_loss": 2.151550054550171,
+      "eval_runtime": 157.7417,
+      "eval_samples_per_second": 1.896,
+      "eval_steps_per_second": 0.063,
+      "step": 899
+    },
+    {
+      "epoch": 29.001041666666666,
+      "grad_norm": 7.416742324829102,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 1.1448,
+      "step": 900
+    },
+    {
+      "epoch": 29.011458333333334,
+      "grad_norm": 8.579631805419922,
+      "learning_rate": 2.893518518518519e-06,
+      "loss": 1.051,
+      "step": 910
+    },
+    {
+      "epoch": 29.021875,
+      "grad_norm": 7.20076847076416,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.9936,
+      "step": 920
+    },
+    {
+      "epoch": 29.032291666666666,
+      "grad_norm": 20.40438461303711,
+      "learning_rate": 1.7361111111111112e-06,
+      "loss": 1.1127,
+      "step": 930
+    },
+    {
+      "epoch": 29.032291666666666,
+      "eval_accuracy": 0.4882943143812709,
+      "eval_loss": 2.1050899028778076,
+      "eval_runtime": 158.1493,
+      "eval_samples_per_second": 1.891,
+      "eval_steps_per_second": 0.063,
+      "step": 930
+    },
+    {
+      "epoch": 30.010416666666668,
+      "grad_norm": 7.520814895629883,
+      "learning_rate": 1.1574074074074074e-06,
+      "loss": 1.0214,
+      "step": 940
+    },
+    {
+      "epoch": 30.020833333333332,
+      "grad_norm": 7.830852508544922,
+      "learning_rate": 5.787037037037037e-07,
+      "loss": 0.9516,
+      "step": 950
+    },
+    {
+      "epoch": 30.03125,
+      "grad_norm": 8.230799674987793,
+      "learning_rate": 0.0,
+      "loss": 0.9905,
+      "step": 960
+    },
+    {
+      "epoch": 30.03125,
+      "eval_accuracy": 0.4816053511705686,
+      "eval_loss": 2.117016553878784,
+      "eval_runtime": 175.2626,
+      "eval_samples_per_second": 1.706,
+      "eval_steps_per_second": 0.057,
+      "step": 960
+    },
+    {
+      "epoch": 30.03125,
+      "step": 960,
+      "total_flos": 3.733004678582315e+19,
+      "train_loss": 2.590478341778119,
+      "train_runtime": 22304.5183,
+      "train_samples_per_second": 1.377,
+      "train_steps_per_second": 0.043
+    },
+    {
+      "epoch": 30.03125,
+      "eval_accuracy": 0.4882943143812709,
+      "eval_loss": 2.1814045906066895,
+      "eval_runtime": 181.2056,
+      "eval_samples_per_second": 1.65,
+      "eval_steps_per_second": 0.055,
+      "step": 960
+    },
+    {
+      "epoch": 30.03125,
+      "eval_accuracy": 0.4882943143812709,
+      "eval_loss": 2.180596113204956,
+      "eval_runtime": 179.6038,
+      "eval_samples_per_second": 1.665,
+      "eval_steps_per_second": 0.056,
+      "step": 960
     }
   ],
   "logging_steps": 10,
+  "max_steps": 960,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.733004678582315e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null