End of training

Browse files

Files changed (6) hide show

README.md +1 -1
all_results.json +9 -9
eval_results.json +5 -5
runs/Dec02_15-03-03_DESKTOP-SKBE9FB/events.out.tfevents.1733173658.DESKTOP-SKBE9FB.4800.1 +3 -0
train_results.json +5 -5
trainer_state.json +159 -315

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1869
 - Accuracy: 0.4565
 ## Model description

 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3825
 - Accuracy: 0.4565
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 34.29,
     "eval_accuracy": 0.45652173913043476,
-    "eval_loss": 1.6895416975021362,
-    "eval_runtime": 0.9309,
-    "eval_samples_per_second": 49.413,
-    "eval_steps_per_second": 3.223,
-    "train_loss": 1.5655512491861978,
-    "train_runtime": 205.1989,
-    "train_samples_per_second": 41.521,
-    "train_steps_per_second": 0.585
 }

 {
+    "epoch": 22.86,
     "eval_accuracy": 0.45652173913043476,
+    "eval_loss": 1.3825488090515137,
+    "eval_runtime": 0.9861,
+    "eval_samples_per_second": 46.649,
+    "eval_steps_per_second": 2.028,
+    "train_loss": 1.227725338935852,
+    "train_runtime": 161.9188,
+    "train_samples_per_second": 52.619,
+    "train_steps_per_second": 0.247
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 34.29,
     "eval_accuracy": 0.45652173913043476,
-    "eval_loss": 1.6895416975021362,
-    "eval_runtime": 0.9309,
-    "eval_samples_per_second": 49.413,
-    "eval_steps_per_second": 3.223
 }

 {
+    "epoch": 22.86,
     "eval_accuracy": 0.45652173913043476,
+    "eval_loss": 1.3825488090515137,
+    "eval_runtime": 0.9861,
+    "eval_samples_per_second": 46.649,
+    "eval_steps_per_second": 2.028
 }

runs/Dec02_15-03-03_DESKTOP-SKBE9FB/events.out.tfevents.1733173658.DESKTOP-SKBE9FB.4800.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d45786584c1b1670f7039bf0966c82cccd6fc20d22b9b030f58fea4f6819187
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 34.29,
-    "train_loss": 1.5655512491861978,
-    "train_runtime": 205.1989,
-    "train_samples_per_second": 41.521,
-    "train_steps_per_second": 0.585
 }

 {
+    "epoch": 22.86,
+    "train_loss": 1.227725338935852,
+    "train_runtime": 161.9188,
+    "train_samples_per_second": 52.619,
+    "train_steps_per_second": 0.247
 }

trainer_state.json CHANGED Viewed

@@ -1,417 +1,261 @@
 {
   "best_metric": 0.45652173913043476,
-  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-DMAE-ex\\checkpoint-7",
-  "epoch": 34.285714285714285,
   "eval_steps": 500,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.501729488372803,
-      "eval_runtime": 0.7613,
-      "eval_samples_per_second": 60.421,
-      "eval_steps_per_second": 3.941,
-      "step": 3
     },
     {
-      "epoch": 2.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.6895416975021362,
-      "eval_runtime": 0.7697,
-      "eval_samples_per_second": 59.762,
-      "eval_steps_per_second": 3.898,
-      "step": 7
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0016666666666666668,
-      "loss": 4.88,
-      "step": 10
     },
     {
       "epoch": 2.86,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.138199329376221,
-      "eval_runtime": 0.7697,
-      "eval_samples_per_second": 59.76,
-      "eval_steps_per_second": 3.897,
-      "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.5189474821090698,
-      "eval_runtime": 0.7775,
-      "eval_samples_per_second": 59.16,
-      "eval_steps_per_second": 3.858,
-      "step": 14
     },
     {
-      "epoch": 4.86,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.4063533544540405,
-      "eval_runtime": 0.8154,
-      "eval_samples_per_second": 56.416,
-      "eval_steps_per_second": 3.679,
-      "step": 17
     },
     {
       "epoch": 5.71,
-      "learning_rate": 0.001851851851851852,
-      "loss": 1.7482,
-      "step": 20
     },
     {
-      "epoch": 6.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3558485507965088,
-      "eval_runtime": 0.8427,
-      "eval_samples_per_second": 54.584,
-      "eval_steps_per_second": 3.56,
-      "step": 21
     },
     {
       "epoch": 6.86,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.3179720640182495,
-      "eval_runtime": 0.8639,
-      "eval_samples_per_second": 53.247,
-      "eval_steps_per_second": 3.473,
-      "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.2377893924713135,
-      "eval_runtime": 0.7959,
-      "eval_samples_per_second": 57.795,
-      "eval_steps_per_second": 3.769,
-      "step": 28
     },
     {
       "epoch": 8.57,
-      "learning_rate": 0.0016666666666666668,
-      "loss": 1.3281,
-      "step": 30
-    },
-    {
-      "epoch": 8.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.338990569114685,
-      "eval_runtime": 0.9078,
-      "eval_samples_per_second": 50.675,
-      "eval_steps_per_second": 3.305,
-      "step": 31
     },
     {
-      "epoch": 10.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2144430875778198,
-      "eval_runtime": 1.1213,
-      "eval_samples_per_second": 41.024,
-      "eval_steps_per_second": 2.675,
-      "step": 35
     },
     {
       "epoch": 10.86,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.2492074966430664,
-      "eval_runtime": 0.8022,
-      "eval_samples_per_second": 57.343,
-      "eval_steps_per_second": 3.74,
-      "step": 38
     },
     {
       "epoch": 11.43,
-      "learning_rate": 0.0014814814814814814,
-      "loss": 1.2367,
-      "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2685078382492065,
-      "eval_runtime": 0.7767,
-      "eval_samples_per_second": 59.225,
-      "eval_steps_per_second": 3.862,
-      "step": 42
     },
     {
-      "epoch": 12.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.239018440246582,
-      "eval_runtime": 0.8102,
-      "eval_samples_per_second": 56.778,
-      "eval_steps_per_second": 3.703,
-      "step": 45
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.32608695652173914,
-      "eval_loss": 1.2648324966430664,
-      "eval_runtime": 0.7642,
-      "eval_samples_per_second": 60.192,
-      "eval_steps_per_second": 3.926,
-      "step": 49
     },
     {
-      "epoch": 14.29,
-      "learning_rate": 0.0012962962962962963,
-      "loss": 1.2707,
-      "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2209372520446777,
-      "eval_runtime": 1.1243,
-      "eval_samples_per_second": 40.916,
-      "eval_steps_per_second": 2.668,
-      "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2627573013305664,
-      "eval_runtime": 0.7265,
-      "eval_samples_per_second": 63.313,
-      "eval_steps_per_second": 4.129,
-      "step": 56
     },
     {
-      "epoch": 16.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2172560691833496,
-      "eval_runtime": 0.7692,
-      "eval_samples_per_second": 59.804,
-      "eval_steps_per_second": 3.9,
-      "step": 59
     },
     {
       "epoch": 17.14,
-      "learning_rate": 0.0011111111111111111,
-      "loss": 1.2699,
-      "step": 60
     },
     {
-      "epoch": 18.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2144685983657837,
-      "eval_runtime": 0.7427,
-      "eval_samples_per_second": 61.937,
-      "eval_steps_per_second": 4.039,
-      "step": 63
     },
     {
       "epoch": 18.86,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.233435869216919,
-      "eval_runtime": 0.8122,
-      "eval_samples_per_second": 56.636,
-      "eval_steps_per_second": 3.694,
-      "step": 66
-    },
-    {
-      "epoch": 20.0,
-      "learning_rate": 0.000925925925925926,
-      "loss": 1.2509,
-      "step": 70
-    },
-    {
-      "epoch": 20.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2693239450454712,
-      "eval_runtime": 0.7922,
-      "eval_samples_per_second": 58.066,
-      "eval_steps_per_second": 3.787,
-      "step": 70
     },
     {
-      "epoch": 20.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2040687799453735,
-      "eval_runtime": 0.7802,
-      "eval_samples_per_second": 58.961,
-      "eval_steps_per_second": 3.845,
-      "step": 73
-    },
-    {
-      "epoch": 22.0,
-      "eval_accuracy": 0.3695652173913043,
-      "eval_loss": 1.230669379234314,
-      "eval_runtime": 0.7355,
-      "eval_samples_per_second": 62.546,
-      "eval_steps_per_second": 4.079,
-      "step": 77
-    },
-    {
-      "epoch": 22.86,
-      "learning_rate": 0.0007407407407407407,
-      "loss": 1.1936,
-      "step": 80
-    },
-    {
-      "epoch": 22.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.21720552444458,
-      "eval_runtime": 1.1738,
-      "eval_samples_per_second": 39.19,
-      "eval_steps_per_second": 2.556,
-      "step": 80
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.210868000984192,
-      "eval_runtime": 0.7282,
-      "eval_samples_per_second": 63.171,
-      "eval_steps_per_second": 4.12,
-      "step": 84
-    },
-    {
-      "epoch": 24.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.205082893371582,
-      "eval_runtime": 0.7492,
-      "eval_samples_per_second": 61.4,
-      "eval_steps_per_second": 4.004,
-      "step": 87
-    },
-    {
-      "epoch": 25.71,
-      "learning_rate": 0.0005555555555555556,
-      "loss": 1.1629,
-      "step": 90
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2083849906921387,
-      "eval_runtime": 0.7267,
-      "eval_samples_per_second": 63.298,
-      "eval_steps_per_second": 4.128,
-      "step": 91
-    },
-    {
-      "epoch": 26.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2217854261398315,
-      "eval_runtime": 0.7642,
-      "eval_samples_per_second": 60.195,
-      "eval_steps_per_second": 3.926,
-      "step": 94
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.229410171508789,
-      "eval_runtime": 0.9487,
-      "eval_samples_per_second": 48.486,
-      "eval_steps_per_second": 3.162,
-      "step": 98
-    },
-    {
-      "epoch": 28.57,
-      "learning_rate": 0.00037037037037037035,
-      "loss": 1.1606,
-      "step": 100
-    },
-    {
-      "epoch": 28.86,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2059509754180908,
-      "eval_runtime": 0.7608,
-      "eval_samples_per_second": 60.46,
-      "eval_steps_per_second": 3.943,
-      "step": 101
-    },
-    {
-      "epoch": 30.0,
-      "eval_accuracy": 0.41304347826086957,
-      "eval_loss": 1.2063390016555786,
-      "eval_runtime": 0.7622,
-      "eval_samples_per_second": 60.353,
-      "eval_steps_per_second": 3.936,
-      "step": 105
-    },
-    {
-      "epoch": 30.86,
-      "eval_accuracy": 0.41304347826086957,
-      "eval_loss": 1.2118929624557495,
-      "eval_runtime": 0.7777,
-      "eval_samples_per_second": 59.146,
-      "eval_steps_per_second": 3.857,
-      "step": 108
-    },
-    {
-      "epoch": 31.43,
-      "learning_rate": 0.00018518518518518518,
-      "loss": 1.1525,
-      "step": 110
-    },
-    {
-      "epoch": 32.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2072707414627075,
-      "eval_runtime": 0.7829,
-      "eval_samples_per_second": 58.755,
-      "eval_steps_per_second": 3.832,
-      "step": 112
     },
     {
-      "epoch": 32.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1994774341583252,
-      "eval_runtime": 0.9102,
-      "eval_samples_per_second": 50.537,
-      "eval_steps_per_second": 3.296,
-      "step": 115
     },
     {
-      "epoch": 34.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1953673362731934,
-      "eval_runtime": 0.7781,
-      "eval_samples_per_second": 59.118,
-      "eval_steps_per_second": 3.856,
-      "step": 119
     },
     {
-      "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 1.1326,
-      "step": 120
     },
     {
-      "epoch": 34.29,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.195010781288147,
-      "eval_runtime": 0.7669,
-      "eval_samples_per_second": 59.984,
-      "eval_steps_per_second": 3.912,
-      "step": 120
     },
     {
-      "epoch": 34.29,
-      "step": 120,
-      "total_flos": 2.3770905934823424e+17,
-      "train_loss": 1.5655512491861978,
-      "train_runtime": 205.1989,
-      "train_samples_per_second": 41.521,
-      "train_steps_per_second": 0.585
     }
   ],
   "logging_steps": 10,
-  "max_steps": 120,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
-  "total_flos": 2.3770905934823424e+17,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.45652173913043476,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-DMAE-ex\\checkpoint-3",
+  "epoch": 22.857142857142858,
   "eval_steps": 500,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.57,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 1.386294960975647,
+      "eval_runtime": 0.8503,
+      "eval_samples_per_second": 54.096,
+      "eval_steps_per_second": 2.352,
+      "step": 1
     },
     {
+      "epoch": 1.71,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.3825488090515137,
+      "eval_runtime": 0.7726,
+      "eval_samples_per_second": 59.541,
+      "eval_steps_per_second": 2.589,
+      "step": 3
     },
     {
       "epoch": 2.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.3677386045455933,
+      "eval_runtime": 1.0409,
+      "eval_samples_per_second": 44.191,
+      "eval_steps_per_second": 1.921,
+      "step": 5
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.3405187129974365,
+      "eval_runtime": 0.8432,
+      "eval_samples_per_second": 54.556,
+      "eval_steps_per_second": 2.372,
+      "step": 7
     },
     {
+      "epoch": 4.57,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.322912335395813,
+      "eval_runtime": 0.8736,
+      "eval_samples_per_second": 52.657,
+      "eval_steps_per_second": 2.289,
+      "step": 8
     },
     {
       "epoch": 5.71,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.3605,
+      "step": 10
     },
     {
+      "epoch": 5.71,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2859361171722412,
+      "eval_runtime": 0.8501,
+      "eval_samples_per_second": 54.109,
+      "eval_steps_per_second": 2.353,
+      "step": 10
     },
     {
       "epoch": 6.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2580196857452393,
+      "eval_runtime": 0.8402,
+      "eval_samples_per_second": 54.752,
+      "eval_steps_per_second": 2.381,
+      "step": 12
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2332475185394287,
+      "eval_runtime": 0.8327,
+      "eval_samples_per_second": 55.242,
+      "eval_steps_per_second": 2.402,
+      "step": 14
     },
     {
       "epoch": 8.57,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.223859429359436,
+      "eval_runtime": 0.8061,
+      "eval_samples_per_second": 57.062,
+      "eval_steps_per_second": 2.481,
+      "step": 15
     },
     {
+      "epoch": 9.71,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2127728462219238,
+      "eval_runtime": 0.8231,
+      "eval_samples_per_second": 55.884,
+      "eval_steps_per_second": 2.43,
+      "step": 17
     },
     {
       "epoch": 10.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2085763216018677,
+      "eval_runtime": 0.855,
+      "eval_samples_per_second": 53.803,
+      "eval_steps_per_second": 2.339,
+      "step": 19
     },
     {
       "epoch": 11.43,
+      "learning_rate": 2.2222222222222227e-05,
+      "loss": 1.2105,
+      "step": 20
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2092437744140625,
+      "eval_runtime": 1.3028,
+      "eval_samples_per_second": 35.309,
+      "eval_steps_per_second": 1.535,
+      "step": 21
     },
     {
+      "epoch": 12.57,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2097690105438232,
+      "eval_runtime": 0.8286,
+      "eval_samples_per_second": 55.514,
+      "eval_steps_per_second": 2.414,
+      "step": 22
     },
     {
+      "epoch": 13.71,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.210005283355713,
+      "eval_runtime": 0.8472,
+      "eval_samples_per_second": 54.298,
+      "eval_steps_per_second": 2.361,
+      "step": 24
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2062424421310425,
+      "eval_runtime": 0.8749,
+      "eval_samples_per_second": 52.58,
+      "eval_steps_per_second": 2.286,
+      "step": 26
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.201505422592163,
+      "eval_runtime": 0.9061,
+      "eval_samples_per_second": 50.766,
+      "eval_steps_per_second": 2.207,
+      "step": 28
     },
     {
+      "epoch": 16.57,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.198574423789978,
+      "eval_runtime": 0.8476,
+      "eval_samples_per_second": 54.274,
+      "eval_steps_per_second": 2.36,
+      "step": 29
     },
     {
       "epoch": 17.14,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 1.1785,
+      "step": 30
     },
     {
+      "epoch": 17.71,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1926066875457764,
+      "eval_runtime": 0.8428,
+      "eval_samples_per_second": 54.577,
+      "eval_steps_per_second": 2.373,
+      "step": 31
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1901657581329346,
+      "eval_runtime": 0.9097,
+      "eval_samples_per_second": 50.565,
+      "eval_steps_per_second": 2.198,
+      "step": 33
     },
     {
+      "epoch": 20.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1884738206863403,
+      "eval_runtime": 0.8548,
+      "eval_samples_per_second": 53.814,
+      "eval_steps_per_second": 2.34,
+      "step": 35
     },
     {
+      "epoch": 20.57,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1878141164779663,
+      "eval_runtime": 0.8444,
+      "eval_samples_per_second": 54.475,
+      "eval_steps_per_second": 2.368,
+      "step": 36
     },
     {
+      "epoch": 21.71,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1870336532592773,
+      "eval_runtime": 0.8305,
+      "eval_samples_per_second": 55.387,
+      "eval_steps_per_second": 2.408,
+      "step": 38
     },
     {
+      "epoch": 22.86,
       "learning_rate": 0.0,
+      "loss": 1.1615,
+      "step": 40
     },
     {
+      "epoch": 22.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.1869155168533325,
+      "eval_runtime": 1.2422,
+      "eval_samples_per_second": 37.03,
+      "eval_steps_per_second": 1.61,
+      "step": 40
     },
     {
+      "epoch": 22.86,
+      "step": 40,
+      "total_flos": 1.5871130461274112e+17,
+      "train_loss": 1.227725338935852,
+      "train_runtime": 161.9188,
+      "train_samples_per_second": 52.619,
+      "train_steps_per_second": 0.247
     }
   ],
   "logging_steps": 10,
+  "max_steps": 40,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
+  "total_flos": 1.5871130461274112e+17,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }