End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +10 -10
eval_results.json +5 -5
runs/Dec11_15-57-15_ae1aa77fe319/events.out.tfevents.1733932871.ae1aa77fe319.236.3 +3 -0
train_results.json +5 -5
trainer_state.json +425 -551

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9456521739130435
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3383
-- Accuracy: 0.9457
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9565217391304348
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1797
+- Accuracy: 0.9565
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 60.0,
-    "eval_accuracy": 0.9840425531914894,
-    "eval_loss": 0.0718478411436081,
-    "eval_runtime": 0.629,
-    "eval_samples_per_second": 298.878,
-    "eval_steps_per_second": 9.539,
-    "total_flos": 8.758829206639411e+17,
-    "train_loss": 0.09168570356236563,
-    "train_runtime": 380.8373,
-    "train_samples_per_second": 117.531,
-    "train_steps_per_second": 0.945
 }

 {
     "epoch": 60.0,
+    "eval_accuracy": 0.9565217391304348,
+    "eval_loss": 0.17970529198646545,
+    "eval_runtime": 0.3194,
+    "eval_samples_per_second": 288.014,
+    "eval_steps_per_second": 9.392,
+    "total_flos": 4.3676735454019584e+17,
+    "train_loss": 0.10428427308797836,
+    "train_runtime": 199.9604,
+    "train_samples_per_second": 111.622,
+    "train_steps_per_second": 0.9
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 60.0,
-    "eval_accuracy": 0.9840425531914894,
-    "eval_loss": 0.0718478411436081,
-    "eval_runtime": 0.629,
-    "eval_samples_per_second": 298.878,
-    "eval_steps_per_second": 9.539
 }

 {
     "epoch": 60.0,
+    "eval_accuracy": 0.9565217391304348,
+    "eval_loss": 0.17970529198646545,
+    "eval_runtime": 0.3194,
+    "eval_samples_per_second": 288.014,
+    "eval_steps_per_second": 9.392
 }

runs/Dec11_15-57-15_ae1aa77fe319/events.out.tfevents.1733932871.ae1aa77fe319.236.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dbb19274d18831ff2aabd8629937545425c2d78d370cf1fb3ff4dc0580e2c41
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 60.0,
-    "total_flos": 8.758829206639411e+17,
-    "train_loss": 0.09168570356236563,
-    "train_runtime": 380.8373,
-    "train_samples_per_second": 117.531,
-    "train_steps_per_second": 0.945
 }

 {
     "epoch": 60.0,
+    "total_flos": 4.3676735454019584e+17,
+    "train_loss": 0.10428427308797836,
+    "train_runtime": 199.9604,
+    "train_samples_per_second": 111.622,
+    "train_steps_per_second": 0.9
 }

trainer_state.json CHANGED Viewed

@@ -1,817 +1,691 @@
 {
-  "best_metric": 0.9840425531914894,
-  "best_model_checkpoint": "vit-msn-small-wbc-blur-detector/checkpoint-72",
   "epoch": 60.0,
   "eval_steps": 500,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7340425531914894,
-      "eval_loss": 0.5712631344795227,
-      "eval_runtime": 0.5622,
-      "eval_samples_per_second": 334.415,
-      "eval_steps_per_second": 10.673,
-      "step": 6
-    },
-    {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 10.44019603729248,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.6051,
-      "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7659574468085106,
-      "eval_loss": 0.4693465232849121,
-      "eval_runtime": 0.5811,
-      "eval_samples_per_second": 323.506,
-      "eval_steps_per_second": 10.325,
-      "step": 12
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9414893617021277,
-      "eval_loss": 0.1643817126750946,
-      "eval_runtime": 0.6,
-      "eval_samples_per_second": 313.329,
-      "eval_steps_per_second": 10.0,
-      "step": 18
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 8.123635292053223,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.2544,
-      "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.08451231569051743,
-      "eval_runtime": 0.5515,
-      "eval_samples_per_second": 340.904,
-      "eval_steps_per_second": 10.88,
-      "step": 24
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 37.864131927490234,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.1896,
-      "step": 30
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.09721191227436066,
-      "eval_runtime": 0.5728,
-      "eval_samples_per_second": 328.217,
-      "eval_steps_per_second": 10.475,
-      "step": 30
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.1011401042342186,
-      "eval_runtime": 0.5505,
-      "eval_samples_per_second": 341.503,
-      "eval_steps_per_second": 10.899,
-      "step": 36
     },
     {
       "epoch": 6.666666666666667,
-      "grad_norm": 11.042017936706543,
       "learning_rate": 4.938271604938271e-05,
-      "loss": 0.2534,
-      "step": 40
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.08934129774570465,
-      "eval_runtime": 0.5635,
-      "eval_samples_per_second": 333.602,
-      "eval_steps_per_second": 10.647,
-      "step": 42
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.08766720443964005,
-      "eval_runtime": 0.5541,
-      "eval_samples_per_second": 339.311,
-      "eval_steps_per_second": 10.829,
-      "step": 48
-    },
-    {
-      "epoch": 8.333333333333334,
-      "grad_norm": 8.848210334777832,
-      "learning_rate": 4.783950617283951e-05,
-      "loss": 0.1535,
-      "step": 50
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.10303648561239243,
-      "eval_runtime": 0.5537,
-      "eval_samples_per_second": 339.542,
-      "eval_steps_per_second": 10.836,
-      "step": 54
     },
     {
       "epoch": 10.0,
-      "grad_norm": 8.038219451904297,
       "learning_rate": 4.62962962962963e-05,
-      "loss": 0.1277,
-      "step": 60
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.07765703648328781,
-      "eval_runtime": 0.5522,
-      "eval_samples_per_second": 340.451,
-      "eval_steps_per_second": 10.865,
-      "step": 60
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.08228272944688797,
-      "eval_runtime": 0.5522,
-      "eval_samples_per_second": 340.441,
-      "eval_steps_per_second": 10.865,
-      "step": 66
-    },
-    {
-      "epoch": 11.666666666666666,
-      "grad_norm": 11.488448143005371,
-      "learning_rate": 4.4753086419753084e-05,
-      "loss": 0.1147,
-      "step": 70
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.0718478411436081,
-      "eval_runtime": 0.5684,
-      "eval_samples_per_second": 330.757,
-      "eval_steps_per_second": 10.556,
-      "step": 72
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.9521276595744681,
-      "eval_loss": 0.09054908156394958,
-      "eval_runtime": 0.5801,
-      "eval_samples_per_second": 324.086,
-      "eval_steps_per_second": 10.343,
-      "step": 78
     },
     {
       "epoch": 13.333333333333334,
-      "grad_norm": 10.379966735839844,
       "learning_rate": 4.3209876543209875e-05,
-      "loss": 0.112,
-      "step": 80
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.9202127659574468,
-      "eval_loss": 0.21216550469398499,
-      "eval_runtime": 0.5499,
-      "eval_samples_per_second": 341.878,
-      "eval_steps_per_second": 10.911,
-      "step": 84
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 6.255307674407959,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.1115,
-      "step": 90
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.9414893617021277,
-      "eval_loss": 0.1408630907535553,
-      "eval_runtime": 0.6004,
-      "eval_samples_per_second": 313.12,
-      "eval_steps_per_second": 9.993,
-      "step": 90
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.08175182342529297,
-      "eval_runtime": 0.5516,
-      "eval_samples_per_second": 340.81,
-      "eval_steps_per_second": 10.877,
-      "step": 96
     },
     {
       "epoch": 16.666666666666668,
-      "grad_norm": 32.63232421875,
       "learning_rate": 4.012345679012346e-05,
-      "loss": 0.107,
-      "step": 100
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.059448737651109695,
-      "eval_runtime": 0.5763,
-      "eval_samples_per_second": 326.236,
-      "eval_steps_per_second": 10.412,
-      "step": 102
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.9308510638297872,
-      "eval_loss": 0.16710200905799866,
-      "eval_runtime": 0.5588,
-      "eval_samples_per_second": 336.405,
-      "eval_steps_per_second": 10.736,
-      "step": 108
-    },
-    {
-      "epoch": 18.333333333333332,
-      "grad_norm": 3.7432363033294678,
-      "learning_rate": 3.8580246913580246e-05,
-      "loss": 0.0941,
-      "step": 110
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.9308510638297872,
-      "eval_loss": 0.140838161110878,
-      "eval_runtime": 0.5919,
-      "eval_samples_per_second": 317.613,
-      "eval_steps_per_second": 10.137,
-      "step": 114
     },
     {
       "epoch": 20.0,
-      "grad_norm": 7.966294288635254,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0629,
-      "step": 120
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9414893617021277,
-      "eval_loss": 0.13265569508075714,
-      "eval_runtime": 0.5698,
-      "eval_samples_per_second": 329.925,
-      "eval_steps_per_second": 10.53,
-      "step": 120
     },
     {
       "epoch": 21.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.08957220613956451,
-      "eval_runtime": 0.5645,
-      "eval_samples_per_second": 333.023,
-      "eval_steps_per_second": 10.628,
-      "step": 126
-    },
-    {
-      "epoch": 21.666666666666668,
-      "grad_norm": 6.942417144775391,
-      "learning_rate": 3.5493827160493834e-05,
-      "loss": 0.081,
-      "step": 130
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.09119919687509537,
-      "eval_runtime": 0.5916,
-      "eval_samples_per_second": 317.756,
-      "eval_steps_per_second": 10.141,
-      "step": 132
     },
     {
       "epoch": 23.0,
-      "eval_accuracy": 0.9521276595744681,
-      "eval_loss": 0.10360775887966156,
-      "eval_runtime": 0.5817,
-      "eval_samples_per_second": 323.216,
-      "eval_steps_per_second": 10.315,
-      "step": 138
     },
     {
       "epoch": 23.333333333333332,
-      "grad_norm": 3.9243404865264893,
       "learning_rate": 3.395061728395062e-05,
-      "loss": 0.0706,
-      "step": 140
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.9521276595744681,
-      "eval_loss": 0.07820819318294525,
-      "eval_runtime": 0.5573,
-      "eval_samples_per_second": 337.319,
-      "eval_steps_per_second": 10.766,
-      "step": 144
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 5.995626449584961,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.0728,
-      "step": 150
     },
     {
       "epoch": 25.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.06730703264474869,
-      "eval_runtime": 0.564,
-      "eval_samples_per_second": 333.307,
-      "eval_steps_per_second": 10.637,
-      "step": 150
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.13579747080802917,
-      "eval_runtime": 0.5839,
-      "eval_samples_per_second": 321.994,
-      "eval_steps_per_second": 10.276,
-      "step": 156
     },
     {
       "epoch": 26.666666666666668,
-      "grad_norm": 3.335559606552124,
       "learning_rate": 3.08641975308642e-05,
-      "loss": 0.0535,
-      "step": 160
     },
     {
       "epoch": 27.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.09251847118139267,
-      "eval_runtime": 0.5476,
-      "eval_samples_per_second": 343.33,
-      "eval_steps_per_second": 10.957,
-      "step": 162
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.09499593824148178,
-      "eval_runtime": 0.557,
-      "eval_samples_per_second": 337.516,
-      "eval_steps_per_second": 10.772,
-      "step": 168
-    },
-    {
-      "epoch": 28.333333333333332,
-      "grad_norm": 6.770501136779785,
-      "learning_rate": 2.9320987654320992e-05,
-      "loss": 0.058,
-      "step": 170
     },
     {
       "epoch": 29.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.09998849779367447,
-      "eval_runtime": 0.5597,
-      "eval_samples_per_second": 335.871,
-      "eval_steps_per_second": 10.719,
-      "step": 174
     },
     {
       "epoch": 30.0,
-      "grad_norm": 19.26597023010254,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0662,
-      "step": 180
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.9414893617021277,
-      "eval_loss": 0.251209557056427,
-      "eval_runtime": 0.5694,
-      "eval_samples_per_second": 330.181,
-      "eval_steps_per_second": 10.538,
-      "step": 180
     },
     {
       "epoch": 31.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.06487108021974564,
-      "eval_runtime": 0.5919,
-      "eval_samples_per_second": 317.599,
-      "eval_steps_per_second": 10.136,
-      "step": 186
-    },
-    {
-      "epoch": 31.666666666666668,
-      "grad_norm": 1.7159186601638794,
-      "learning_rate": 2.623456790123457e-05,
-      "loss": 0.0564,
-      "step": 190
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.9521276595744681,
-      "eval_loss": 0.13227558135986328,
-      "eval_runtime": 0.5679,
-      "eval_samples_per_second": 331.05,
-      "eval_steps_per_second": 10.565,
-      "step": 192
     },
     {
       "epoch": 33.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.06702585518360138,
-      "eval_runtime": 0.591,
-      "eval_samples_per_second": 318.119,
-      "eval_steps_per_second": 10.153,
-      "step": 198
     },
     {
       "epoch": 33.333333333333336,
-      "grad_norm": 0.7996916770935059,
       "learning_rate": 2.4691358024691357e-05,
-      "loss": 0.0591,
-      "step": 200
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.11914665251970291,
-      "eval_runtime": 0.5866,
-      "eval_samples_per_second": 320.511,
-      "eval_steps_per_second": 10.229,
-      "step": 204
-    },
-    {
-      "epoch": 35.0,
-      "grad_norm": 3.493698835372925,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.0353,
-      "step": 210
     },
     {
       "epoch": 35.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.14858229458332062,
-      "eval_runtime": 0.5761,
-      "eval_samples_per_second": 326.357,
-      "eval_steps_per_second": 10.416,
-      "step": 210
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.08810416609048843,
-      "eval_runtime": 0.5699,
-      "eval_samples_per_second": 329.896,
-      "eval_steps_per_second": 10.529,
-      "step": 216
     },
     {
       "epoch": 36.666666666666664,
-      "grad_norm": 12.2665376663208,
       "learning_rate": 2.1604938271604937e-05,
-      "loss": 0.0523,
-      "step": 220
     },
     {
       "epoch": 37.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.05061895400285721,
-      "eval_runtime": 0.5644,
-      "eval_samples_per_second": 333.114,
-      "eval_steps_per_second": 10.631,
-      "step": 222
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.10941923409700394,
-      "eval_runtime": 0.5579,
-      "eval_samples_per_second": 336.995,
-      "eval_steps_per_second": 10.755,
-      "step": 228
-    },
-    {
-      "epoch": 38.333333333333336,
-      "grad_norm": 2.317680597305298,
-      "learning_rate": 2.006172839506173e-05,
-      "loss": 0.0471,
-      "step": 230
     },
     {
       "epoch": 39.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.08581092208623886,
-      "eval_runtime": 0.5654,
-      "eval_samples_per_second": 332.53,
-      "eval_steps_per_second": 10.613,
-      "step": 234
     },
     {
       "epoch": 40.0,
-      "grad_norm": 11.043506622314453,
       "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0671,
-      "step": 240
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.17757754027843475,
-      "eval_runtime": 0.5949,
-      "eval_samples_per_second": 316.026,
-      "eval_steps_per_second": 10.086,
-      "step": 240
     },
     {
       "epoch": 41.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.09706045687198639,
-      "eval_runtime": 0.5628,
-      "eval_samples_per_second": 334.044,
-      "eval_steps_per_second": 10.661,
-      "step": 246
-    },
-    {
-      "epoch": 41.666666666666664,
-      "grad_norm": 2.3154749870300293,
-      "learning_rate": 1.697530864197531e-05,
-      "loss": 0.0459,
-      "step": 250
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.04420238360762596,
-      "eval_runtime": 0.572,
-      "eval_samples_per_second": 328.671,
-      "eval_steps_per_second": 10.489,
-      "step": 252
     },
     {
       "epoch": 43.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.044726960361003876,
-      "eval_runtime": 0.5631,
-      "eval_samples_per_second": 333.838,
-      "eval_steps_per_second": 10.654,
-      "step": 258
     },
     {
       "epoch": 43.333333333333336,
-      "grad_norm": 3.237978935241699,
       "learning_rate": 1.54320987654321e-05,
-      "loss": 0.0296,
-      "step": 260
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.06447551399469376,
-      "eval_runtime": 0.5649,
-      "eval_samples_per_second": 332.802,
-      "eval_steps_per_second": 10.621,
-      "step": 264
-    },
-    {
-      "epoch": 45.0,
-      "grad_norm": 15.342556953430176,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.0414,
-      "step": 270
     },
     {
       "epoch": 45.0,
-      "eval_accuracy": 0.973404255319149,
-      "eval_loss": 0.07515815645456314,
-      "eval_runtime": 0.5591,
-      "eval_samples_per_second": 336.232,
-      "eval_steps_per_second": 10.731,
-      "step": 270
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.9574468085106383,
-      "eval_loss": 0.14192818105220795,
-      "eval_runtime": 0.5561,
-      "eval_samples_per_second": 338.082,
-      "eval_steps_per_second": 10.79,
-      "step": 276
     },
     {
       "epoch": 46.666666666666664,
-      "grad_norm": 3.4594690799713135,
       "learning_rate": 1.2345679012345678e-05,
-      "loss": 0.0352,
-      "step": 280
     },
     {
       "epoch": 47.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.04251508414745331,
-      "eval_runtime": 0.5605,
-      "eval_samples_per_second": 335.419,
-      "eval_steps_per_second": 10.705,
-      "step": 282
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.06410356611013412,
-      "eval_runtime": 0.5687,
-      "eval_samples_per_second": 330.571,
-      "eval_steps_per_second": 10.55,
-      "step": 288
-    },
-    {
-      "epoch": 48.333333333333336,
-      "grad_norm": 2.795865774154663,
-      "learning_rate": 1.0802469135802469e-05,
-      "loss": 0.0342,
-      "step": 290
     },
     {
       "epoch": 49.0,
-      "eval_accuracy": 0.9680851063829787,
-      "eval_loss": 0.11264320462942123,
-      "eval_runtime": 0.5453,
-      "eval_samples_per_second": 344.776,
-      "eval_steps_per_second": 11.003,
-      "step": 294
     },
     {
       "epoch": 50.0,
-      "grad_norm": 4.04909086227417,
       "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0277,
-      "step": 300
     },
     {
       "epoch": 50.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.054132696241140366,
-      "eval_runtime": 0.5421,
-      "eval_samples_per_second": 346.78,
-      "eval_steps_per_second": 11.067,
-      "step": 300
     },
     {
       "epoch": 51.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.07527489215135574,
-      "eval_runtime": 0.5567,
-      "eval_samples_per_second": 337.676,
-      "eval_steps_per_second": 10.777,
-      "step": 306
-    },
-    {
-      "epoch": 51.666666666666664,
-      "grad_norm": 1.1342123746871948,
-      "learning_rate": 7.71604938271605e-06,
-      "loss": 0.0392,
-      "step": 310
     },
     {
       "epoch": 52.0,
-      "eval_accuracy": 0.9787234042553191,
-      "eval_loss": 0.04125715419650078,
-      "eval_runtime": 0.5747,
-      "eval_samples_per_second": 327.145,
-      "eval_steps_per_second": 10.441,
-      "step": 312
     },
     {
       "epoch": 53.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.11188509315252304,
-      "eval_runtime": 0.5497,
-      "eval_samples_per_second": 341.985,
-      "eval_steps_per_second": 10.914,
-      "step": 318
     },
     {
       "epoch": 53.333333333333336,
-      "grad_norm": 4.390924453735352,
       "learning_rate": 6.172839506172839e-06,
-      "loss": 0.0299,
-      "step": 320
     },
     {
       "epoch": 54.0,
-      "eval_accuracy": 0.9627659574468085,
-      "eval_loss": 0.08185816556215286,
-      "eval_runtime": 0.5785,
-      "eval_samples_per_second": 324.999,
-      "eval_steps_per_second": 10.372,
-      "step": 324
-    },
-    {
-      "epoch": 55.0,
-      "grad_norm": 1.3617689609527588,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.0295,
-      "step": 330
     },
     {
       "epoch": 55.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.0335795022547245,
-      "eval_runtime": 0.5553,
-      "eval_samples_per_second": 338.529,
-      "eval_steps_per_second": 10.804,
-      "step": 330
     },
     {
       "epoch": 56.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.039023175835609436,
-      "eval_runtime": 0.5576,
-      "eval_samples_per_second": 337.161,
-      "eval_steps_per_second": 10.76,
-      "step": 336
     },
     {
       "epoch": 56.666666666666664,
-      "grad_norm": 0.5556619763374329,
       "learning_rate": 3.0864197530864196e-06,
-      "loss": 0.0253,
-      "step": 340
     },
     {
       "epoch": 57.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.03277648240327835,
-      "eval_runtime": 0.5626,
-      "eval_samples_per_second": 334.143,
-      "eval_steps_per_second": 10.664,
-      "step": 342
     },
     {
       "epoch": 58.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.0343145877122879,
-      "eval_runtime": 0.5708,
-      "eval_samples_per_second": 329.368,
-      "eval_steps_per_second": 10.512,
-      "step": 348
-    },
-    {
-      "epoch": 58.333333333333336,
-      "grad_norm": 0.7165215611457825,
-      "learning_rate": 1.5432098765432098e-06,
-      "loss": 0.0264,
-      "step": 350
     },
     {
       "epoch": 59.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.03521186113357544,
-      "eval_runtime": 0.5748,
-      "eval_samples_per_second": 327.069,
-      "eval_steps_per_second": 10.438,
-      "step": 354
     },
     {
       "epoch": 60.0,
-      "grad_norm": 5.298318386077881,
       "learning_rate": 0.0,
-      "loss": 0.0308,
-      "step": 360
     },
     {
       "epoch": 60.0,
-      "eval_accuracy": 0.9840425531914894,
-      "eval_loss": 0.03450946509838104,
-      "eval_runtime": 0.5861,
-      "eval_samples_per_second": 320.783,
-      "eval_steps_per_second": 10.238,
-      "step": 360
     },
     {
       "epoch": 60.0,
-      "step": 360,
-      "total_flos": 8.758829206639411e+17,
-      "train_loss": 0.09168570356236563,
-      "train_runtime": 380.8373,
-      "train_samples_per_second": 117.531,
-      "train_steps_per_second": 0.945
     }
   ],
   "logging_steps": 10,
-  "max_steps": 360,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 60,
   "save_steps": 500,
@@ -827,7 +701,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.758829206639411e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9565217391304348,
+  "best_model_checkpoint": "vit-msn-small-wbc-blur-detector/checkpoint-60",
   "epoch": 60.0,
   "eval_steps": 500,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5760869565217391,
+      "eval_loss": 0.6225717663764954,
+      "eval_runtime": 0.2813,
+      "eval_samples_per_second": 327.047,
+      "eval_steps_per_second": 10.665,
+      "step": 3
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8913043478260869,
+      "eval_loss": 0.41749870777130127,
+      "eval_runtime": 0.2698,
+      "eval_samples_per_second": 341.032,
+      "eval_steps_per_second": 11.121,
+      "step": 6
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8369565217391305,
+      "eval_loss": 0.359576016664505,
+      "eval_runtime": 0.2715,
+      "eval_samples_per_second": 338.881,
+      "eval_steps_per_second": 11.05,
+      "step": 9
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 5.03557014465332,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.5806,
+      "step": 10
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9130434782608695,
+      "eval_loss": 0.2136119157075882,
+      "eval_runtime": 0.2933,
+      "eval_samples_per_second": 313.644,
+      "eval_steps_per_second": 10.228,
+      "step": 12
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.18237723410129547,
+      "eval_runtime": 0.2735,
+      "eval_samples_per_second": 336.44,
+      "eval_steps_per_second": 10.971,
+      "step": 15
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9130434782608695,
+      "eval_loss": 0.21223501861095428,
+      "eval_runtime": 0.2858,
+      "eval_samples_per_second": 321.851,
+      "eval_steps_per_second": 10.495,
+      "step": 18
     },
     {
       "epoch": 6.666666666666667,
+      "grad_norm": 29.32073402404785,
       "learning_rate": 4.938271604938271e-05,
+      "loss": 0.2353,
+      "step": 20
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2082703560590744,
+      "eval_runtime": 0.2935,
+      "eval_samples_per_second": 313.469,
+      "eval_steps_per_second": 10.222,
+      "step": 21
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.1384642869234085,
+      "eval_runtime": 0.277,
+      "eval_samples_per_second": 332.147,
+      "eval_steps_per_second": 10.831,
+      "step": 24
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.15815076231956482,
+      "eval_runtime": 0.2722,
+      "eval_samples_per_second": 338.031,
+      "eval_steps_per_second": 11.023,
+      "step": 27
     },
     {
       "epoch": 10.0,
+      "grad_norm": 7.045929431915283,
       "learning_rate": 4.62962962962963e-05,
+      "loss": 0.1214,
+      "step": 30
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.18020795285701752,
+      "eval_runtime": 0.3138,
+      "eval_samples_per_second": 293.183,
+      "eval_steps_per_second": 9.56,
+      "step": 30
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.1709580272436142,
+      "eval_runtime": 0.2875,
+      "eval_samples_per_second": 319.953,
+      "eval_steps_per_second": 10.433,
+      "step": 33
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.2764737904071808,
+      "eval_runtime": 0.274,
+      "eval_samples_per_second": 335.737,
+      "eval_steps_per_second": 10.948,
+      "step": 36
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.22897538542747498,
+      "eval_runtime": 0.2743,
+      "eval_samples_per_second": 335.388,
+      "eval_steps_per_second": 10.937,
+      "step": 39
     },
     {
       "epoch": 13.333333333333334,
+      "grad_norm": 4.235286235809326,
       "learning_rate": 4.3209876543209875e-05,
+      "loss": 0.0934,
+      "step": 40
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.9239130434782609,
+      "eval_loss": 0.31263482570648193,
+      "eval_runtime": 0.2763,
+      "eval_samples_per_second": 332.946,
+      "eval_steps_per_second": 10.857,
+      "step": 42
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.17815206944942474,
+      "eval_runtime": 0.3126,
+      "eval_samples_per_second": 294.294,
+      "eval_steps_per_second": 9.597,
+      "step": 45
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8804347826086957,
+      "eval_loss": 0.37992385029792786,
+      "eval_runtime": 0.2777,
+      "eval_samples_per_second": 331.253,
+      "eval_steps_per_second": 10.802,
+      "step": 48
     },
     {
       "epoch": 16.666666666666668,
+      "grad_norm": 8.808466911315918,
       "learning_rate": 4.012345679012346e-05,
+      "loss": 0.1525,
+      "step": 50
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.19111250340938568,
+      "eval_runtime": 0.2894,
+      "eval_samples_per_second": 317.845,
+      "eval_steps_per_second": 10.365,
+      "step": 51
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.22915299236774445,
+      "eval_runtime": 0.2754,
+      "eval_samples_per_second": 334.072,
+      "eval_steps_per_second": 10.894,
+      "step": 54
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.9130434782608695,
+      "eval_loss": 0.3240966498851776,
+      "eval_runtime": 0.29,
+      "eval_samples_per_second": 317.233,
+      "eval_steps_per_second": 10.345,
+      "step": 57
     },
     {
       "epoch": 20.0,
+      "grad_norm": 12.596190452575684,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.1551,
+      "step": 60
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.9565217391304348,
+      "eval_loss": 0.17970529198646545,
+      "eval_runtime": 0.2984,
+      "eval_samples_per_second": 308.312,
+      "eval_steps_per_second": 10.054,
+      "step": 60
     },
     {
       "epoch": 21.0,
+      "eval_accuracy": 0.9239130434782609,
+      "eval_loss": 0.2115555703639984,
+      "eval_runtime": 0.2749,
+      "eval_samples_per_second": 334.611,
+      "eval_steps_per_second": 10.911,
+      "step": 63
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.2774827480316162,
+      "eval_runtime": 0.2726,
+      "eval_samples_per_second": 337.516,
+      "eval_steps_per_second": 11.006,
+      "step": 66
     },
     {
       "epoch": 23.0,
+      "eval_accuracy": 0.9239130434782609,
+      "eval_loss": 0.28300002217292786,
+      "eval_runtime": 0.2723,
+      "eval_samples_per_second": 337.81,
+      "eval_steps_per_second": 11.016,
+      "step": 69
     },
     {
       "epoch": 23.333333333333332,
+      "grad_norm": 3.0055344104766846,
       "learning_rate": 3.395061728395062e-05,
+      "loss": 0.0701,
+      "step": 70
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.33308491110801697,
+      "eval_runtime": 0.2939,
+      "eval_samples_per_second": 313.029,
+      "eval_steps_per_second": 10.207,
+      "step": 72
     },
     {
       "epoch": 25.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.27504873275756836,
+      "eval_runtime": 0.2721,
+      "eval_samples_per_second": 338.147,
+      "eval_steps_per_second": 11.027,
+      "step": 75
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2002851665019989,
+      "eval_runtime": 0.3046,
+      "eval_samples_per_second": 302.042,
+      "eval_steps_per_second": 9.849,
+      "step": 78
     },
     {
       "epoch": 26.666666666666668,
+      "grad_norm": 3.5597548484802246,
       "learning_rate": 3.08641975308642e-05,
+      "loss": 0.0733,
+      "step": 80
     },
     {
       "epoch": 27.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2492789775133133,
+      "eval_runtime": 0.2789,
+      "eval_samples_per_second": 329.913,
+      "eval_steps_per_second": 10.758,
+      "step": 81
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2807539105415344,
+      "eval_runtime": 0.2756,
+      "eval_samples_per_second": 333.87,
+      "eval_steps_per_second": 10.887,
+      "step": 84
     },
     {
       "epoch": 29.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2663654088973999,
+      "eval_runtime": 0.2778,
+      "eval_samples_per_second": 331.156,
+      "eval_steps_per_second": 10.799,
+      "step": 87
     },
     {
       "epoch": 30.0,
+      "grad_norm": 2.488931179046631,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0494,
+      "step": 90
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.36214956641197205,
+      "eval_runtime": 0.2768,
+      "eval_samples_per_second": 332.394,
+      "eval_steps_per_second": 10.839,
+      "step": 90
     },
     {
       "epoch": 31.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2520482838153839,
+      "eval_runtime": 0.2749,
+      "eval_samples_per_second": 334.646,
+      "eval_steps_per_second": 10.912,
+      "step": 93
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2721933424472809,
+      "eval_runtime": 0.2755,
+      "eval_samples_per_second": 333.902,
+      "eval_steps_per_second": 10.888,
+      "step": 96
     },
     {
       "epoch": 33.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.27847108244895935,
+      "eval_runtime": 0.277,
+      "eval_samples_per_second": 332.097,
+      "eval_steps_per_second": 10.829,
+      "step": 99
     },
     {
       "epoch": 33.333333333333336,
+      "grad_norm": 13.367582321166992,
       "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.0806,
+      "step": 100
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2530038356781006,
+      "eval_runtime": 0.2765,
+      "eval_samples_per_second": 332.674,
+      "eval_steps_per_second": 10.848,
+      "step": 102
     },
     {
       "epoch": 35.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.22303055226802826,
+      "eval_runtime": 0.2793,
+      "eval_samples_per_second": 329.409,
+      "eval_steps_per_second": 10.742,
+      "step": 105
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.2482990175485611,
+      "eval_runtime": 0.2776,
+      "eval_samples_per_second": 331.464,
+      "eval_steps_per_second": 10.809,
+      "step": 108
     },
     {
       "epoch": 36.666666666666664,
+      "grad_norm": 7.69065523147583,
       "learning_rate": 2.1604938271604937e-05,
+      "loss": 0.0324,
+      "step": 110
     },
     {
       "epoch": 37.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.29446083307266235,
+      "eval_runtime": 0.2954,
+      "eval_samples_per_second": 311.393,
+      "eval_steps_per_second": 10.154,
+      "step": 111
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.3244095742702484,
+      "eval_runtime": 0.2815,
+      "eval_samples_per_second": 326.826,
+      "eval_steps_per_second": 10.657,
+      "step": 114
     },
     {
       "epoch": 39.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.3302266597747803,
+      "eval_runtime": 0.2668,
+      "eval_samples_per_second": 344.764,
+      "eval_steps_per_second": 11.242,
+      "step": 117
     },
     {
       "epoch": 40.0,
+      "grad_norm": 8.54801082611084,
       "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0435,
+      "step": 120
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.331495463848114,
+      "eval_runtime": 0.275,
+      "eval_samples_per_second": 334.557,
+      "eval_steps_per_second": 10.909,
+      "step": 120
     },
     {
       "epoch": 41.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.303882896900177,
+      "eval_runtime": 0.2881,
+      "eval_samples_per_second": 319.318,
+      "eval_steps_per_second": 10.413,
+      "step": 123
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.36054134368896484,
+      "eval_runtime": 0.2765,
+      "eval_samples_per_second": 332.764,
+      "eval_steps_per_second": 10.851,
+      "step": 126
     },
     {
       "epoch": 43.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3643103539943695,
+      "eval_runtime": 0.2772,
+      "eval_samples_per_second": 331.854,
+      "eval_steps_per_second": 10.821,
+      "step": 129
     },
     {
       "epoch": 43.333333333333336,
+      "grad_norm": 5.6320648193359375,
       "learning_rate": 1.54320987654321e-05,
+      "loss": 0.0325,
+      "step": 130
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.34682697057724,
+      "eval_runtime": 0.2993,
+      "eval_samples_per_second": 307.404,
+      "eval_steps_per_second": 10.024,
+      "step": 132
     },
     {
       "epoch": 45.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.33276745676994324,
+      "eval_runtime": 0.2866,
+      "eval_samples_per_second": 321.025,
+      "eval_steps_per_second": 10.468,
+      "step": 135
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3260520398616791,
+      "eval_runtime": 0.2798,
+      "eval_samples_per_second": 328.753,
+      "eval_steps_per_second": 10.72,
+      "step": 138
     },
     {
       "epoch": 46.666666666666664,
+      "grad_norm": 2.9780068397521973,
       "learning_rate": 1.2345679012345678e-05,
+      "loss": 0.0541,
+      "step": 140
     },
     {
       "epoch": 47.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.34095829725265503,
+      "eval_runtime": 0.2824,
+      "eval_samples_per_second": 325.795,
+      "eval_steps_per_second": 10.624,
+      "step": 141
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3532644212245941,
+      "eval_runtime": 0.2895,
+      "eval_samples_per_second": 317.751,
+      "eval_steps_per_second": 10.361,
+      "step": 144
     },
     {
       "epoch": 49.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3564309775829315,
+      "eval_runtime": 0.3048,
+      "eval_samples_per_second": 301.792,
+      "eval_steps_per_second": 9.841,
+      "step": 147
     },
     {
       "epoch": 50.0,
+      "grad_norm": 3.5734236240386963,
       "learning_rate": 9.259259259259259e-06,
+      "loss": 0.022,
+      "step": 150
     },
     {
       "epoch": 50.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3557578921318054,
+      "eval_runtime": 0.2742,
+      "eval_samples_per_second": 335.507,
+      "eval_steps_per_second": 10.94,
+      "step": 150
     },
     {
       "epoch": 51.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.34129852056503296,
+      "eval_runtime": 0.311,
+      "eval_samples_per_second": 295.815,
+      "eval_steps_per_second": 9.646,
+      "step": 153
     },
     {
       "epoch": 52.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.33716654777526855,
+      "eval_runtime": 0.2804,
+      "eval_samples_per_second": 328.129,
+      "eval_steps_per_second": 10.7,
+      "step": 156
     },
     {
       "epoch": 53.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.33803921937942505,
+      "eval_runtime": 0.301,
+      "eval_samples_per_second": 305.697,
+      "eval_steps_per_second": 9.968,
+      "step": 159
     },
     {
       "epoch": 53.333333333333336,
+      "grad_norm": 8.637144088745117,
       "learning_rate": 6.172839506172839e-06,
+      "loss": 0.0226,
+      "step": 160
     },
     {
       "epoch": 54.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.32888463139533997,
+      "eval_runtime": 0.2786,
+      "eval_samples_per_second": 330.184,
+      "eval_steps_per_second": 10.767,
+      "step": 162
     },
     {
       "epoch": 55.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3256872296333313,
+      "eval_runtime": 0.2749,
+      "eval_samples_per_second": 334.655,
+      "eval_steps_per_second": 10.913,
+      "step": 165
     },
     {
       "epoch": 56.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.32627877593040466,
+      "eval_runtime": 0.3023,
+      "eval_samples_per_second": 304.338,
+      "eval_steps_per_second": 9.924,
+      "step": 168
     },
     {
       "epoch": 56.666666666666664,
+      "grad_norm": 4.384215831756592,
       "learning_rate": 3.0864197530864196e-06,
+      "loss": 0.0358,
+      "step": 170
     },
     {
       "epoch": 57.0,
+      "eval_accuracy": 0.9347826086956522,
+      "eval_loss": 0.3316076099872589,
+      "eval_runtime": 0.3111,
+      "eval_samples_per_second": 295.734,
+      "eval_steps_per_second": 9.644,
+      "step": 171
     },
     {
       "epoch": 58.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.3367496728897095,
+      "eval_runtime": 0.2975,
+      "eval_samples_per_second": 309.229,
+      "eval_steps_per_second": 10.084,
+      "step": 174
     },
     {
       "epoch": 59.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.33811014890670776,
+      "eval_runtime": 0.2965,
+      "eval_samples_per_second": 310.296,
+      "eval_steps_per_second": 10.118,
+      "step": 177
     },
     {
       "epoch": 60.0,
+      "grad_norm": 6.692429065704346,
       "learning_rate": 0.0,
+      "loss": 0.0225,
+      "step": 180
     },
     {
       "epoch": 60.0,
+      "eval_accuracy": 0.9456521739130435,
+      "eval_loss": 0.33829161524772644,
+      "eval_runtime": 0.2793,
+      "eval_samples_per_second": 329.443,
+      "eval_steps_per_second": 10.743,
+      "step": 180
     },
     {
       "epoch": 60.0,
+      "step": 180,
+      "total_flos": 4.3676735454019584e+17,
+      "train_loss": 0.10428427308797836,
+      "train_runtime": 199.9604,
+      "train_samples_per_second": 111.622,
+      "train_steps_per_second": 0.9
     }
   ],
   "logging_steps": 10,
+  "max_steps": 180,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 60,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.3676735454019584e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null