End of training

Browse files

Files changed (6) hide show

README.md +1 -1
all_results.json +13 -0
eval_results.json +8 -0
runs/Dec11_14-08-23_ae1aa77fe319/events.out.tfevents.1733926534.ae1aa77fe319.236.1 +3 -0
train_results.json +8 -0
trainer_state.json +834 -0

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0345
 - Accuracy: 0.9840
 ## Model description

 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0718
 - Accuracy: 0.9840
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 60.0,
+    "eval_accuracy": 0.9840425531914894,
+    "eval_loss": 0.0718478411436081,
+    "eval_runtime": 0.629,
+    "eval_samples_per_second": 298.878,
+    "eval_steps_per_second": 9.539,
+    "total_flos": 8.758829206639411e+17,
+    "train_loss": 0.09168570356236563,
+    "train_runtime": 380.8373,
+    "train_samples_per_second": 117.531,
+    "train_steps_per_second": 0.945
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 60.0,
+    "eval_accuracy": 0.9840425531914894,
+    "eval_loss": 0.0718478411436081,
+    "eval_runtime": 0.629,
+    "eval_samples_per_second": 298.878,
+    "eval_steps_per_second": 9.539
+}

runs/Dec11_14-08-23_ae1aa77fe319/events.out.tfevents.1733926534.ae1aa77fe319.236.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:234c971ea03b1d0bb3a5c3a399839cfe6bb57cc13b44dd2f3fc90923be2e0029
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 60.0,
+    "total_flos": 8.758829206639411e+17,
+    "train_loss": 0.09168570356236563,
+    "train_runtime": 380.8373,
+    "train_samples_per_second": 117.531,
+    "train_steps_per_second": 0.945
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,834 @@

+{
+  "best_metric": 0.9840425531914894,
+  "best_model_checkpoint": "vit-msn-small-wbc-blur-detector/checkpoint-72",
+  "epoch": 60.0,
+  "eval_steps": 500,
+  "global_step": 360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7340425531914894,
+      "eval_loss": 0.5712631344795227,
+      "eval_runtime": 0.5622,
+      "eval_samples_per_second": 334.415,
+      "eval_steps_per_second": 10.673,
+      "step": 6
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 10.44019603729248,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.6051,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7659574468085106,
+      "eval_loss": 0.4693465232849121,
+      "eval_runtime": 0.5811,
+      "eval_samples_per_second": 323.506,
+      "eval_steps_per_second": 10.325,
+      "step": 12
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9414893617021277,
+      "eval_loss": 0.1643817126750946,
+      "eval_runtime": 0.6,
+      "eval_samples_per_second": 313.329,
+      "eval_steps_per_second": 10.0,
+      "step": 18
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 8.123635292053223,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2544,
+      "step": 20
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.08451231569051743,
+      "eval_runtime": 0.5515,
+      "eval_samples_per_second": 340.904,
+      "eval_steps_per_second": 10.88,
+      "step": 24
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 37.864131927490234,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.1896,
+      "step": 30
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.09721191227436066,
+      "eval_runtime": 0.5728,
+      "eval_samples_per_second": 328.217,
+      "eval_steps_per_second": 10.475,
+      "step": 30
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.1011401042342186,
+      "eval_runtime": 0.5505,
+      "eval_samples_per_second": 341.503,
+      "eval_steps_per_second": 10.899,
+      "step": 36
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 11.042017936706543,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 0.2534,
+      "step": 40
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.08934129774570465,
+      "eval_runtime": 0.5635,
+      "eval_samples_per_second": 333.602,
+      "eval_steps_per_second": 10.647,
+      "step": 42
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.08766720443964005,
+      "eval_runtime": 0.5541,
+      "eval_samples_per_second": 339.311,
+      "eval_steps_per_second": 10.829,
+      "step": 48
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 8.848210334777832,
+      "learning_rate": 4.783950617283951e-05,
+      "loss": 0.1535,
+      "step": 50
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.10303648561239243,
+      "eval_runtime": 0.5537,
+      "eval_samples_per_second": 339.542,
+      "eval_steps_per_second": 10.836,
+      "step": 54
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 8.038219451904297,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.1277,
+      "step": 60
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.07765703648328781,
+      "eval_runtime": 0.5522,
+      "eval_samples_per_second": 340.451,
+      "eval_steps_per_second": 10.865,
+      "step": 60
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.08228272944688797,
+      "eval_runtime": 0.5522,
+      "eval_samples_per_second": 340.441,
+      "eval_steps_per_second": 10.865,
+      "step": 66
+    },
+    {
+      "epoch": 11.666666666666666,
+      "grad_norm": 11.488448143005371,
+      "learning_rate": 4.4753086419753084e-05,
+      "loss": 0.1147,
+      "step": 70
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.0718478411436081,
+      "eval_runtime": 0.5684,
+      "eval_samples_per_second": 330.757,
+      "eval_steps_per_second": 10.556,
+      "step": 72
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9521276595744681,
+      "eval_loss": 0.09054908156394958,
+      "eval_runtime": 0.5801,
+      "eval_samples_per_second": 324.086,
+      "eval_steps_per_second": 10.343,
+      "step": 78
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 10.379966735839844,
+      "learning_rate": 4.3209876543209875e-05,
+      "loss": 0.112,
+      "step": 80
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9202127659574468,
+      "eval_loss": 0.21216550469398499,
+      "eval_runtime": 0.5499,
+      "eval_samples_per_second": 341.878,
+      "eval_steps_per_second": 10.911,
+      "step": 84
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 6.255307674407959,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.1115,
+      "step": 90
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9414893617021277,
+      "eval_loss": 0.1408630907535553,
+      "eval_runtime": 0.6004,
+      "eval_samples_per_second": 313.12,
+      "eval_steps_per_second": 9.993,
+      "step": 90
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.08175182342529297,
+      "eval_runtime": 0.5516,
+      "eval_samples_per_second": 340.81,
+      "eval_steps_per_second": 10.877,
+      "step": 96
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 32.63232421875,
+      "learning_rate": 4.012345679012346e-05,
+      "loss": 0.107,
+      "step": 100
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.059448737651109695,
+      "eval_runtime": 0.5763,
+      "eval_samples_per_second": 326.236,
+      "eval_steps_per_second": 10.412,
+      "step": 102
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9308510638297872,
+      "eval_loss": 0.16710200905799866,
+      "eval_runtime": 0.5588,
+      "eval_samples_per_second": 336.405,
+      "eval_steps_per_second": 10.736,
+      "step": 108
+    },
+    {
+      "epoch": 18.333333333333332,
+      "grad_norm": 3.7432363033294678,
+      "learning_rate": 3.8580246913580246e-05,
+      "loss": 0.0941,
+      "step": 110
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9308510638297872,
+      "eval_loss": 0.140838161110878,
+      "eval_runtime": 0.5919,
+      "eval_samples_per_second": 317.613,
+      "eval_steps_per_second": 10.137,
+      "step": 114
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 7.966294288635254,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0629,
+      "step": 120
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9414893617021277,
+      "eval_loss": 0.13265569508075714,
+      "eval_runtime": 0.5698,
+      "eval_samples_per_second": 329.925,
+      "eval_steps_per_second": 10.53,
+      "step": 120
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.08957220613956451,
+      "eval_runtime": 0.5645,
+      "eval_samples_per_second": 333.023,
+      "eval_steps_per_second": 10.628,
+      "step": 126
+    },
+    {
+      "epoch": 21.666666666666668,
+      "grad_norm": 6.942417144775391,
+      "learning_rate": 3.5493827160493834e-05,
+      "loss": 0.081,
+      "step": 130
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.09119919687509537,
+      "eval_runtime": 0.5916,
+      "eval_samples_per_second": 317.756,
+      "eval_steps_per_second": 10.141,
+      "step": 132
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9521276595744681,
+      "eval_loss": 0.10360775887966156,
+      "eval_runtime": 0.5817,
+      "eval_samples_per_second": 323.216,
+      "eval_steps_per_second": 10.315,
+      "step": 138
+    },
+    {
+      "epoch": 23.333333333333332,
+      "grad_norm": 3.9243404865264893,
+      "learning_rate": 3.395061728395062e-05,
+      "loss": 0.0706,
+      "step": 140
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9521276595744681,
+      "eval_loss": 0.07820819318294525,
+      "eval_runtime": 0.5573,
+      "eval_samples_per_second": 337.319,
+      "eval_steps_per_second": 10.766,
+      "step": 144
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 5.995626449584961,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.0728,
+      "step": 150
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.06730703264474869,
+      "eval_runtime": 0.564,
+      "eval_samples_per_second": 333.307,
+      "eval_steps_per_second": 10.637,
+      "step": 150
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.13579747080802917,
+      "eval_runtime": 0.5839,
+      "eval_samples_per_second": 321.994,
+      "eval_steps_per_second": 10.276,
+      "step": 156
+    },
+    {
+      "epoch": 26.666666666666668,
+      "grad_norm": 3.335559606552124,
+      "learning_rate": 3.08641975308642e-05,
+      "loss": 0.0535,
+      "step": 160
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.09251847118139267,
+      "eval_runtime": 0.5476,
+      "eval_samples_per_second": 343.33,
+      "eval_steps_per_second": 10.957,
+      "step": 162
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.09499593824148178,
+      "eval_runtime": 0.557,
+      "eval_samples_per_second": 337.516,
+      "eval_steps_per_second": 10.772,
+      "step": 168
+    },
+    {
+      "epoch": 28.333333333333332,
+      "grad_norm": 6.770501136779785,
+      "learning_rate": 2.9320987654320992e-05,
+      "loss": 0.058,
+      "step": 170
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.09998849779367447,
+      "eval_runtime": 0.5597,
+      "eval_samples_per_second": 335.871,
+      "eval_steps_per_second": 10.719,
+      "step": 174
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 19.26597023010254,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0662,
+      "step": 180
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9414893617021277,
+      "eval_loss": 0.251209557056427,
+      "eval_runtime": 0.5694,
+      "eval_samples_per_second": 330.181,
+      "eval_steps_per_second": 10.538,
+      "step": 180
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.06487108021974564,
+      "eval_runtime": 0.5919,
+      "eval_samples_per_second": 317.599,
+      "eval_steps_per_second": 10.136,
+      "step": 186
+    },
+    {
+      "epoch": 31.666666666666668,
+      "grad_norm": 1.7159186601638794,
+      "learning_rate": 2.623456790123457e-05,
+      "loss": 0.0564,
+      "step": 190
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9521276595744681,
+      "eval_loss": 0.13227558135986328,
+      "eval_runtime": 0.5679,
+      "eval_samples_per_second": 331.05,
+      "eval_steps_per_second": 10.565,
+      "step": 192
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.06702585518360138,
+      "eval_runtime": 0.591,
+      "eval_samples_per_second": 318.119,
+      "eval_steps_per_second": 10.153,
+      "step": 198
+    },
+    {
+      "epoch": 33.333333333333336,
+      "grad_norm": 0.7996916770935059,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.0591,
+      "step": 200
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.11914665251970291,
+      "eval_runtime": 0.5866,
+      "eval_samples_per_second": 320.511,
+      "eval_steps_per_second": 10.229,
+      "step": 204
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 3.493698835372925,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0353,
+      "step": 210
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.14858229458332062,
+      "eval_runtime": 0.5761,
+      "eval_samples_per_second": 326.357,
+      "eval_steps_per_second": 10.416,
+      "step": 210
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.08810416609048843,
+      "eval_runtime": 0.5699,
+      "eval_samples_per_second": 329.896,
+      "eval_steps_per_second": 10.529,
+      "step": 216
+    },
+    {
+      "epoch": 36.666666666666664,
+      "grad_norm": 12.2665376663208,
+      "learning_rate": 2.1604938271604937e-05,
+      "loss": 0.0523,
+      "step": 220
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.05061895400285721,
+      "eval_runtime": 0.5644,
+      "eval_samples_per_second": 333.114,
+      "eval_steps_per_second": 10.631,
+      "step": 222
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.10941923409700394,
+      "eval_runtime": 0.5579,
+      "eval_samples_per_second": 336.995,
+      "eval_steps_per_second": 10.755,
+      "step": 228
+    },
+    {
+      "epoch": 38.333333333333336,
+      "grad_norm": 2.317680597305298,
+      "learning_rate": 2.006172839506173e-05,
+      "loss": 0.0471,
+      "step": 230
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.08581092208623886,
+      "eval_runtime": 0.5654,
+      "eval_samples_per_second": 332.53,
+      "eval_steps_per_second": 10.613,
+      "step": 234
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 11.043506622314453,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0671,
+      "step": 240
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.17757754027843475,
+      "eval_runtime": 0.5949,
+      "eval_samples_per_second": 316.026,
+      "eval_steps_per_second": 10.086,
+      "step": 240
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.09706045687198639,
+      "eval_runtime": 0.5628,
+      "eval_samples_per_second": 334.044,
+      "eval_steps_per_second": 10.661,
+      "step": 246
+    },
+    {
+      "epoch": 41.666666666666664,
+      "grad_norm": 2.3154749870300293,
+      "learning_rate": 1.697530864197531e-05,
+      "loss": 0.0459,
+      "step": 250
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.04420238360762596,
+      "eval_runtime": 0.572,
+      "eval_samples_per_second": 328.671,
+      "eval_steps_per_second": 10.489,
+      "step": 252
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.044726960361003876,
+      "eval_runtime": 0.5631,
+      "eval_samples_per_second": 333.838,
+      "eval_steps_per_second": 10.654,
+      "step": 258
+    },
+    {
+      "epoch": 43.333333333333336,
+      "grad_norm": 3.237978935241699,
+      "learning_rate": 1.54320987654321e-05,
+      "loss": 0.0296,
+      "step": 260
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.06447551399469376,
+      "eval_runtime": 0.5649,
+      "eval_samples_per_second": 332.802,
+      "eval_steps_per_second": 10.621,
+      "step": 264
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 15.342556953430176,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0414,
+      "step": 270
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.973404255319149,
+      "eval_loss": 0.07515815645456314,
+      "eval_runtime": 0.5591,
+      "eval_samples_per_second": 336.232,
+      "eval_steps_per_second": 10.731,
+      "step": 270
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9574468085106383,
+      "eval_loss": 0.14192818105220795,
+      "eval_runtime": 0.5561,
+      "eval_samples_per_second": 338.082,
+      "eval_steps_per_second": 10.79,
+      "step": 276
+    },
+    {
+      "epoch": 46.666666666666664,
+      "grad_norm": 3.4594690799713135,
+      "learning_rate": 1.2345679012345678e-05,
+      "loss": 0.0352,
+      "step": 280
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.04251508414745331,
+      "eval_runtime": 0.5605,
+      "eval_samples_per_second": 335.419,
+      "eval_steps_per_second": 10.705,
+      "step": 282
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.06410356611013412,
+      "eval_runtime": 0.5687,
+      "eval_samples_per_second": 330.571,
+      "eval_steps_per_second": 10.55,
+      "step": 288
+    },
+    {
+      "epoch": 48.333333333333336,
+      "grad_norm": 2.795865774154663,
+      "learning_rate": 1.0802469135802469e-05,
+      "loss": 0.0342,
+      "step": 290
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9680851063829787,
+      "eval_loss": 0.11264320462942123,
+      "eval_runtime": 0.5453,
+      "eval_samples_per_second": 344.776,
+      "eval_steps_per_second": 11.003,
+      "step": 294
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 4.04909086227417,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0277,
+      "step": 300
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.054132696241140366,
+      "eval_runtime": 0.5421,
+      "eval_samples_per_second": 346.78,
+      "eval_steps_per_second": 11.067,
+      "step": 300
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.07527489215135574,
+      "eval_runtime": 0.5567,
+      "eval_samples_per_second": 337.676,
+      "eval_steps_per_second": 10.777,
+      "step": 306
+    },
+    {
+      "epoch": 51.666666666666664,
+      "grad_norm": 1.1342123746871948,
+      "learning_rate": 7.71604938271605e-06,
+      "loss": 0.0392,
+      "step": 310
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9787234042553191,
+      "eval_loss": 0.04125715419650078,
+      "eval_runtime": 0.5747,
+      "eval_samples_per_second": 327.145,
+      "eval_steps_per_second": 10.441,
+      "step": 312
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.11188509315252304,
+      "eval_runtime": 0.5497,
+      "eval_samples_per_second": 341.985,
+      "eval_steps_per_second": 10.914,
+      "step": 318
+    },
+    {
+      "epoch": 53.333333333333336,
+      "grad_norm": 4.390924453735352,
+      "learning_rate": 6.172839506172839e-06,
+      "loss": 0.0299,
+      "step": 320
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9627659574468085,
+      "eval_loss": 0.08185816556215286,
+      "eval_runtime": 0.5785,
+      "eval_samples_per_second": 324.999,
+      "eval_steps_per_second": 10.372,
+      "step": 324
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 1.3617689609527588,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.0295,
+      "step": 330
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.0335795022547245,
+      "eval_runtime": 0.5553,
+      "eval_samples_per_second": 338.529,
+      "eval_steps_per_second": 10.804,
+      "step": 330
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.039023175835609436,
+      "eval_runtime": 0.5576,
+      "eval_samples_per_second": 337.161,
+      "eval_steps_per_second": 10.76,
+      "step": 336
+    },
+    {
+      "epoch": 56.666666666666664,
+      "grad_norm": 0.5556619763374329,
+      "learning_rate": 3.0864197530864196e-06,
+      "loss": 0.0253,
+      "step": 340
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.03277648240327835,
+      "eval_runtime": 0.5626,
+      "eval_samples_per_second": 334.143,
+      "eval_steps_per_second": 10.664,
+      "step": 342
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.0343145877122879,
+      "eval_runtime": 0.5708,
+      "eval_samples_per_second": 329.368,
+      "eval_steps_per_second": 10.512,
+      "step": 348
+    },
+    {
+      "epoch": 58.333333333333336,
+      "grad_norm": 0.7165215611457825,
+      "learning_rate": 1.5432098765432098e-06,
+      "loss": 0.0264,
+      "step": 350
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.03521186113357544,
+      "eval_runtime": 0.5748,
+      "eval_samples_per_second": 327.069,
+      "eval_steps_per_second": 10.438,
+      "step": 354
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 5.298318386077881,
+      "learning_rate": 0.0,
+      "loss": 0.0308,
+      "step": 360
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9840425531914894,
+      "eval_loss": 0.03450946509838104,
+      "eval_runtime": 0.5861,
+      "eval_samples_per_second": 320.783,
+      "eval_steps_per_second": 10.238,
+      "step": 360
+    },
+    {
+      "epoch": 60.0,
+      "step": 360,
+      "total_flos": 8.758829206639411e+17,
+      "train_loss": 0.09168570356236563,
+      "train_runtime": 380.8373,
+      "train_samples_per_second": 117.531,
+      "train_steps_per_second": 0.945
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 360,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 60,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.758829206639411e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}