End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +13 -0
eval_results.json +8 -0
runs/Jan27_17-36-47_db1093ce036b/events.out.tfevents.1737999760.db1093ce036b.224.13 +3 -0
train_results.json +8 -0
trainer_state.json +760 -0

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.875
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3460
-- Accuracy: 0.875
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9166666666666666
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [facebook/vit-msn-small](https://huggingface.co/facebook/vit-msn-small) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3267
+- Accuracy: 0.9167
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 71.42857142857143,
+    "eval_accuracy": 0.9166666666666666,
+    "eval_loss": 0.32666629552841187,
+    "eval_runtime": 0.6636,
+    "eval_samples_per_second": 216.992,
+    "eval_steps_per_second": 4.521,
+    "total_flos": 5.956344520589353e+17,
+    "train_loss": 0.420122013092041,
+    "train_runtime": 326.0769,
+    "train_samples_per_second": 130.644,
+    "train_steps_per_second": 0.307
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 71.42857142857143,
+    "eval_accuracy": 0.9166666666666666,
+    "eval_loss": 0.32666629552841187,
+    "eval_runtime": 0.6636,
+    "eval_samples_per_second": 216.992,
+    "eval_steps_per_second": 4.521
+}

runs/Jan27_17-36-47_db1093ce036b/events.out.tfevents.1737999760.db1093ce036b.224.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aba0b9a87ddf06d3dcb060be2f5daa2663797604169303edcca562e77cafe45f
+size 405

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 71.42857142857143,
+    "total_flos": 5.956344520589353e+17,
+    "train_loss": 0.420122013092041,
+    "train_runtime": 326.0769,
+    "train_samples_per_second": 130.644,
+    "train_steps_per_second": 0.307
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,760 @@

+{
+  "best_metric": 0.32666629552841187,
+  "best_model_checkpoint": "vit-msn-small-beta-fia-manually-enhanced-HSV_test_5/checkpoint-44",
+  "epoch": 71.42857142857143,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7142857142857143,
+      "eval_accuracy": 0.22916666666666666,
+      "eval_loss": 1.1105738878250122,
+      "eval_runtime": 0.6997,
+      "eval_samples_per_second": 205.812,
+      "eval_steps_per_second": 4.288,
+      "step": 1
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "eval_accuracy": 0.2569444444444444,
+      "eval_loss": 1.098416805267334,
+      "eval_runtime": 0.6273,
+      "eval_samples_per_second": 229.555,
+      "eval_steps_per_second": 4.782,
+      "step": 2
+    },
+    {
+      "epoch": 2.857142857142857,
+      "eval_accuracy": 0.4097222222222222,
+      "eval_loss": 1.039996862411499,
+      "eval_runtime": 0.6547,
+      "eval_samples_per_second": 219.941,
+      "eval_steps_per_second": 4.582,
+      "step": 4
+    },
+    {
+      "epoch": 3.571428571428571,
+      "eval_accuracy": 0.5486111111111112,
+      "eval_loss": 0.99596107006073,
+      "eval_runtime": 0.6487,
+      "eval_samples_per_second": 221.995,
+      "eval_steps_per_second": 4.625,
+      "step": 5
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7291666666666666,
+      "eval_loss": 0.8868050575256348,
+      "eval_runtime": 0.7036,
+      "eval_samples_per_second": 204.658,
+      "eval_steps_per_second": 4.264,
+      "step": 7
+    },
+    {
+      "epoch": 5.714285714285714,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.8263272047042847,
+      "eval_runtime": 0.7254,
+      "eval_samples_per_second": 198.509,
+      "eval_steps_per_second": 4.136,
+      "step": 8
+    },
+    {
+      "epoch": 6.428571428571429,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.7650943994522095,
+      "eval_runtime": 0.6223,
+      "eval_samples_per_second": 231.4,
+      "eval_steps_per_second": 4.821,
+      "step": 9
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 13.31224536895752,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.9808,
+      "step": 10
+    },
+    {
+      "epoch": 7.857142857142857,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.6520677208900452,
+      "eval_runtime": 0.6795,
+      "eval_samples_per_second": 211.923,
+      "eval_steps_per_second": 4.415,
+      "step": 11
+    },
+    {
+      "epoch": 8.571428571428571,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.605199933052063,
+      "eval_runtime": 0.6616,
+      "eval_samples_per_second": 217.658,
+      "eval_steps_per_second": 4.535,
+      "step": 12
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.538772702217102,
+      "eval_runtime": 0.6326,
+      "eval_samples_per_second": 227.627,
+      "eval_steps_per_second": 4.742,
+      "step": 14
+    },
+    {
+      "epoch": 10.714285714285714,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.5174447894096375,
+      "eval_runtime": 0.6152,
+      "eval_samples_per_second": 234.055,
+      "eval_steps_per_second": 4.876,
+      "step": 15
+    },
+    {
+      "epoch": 11.428571428571429,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.503182590007782,
+      "eval_runtime": 0.6377,
+      "eval_samples_per_second": 225.804,
+      "eval_steps_per_second": 4.704,
+      "step": 16
+    },
+    {
+      "epoch": 12.857142857142858,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.5022291541099548,
+      "eval_runtime": 0.6473,
+      "eval_samples_per_second": 222.471,
+      "eval_steps_per_second": 4.635,
+      "step": 18
+    },
+    {
+      "epoch": 13.571428571428571,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.5044423341751099,
+      "eval_runtime": 0.6293,
+      "eval_samples_per_second": 228.838,
+      "eval_steps_per_second": 4.767,
+      "step": 19
+    },
+    {
+      "epoch": 14.285714285714286,
+      "grad_norm": 3.2047011852264404,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.5431,
+      "step": 20
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.47730180621147156,
+      "eval_runtime": 0.7212,
+      "eval_samples_per_second": 199.678,
+      "eval_steps_per_second": 4.16,
+      "step": 21
+    },
+    {
+      "epoch": 15.714285714285714,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.4439104497432709,
+      "eval_runtime": 0.6519,
+      "eval_samples_per_second": 220.904,
+      "eval_steps_per_second": 4.602,
+      "step": 22
+    },
+    {
+      "epoch": 16.428571428571427,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.41979074478149414,
+      "eval_runtime": 0.6167,
+      "eval_samples_per_second": 233.497,
+      "eval_steps_per_second": 4.865,
+      "step": 23
+    },
+    {
+      "epoch": 17.857142857142858,
+      "eval_accuracy": 0.8819444444444444,
+      "eval_loss": 0.38726139068603516,
+      "eval_runtime": 0.626,
+      "eval_samples_per_second": 230.043,
+      "eval_steps_per_second": 4.793,
+      "step": 25
+    },
+    {
+      "epoch": 18.571428571428573,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.37299442291259766,
+      "eval_runtime": 0.6291,
+      "eval_samples_per_second": 228.912,
+      "eval_steps_per_second": 4.769,
+      "step": 26
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9027777777777778,
+      "eval_loss": 0.3773989677429199,
+      "eval_runtime": 0.63,
+      "eval_samples_per_second": 228.574,
+      "eval_steps_per_second": 4.762,
+      "step": 28
+    },
+    {
+      "epoch": 20.714285714285715,
+      "eval_accuracy": 0.9097222222222222,
+      "eval_loss": 0.37053972482681274,
+      "eval_runtime": 0.6212,
+      "eval_samples_per_second": 231.817,
+      "eval_steps_per_second": 4.83,
+      "step": 29
+    },
+    {
+      "epoch": 21.428571428571427,
+      "grad_norm": 5.860249996185303,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.4028,
+      "step": 30
+    },
+    {
+      "epoch": 21.428571428571427,
+      "eval_accuracy": 0.9097222222222222,
+      "eval_loss": 0.3586524724960327,
+      "eval_runtime": 0.6377,
+      "eval_samples_per_second": 225.813,
+      "eval_steps_per_second": 4.704,
+      "step": 30
+    },
+    {
+      "epoch": 22.857142857142858,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.36622118949890137,
+      "eval_runtime": 0.6654,
+      "eval_samples_per_second": 216.406,
+      "eval_steps_per_second": 4.508,
+      "step": 32
+    },
+    {
+      "epoch": 23.571428571428573,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.37790825963020325,
+      "eval_runtime": 0.6384,
+      "eval_samples_per_second": 225.558,
+      "eval_steps_per_second": 4.699,
+      "step": 33
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.43221160769462585,
+      "eval_runtime": 0.6264,
+      "eval_samples_per_second": 229.872,
+      "eval_steps_per_second": 4.789,
+      "step": 35
+    },
+    {
+      "epoch": 25.714285714285715,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.39439037442207336,
+      "eval_runtime": 0.6534,
+      "eval_samples_per_second": 220.396,
+      "eval_steps_per_second": 4.592,
+      "step": 36
+    },
+    {
+      "epoch": 26.428571428571427,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.3585418462753296,
+      "eval_runtime": 0.6327,
+      "eval_samples_per_second": 227.579,
+      "eval_steps_per_second": 4.741,
+      "step": 37
+    },
+    {
+      "epoch": 27.857142857142858,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.3607942461967468,
+      "eval_runtime": 0.6624,
+      "eval_samples_per_second": 217.391,
+      "eval_steps_per_second": 4.529,
+      "step": 39
+    },
+    {
+      "epoch": 28.571428571428573,
+      "grad_norm": 3.4132988452911377,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3497,
+      "step": 40
+    },
+    {
+      "epoch": 28.571428571428573,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.39719662070274353,
+      "eval_runtime": 0.643,
+      "eval_samples_per_second": 223.955,
+      "eval_steps_per_second": 4.666,
+      "step": 40
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.3804582953453064,
+      "eval_runtime": 0.6301,
+      "eval_samples_per_second": 228.526,
+      "eval_steps_per_second": 4.761,
+      "step": 42
+    },
+    {
+      "epoch": 30.714285714285715,
+      "eval_accuracy": 0.8819444444444444,
+      "eval_loss": 0.3610667586326599,
+      "eval_runtime": 0.6248,
+      "eval_samples_per_second": 230.471,
+      "eval_steps_per_second": 4.801,
+      "step": 43
+    },
+    {
+      "epoch": 31.428571428571427,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.32666629552841187,
+      "eval_runtime": 0.6456,
+      "eval_samples_per_second": 223.058,
+      "eval_steps_per_second": 4.647,
+      "step": 44
+    },
+    {
+      "epoch": 32.857142857142854,
+      "eval_accuracy": 0.9027777777777778,
+      "eval_loss": 0.3402611017227173,
+      "eval_runtime": 0.6337,
+      "eval_samples_per_second": 227.247,
+      "eval_steps_per_second": 4.734,
+      "step": 46
+    },
+    {
+      "epoch": 33.57142857142857,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.37514248490333557,
+      "eval_runtime": 0.7032,
+      "eval_samples_per_second": 204.765,
+      "eval_steps_per_second": 4.266,
+      "step": 47
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.3801332414150238,
+      "eval_runtime": 0.659,
+      "eval_samples_per_second": 218.502,
+      "eval_steps_per_second": 4.552,
+      "step": 49
+    },
+    {
+      "epoch": 35.714285714285715,
+      "grad_norm": 6.472348213195801,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3278,
+      "step": 50
+    },
+    {
+      "epoch": 35.714285714285715,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.34991347789764404,
+      "eval_runtime": 0.6712,
+      "eval_samples_per_second": 214.545,
+      "eval_steps_per_second": 4.47,
+      "step": 50
+    },
+    {
+      "epoch": 36.42857142857143,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.33839675784111023,
+      "eval_runtime": 0.6365,
+      "eval_samples_per_second": 226.231,
+      "eval_steps_per_second": 4.713,
+      "step": 51
+    },
+    {
+      "epoch": 37.857142857142854,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.3642105460166931,
+      "eval_runtime": 0.6301,
+      "eval_samples_per_second": 228.534,
+      "eval_steps_per_second": 4.761,
+      "step": 53
+    },
+    {
+      "epoch": 38.57142857142857,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.3996630907058716,
+      "eval_runtime": 0.6609,
+      "eval_samples_per_second": 217.89,
+      "eval_steps_per_second": 4.539,
+      "step": 54
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.3843066394329071,
+      "eval_runtime": 0.6636,
+      "eval_samples_per_second": 216.984,
+      "eval_steps_per_second": 4.521,
+      "step": 56
+    },
+    {
+      "epoch": 40.714285714285715,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.3675690293312073,
+      "eval_runtime": 0.6194,
+      "eval_samples_per_second": 232.479,
+      "eval_steps_per_second": 4.843,
+      "step": 57
+    },
+    {
+      "epoch": 41.42857142857143,
+      "eval_accuracy": 0.9027777777777778,
+      "eval_loss": 0.3464236557483673,
+      "eval_runtime": 0.6267,
+      "eval_samples_per_second": 229.775,
+      "eval_steps_per_second": 4.787,
+      "step": 58
+    },
+    {
+      "epoch": 42.857142857142854,
+      "grad_norm": 6.519013404846191,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.3334,
+      "step": 60
+    },
+    {
+      "epoch": 42.857142857142854,
+      "eval_accuracy": 0.8819444444444444,
+      "eval_loss": 0.36175864934921265,
+      "eval_runtime": 0.7106,
+      "eval_samples_per_second": 202.636,
+      "eval_steps_per_second": 4.222,
+      "step": 60
+    },
+    {
+      "epoch": 43.57142857142857,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.40056005120277405,
+      "eval_runtime": 0.6703,
+      "eval_samples_per_second": 214.814,
+      "eval_steps_per_second": 4.475,
+      "step": 61
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.7638888888888888,
+      "eval_loss": 0.49312081933021545,
+      "eval_runtime": 0.7051,
+      "eval_samples_per_second": 204.23,
+      "eval_steps_per_second": 4.255,
+      "step": 63
+    },
+    {
+      "epoch": 45.714285714285715,
+      "eval_accuracy": 0.7708333333333334,
+      "eval_loss": 0.48445218801498413,
+      "eval_runtime": 0.71,
+      "eval_samples_per_second": 202.808,
+      "eval_steps_per_second": 4.225,
+      "step": 64
+    },
+    {
+      "epoch": 46.42857142857143,
+      "eval_accuracy": 0.7916666666666666,
+      "eval_loss": 0.4485209286212921,
+      "eval_runtime": 0.6303,
+      "eval_samples_per_second": 228.459,
+      "eval_steps_per_second": 4.76,
+      "step": 65
+    },
+    {
+      "epoch": 47.857142857142854,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.378328800201416,
+      "eval_runtime": 0.6131,
+      "eval_samples_per_second": 234.855,
+      "eval_steps_per_second": 4.893,
+      "step": 67
+    },
+    {
+      "epoch": 48.57142857142857,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.37234801054000854,
+      "eval_runtime": 0.6727,
+      "eval_samples_per_second": 214.05,
+      "eval_steps_per_second": 4.459,
+      "step": 68
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 5.204492092132568,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.3334,
+      "step": 70
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.407737672328949,
+      "eval_runtime": 0.6505,
+      "eval_samples_per_second": 221.382,
+      "eval_steps_per_second": 4.612,
+      "step": 70
+    },
+    {
+      "epoch": 50.714285714285715,
+      "eval_accuracy": 0.7986111111111112,
+      "eval_loss": 0.4380877912044525,
+      "eval_runtime": 0.7093,
+      "eval_samples_per_second": 203.024,
+      "eval_steps_per_second": 4.23,
+      "step": 71
+    },
+    {
+      "epoch": 51.42857142857143,
+      "eval_accuracy": 0.7847222222222222,
+      "eval_loss": 0.46269893646240234,
+      "eval_runtime": 0.6731,
+      "eval_samples_per_second": 213.937,
+      "eval_steps_per_second": 4.457,
+      "step": 72
+    },
+    {
+      "epoch": 52.857142857142854,
+      "eval_accuracy": 0.7986111111111112,
+      "eval_loss": 0.44445788860321045,
+      "eval_runtime": 0.6372,
+      "eval_samples_per_second": 225.995,
+      "eval_steps_per_second": 4.708,
+      "step": 74
+    },
+    {
+      "epoch": 53.57142857142857,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.41410741209983826,
+      "eval_runtime": 0.6728,
+      "eval_samples_per_second": 214.026,
+      "eval_steps_per_second": 4.459,
+      "step": 75
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.3488573431968689,
+      "eval_runtime": 0.6306,
+      "eval_samples_per_second": 228.368,
+      "eval_steps_per_second": 4.758,
+      "step": 77
+    },
+    {
+      "epoch": 55.714285714285715,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.33705562353134155,
+      "eval_runtime": 0.6859,
+      "eval_samples_per_second": 209.945,
+      "eval_steps_per_second": 4.374,
+      "step": 78
+    },
+    {
+      "epoch": 56.42857142857143,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.3358408510684967,
+      "eval_runtime": 0.6867,
+      "eval_samples_per_second": 209.701,
+      "eval_steps_per_second": 4.369,
+      "step": 79
+    },
+    {
+      "epoch": 57.142857142857146,
+      "grad_norm": 5.973431587219238,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.3105,
+      "step": 80
+    },
+    {
+      "epoch": 57.857142857142854,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.3538711965084076,
+      "eval_runtime": 0.7307,
+      "eval_samples_per_second": 197.072,
+      "eval_steps_per_second": 4.106,
+      "step": 81
+    },
+    {
+      "epoch": 58.57142857142857,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.3678491413593292,
+      "eval_runtime": 0.6126,
+      "eval_samples_per_second": 235.055,
+      "eval_steps_per_second": 4.897,
+      "step": 82
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.3930552899837494,
+      "eval_runtime": 0.633,
+      "eval_samples_per_second": 227.478,
+      "eval_steps_per_second": 4.739,
+      "step": 84
+    },
+    {
+      "epoch": 60.714285714285715,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.3938286006450653,
+      "eval_runtime": 0.6516,
+      "eval_samples_per_second": 220.996,
+      "eval_steps_per_second": 4.604,
+      "step": 85
+    },
+    {
+      "epoch": 61.42857142857143,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.3896949589252472,
+      "eval_runtime": 0.6582,
+      "eval_samples_per_second": 218.793,
+      "eval_steps_per_second": 4.558,
+      "step": 86
+    },
+    {
+      "epoch": 62.857142857142854,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.3637922406196594,
+      "eval_runtime": 0.6651,
+      "eval_samples_per_second": 216.505,
+      "eval_steps_per_second": 4.511,
+      "step": 88
+    },
+    {
+      "epoch": 63.57142857142857,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.34960028529167175,
+      "eval_runtime": 0.6331,
+      "eval_samples_per_second": 227.443,
+      "eval_steps_per_second": 4.738,
+      "step": 89
+    },
+    {
+      "epoch": 64.28571428571429,
+      "grad_norm": 6.167888164520264,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.3061,
+      "step": 90
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.3304632306098938,
+      "eval_runtime": 0.6686,
+      "eval_samples_per_second": 215.369,
+      "eval_steps_per_second": 4.487,
+      "step": 91
+    },
+    {
+      "epoch": 65.71428571428571,
+      "eval_accuracy": 0.9027777777777778,
+      "eval_loss": 0.3283728361129761,
+      "eval_runtime": 0.6659,
+      "eval_samples_per_second": 216.261,
+      "eval_steps_per_second": 4.505,
+      "step": 92
+    },
+    {
+      "epoch": 66.42857142857143,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.3283740282058716,
+      "eval_runtime": 0.6699,
+      "eval_samples_per_second": 214.972,
+      "eval_steps_per_second": 4.479,
+      "step": 93
+    },
+    {
+      "epoch": 67.85714285714286,
+      "eval_accuracy": 0.8958333333333334,
+      "eval_loss": 0.33374664187431335,
+      "eval_runtime": 0.668,
+      "eval_samples_per_second": 215.572,
+      "eval_steps_per_second": 4.491,
+      "step": 95
+    },
+    {
+      "epoch": 68.57142857142857,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.33741050958633423,
+      "eval_runtime": 0.6191,
+      "eval_samples_per_second": 232.594,
+      "eval_steps_per_second": 4.846,
+      "step": 96
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.34418821334838867,
+      "eval_runtime": 0.6959,
+      "eval_samples_per_second": 206.929,
+      "eval_steps_per_second": 4.311,
+      "step": 98
+    },
+    {
+      "epoch": 70.71428571428571,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.34521356225013733,
+      "eval_runtime": 0.6376,
+      "eval_samples_per_second": 225.852,
+      "eval_steps_per_second": 4.705,
+      "step": 99
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 5.671431541442871,
+      "learning_rate": 0.0,
+      "loss": 0.3137,
+      "step": 100
+    },
+    {
+      "epoch": 71.42857142857143,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.3459942042827606,
+      "eval_runtime": 0.7141,
+      "eval_samples_per_second": 201.642,
+      "eval_steps_per_second": 4.201,
+      "step": 100
+    },
+    {
+      "epoch": 71.42857142857143,
+      "step": 100,
+      "total_flos": 5.956344520589353e+17,
+      "train_loss": 0.420122013092041,
+      "train_runtime": 326.0769,
+      "train_samples_per_second": 130.644,
+      "train_steps_per_second": 0.307
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.956344520589353e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}