Training in progress, epoch 0

Browse files

Files changed (5) hide show

all_results.json +8 -0
pytorch_model.bin +1 -1
test_results.json +8 -0
trainer_state.json +1012 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.2,
+    "eval_accuracy": 0.9930693069306931,
+    "eval_loss": 0.032540928572416306,
+    "eval_runtime": 127.8623,
+    "eval_samples_per_second": 7.899,
+    "eval_steps_per_second": 3.95
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3908d673d4bad6d16d6b2d0f84907cb80139e91514a31e87cf619685e5024a1c
 size 345003509

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e7ffe9ccd9ca241e1634de295eb8f66c7151af6db6fbb003bba131ded76822d
 size 345003509

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.2,
+    "eval_accuracy": 0.9930693069306931,
+    "eval_loss": 0.032540928572416306,
+    "eval_runtime": 127.8623,
+    "eval_samples_per_second": 7.899,
+    "eval_steps_per_second": 3.95
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1012 @@

+{
+  "best_metric": 1.0,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-1540",
+  "epoch": 4.197402597402597,
+  "global_step": 1540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 3.2467532467532465e-06,
+      "loss": 2.371,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6.493506493506493e-06,
+      "loss": 2.3544,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.740259740259742e-06,
+      "loss": 2.3804,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.2987012987012986e-05,
+      "loss": 2.1976,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.6233766233766234e-05,
+      "loss": 2.2581,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9480519480519483e-05,
+      "loss": 2.3111,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 2.3106,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.5974025974025972e-05,
+      "loss": 2.141,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.922077922077922e-05,
+      "loss": 2.2013,
+      "step": 90
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.246753246753247e-05,
+      "loss": 2.14,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 2.0491,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.8961038961038966e-05,
+      "loss": 1.7111,
+      "step": 120
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.220779220779221e-05,
+      "loss": 1.6285,
+      "step": 130
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 1.8353,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.87012987012987e-05,
+      "loss": 1.5636,
+      "step": 150
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.978354978354979e-05,
+      "loss": 1.5912,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.9422799422799424e-05,
+      "loss": 1.3838,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9062049062049066e-05,
+      "loss": 1.607,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.87012987012987e-05,
+      "loss": 1.2506,
+      "step": 190
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.834054834054834e-05,
+      "loss": 1.4536,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.797979797979798e-05,
+      "loss": 1.1586,
+      "step": 210
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 1.0506,
+      "step": 220
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.725829725829726e-05,
+      "loss": 1.2725,
+      "step": 230
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.6897546897546904e-05,
+      "loss": 1.4716,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.653679653679654e-05,
+      "loss": 0.6488,
+      "step": 250
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.617604617604618e-05,
+      "loss": 0.4272,
+      "step": 260
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.5815295815295817e-05,
+      "loss": 1.3825,
+      "step": 270
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.8926,
+      "step": 280
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.5093795093795094e-05,
+      "loss": 0.1798,
+      "step": 290
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.4733044733044736e-05,
+      "loss": 0.6196,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.6438356164383562,
+      "eval_loss": 0.970087468624115,
+      "eval_runtime": 27.779,
+      "eval_samples_per_second": 7.884,
+      "eval_steps_per_second": 3.96,
+      "step": 309
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.437229437229438e-05,
+      "loss": 1.2441,
+      "step": 310
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.401154401154401e-05,
+      "loss": 0.632,
+      "step": 320
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.3650793650793655e-05,
+      "loss": 0.9114,
+      "step": 330
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 4.329004329004329e-05,
+      "loss": 0.6274,
+      "step": 340
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.292929292929293e-05,
+      "loss": 0.6229,
+      "step": 350
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.256854256854257e-05,
+      "loss": 0.5724,
+      "step": 360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.220779220779221e-05,
+      "loss": 0.5662,
+      "step": 370
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.184704184704185e-05,
+      "loss": 0.9723,
+      "step": 380
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.148629148629149e-05,
+      "loss": 0.3876,
+      "step": 390
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.112554112554113e-05,
+      "loss": 0.5582,
+      "step": 400
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.0764790764790763e-05,
+      "loss": 0.5509,
+      "step": 410
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.0404040404040405e-05,
+      "loss": 0.3355,
+      "step": 420
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.004329004329004e-05,
+      "loss": 0.297,
+      "step": 430
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.4709,
+      "step": 440
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3.9321789321789324e-05,
+      "loss": 0.3066,
+      "step": 450
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.8961038961038966e-05,
+      "loss": 0.9948,
+      "step": 460
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.86002886002886e-05,
+      "loss": 0.5551,
+      "step": 470
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.8239538239538244e-05,
+      "loss": 0.4996,
+      "step": 480
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 3.787878787878788e-05,
+      "loss": 0.1511,
+      "step": 490
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 3.751803751803752e-05,
+      "loss": 0.9123,
+      "step": 500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.7157287157287156e-05,
+      "loss": 0.4422,
+      "step": 510
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.67965367965368e-05,
+      "loss": 0.8064,
+      "step": 520
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.643578643578644e-05,
+      "loss": 0.3332,
+      "step": 530
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3.6075036075036075e-05,
+      "loss": 0.141,
+      "step": 540
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.2082,
+      "step": 550
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.535353535353535e-05,
+      "loss": 0.388,
+      "step": 560
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3.4992784992784994e-05,
+      "loss": 0.9416,
+      "step": 570
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.463203463203463e-05,
+      "loss": 0.1318,
+      "step": 580
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.427128427128427e-05,
+      "loss": 0.358,
+      "step": 590
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 3.391053391053391e-05,
+      "loss": 0.9192,
+      "step": 600
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.3549783549783555e-05,
+      "loss": 0.6286,
+      "step": 610
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.8356164383561644,
+      "eval_loss": 0.39893510937690735,
+      "eval_runtime": 27.6316,
+      "eval_samples_per_second": 7.926,
+      "eval_steps_per_second": 3.981,
+      "step": 618
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.318903318903319e-05,
+      "loss": 0.544,
+      "step": 620
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 3.282828282828283e-05,
+      "loss": 0.2274,
+      "step": 630
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 3.246753246753247e-05,
+      "loss": 0.1103,
+      "step": 640
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.210678210678211e-05,
+      "loss": 0.5241,
+      "step": 650
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.1825,
+      "step": 660
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 3.1385281385281387e-05,
+      "loss": 0.0486,
+      "step": 670
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.102453102453103e-05,
+      "loss": 0.2033,
+      "step": 680
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 3.0663780663780664e-05,
+      "loss": 0.264,
+      "step": 690
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 3.0303030303030306e-05,
+      "loss": 0.4847,
+      "step": 700
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 2.9942279942279944e-05,
+      "loss": 0.3505,
+      "step": 710
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 2.9581529581529583e-05,
+      "loss": 0.0655,
+      "step": 720
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 2.922077922077922e-05,
+      "loss": 0.0815,
+      "step": 730
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 2.886002886002886e-05,
+      "loss": 0.4071,
+      "step": 740
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 2.8499278499278502e-05,
+      "loss": 0.5683,
+      "step": 750
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 2.813852813852814e-05,
+      "loss": 0.4974,
+      "step": 760
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0227,
+      "step": 770
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 2.7417027417027418e-05,
+      "loss": 0.2471,
+      "step": 780
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 2.7056277056277056e-05,
+      "loss": 0.0955,
+      "step": 790
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.6695526695526695e-05,
+      "loss": 0.5168,
+      "step": 800
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.6334776334776333e-05,
+      "loss": 0.3265,
+      "step": 810
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 2.5974025974025972e-05,
+      "loss": 0.0915,
+      "step": 820
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.5613275613275617e-05,
+      "loss": 0.2889,
+      "step": 830
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.5252525252525256e-05,
+      "loss": 0.7475,
+      "step": 840
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 2.4891774891774894e-05,
+      "loss": 0.1556,
+      "step": 850
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.4531024531024533e-05,
+      "loss": 0.3085,
+      "step": 860
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.417027417027417e-05,
+      "loss": 0.1803,
+      "step": 870
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.537,
+      "step": 880
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.3448773448773452e-05,
+      "loss": 0.0856,
+      "step": 890
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.308802308802309e-05,
+      "loss": 0.0916,
+      "step": 900
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 2.272727272727273e-05,
+      "loss": 0.0067,
+      "step": 910
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 2.2366522366522368e-05,
+      "loss": 0.1874,
+      "step": 920
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 0.9863013698630136,
+      "eval_loss": 0.029501434415578842,
+      "eval_runtime": 29.1447,
+      "eval_samples_per_second": 7.514,
+      "eval_steps_per_second": 3.774,
+      "step": 927
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.2005772005772006e-05,
+      "loss": 0.2108,
+      "step": 930
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 2.1645021645021645e-05,
+      "loss": 0.0128,
+      "step": 940
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 2.1284271284271284e-05,
+      "loss": 0.1758,
+      "step": 950
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 2.0923520923520926e-05,
+      "loss": 0.2967,
+      "step": 960
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 2.0562770562770564e-05,
+      "loss": 0.0074,
+      "step": 970
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 2.0202020202020203e-05,
+      "loss": 0.0223,
+      "step": 980
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 1.984126984126984e-05,
+      "loss": 0.329,
+      "step": 990
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 1.9480519480519483e-05,
+      "loss": 0.6423,
+      "step": 1000
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 1.9119769119769122e-05,
+      "loss": 0.0031,
+      "step": 1010
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 1.875901875901876e-05,
+      "loss": 0.0095,
+      "step": 1020
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.83982683982684e-05,
+      "loss": 0.2479,
+      "step": 1030
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.8037518037518038e-05,
+      "loss": 0.0092,
+      "step": 1040
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 1.7676767676767676e-05,
+      "loss": 0.0762,
+      "step": 1050
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 1.7316017316017315e-05,
+      "loss": 0.004,
+      "step": 1060
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 1.6955266955266957e-05,
+      "loss": 0.0034,
+      "step": 1070
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 1.6594516594516595e-05,
+      "loss": 0.0028,
+      "step": 1080
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.6233766233766234e-05,
+      "loss": 0.0146,
+      "step": 1090
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.0143,
+      "step": 1100
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.5512265512265514e-05,
+      "loss": 0.0034,
+      "step": 1110
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 0.1589,
+      "step": 1120
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.4790764790764791e-05,
+      "loss": 0.0032,
+      "step": 1130
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.443001443001443e-05,
+      "loss": 0.3291,
+      "step": 1140
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.406926406926407e-05,
+      "loss": 0.0644,
+      "step": 1150
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.3708513708513709e-05,
+      "loss": 0.0078,
+      "step": 1160
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.3347763347763347e-05,
+      "loss": 0.0576,
+      "step": 1170
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.2987012987012986e-05,
+      "loss": 0.5392,
+      "step": 1180
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.2626262626262628e-05,
+      "loss": 0.0208,
+      "step": 1190
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.2265512265512267e-05,
+      "loss": 0.0025,
+      "step": 1200
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.0617,
+      "step": 1210
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 1.1544011544011545e-05,
+      "loss": 0.0035,
+      "step": 1220
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.1183261183261184e-05,
+      "loss": 0.0107,
+      "step": 1230
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.9863013698630136,
+      "eval_loss": 0.049655068665742874,
+      "eval_runtime": 28.1147,
+      "eval_samples_per_second": 7.79,
+      "eval_steps_per_second": 3.913,
+      "step": 1236
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1.0822510822510823e-05,
+      "loss": 0.0022,
+      "step": 1240
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 1.0461760461760463e-05,
+      "loss": 0.1563,
+      "step": 1250
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 1.0101010101010101e-05,
+      "loss": 0.0031,
+      "step": 1260
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 9.740259740259742e-06,
+      "loss": 0.0027,
+      "step": 1270
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 9.37950937950938e-06,
+      "loss": 0.0085,
+      "step": 1280
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 9.018759018759019e-06,
+      "loss": 0.0024,
+      "step": 1290
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 8.658008658008657e-06,
+      "loss": 0.003,
+      "step": 1300
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.297258297258298e-06,
+      "loss": 0.0027,
+      "step": 1310
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.2252,
+      "step": 1320
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 7.5757575757575764e-06,
+      "loss": 0.1245,
+      "step": 1330
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 7.215007215007215e-06,
+      "loss": 0.0019,
+      "step": 1340
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 6.854256854256854e-06,
+      "loss": 0.0021,
+      "step": 1350
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 6.493506493506493e-06,
+      "loss": 0.0102,
+      "step": 1360
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 6.132756132756133e-06,
+      "loss": 0.0033,
+      "step": 1370
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 5.772005772005773e-06,
+      "loss": 0.0024,
+      "step": 1380
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 5.411255411255411e-06,
+      "loss": 0.0024,
+      "step": 1390
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 5.050505050505051e-06,
+      "loss": 0.0021,
+      "step": 1400
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 4.68975468975469e-06,
+      "loss": 0.0029,
+      "step": 1410
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 4.329004329004329e-06,
+      "loss": 0.0069,
+      "step": 1420
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.968253968253968e-06,
+      "loss": 0.0159,
+      "step": 1430
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.6075036075036075e-06,
+      "loss": 0.0021,
+      "step": 1440
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 3.2467532467532465e-06,
+      "loss": 0.0022,
+      "step": 1450
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.8860028860028863e-06,
+      "loss": 0.0026,
+      "step": 1460
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.5252525252525253e-06,
+      "loss": 0.0019,
+      "step": 1470
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 2.1645021645021643e-06,
+      "loss": 0.0027,
+      "step": 1480
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 1.8037518037518038e-06,
+      "loss": 0.0025,
+      "step": 1490
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 1.4430014430014432e-06,
+      "loss": 0.0025,
+      "step": 1500
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 1.0822510822510822e-06,
+      "loss": 0.0023,
+      "step": 1510
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 7.215007215007216e-07,
+      "loss": 0.0024,
+      "step": 1520
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 3.607503607503608e-07,
+      "loss": 0.002,
+      "step": 1530
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 0.0,
+      "loss": 0.0024,
+      "step": 1540
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.005777956917881966,
+      "eval_runtime": 27.7557,
+      "eval_samples_per_second": 7.89,
+      "eval_steps_per_second": 3.963,
+      "step": 1540
+    },
+    {
+      "epoch": 4.2,
+      "step": 1540,
+      "total_flos": 3.8331681355608883e+18,
+      "train_loss": 0.5046061665956657,
+      "train_runtime": 1118.8917,
+      "train_samples_per_second": 2.753,
+      "train_steps_per_second": 1.376
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.9930693069306931,
+      "eval_loss": 0.032540928572416306,
+      "eval_runtime": 128.4671,
+      "eval_samples_per_second": 7.862,
+      "eval_steps_per_second": 3.931,
+      "step": 1540
+    },
+    {
+      "epoch": 4.2,
+      "eval_accuracy": 0.9930693069306931,
+      "eval_loss": 0.032540928572416306,
+      "eval_runtime": 127.8623,
+      "eval_samples_per_second": 7.899,
+      "eval_steps_per_second": 3.95,
+      "step": 1540
+    }
+  ],
+  "max_steps": 1540,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 3.8331681355608883e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1d935c7630d059ce9bf0f00e2bf80bed08500afcee0170a21a83887317f7073
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1dca3997653b1cdb565474679b4645175c6ada2fe80a14f780fdef952112dac
 size 4027