Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +403 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ea69c0b38350140bde6045847eb3aca83bc4627c14f15f7070c9ce872395853
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:50ca524f54edaad2efaf52b5094690e6a44a5385b9e7f53ef2c19f513752a265
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:549062bd70f44cd72a6e19af8c66126dbfad4947544c75c576ccc4ad90e84829
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:eec4148b0f8e105171cc96f1d25b9ea52f1a3ccfeb7c98ad54edc804e3b3c50c
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90887233ddb5f52291b6e282e00383caf7e27642579529b0c9362e1fd1793cd4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6410f39a0e7c645ed67ec28686db1c7ce44af3a9fe7fbe74340514fa7e64b446
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d2328d0ebba1a4f73f30ce024a73fa11c5a0fee7ecde6e6f0d609cf0ddc5dcd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a73fd5a100d4ccdd00ffce46e090807f48fb5f542090f5c0a86653f3b6372be2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
-  "epoch": 1.510574018126888,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -407,6 +407,406 @@
       "eval_samples_per_second": 9.895,
       "eval_steps_per_second": 2.522,
       "step": 500
     }
   ],
   "logging_steps": 20,
@@ -426,7 +826,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1604904119249676.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
+  "epoch": 3.0211480362537766,
   "eval_steps": 20,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.895,
       "eval_steps_per_second": 2.522,
       "step": 500
+    },
+    {
+      "epoch": 1.5709969788519638,
+      "grad_norm": 0.41706299781799316,
+      "learning_rate": 1.3716012084592145e-05,
+      "loss": 0.321,
+      "step": 520
+    },
+    {
+      "epoch": 1.5709969788519638,
+      "eval_accuracy": 0.8758169934640523,
+      "eval_loss": 0.4749080538749695,
+      "eval_runtime": 16.3975,
+      "eval_samples_per_second": 9.331,
+      "eval_steps_per_second": 2.378,
+      "step": 520
+    },
+    {
+      "epoch": 1.6314199395770392,
+      "grad_norm": 0.012226684018969536,
+      "learning_rate": 1.3474320241691845e-05,
+      "loss": 0.1871,
+      "step": 540
+    },
+    {
+      "epoch": 1.6314199395770392,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4391900300979614,
+      "eval_runtime": 15.3076,
+      "eval_samples_per_second": 9.995,
+      "eval_steps_per_second": 2.548,
+      "step": 540
+    },
+    {
+      "epoch": 1.691842900302115,
+      "grad_norm": 0.008862942457199097,
+      "learning_rate": 1.3232628398791542e-05,
+      "loss": 0.1654,
+      "step": 560
+    },
+    {
+      "epoch": 1.691842900302115,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.46628066897392273,
+      "eval_runtime": 15.645,
+      "eval_samples_per_second": 9.779,
+      "eval_steps_per_second": 2.493,
+      "step": 560
+    },
+    {
+      "epoch": 1.7522658610271904,
+      "grad_norm": 0.03276165947318077,
+      "learning_rate": 1.299093655589124e-05,
+      "loss": 0.3166,
+      "step": 580
+    },
+    {
+      "epoch": 1.7522658610271904,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.5047788619995117,
+      "eval_runtime": 15.5009,
+      "eval_samples_per_second": 9.87,
+      "eval_steps_per_second": 2.516,
+      "step": 580
+    },
+    {
+      "epoch": 1.8126888217522659,
+      "grad_norm": 0.23161815106868744,
+      "learning_rate": 1.2749244712990937e-05,
+      "loss": 0.222,
+      "step": 600
+    },
+    {
+      "epoch": 1.8126888217522659,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4549576938152313,
+      "eval_runtime": 15.4555,
+      "eval_samples_per_second": 9.899,
+      "eval_steps_per_second": 2.523,
+      "step": 600
+    },
+    {
+      "epoch": 1.8731117824773413,
+      "grad_norm": 343.22900390625,
+      "learning_rate": 1.2507552870090635e-05,
+      "loss": 0.4299,
+      "step": 620
+    },
+    {
+      "epoch": 1.8731117824773413,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.3444612920284271,
+      "eval_runtime": 15.5061,
+      "eval_samples_per_second": 9.867,
+      "eval_steps_per_second": 2.515,
+      "step": 620
+    },
+    {
+      "epoch": 1.9335347432024168,
+      "grad_norm": 0.07708082348108292,
+      "learning_rate": 1.2265861027190334e-05,
+      "loss": 0.0942,
+      "step": 640
+    },
+    {
+      "epoch": 1.9335347432024168,
+      "eval_accuracy": 0.9281045751633987,
+      "eval_loss": 0.3734738230705261,
+      "eval_runtime": 15.5297,
+      "eval_samples_per_second": 9.852,
+      "eval_steps_per_second": 2.511,
+      "step": 640
+    },
+    {
+      "epoch": 1.9939577039274925,
+      "grad_norm": 0.010122493840754032,
+      "learning_rate": 1.2024169184290032e-05,
+      "loss": 0.3991,
+      "step": 660
+    },
+    {
+      "epoch": 1.9939577039274925,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.3646344840526581,
+      "eval_runtime": 15.4716,
+      "eval_samples_per_second": 9.889,
+      "eval_steps_per_second": 2.521,
+      "step": 660
+    },
+    {
+      "epoch": 2.054380664652568,
+      "grad_norm": 0.750132143497467,
+      "learning_rate": 1.178247734138973e-05,
+      "loss": 0.0581,
+      "step": 680
+    },
+    {
+      "epoch": 2.054380664652568,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.3526937961578369,
+      "eval_runtime": 15.4654,
+      "eval_samples_per_second": 9.893,
+      "eval_steps_per_second": 2.522,
+      "step": 680
+    },
+    {
+      "epoch": 2.1148036253776437,
+      "grad_norm": 25.176610946655273,
+      "learning_rate": 1.1540785498489427e-05,
+      "loss": 0.2712,
+      "step": 700
+    },
+    {
+      "epoch": 2.1148036253776437,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.42697274684906006,
+      "eval_runtime": 15.4239,
+      "eval_samples_per_second": 9.92,
+      "eval_steps_per_second": 2.529,
+      "step": 700
+    },
+    {
+      "epoch": 2.175226586102719,
+      "grad_norm": 0.046931881457567215,
+      "learning_rate": 1.1299093655589124e-05,
+      "loss": 0.0443,
+      "step": 720
+    },
+    {
+      "epoch": 2.175226586102719,
+      "eval_accuracy": 0.8954248366013072,
+      "eval_loss": 0.5462331771850586,
+      "eval_runtime": 15.4688,
+      "eval_samples_per_second": 9.891,
+      "eval_steps_per_second": 2.521,
+      "step": 720
+    },
+    {
+      "epoch": 2.2356495468277946,
+      "grad_norm": 0.033700473606586456,
+      "learning_rate": 1.1057401812688822e-05,
+      "loss": 0.3831,
+      "step": 740
+    },
+    {
+      "epoch": 2.2356495468277946,
+      "eval_accuracy": 0.9215686274509803,
+      "eval_loss": 0.3418585956096649,
+      "eval_runtime": 15.5047,
+      "eval_samples_per_second": 9.868,
+      "eval_steps_per_second": 2.515,
+      "step": 740
+    },
+    {
+      "epoch": 2.29607250755287,
+      "grad_norm": 0.046377379447221756,
+      "learning_rate": 1.0815709969788521e-05,
+      "loss": 0.2267,
+      "step": 760
+    },
+    {
+      "epoch": 2.29607250755287,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.4924568831920624,
+      "eval_runtime": 15.5047,
+      "eval_samples_per_second": 9.868,
+      "eval_steps_per_second": 2.515,
+      "step": 760
+    },
+    {
+      "epoch": 2.3564954682779455,
+      "grad_norm": 9.31714916229248,
+      "learning_rate": 1.0574018126888219e-05,
+      "loss": 0.1821,
+      "step": 780
+    },
+    {
+      "epoch": 2.3564954682779455,
+      "eval_accuracy": 0.9215686274509803,
+      "eval_loss": 0.3624768853187561,
+      "eval_runtime": 15.502,
+      "eval_samples_per_second": 9.87,
+      "eval_steps_per_second": 2.516,
+      "step": 780
+    },
+    {
+      "epoch": 2.416918429003021,
+      "grad_norm": 112.68130493164062,
+      "learning_rate": 1.0332326283987916e-05,
+      "loss": 0.2926,
+      "step": 800
+    },
+    {
+      "epoch": 2.416918429003021,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.3670673370361328,
+      "eval_runtime": 15.4876,
+      "eval_samples_per_second": 9.879,
+      "eval_steps_per_second": 2.518,
+      "step": 800
+    },
+    {
+      "epoch": 2.477341389728097,
+      "grad_norm": 0.23612752556800842,
+      "learning_rate": 1.0090634441087614e-05,
+      "loss": 0.2507,
+      "step": 820
+    },
+    {
+      "epoch": 2.477341389728097,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.3853074610233307,
+      "eval_runtime": 15.494,
+      "eval_samples_per_second": 9.875,
+      "eval_steps_per_second": 2.517,
+      "step": 820
+    },
+    {
+      "epoch": 2.5377643504531724,
+      "grad_norm": 0.00892715621739626,
+      "learning_rate": 9.848942598187312e-06,
+      "loss": 0.2446,
+      "step": 840
+    },
+    {
+      "epoch": 2.5377643504531724,
+      "eval_accuracy": 0.8954248366013072,
+      "eval_loss": 0.4570922255516052,
+      "eval_runtime": 15.4901,
+      "eval_samples_per_second": 9.877,
+      "eval_steps_per_second": 2.518,
+      "step": 840
+    },
+    {
+      "epoch": 2.598187311178248,
+      "grad_norm": 0.08465878665447235,
+      "learning_rate": 9.60725075528701e-06,
+      "loss": 0.1926,
+      "step": 860
+    },
+    {
+      "epoch": 2.598187311178248,
+      "eval_accuracy": 0.8496732026143791,
+      "eval_loss": 0.5435793399810791,
+      "eval_runtime": 15.4883,
+      "eval_samples_per_second": 9.878,
+      "eval_steps_per_second": 2.518,
+      "step": 860
+    },
+    {
+      "epoch": 2.6586102719033233,
+      "grad_norm": 65.41895294189453,
+      "learning_rate": 9.365558912386707e-06,
+      "loss": 0.1725,
+      "step": 880
+    },
+    {
+      "epoch": 2.6586102719033233,
+      "eval_accuracy": 0.8496732026143791,
+      "eval_loss": 0.6575973629951477,
+      "eval_runtime": 15.4811,
+      "eval_samples_per_second": 9.883,
+      "eval_steps_per_second": 2.519,
+      "step": 880
+    },
+    {
+      "epoch": 2.719033232628399,
+      "grad_norm": 0.19986489415168762,
+      "learning_rate": 9.123867069486404e-06,
+      "loss": 0.2033,
+      "step": 900
+    },
+    {
+      "epoch": 2.719033232628399,
+      "eval_accuracy": 0.9019607843137255,
+      "eval_loss": 0.4772132933139801,
+      "eval_runtime": 15.4823,
+      "eval_samples_per_second": 9.882,
+      "eval_steps_per_second": 2.519,
+      "step": 900
+    },
+    {
+      "epoch": 2.7794561933534743,
+      "grad_norm": 0.02453712560236454,
+      "learning_rate": 8.882175226586104e-06,
+      "loss": 0.0095,
+      "step": 920
+    },
+    {
+      "epoch": 2.7794561933534743,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.41026702523231506,
+      "eval_runtime": 15.4862,
+      "eval_samples_per_second": 9.88,
+      "eval_steps_per_second": 2.518,
+      "step": 920
+    },
+    {
+      "epoch": 2.8398791540785497,
+      "grad_norm": 0.09184593707323074,
+      "learning_rate": 8.640483383685801e-06,
+      "loss": 0.2896,
+      "step": 940
+    },
+    {
+      "epoch": 2.8398791540785497,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4332799017429352,
+      "eval_runtime": 15.4949,
+      "eval_samples_per_second": 9.874,
+      "eval_steps_per_second": 2.517,
+      "step": 940
+    },
+    {
+      "epoch": 2.900302114803625,
+      "grad_norm": 88.6507339477539,
+      "learning_rate": 8.398791540785499e-06,
+      "loss": 0.2661,
+      "step": 960
+    },
+    {
+      "epoch": 2.900302114803625,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.5792773962020874,
+      "eval_runtime": 15.4764,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.52,
+      "step": 960
+    },
+    {
+      "epoch": 2.9607250755287007,
+      "grad_norm": 0.015309321694076061,
+      "learning_rate": 8.157099697885196e-06,
+      "loss": 0.1338,
+      "step": 980
+    },
+    {
+      "epoch": 2.9607250755287007,
+      "eval_accuracy": 0.8954248366013072,
+      "eval_loss": 0.454254150390625,
+      "eval_runtime": 15.4888,
+      "eval_samples_per_second": 9.878,
+      "eval_steps_per_second": 2.518,
+      "step": 980
+    },
+    {
+      "epoch": 3.0211480362537766,
+      "grad_norm": 0.06863677501678467,
+      "learning_rate": 7.915407854984894e-06,
+      "loss": 0.0751,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0211480362537766,
+      "eval_accuracy": 0.8954248366013072,
+      "eval_loss": 0.5028541684150696,
+      "eval_runtime": 15.4598,
+      "eval_samples_per_second": 9.897,
+      "eval_steps_per_second": 2.523,
+      "step": 1000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 3235818588464112.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null