Training in progress, step 1655, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95ceecdd0b1aa2dbf1ec2f23a4ddd928595c382511d085f0d1663c9722b61ee1
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:536b36c5409b325886b3735dcf0e4fb0c68ae9370a4055c3f8628339b2181e94
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6a4cdb23fbf57119940af942e16735f7e6ed513337f644de9af3a2da6bc01e6
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:742c802cf0eb2db4f090ace56f50c7ab57588c2a890ff9badd5f758bcb319a77
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0dde6cfb71c791201a1b9da1c3a5b4ebadc80456fb340adc64cdc8144e3ec77
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:77f6e96927e70b3990c845f9f37f5cfa36bd0d8da4eaedfa781fe14d91872eb9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94619124ebef073ef434567921b91695bdc23ddab6d107310abf209634914efe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:769c097ffaacb42806711118e99a46206586325f4d499f09baf2724f8a595f75
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
-  "epoch": 4.531722054380665,
   "eval_steps": 20,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,6 +1207,118 @@
       "eval_samples_per_second": 9.87,
       "eval_steps_per_second": 2.516,
       "step": 1500
     }
   ],
   "logging_steps": 20,
@@ -1221,12 +1333,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4844949162060756.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2986587882041931,
   "best_model_checkpoint": "./results/checkpoint-180",
+  "epoch": 5.0,
   "eval_steps": 20,
+  "global_step": 1655,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.87,
       "eval_steps_per_second": 2.516,
       "step": 1500
+    },
+    {
+      "epoch": 4.59214501510574,
+      "grad_norm": 0.01508911419659853,
+      "learning_rate": 1.6314199395770395e-06,
+      "loss": 0.2079,
+      "step": 1520
+    },
+    {
+      "epoch": 4.59214501510574,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.4994471073150635,
+      "eval_runtime": 16.27,
+      "eval_samples_per_second": 9.404,
+      "eval_steps_per_second": 2.397,
+      "step": 1520
+    },
+    {
+      "epoch": 4.652567975830816,
+      "grad_norm": 0.037796132266521454,
+      "learning_rate": 1.3897280966767373e-06,
+      "loss": 0.1423,
+      "step": 1540
+    },
+    {
+      "epoch": 4.652567975830816,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.4834767282009125,
+      "eval_runtime": 15.2545,
+      "eval_samples_per_second": 10.03,
+      "eval_steps_per_second": 2.557,
+      "step": 1540
+    },
+    {
+      "epoch": 4.712990936555891,
+      "grad_norm": 0.04188241437077522,
+      "learning_rate": 1.1480362537764353e-06,
+      "loss": 0.0009,
+      "step": 1560
+    },
+    {
+      "epoch": 4.712990936555891,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4825386703014374,
+      "eval_runtime": 15.7256,
+      "eval_samples_per_second": 9.729,
+      "eval_steps_per_second": 2.48,
+      "step": 1560
+    },
+    {
+      "epoch": 4.7734138972809665,
+      "grad_norm": 0.00891907513141632,
+      "learning_rate": 9.063444108761329e-07,
+      "loss": 0.0017,
+      "step": 1580
+    },
+    {
+      "epoch": 4.7734138972809665,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.4918363392353058,
+      "eval_runtime": 15.5035,
+      "eval_samples_per_second": 9.869,
+      "eval_steps_per_second": 2.516,
+      "step": 1580
+    },
+    {
+      "epoch": 4.833836858006042,
+      "grad_norm": 0.02154299058020115,
+      "learning_rate": 6.646525679758309e-07,
+      "loss": 0.0648,
+      "step": 1600
+    },
+    {
+      "epoch": 4.833836858006042,
+      "eval_accuracy": 0.9150326797385621,
+      "eval_loss": 0.4916614294052124,
+      "eval_runtime": 15.4748,
+      "eval_samples_per_second": 9.887,
+      "eval_steps_per_second": 2.52,
+      "step": 1600
+    },
+    {
+      "epoch": 4.8942598187311175,
+      "grad_norm": 1.6405360698699951,
+      "learning_rate": 4.2296072507552877e-07,
+      "loss": 0.0531,
+      "step": 1620
+    },
+    {
+      "epoch": 4.8942598187311175,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.49186328053474426,
+      "eval_runtime": 15.5247,
+      "eval_samples_per_second": 9.855,
+      "eval_steps_per_second": 2.512,
+      "step": 1620
+    },
+    {
+      "epoch": 4.954682779456194,
+      "grad_norm": 0.05020515248179436,
+      "learning_rate": 1.812688821752266e-07,
+      "loss": 0.0008,
+      "step": 1640
+    },
+    {
+      "epoch": 4.954682779456194,
+      "eval_accuracy": 0.9084967320261438,
+      "eval_loss": 0.49449607729911804,
+      "eval_runtime": 15.5248,
+      "eval_samples_per_second": 9.855,
+      "eval_steps_per_second": 2.512,
+      "step": 1640
     }
   ],
   "logging_steps": 20,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5352059977451376.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null