Training in progress, step 2208, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +13 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +168 -2

last-checkpoint/README.md CHANGED Viewed

@@ -839,6 +839,19 @@ You can finetune this model on your own dataset.
 | 0.8546 | 1258 | 1.2721        | -              | -                      | -              | -                     |
 | 0.9049 | 1332 | 1.1641        | -              | -                      | -              | -                     |
 | 0.9552 | 1406 | 1.0768        | -              | -                      | -              | -                     |
 ### Framework Versions

 | 0.8546 | 1258 | 1.2721        | -              | -                      | -              | -                     |
 | 0.9049 | 1332 | 1.1641        | -              | -                      | -              | -                     |
 | 0.9552 | 1406 | 1.0768        | -              | -                      | -              | -                     |
+| 1.0020 | 1475 | -             | 8.7611         | 0.3361                 | 0.2707         | 1.0764                |
+| 1.0054 | 1480 | 1.1492        | -              | -                      | -              | -                     |
+| 1.0380 | 1554 | 1.0083        | -              | -                      | -              | -                     |
+| 1.0883 | 1628 | 1.0381        | -              | -                      | -              | -                     |
+| 1.1386 | 1702 | 0.9312        | -              | -                      | -              | -                     |
+| 1.1848 | 1770 | -             | 8.6997         | 0.3405                 | 0.2765         | 1.0049                |
+| 1.1889 | 1776 | 0.9948        | -              | -                      | -              | -                     |
+| 1.2391 | 1850 | 0.9262        | -              | -                      | -              | -                     |
+| 1.2894 | 1924 | 1.0851        | -              | -                      | -              | -                     |
+| 1.3397 | 1998 | 0.9875        | -              | -                      | -              | -                     |
+| 1.3852 | 2065 | -             | 8.7595         | 0.3428                 | 0.2741         | 0.9793                |
+| 1.3899 | 2072 | 0.9794        | -              | -                      | -              | -                     |
+| 1.4402 | 2146 | 0.9569        | -              | -                      | -              | -                     |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82b0881a55cb1166b17db44e52fd0f4bf7a4eb07ef538d81f284af627b57673b
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:577b3df6bed2a9179733cf6d0a5abfe4d1c056a374ea649bbc35ec97c583936a
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf6f7da192eba599c2681ebfedfea6ed832857714e2ad37344cb430460b2f31c
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a578881f61349983cfdefdc94e3405efdff50485b971e7b67b873fdfb64cc9d
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba9b969d37086fcd0eafe0316bff67955f0c2fe120b8d5b09ec39f96e9bd6d33
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a1599fc04bac0cefcb11da50c244495121ce3a8497732d4dc03b1821fccc56d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:379613a5c921dd84737a433e864e9b18e5a40b384cbb4814fdce374e483ffcc5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d738d4fbbc048a4b97017a846f956625c8242504ea082be470f1f86d68e506b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 295,
-  "global_step": 1472,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -268,6 +268,172 @@
       "learning_rate": 4.43851303121173e-06,
       "loss": 1.0768,
       "step": 1406
     }
   ],
   "logging_steps": 74,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4823369565217392,
   "eval_steps": 295,
+  "global_step": 2208,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.43851303121173e-06,
       "loss": 1.0768,
       "step": 1406
+    },
+    {
+      "epoch": 1.002038043478261,
+      "eval_nli-pairs_loss": 0.2706589102745056,
+      "eval_nli-pairs_runtime": 35.1762,
+      "eval_nli-pairs_samples_per_second": 193.54,
+      "eval_nli-pairs_steps_per_second": 6.937,
+      "step": 1475
+    },
+    {
+      "epoch": 1.002038043478261,
+      "eval_scitail-pairs-pos_loss": 0.3360535502433777,
+      "eval_scitail-pairs-pos_runtime": 7.8218,
+      "eval_scitail-pairs-pos_samples_per_second": 166.714,
+      "eval_scitail-pairs-pos_steps_per_second": 6.009,
+      "step": 1475
+    },
+    {
+      "epoch": 1.002038043478261,
+      "eval_qnli-contrastive_loss": 1.0763620138168335,
+      "eval_qnli-contrastive_runtime": 16.2422,
+      "eval_qnli-contrastive_samples_per_second": 336.347,
+      "eval_qnli-contrastive_steps_per_second": 12.067,
+      "step": 1475
+    },
+    {
+      "epoch": 1.002038043478261,
+      "eval_sts-label_loss": 8.761148452758789,
+      "eval_sts-label_runtime": 2.8072,
+      "eval_sts-label_samples_per_second": 534.335,
+      "eval_sts-label_steps_per_second": 19.236,
+      "step": 1475
+    },
+    {
+      "epoch": 1.0054347826086956,
+      "grad_norm": 2.4516756534576416,
+      "learning_rate": 4.239381531830025e-06,
+      "loss": 1.1492,
+      "step": 1480
+    },
+    {
+      "epoch": 1.0380434782608696,
+      "grad_norm": 1.35823392868042,
+      "learning_rate": 4.016104255859606e-06,
+      "loss": 1.0083,
+      "step": 1554
+    },
+    {
+      "epoch": 1.0883152173913044,
+      "grad_norm": 169.5676727294922,
+      "learning_rate": 3.7717806976461695e-06,
+      "loss": 1.0381,
+      "step": 1628
+    },
+    {
+      "epoch": 1.1385869565217392,
+      "grad_norm": 18.437976837158203,
+      "learning_rate": 3.5098025121797375e-06,
+      "loss": 0.9312,
+      "step": 1702
+    },
+    {
+      "epoch": 1.184782608695652,
+      "eval_nli-pairs_loss": 0.27651992440223694,
+      "eval_nli-pairs_runtime": 34.2286,
+      "eval_nli-pairs_samples_per_second": 198.898,
+      "eval_nli-pairs_steps_per_second": 7.129,
+      "step": 1770
+    },
+    {
+      "epoch": 1.184782608695652,
+      "eval_scitail-pairs-pos_loss": 0.3405190408229828,
+      "eval_scitail-pairs-pos_runtime": 7.3066,
+      "eval_scitail-pairs-pos_samples_per_second": 178.468,
+      "eval_scitail-pairs-pos_steps_per_second": 6.433,
+      "step": 1770
+    },
+    {
+      "epoch": 1.184782608695652,
+      "eval_qnli-contrastive_loss": 1.004947543144226,
+      "eval_qnli-contrastive_runtime": 15.8772,
+      "eval_qnli-contrastive_samples_per_second": 344.077,
+      "eval_qnli-contrastive_steps_per_second": 12.345,
+      "step": 1770
+    },
+    {
+      "epoch": 1.184782608695652,
+      "eval_sts-label_loss": 8.69970703125,
+      "eval_sts-label_runtime": 2.686,
+      "eval_sts-label_samples_per_second": 558.455,
+      "eval_sts-label_steps_per_second": 20.104,
+      "step": 1770
+    },
+    {
+      "epoch": 1.1888586956521738,
+      "grad_norm": 5.653345584869385,
+      "learning_rate": 3.233806432759837e-06,
+      "loss": 0.9948,
+      "step": 1776
+    },
+    {
+      "epoch": 1.2391304347826086,
+      "grad_norm": 8.722047805786133,
+      "learning_rate": 2.9476237865283762e-06,
+      "loss": 0.9262,
+      "step": 1850
+    },
+    {
+      "epoch": 1.2894021739130435,
+      "grad_norm": 44.94175720214844,
+      "learning_rate": 2.6552273086863563e-06,
+      "loss": 1.0851,
+      "step": 1924
+    },
+    {
+      "epoch": 1.3396739130434783,
+      "grad_norm": 12.18515396118164,
+      "learning_rate": 2.3606759937097447e-06,
+      "loss": 0.9875,
+      "step": 1998
+    },
+    {
+      "epoch": 1.3851902173913042,
+      "eval_nli-pairs_loss": 0.27410587668418884,
+      "eval_nli-pairs_runtime": 34.2855,
+      "eval_nli-pairs_samples_per_second": 198.568,
+      "eval_nli-pairs_steps_per_second": 7.117,
+      "step": 2065
+    },
+    {
+      "epoch": 1.3851902173913042,
+      "eval_scitail-pairs-pos_loss": 0.34280672669410706,
+      "eval_scitail-pairs-pos_runtime": 7.4237,
+      "eval_scitail-pairs-pos_samples_per_second": 175.653,
+      "eval_scitail-pairs-pos_steps_per_second": 6.331,
+      "step": 2065
+    },
+    {
+      "epoch": 1.3851902173913042,
+      "eval_qnli-contrastive_loss": 0.9793393611907959,
+      "eval_qnli-contrastive_runtime": 15.9129,
+      "eval_qnli-contrastive_samples_per_second": 343.305,
+      "eval_qnli-contrastive_steps_per_second": 12.317,
+      "step": 2065
+    },
+    {
+      "epoch": 1.3851902173913042,
+      "eval_sts-label_loss": 8.759481430053711,
+      "eval_sts-label_runtime": 2.7019,
+      "eval_sts-label_samples_per_second": 555.16,
+      "eval_sts-label_steps_per_second": 19.986,
+      "step": 2065
+    },
+    {
+      "epoch": 1.389945652173913,
+      "grad_norm": 29.244232177734375,
+      "learning_rate": 2.0680587491298628e-06,
+      "loss": 0.9794,
+      "step": 2072
+    },
+    {
+      "epoch": 1.440217391304348,
+      "grad_norm": 1.726043462753296,
+      "learning_rate": 1.7814376340661937e-06,
+      "loss": 0.9569,
+      "step": 2146
     }
   ],
   "logging_steps": 74,