Training in progress, epoch 3

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-2/checkpoint-1066/model.safetensors +1 -1
run-2/checkpoint-1066/optimizer.pt +1 -1
run-2/checkpoint-1066/scheduler.pt +1 -1
run-2/checkpoint-1066/trainer_state.json +21 -24
run-2/checkpoint-1066/training_args.bin +1 -1
run-2/checkpoint-1599/model.safetensors +1 -1
run-2/checkpoint-1599/optimizer.pt +1 -1
run-2/checkpoint-1599/scheduler.pt +1 -1
run-2/checkpoint-1599/trainer_state.json +29 -32
run-2/checkpoint-1599/training_args.bin +1 -1
runs/Apr18_16-31-07_544fc269209b/events.out.tfevents.1713458197.544fc269209b.792.2 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:820c084205589a5efc90f718f254e9298580a8c2d7e7c8732b8e7ce2edb3a47e
 size 409103316

 version https://git-lfs.github.com/spec/v1
+oid sha256:039221f87fe5006e5a007dc56327ae02634d85210f4b85121cfc93ce774db253
 size 409103316

run-2/checkpoint-1066/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:646bf64f2d7588bc518e6f45e4153810e63b161c8d62988b9688bcf154da9d40
 size 409103316

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ca35b271530315f2f01ac7abd9889d24774f1c3eedefb9435700d38b775ff18
 size 409103316

run-2/checkpoint-1066/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbcfcffbbed7e27fc89e35841a8260e7db4f5de1c56df37bea02732b92a433cf
 size 818327802

 version https://git-lfs.github.com/spec/v1
+oid sha256:228635f9d33fbffe83173d5ba2f01c1d6d488e839960208c15b03588eda72308
 size 818327802

run-2/checkpoint-1066/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9447444aa7c89c55e6d4117866cbaeb3c3393fad8adc5cb2275d3443f1381bc0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:43c26a4462a8ed7deae233a5c9e29e1937c85b2f67202abb6545afceac724111
 size 1064

run-2/checkpoint-1066/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6080508828163147,
-  "best_model_checkpoint": "BERT-WMM/run-2/checkpoint-533",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 1066,
@@ -10,49 +10,46 @@
   "log_history": [
     {
       "epoch": 0.94,
-      "grad_norm": 9.333391189575195,
-      "learning_rate": 1.2018217372024236e-05,
-      "loss": 0.7056,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7427230046948357,
-      "eval_loss": 0.6080508828163147,
-      "eval_runtime": 1.9882,
-      "eval_samples_per_second": 1071.329,
-      "eval_steps_per_second": 67.398,
       "step": 533
     },
     {
       "epoch": 1.88,
-      "grad_norm": 10.452563285827637,
-      "learning_rate": 9.790971750818855e-06,
-      "loss": 0.4566,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7647887323943662,
-      "eval_loss": 0.6108278632164001,
-      "eval_runtime": 2.0426,
-      "eval_samples_per_second": 1042.799,
-      "eval_steps_per_second": 65.603,
       "step": 1066
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3198,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "total_flos": 338261076519408.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.4245462993229616e-05,
-    "num_train_epochs": 6,
-    "per_device_train_batch_size": 16,
-    "weight_decay": 0.002285356379677195
   }
 }

 {
+  "best_metric": 0.6166056394577026,
+  "best_model_checkpoint": "BERT-WMM/run-2/checkpoint-1066",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 1066,
   "log_history": [
     {
       "epoch": 0.94,
+      "grad_norm": 11.24305248260498,
+      "learning_rate": 2.922625428602704e-06,
+      "loss": 0.7917,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7352112676056338,
+      "eval_loss": 0.647247314453125,
+      "eval_runtime": 2.1238,
+      "eval_samples_per_second": 1002.939,
+      "eval_steps_per_second": 63.096,
       "step": 533
     },
     {
       "epoch": 1.88,
+      "grad_norm": 23.33644676208496,
+      "learning_rate": 1.5929505293294082e-06,
+      "loss": 0.5783,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7511737089201878,
+      "eval_loss": 0.6166056394577026,
+      "eval_runtime": 2.7158,
+      "eval_samples_per_second": 784.299,
+      "eval_steps_per_second": 49.341,
       "step": 1066
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1599,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "total_flos": 338261076519408.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 4.252300327876e-06
   }
 }

run-2/checkpoint-1066/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a522d40064169dd451f5c63d95d053409f9056cc8f37d6ef08fd626cff2d294
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b47f82980a9cdafe965500d0bc73ea3bdf726aae69cba15d6dccf27551f040c
 size 4856

run-2/checkpoint-1599/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:423fd0a8c6263e8c2d7b12bb899ce6b42430747b90dea9c8dbaf7138c4959529
 size 409103316

 version https://git-lfs.github.com/spec/v1
+oid sha256:039221f87fe5006e5a007dc56327ae02634d85210f4b85121cfc93ce774db253
 size 409103316

run-2/checkpoint-1599/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa231502f99c5628f628a6bc8a1b2723ff93692bb148192c6f7c3f169afdd47c
 size 818327802

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0cb7773c8e10dd0f24fff2834e66435c66947f925e0e6a1322f10e4198ca110
 size 818327802

run-2/checkpoint-1599/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc0f1b7e77e27c09ef04236a0848487a399bf089fa6c70bbf2124a69abd62a8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:990859fad7f2a4e71666497c0ed5862e191297af7bf46464b786b129838d8ea1
 size 1064

run-2/checkpoint-1599/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6080508828163147,
-  "best_model_checkpoint": "BERT-WMM/run-2/checkpoint-533",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1599,
@@ -10,65 +10,62 @@
   "log_history": [
     {
       "epoch": 0.94,
-      "grad_norm": 9.333391189575195,
-      "learning_rate": 1.2018217372024236e-05,
-      "loss": 0.7056,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7427230046948357,
-      "eval_loss": 0.6080508828163147,
-      "eval_runtime": 1.9882,
-      "eval_samples_per_second": 1071.329,
-      "eval_steps_per_second": 67.398,
       "step": 533
     },
     {
       "epoch": 1.88,
-      "grad_norm": 10.452563285827637,
-      "learning_rate": 9.790971750818855e-06,
-      "loss": 0.4566,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7647887323943662,
-      "eval_loss": 0.6108278632164001,
-      "eval_runtime": 2.0426,
-      "eval_samples_per_second": 1042.799,
-      "eval_steps_per_second": 65.603,
       "step": 1066
     },
     {
       "epoch": 2.81,
-      "grad_norm": 15.208818435668945,
-      "learning_rate": 7.563726129613473e-06,
-      "loss": 0.2952,
       "step": 1500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7723004694835681,
-      "eval_loss": 0.7061524391174316,
-      "eval_runtime": 2.0864,
-      "eval_samples_per_second": 1020.91,
-      "eval_steps_per_second": 64.226,
       "step": 1599
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3198,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "total_flos": 507646505902536.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.4245462993229616e-05,
-    "num_train_epochs": 6,
-    "per_device_train_batch_size": 16,
-    "weight_decay": 0.002285356379677195
   }
 }

 {
+  "best_metric": 0.6166056394577026,
+  "best_model_checkpoint": "BERT-WMM/run-2/checkpoint-1066",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1599,
   "log_history": [
     {
       "epoch": 0.94,
+      "grad_norm": 11.24305248260498,
+      "learning_rate": 2.922625428602704e-06,
+      "loss": 0.7917,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7352112676056338,
+      "eval_loss": 0.647247314453125,
+      "eval_runtime": 2.1238,
+      "eval_samples_per_second": 1002.939,
+      "eval_steps_per_second": 63.096,
       "step": 533
     },
     {
       "epoch": 1.88,
+      "grad_norm": 23.33644676208496,
+      "learning_rate": 1.5929505293294082e-06,
+      "loss": 0.5783,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7511737089201878,
+      "eval_loss": 0.6166056394577026,
+      "eval_runtime": 2.7158,
+      "eval_samples_per_second": 784.299,
+      "eval_steps_per_second": 49.341,
       "step": 1066
     },
     {
       "epoch": 2.81,
+      "grad_norm": 19.725927352905273,
+      "learning_rate": 2.6327563005611253e-07,
+      "loss": 0.5084,
       "step": 1500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7549295774647887,
+      "eval_loss": 0.6294087171554565,
+      "eval_runtime": 2.0645,
+      "eval_samples_per_second": 1031.734,
+      "eval_steps_per_second": 64.907,
       "step": 1599
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1599,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "total_flos": 507646505902536.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 4.252300327876e-06
   }
 }

run-2/checkpoint-1599/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a522d40064169dd451f5c63d95d053409f9056cc8f37d6ef08fd626cff2d294
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b47f82980a9cdafe965500d0bc73ea3bdf726aae69cba15d6dccf27551f040c
 size 4856

runs/Apr18_16-31-07_544fc269209b/events.out.tfevents.1713458197.544fc269209b.792.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54e3967c5a0ce893b9d481f47c3bcae87a2723a978aba5962270b4b7ffe6994a
-size 5635

 version https://git-lfs.github.com/spec/v1
+oid sha256:a461b67c74679f1a4f5f40cfa5cf536220ee957118befef57aa628677112961e
+size 6846