Training in progress, epoch 2

Browse files

Files changed (8) hide show

logs/events.out.tfevents.1709872749.6c1c016b0e3e.7263.1 +2 -2
model.safetensors +1 -1
run-1/checkpoint-96/model.safetensors +1 -1
run-1/checkpoint-96/optimizer.pt +1 -1
run-1/checkpoint-96/rng_state.pth +1 -1
run-1/checkpoint-96/scheduler.pt +1 -1
run-1/checkpoint-96/trainer_state.json +41 -22
run-1/checkpoint-96/training_args.bin +1 -1

logs/events.out.tfevents.1709872749.6c1c016b0e3e.7263.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3ffe5b23fc63efa9df1ffc9bc7a94788bd4753eeec75074795d919d2db31396
-size 5315

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9e98967b2a05b7def1ceb61d7bc9f002b7580fb7c0d8c005f2358d7f149cc9c
+size 5985

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbb53409ec8f327c826c93a204be4a45fa400489d77fe31d5d28d45881baf320
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cc7e4d70d2a7114843f6215ed17a2fc8447bc6bd70f413c4cf0f8344ca39c96
 size 17549312

run-1/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f580c7021c521e50c4f09989078be6521aed1a3504233121cb4128acd7ffaf3f
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cc7e4d70d2a7114843f6215ed17a2fc8447bc6bd70f413c4cf0f8344ca39c96
 size 17549312

run-1/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e888b82282d118e9145b95f3a0386ef58f658c83e89e13b16215c4e2411c83
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e08c57274194bc668f3be4471281afe7a6c39aaf728f118f809a52a069cb3c
 size 35122746

run-1/checkpoint-96/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24aa86019b8aea1c551cc1adaf38c4db2fc01de75a22af312230f6b592e0fd81
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc13e09b59a62b6fb29cad756bfeefcce6f512c71a9054cc39e336db0b532a5
 size 14054

run-1/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11606a3fe2610be2878eac5b9a478bb3687282988a72c7cf16c2b9960e57533c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cfbcdc81e5bd264efda8c8c919ca09fe2742ecdac83792b7c24b984f5a9552f
 size 1064

run-1/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.5,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
@@ -10,36 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.40490686893463135,
-      "learning_rate": 1.4953262133881219e-05,
-      "loss": 0.1703,
-      "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5,
-      "eval_f1": 0.0,
-      "eval_loss": 0.11485283076763153,
-      "eval_precision": 0.0,
-      "eval_recall": 0.0,
-      "eval_runtime": 25.7126,
-      "eval_samples_per_second": 39.747,
-      "eval_steps_per_second": 1.245,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 768,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 235695197280.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.09656764013507046,
-    "learning_rate": 1.7089442438721394e-05,
-    "num_train_epochs": 8,
-    "temperature": 20
   }
 }

 {
+  "best_metric": 0.7504892367906066,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.0160187482833862,
+      "learning_rate": 0.00031017361242620324,
+      "loss": 0.5046,
+      "step": 48
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7338551859099804,
+      "eval_f1": 0.7399617590822181,
+      "eval_loss": 0.448641836643219,
+      "eval_precision": 0.7233644859813084,
+      "eval_recall": 0.7573385518590998,
+      "eval_runtime": 30.0153,
+      "eval_samples_per_second": 34.049,
+      "eval_steps_per_second": 0.533,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.3045527935028076,
+      "learning_rate": 0.00015508680621310162,
+      "loss": 0.4485,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7504892367906066,
+      "eval_f1": 0.7395301327885597,
+      "eval_loss": 0.4257463812828064,
+      "eval_precision": 0.7735042735042735,
+      "eval_recall": 0.7084148727984344,
+      "eval_runtime": 28.6578,
+      "eval_samples_per_second": 35.662,
+      "eval_steps_per_second": 0.558,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 144,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 471390394560.0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7333074246521317,
+    "learning_rate": 0.00046526041863930486,
+    "num_train_epochs": 3,
+    "temperature": 17
   }
 }

run-1/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40c83b924ef70318ad972d6c481c684f04bf59974ceae562e8816ac4c289de55
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2cac056bbb00ee08372e629f1f168fb88db9cbeb0daea6323374a9050531aaa
 size 4920