Training in progress, epoch 2

Browse files

Files changed (8) hide show

logs/events.out.tfevents.1709873105.6c1c016b0e3e.7263.2 +2 -2
model.safetensors +1 -1
run-2/checkpoint-96/model.safetensors +1 -1
run-2/checkpoint-96/optimizer.pt +1 -1
run-2/checkpoint-96/rng_state.pth +1 -1
run-2/checkpoint-96/scheduler.pt +1 -1
run-2/checkpoint-96/trainer_state.json +40 -21
run-2/checkpoint-96/training_args.bin +1 -1

logs/events.out.tfevents.1709873105.6c1c016b0e3e.7263.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c606c6617970d00e37b728825fe34ab0600ee0df29c0898b736daac5af95a2fc
-size 5315

 version https://git-lfs.github.com/spec/v1
+oid sha256:e02051e0a7a897800bcf26b8f0e60cc460e465af7ae9a1bd29949732048c500c
+size 5985

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08489a9fe2e8e7308035654ca4ecc91184bdec8ccc939b0c60c8c8275163216f
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:027f944e44af1eaec5ae46500414fc47d47670da97d38e5396af0b24fc222f08
 size 17549312

run-2/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5644bcb574816e1042db1d1e6d08ff16aa796e73a86c71d60b9aec93a506fd92
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:027f944e44af1eaec5ae46500414fc47d47670da97d38e5396af0b24fc222f08
 size 17549312

run-2/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f64c70665c1be51ebd49b574c4c38384c597ad0a4586e9db29a1f83bdca34fad
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f55c7597beb9f82880a8d225baacd457b8c18a88cc34d52fb3a8a57e6449761
 size 35122746

run-2/checkpoint-96/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24aa86019b8aea1c551cc1adaf38c4db2fc01de75a22af312230f6b592e0fd81
 size 14054

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc13e09b59a62b6fb29cad756bfeefcce6f512c71a9054cc39e336db0b532a5
 size 14054

run-2/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ceb162ca593cfdf8b2d65521bfd20053a19daf6bc7f82e2b6abc1514a663ea39
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:af54281ae35bcd4ce6fb4ef67df558eb1b05d353c140e2c290551d541cb38ab8
 size 1064

run-2/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.512720156555773,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-2/checkpoint-96",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
@@ -10,36 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.3969263434410095,
-      "learning_rate": 3.130245712253287e-05,
-      "loss": 0.081,
-      "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.512720156555773,
-      "eval_f1": 0.08118081180811808,
-      "eval_loss": 0.03750595450401306,
-      "eval_precision": 0.7096774193548387,
-      "eval_recall": 0.043052837573385516,
-      "eval_runtime": 25.4915,
-      "eval_samples_per_second": 40.092,
-      "eval_steps_per_second": 1.255,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 288,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 235695197280.0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.022604047006827055,
-    "learning_rate": 4.6953685683799313e-05,
     "num_train_epochs": 3,
-    "temperature": 5
   }
 }

 {
+  "best_metric": 0.5,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-2/checkpoint-48",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 96,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.6336328983306885,
+      "learning_rate": 8.611669739559475e-06,
+      "loss": 0.3627,
+      "step": 48
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.0,
+      "eval_loss": 0.31828778982162476,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 28.8885,
+      "eval_samples_per_second": 35.377,
+      "eval_steps_per_second": 0.554,
+      "step": 48
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.23749461770057678,
+      "learning_rate": 4.3058348697797375e-06,
+      "loss": 0.3092,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.0,
+      "eval_loss": 0.29845258593559265,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 28.7105,
+      "eval_samples_per_second": 35.597,
+      "eval_steps_per_second": 0.557,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 144,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 471390394560.0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.340965759348954,
+    "learning_rate": 1.2917504609339214e-05,
     "num_train_epochs": 3,
+    "temperature": 24
   }
 }

run-2/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25a5bc2ca31318692bb3d061ec3f8db53d887cf60ae54f3c3e0e26465b0b418c
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:32b5b7e0dad7d232fde0da98a1e8adb7093a00c985e2ed22cef4c6876c31ee03
 size 4920