Training in progress, epoch 2

Browse files

Files changed (7) hide show

logs/events.out.tfevents.1709696435.a2333cf40ebd.21010.1 +2 -2
model.safetensors +1 -1
run-1/checkpoint-192/model.safetensors +1 -1
run-1/checkpoint-192/optimizer.pt +1 -1
run-1/checkpoint-192/scheduler.pt +1 -1
run-1/checkpoint-192/trainer_state.json +30 -30
run-1/checkpoint-192/training_args.bin +1 -1

logs/events.out.tfevents.1709696435.a2333cf40ebd.21010.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c27c3db84eba739fb2e5ce5331c1eda607da553c0a292e79378ce854e7eb521
-size 5315

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ddf67b23cb3d10ec1fe1445e997ffe6a0fcf93967bbe11fc8910cd8e241f60c
+size 5998

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65f3dae738929185d1e20f41e7bcf6ea1a73d176be72cfab23bb6503fcf370a1
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbcbc86cdfc7bd8113eaa3674da81ce354ec307c43c3ce893eb593b0aafbb38b
 size 17549312

run-1/checkpoint-192/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8190e7a62027cce295082d46e30653021a51c5c5bb818e91fd983f5e1473ef8d
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbcbc86cdfc7bd8113eaa3674da81ce354ec307c43c3ce893eb593b0aafbb38b
 size 17549312

run-1/checkpoint-192/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0953051f2957f663fcf2463b15f9e1b03a672a06bdbe5adc2255eed44329c38b
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:97252d15791d4ce2db158d11bc4a70e3d353c2c79cc3e5eb78f369faf21e4482
 size 35122746

run-1/checkpoint-192/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07c8e4c4a5b7169f0a3ac5f745cd3aeb639839e8f355d7d35233babbe3131a23
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:40e0af9b35a6bc967118be47cf9ea466444403850711fc6c80a3a2582d3e70b9
 size 1064

run-1/checkpoint-192/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.8052837573385518,
-  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-192",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 192,
@@ -10,55 +10,55 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.4932310581207275,
-      "learning_rate": 0.00022974033046670533,
-      "loss": 0.4667,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7651663405088063,
-      "eval_f1": 0.7701149425287357,
-      "eval_loss": 0.4088786244392395,
-      "eval_precision": 0.7542213883677298,
-      "eval_recall": 0.786692759295499,
-      "eval_runtime": 30.971,
-      "eval_samples_per_second": 32.999,
-      "eval_steps_per_second": 1.033,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.3421308994293213,
-      "learning_rate": 0.00017230524785002898,
-      "loss": 0.4108,
       "step": 192
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8052837573385518,
-      "eval_f1": 0.8202348690153567,
-      "eval_loss": 0.39227691292762756,
-      "eval_precision": 0.761744966442953,
-      "eval_recall": 0.8884540117416829,
-      "eval_runtime": 30.7242,
-      "eval_samples_per_second": 33.264,
-      "eval_steps_per_second": 1.042,
       "step": 192
     }
   ],
   "logging_steps": 500,
-  "max_steps": 480,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 471390394560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6818846524061118,
-    "learning_rate": 0.00028717541308338166,
-    "num_train_epochs": 5,
-    "temperature": 29
   }
 }

 {
+  "best_metric": 0.5,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-1/checkpoint-96",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 192,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.4667714238166809,
+      "learning_rate": 7.759069356217338e-06,
+      "loss": 0.317,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.0,
+      "eval_loss": 0.26975956559181213,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 28.3197,
+      "eval_samples_per_second": 36.088,
+      "eval_steps_per_second": 1.13,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.5722590088844299,
+      "learning_rate": 5.1727129041448925e-06,
+      "loss": 0.267,
       "step": 192
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5,
+      "eval_f1": 0.0,
+      "eval_loss": 0.2646586298942566,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 29.2799,
+      "eval_samples_per_second": 34.905,
+      "eval_steps_per_second": 1.093,
       "step": 192
     }
   ],
   "logging_steps": 500,
+  "max_steps": 384,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 471390394560.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.2995113868248127,
+    "learning_rate": 1.0345425808289785e-05,
+    "num_train_epochs": 4,
+    "temperature": 18
   }
 }

run-1/checkpoint-192/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:793b34e056c09ac6895e4854810a5a38ad5f7e4ea7bfcdaf2571ad59272936ff
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f7a7027861ec8f0a120b010edf2e889059268bbeac3a62f529a79661a3cf64f
 size 4920