Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75f6fa361f5e714231d81472f109f634b7cf3d218542ad522c3320bdc72d1ede
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a7926a9c2c08baeaa6ae6d2730cd4924e30ae0f15097852f045b6899d1bdeae
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d73fd2b1e5f4b9857ee12592a0208a4de24c8cdbb115962e97f1e6cbf34004a3
 size 168149074

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7782e4a5863f4e4ba79cea04cf2544ba29a3b746778ea7896e0d3aeb9c3dc14
 size 168149074

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d8026d2fdbb840b3bb65046bc60ca3592595116a718952ff3aaaf00eaf7c240
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:57e86c80d7f7ee9366d63709cfa052333d869770c3074c030ef6768d4d86d72b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa8e8a5e2a44ead074ab81a212600c52a27ef90bdfd18224d7df20a5dd9fd4f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01e3c901f96fab114520bfb821ed8ef01b62c0db35b4ce9bb2ae527a57de6b3a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6706861853599548,
-  "best_model_checkpoint": "miner_id_24/checkpoint-450",
-  "epoch": 0.9766684753119913,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -354,6 +354,119 @@
       "eval_samples_per_second": 14.446,
       "eval_steps_per_second": 1.822,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -382,7 +495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.309611229413376e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6503757834434509,
+  "best_model_checkpoint": "miner_id_24/checkpoint-600",
+  "epoch": 1.3022246337493217,
   "eval_steps": 150,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.446,
       "eval_steps_per_second": 1.822,
       "step": 450
+    },
+    {
+      "epoch": 0.9983722192078134,
+      "grad_norm": 25.043182373046875,
+      "learning_rate": 2.446083767528193e-05,
+      "loss": 2.7357,
+      "step": 460
+    },
+    {
+      "epoch": 1.0200759631036354,
+      "grad_norm": 15.549626350402832,
+      "learning_rate": 2.4206440124138064e-05,
+      "loss": 2.7512,
+      "step": 470
+    },
+    {
+      "epoch": 1.0417797069994574,
+      "grad_norm": 18.95859146118164,
+      "learning_rate": 2.3947721033514517e-05,
+      "loss": 2.3525,
+      "step": 480
+    },
+    {
+      "epoch": 1.0634834508952795,
+      "grad_norm": 18.817302703857422,
+      "learning_rate": 2.3684801847177732e-05,
+      "loss": 2.2039,
+      "step": 490
+    },
+    {
+      "epoch": 1.0851871947911014,
+      "grad_norm": 23.182357788085938,
+      "learning_rate": 2.341780598043574e-05,
+      "loss": 2.0556,
+      "step": 500
+    },
+    {
+      "epoch": 1.1068909386869235,
+      "grad_norm": 34.256813049316406,
+      "learning_rate": 2.3146858762206493e-05,
+      "loss": 2.2184,
+      "step": 510
+    },
+    {
+      "epoch": 1.1285946825827455,
+      "grad_norm": 18.3436336517334,
+      "learning_rate": 2.287208737618801e-05,
+      "loss": 2.5032,
+      "step": 520
+    },
+    {
+      "epoch": 1.1502984264785676,
+      "grad_norm": 18.193883895874023,
+      "learning_rate": 2.259362080115781e-05,
+      "loss": 2.1954,
+      "step": 530
+    },
+    {
+      "epoch": 1.1720021703743897,
+      "grad_norm": 22.53719711303711,
+      "learning_rate": 2.231158975042979e-05,
+      "loss": 2.2031,
+      "step": 540
+    },
+    {
+      "epoch": 1.1937059142702116,
+      "grad_norm": 21.267290115356445,
+      "learning_rate": 2.2026126610496852e-05,
+      "loss": 1.8531,
+      "step": 550
+    },
+    {
+      "epoch": 1.2154096581660336,
+      "grad_norm": 29.71878433227539,
+      "learning_rate": 2.173736537888819e-05,
+      "loss": 1.9597,
+      "step": 560
+    },
+    {
+      "epoch": 1.2371134020618557,
+      "grad_norm": 18.650861740112305,
+      "learning_rate": 2.1445441601270276e-05,
+      "loss": 2.6653,
+      "step": 570
+    },
+    {
+      "epoch": 1.2588171459576776,
+      "grad_norm": 22.564220428466797,
+      "learning_rate": 2.115049230782124e-05,
+      "loss": 2.34,
+      "step": 580
+    },
+    {
+      "epoch": 1.2805208898534997,
+      "grad_norm": 22.589075088500977,
+      "learning_rate": 2.085265594890832e-05,
+      "loss": 2.181,
+      "step": 590
+    },
+    {
+      "epoch": 1.3022246337493217,
+      "grad_norm": 22.656047821044922,
+      "learning_rate": 2.055207233009872e-05,
+      "loss": 1.9121,
+      "step": 600
+    },
+    {
+      "epoch": 1.3022246337493217,
+      "eval_loss": 0.6503757834434509,
+      "eval_runtime": 53.7768,
+      "eval_samples_per_second": 14.449,
+      "eval_steps_per_second": 1.822,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.412814972551168e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null