Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a7926a9c2c08baeaa6ae6d2730cd4924e30ae0f15097852f045b6899d1bdeae
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:f804a30ae13bfe1577a0031410a13b04b4ddce907fdddc2611f38187d0a2dac2
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7782e4a5863f4e4ba79cea04cf2544ba29a3b746778ea7896e0d3aeb9c3dc14
 size 168149074

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6c237037ecab40c8f5c8b075480d122677269b22fb8024271553bfa93d581ce
 size 168149074

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57e86c80d7f7ee9366d63709cfa052333d869770c3074c030ef6768d4d86d72b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e72cd091c77f00cfbb9582fc9d0b27f44bfa0dfb0d0851f9131d63afb61f68b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01e3c901f96fab114520bfb821ed8ef01b62c0db35b4ce9bb2ae527a57de6b3a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:964d544513334060b6db9e9107b617b1f518ba72468ffe587ba1e9068c8c5a78
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6503757834434509,
-  "best_model_checkpoint": "miner_id_24/checkpoint-600",
-  "epoch": 1.3022246337493217,
   "eval_steps": 150,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -467,6 +467,119 @@
       "eval_samples_per_second": 14.449,
       "eval_steps_per_second": 1.822,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -495,7 +608,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.412814972551168e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.647061824798584,
+  "best_model_checkpoint": "miner_id_24/checkpoint-750",
+  "epoch": 1.6277807921866523,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.449,
       "eval_steps_per_second": 1.822,
       "step": 600
+    },
+    {
+      "epoch": 1.3239283776451438,
+      "grad_norm": 33.046363830566406,
+      "learning_rate": 2.0248882546534327e-05,
+      "loss": 1.9914,
+      "step": 610
+    },
+    {
+      "epoch": 1.345632121540966,
+      "grad_norm": 21.024412155151367,
+      "learning_rate": 1.9943228916701108e-05,
+      "loss": 2.5415,
+      "step": 620
+    },
+    {
+      "epoch": 1.3673358654367878,
+      "grad_norm": 20.984058380126953,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 2.329,
+      "step": 630
+    },
+    {
+      "epoch": 1.3890396093326098,
+      "grad_norm": 23.811756134033203,
+      "learning_rate": 1.9325105107520264e-05,
+      "loss": 2.236,
+      "step": 640
+    },
+    {
+      "epoch": 1.410743353228432,
+      "grad_norm": 24.431550979614258,
+      "learning_rate": 1.9012925077938318e-05,
+      "loss": 2.0522,
+      "step": 650
+    },
+    {
+      "epoch": 1.432447097124254,
+      "grad_norm": 27.39398193359375,
+      "learning_rate": 1.8698861365421433e-05,
+      "loss": 1.8751,
+      "step": 660
+    },
+    {
+      "epoch": 1.454150841020076,
+      "grad_norm": 18.39029312133789,
+      "learning_rate": 1.8383061392720914e-05,
+      "loss": 2.6245,
+      "step": 670
+    },
+    {
+      "epoch": 1.475854584915898,
+      "grad_norm": 19.114816665649414,
+      "learning_rate": 1.8065673397595475e-05,
+      "loss": 2.1778,
+      "step": 680
+    },
+    {
+      "epoch": 1.49755832881172,
+      "grad_norm": 20.83147621154785,
+      "learning_rate": 1.7746846363227843e-05,
+      "loss": 1.9417,
+      "step": 690
+    },
+    {
+      "epoch": 1.519262072707542,
+      "grad_norm": 26.67376708984375,
+      "learning_rate": 1.7426729948291474e-05,
+      "loss": 1.9912,
+      "step": 700
+    },
+    {
+      "epoch": 1.540965816603364,
+      "grad_norm": 29.251083374023438,
+      "learning_rate": 1.7105474416700165e-05,
+      "loss": 2.0298,
+      "step": 710
+    },
+    {
+      "epoch": 1.5626695604991863,
+      "grad_norm": 17.292633056640625,
+      "learning_rate": 1.6783230567073597e-05,
+      "loss": 2.4696,
+      "step": 720
+    },
+    {
+      "epoch": 1.5843733043950081,
+      "grad_norm": 20.139678955078125,
+      "learning_rate": 1.646014966195185e-05,
+      "loss": 2.2227,
+      "step": 730
+    },
+    {
+      "epoch": 1.6060770482908302,
+      "grad_norm": 20.934541702270508,
+      "learning_rate": 1.613638335679216e-05,
+      "loss": 1.9018,
+      "step": 740
+    },
+    {
+      "epoch": 1.6277807921866523,
+      "grad_norm": 24.31667709350586,
+      "learning_rate": 1.5812083628781265e-05,
+      "loss": 2.1797,
+      "step": 750
+    },
+    {
+      "epoch": 1.6277807921866523,
+      "eval_loss": 0.647061824798584,
+      "eval_runtime": 53.7706,
+      "eval_samples_per_second": 14.45,
+      "eval_steps_per_second": 1.823,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.051601871568896e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null