Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85f011a34046b6096ee0ee36b5807fb5ce0698cb170d9ea1d69b6e2bea5a5cb2
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7df253e5fedce791752aa6b49bfd7c0dbd81095fe092289e64b48430eb5a5e8
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f420036f34db53076133388a78fceb9c0431ee2247317b43b2c379e1b74ca75
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ed1e586e68b4e71427ce2db391ff7cfee3faa4bcb848ebb73a3c208b38a0f55
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df7f2990010235b504c68672f1e5f14dd3dc9391974bcae7dca89c49b46c5863
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3905c330d3db07e1ad9a2babbeb1b45bd3d7e496270c18ee0deb04dc17f2c73
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:debca7aba43b980bfea4b7bfb85075c00dd93d0ca0b163523a96099f24c727ea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b6a94df7ac3a40cdfc424c44e0aa20bf2a24b7a45dca0fa2ca12977070a7cde
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3108082711696625,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.17738359201773837,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -187,6 +187,49 @@
       "eval_samples_per_second": 12.44,
       "eval_steps_per_second": 3.116,
       "step": 200
     }
   ],
   "logging_steps": 10,
@@ -215,7 +258,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.015876915743949e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.25602078437805176,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.22172949002217296,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.44,
       "eval_steps_per_second": 3.116,
       "step": 200
+    },
+    {
+      "epoch": 0.18625277161862527,
+      "grad_norm": 0.7012319564819336,
+      "learning_rate": 0.00014455630025230227,
+      "loss": 0.3329,
+      "step": 210
+    },
+    {
+      "epoch": 0.1951219512195122,
+      "grad_norm": 1.5228286981582642,
+      "learning_rate": 0.00013814796263829918,
+      "loss": 0.3096,
+      "step": 220
+    },
+    {
+      "epoch": 0.2039911308203991,
+      "grad_norm": 0.6246249079704285,
+      "learning_rate": 0.00013155620793468223,
+      "loss": 0.2082,
+      "step": 230
+    },
+    {
+      "epoch": 0.21286031042128603,
+      "grad_norm": 1.0557504892349243,
+      "learning_rate": 0.0001248131505077666,
+      "loss": 0.2378,
+      "step": 240
+    },
+    {
+      "epoch": 0.22172949002217296,
+      "grad_norm": 1.1284499168395996,
+      "learning_rate": 0.00011795164185552652,
+      "loss": 0.1585,
+      "step": 250
+    },
+    {
+      "epoch": 0.22172949002217296,
+      "eval_loss": 0.25602078437805176,
+      "eval_runtime": 38.5281,
+      "eval_samples_per_second": 12.329,
+      "eval_steps_per_second": 3.089,
+      "step": 250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.257264513620378e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null