Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:365a23214168c9e2679063828f2fa112da05608a80dfdf70ae23e99a1ebc87ca
 size 104902272

 version https://git-lfs.github.com/spec/v1
+oid sha256:2be8f4cc537c2944247fdee3b385f4ff799d6f9aecc13736d2eea491cad53ea4
 size 104902272

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:201356174e2cddb7df2d289fdceb7eb3b6d2b1ea718ff419fac9907812c833d1
 size 53622996

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3a6aa31b5177a36b596ac65bd9d398dd8b38167d944f4e2ecd73d01343d55d3
 size 53622996

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b377741e2de72a7a53947ac9e5e18838379ccd523b29d414cedb25d343cedf7a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:acca732549f543f7618d07961e2446fe20bc44f03c11629a1d6784169a308b9b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d95f3fb1f9df4cdd5f470d1684a242bf1d1940d47b9622802f603a91ffa5bc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.510269284248352,
-  "best_model_checkpoint": "miner_id_24/checkpoint-10",
-  "epoch": 0.010796221322537112,
   "eval_steps": 5,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -101,6 +101,92 @@
       "eval_samples_per_second": 4.779,
       "eval_steps_per_second": 2.389,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -129,7 +215,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4941287081902080.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4339179992675781,
+  "best_model_checkpoint": "miner_id_24/checkpoint-20",
+  "epoch": 0.021592442645074223,
   "eval_steps": 5,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.779,
       "eval_steps_per_second": 2.389,
       "step": 10
+    },
+    {
+      "epoch": 0.011875843454790824,
+      "grad_norm": 0.848861038684845,
+      "learning_rate": 0.00019781476007338058,
+      "loss": 5.6706,
+      "step": 11
+    },
+    {
+      "epoch": 0.012955465587044534,
+      "grad_norm": 0.8634513020515442,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 6.2037,
+      "step": 12
+    },
+    {
+      "epoch": 0.014035087719298246,
+      "grad_norm": 1.3566186428070068,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 6.261,
+      "step": 13
+    },
+    {
+      "epoch": 0.015114709851551956,
+      "grad_norm": 1.313557744026184,
+      "learning_rate": 0.00016691306063588583,
+      "loss": 6.5576,
+      "step": 14
+    },
+    {
+      "epoch": 0.016194331983805668,
+      "grad_norm": 1.2444119453430176,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 5.4448,
+      "step": 15
+    },
+    {
+      "epoch": 0.016194331983805668,
+      "eval_loss": 1.4621978998184204,
+      "eval_runtime": 81.5876,
+      "eval_samples_per_second": 4.78,
+      "eval_steps_per_second": 2.39,
+      "step": 15
+    },
+    {
+      "epoch": 0.01727395411605938,
+      "grad_norm": 1.263450026512146,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 5.3685,
+      "step": 16
+    },
+    {
+      "epoch": 0.01835357624831309,
+      "grad_norm": 1.5062628984451294,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 5.6889,
+      "step": 17
+    },
+    {
+      "epoch": 0.019433198380566803,
+      "grad_norm": 1.4760394096374512,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 5.7262,
+      "step": 18
+    },
+    {
+      "epoch": 0.020512820512820513,
+      "grad_norm": 1.363295555114746,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 5.7276,
+      "step": 19
+    },
+    {
+      "epoch": 0.021592442645074223,
+      "grad_norm": 1.4489655494689941,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 5.7842,
+      "step": 20
+    },
+    {
+      "epoch": 0.021592442645074223,
+      "eval_loss": 1.4339179992675781,
+      "eval_runtime": 81.4958,
+      "eval_samples_per_second": 4.786,
+      "eval_steps_per_second": 2.393,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9804141035520000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null