Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0096973dbb7308622b4e714f1ddd57059b21d39bb6fd2785bef1c3de3cfe11e6
 size 35237104

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c2b161e8bc9876a4f57639483ab4f03ecf4650ac7a020e045d2c08e4c277d74
 size 35237104

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f929d657bd6388739fa3b1100aa223d832081a8a59553e7ba86015b74d1cbe6
-size 18810036

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1734b51ad697d4c7c595278b77f79965d95999e3deb80a31ea76ad67e2d864d
+size 18810356

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45ef98acf7ed689cfa32e1240be213a46133386c9425f564f19bcfcd37891b80
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:550860cff63886cd432a55f8848c8d62e312a5d9b9bf22bfda8663babbdbb92f
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1c5d32644c7486ba3c019c882e1c59bae084188a76560e3aa6cc8b5092d956b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f398ec605d9c9cdba56060aebcb72b7c65adf12fa1c75b756614fa39cc370089
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.8600337505340576,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.011287955751213455,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,49 @@
       "eval_samples_per_second": 50.698,
       "eval_steps_per_second": 12.677,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -258,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2257488154460160.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.802130699157715,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.013545546901456146,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 50.698,
       "eval_steps_per_second": 12.677,
       "step": 250
+    },
+    {
+      "epoch": 0.011739473981261994,
+      "grad_norm": 2.9359610080718994,
+      "learning_rate": 0.00011321416748493448,
+      "loss": 2.7982,
+      "step": 260
+    },
+    {
+      "epoch": 0.012190992211310531,
+      "grad_norm": 2.9160430431365967,
+      "learning_rate": 0.00010607719841200637,
+      "loss": 2.6641,
+      "step": 270
+    },
+    {
+      "epoch": 0.01264251044135907,
+      "grad_norm": 3.4751181602478027,
+      "learning_rate": 9.892280158799368e-05,
+      "loss": 2.6787,
+      "step": 280
+    },
+    {
+      "epoch": 0.013094028671407609,
+      "grad_norm": 4.7677388191223145,
+      "learning_rate": 9.178583251506553e-05,
+      "loss": 2.9618,
+      "step": 290
+    },
+    {
+      "epoch": 0.013545546901456146,
+      "grad_norm": 5.446451663970947,
+      "learning_rate": 8.470106178913964e-05,
+      "loss": 3.2181,
+      "step": 300
+    },
+    {
+      "epoch": 0.013545546901456146,
+      "eval_loss": 2.802130699157715,
+      "eval_runtime": 181.988,
+      "eval_samples_per_second": 51.245,
+      "eval_steps_per_second": 12.814,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2708084592476160.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null