Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f476c14f58ba0837919df0c4566393a424c0f18ea175a9197d55c8ee490a7ecb
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:48a85deafe2bdd16831025633349a224a9aebe56401ecc504d28e6139ec281b0
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb22a84216ab857e57f3489e07ead6224109b073a16d42f90998729a52446b4e
-size 82460660

 version https://git-lfs.github.com/spec/v1
+oid sha256:72c5795fb74da5829dcb7fb83fd06d36e193b5d2be9a462ffb75e8e7da5e1d50
+size 82461044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a6acff0a45e8376b10f910d417b43933611365487e290e196349a7418f332fe
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:c47ac51a840e8a8805a6e804f4128696433e97de05430e65909a6fcc769d597d
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19982defd909244c1a267113c1b0599a7e78f1ad3657e653842b9f7b9c37fd25
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcdd599b4d800a160de0c24153961a677c467e2d0c018274deeb391f3d57926c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3522343635559082,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.14405070584845867,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,49 @@
       "eval_samples_per_second": 16.28,
       "eval_steps_per_second": 4.076,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -258,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.535013522957926e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2939176559448242,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.17286084701815038,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.28,
       "eval_steps_per_second": 4.076,
       "step": 250
+    },
+    {
+      "epoch": 0.149812734082397,
+      "grad_norm": 0.5863513350486755,
+      "learning_rate": 0.00011873680980127275,
+      "loss": 1.7156,
+      "step": 260
+    },
+    {
+      "epoch": 0.15557476231633535,
+      "grad_norm": 0.697924792766571,
+      "learning_rate": 0.00011125169589551887,
+      "loss": 1.5295,
+      "step": 270
+    },
+    {
+      "epoch": 0.1613367905502737,
+      "grad_norm": 0.7577078342437744,
+      "learning_rate": 0.00010374830410448118,
+      "loss": 1.3598,
+      "step": 280
+    },
+    {
+      "epoch": 0.16709881878421204,
+      "grad_norm": 1.2936521768569946,
+      "learning_rate": 9.626319019872726e-05,
+      "loss": 1.1964,
+      "step": 290
+    },
+    {
+      "epoch": 0.17286084701815038,
+      "grad_norm": 1.469357967376709,
+      "learning_rate": 8.883282090080499e-05,
+      "loss": 0.7995,
+      "step": 300
+    },
+    {
+      "epoch": 0.17286084701815038,
+      "eval_loss": 1.2939176559448242,
+      "eval_runtime": 45.0244,
+      "eval_samples_per_second": 16.236,
+      "eval_steps_per_second": 4.064,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.435025840616243e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null