Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c79d6a4ba5a7dc69e09d618b9eda2944a935b5263f02386f461f3dc740c44ee1
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:669787684a277fd617cde01bfed143561ed43126fd2559792c3cd46465d680a7
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a35164be0457201e94eaffcdd8493ac848ce5af279f5aa0d113607a8c537255e
-size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:786c9d1423a4b53c686e5b73ea1ce829943da73afb1c6ab4ae1120eb87760852
+size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7889ed95f85fdfab63ac4fc238f404b76d5465858d722702d06fd462019844e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9a89184631a771da9cf79706bdf35b3059d0f06c2b5329fabb0aeaad3a2c337
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:110c23ba7ac9436ac98f0e4bb88f393b7c16138e63fbbb47259fe31aa44af728
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:735a1b0cd55f79037943936c337afc90625099f161e9c9087d89d1e07502d69f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.1977642923593521,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.106315118009781,
   "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,49 @@
       "eval_samples_per_second": 13.619,
       "eval_steps_per_second": 3.412,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -258,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.60035666109399e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.187950000166893,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.1275781416117372,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.619,
       "eval_steps_per_second": 3.412,
       "step": 250
+    },
+    {
+      "epoch": 0.11056772273017224,
+      "grad_norm": 0.3492359220981598,
+      "learning_rate": 0.0001176322813380051,
+      "loss": 0.1203,
+      "step": 260
+    },
+    {
+      "epoch": 0.11482032745056348,
+      "grad_norm": 0.4210224449634552,
+      "learning_rate": 0.00011021679639881638,
+      "loss": 0.1282,
+      "step": 270
+    },
+    {
+      "epoch": 0.11907293217095472,
+      "grad_norm": 0.927093505859375,
+      "learning_rate": 0.00010278320360118368,
+      "loss": 0.1669,
+      "step": 280
+    },
+    {
+      "epoch": 0.12332553689134595,
+      "grad_norm": 1.108055830001831,
+      "learning_rate": 9.536771866199493e-05,
+      "loss": 0.1855,
+      "step": 290
+    },
+    {
+      "epoch": 0.1275781416117372,
+      "grad_norm": 1.8096457719802856,
+      "learning_rate": 8.800646907847192e-05,
+      "loss": 0.2914,
+      "step": 300
+    },
+    {
+      "epoch": 0.1275781416117372,
+      "eval_loss": 0.187950000166893,
+      "eval_runtime": 72.7518,
+      "eval_samples_per_second": 13.608,
+      "eval_steps_per_second": 3.409,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.741170055020544e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null