Training in progress, step 169, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +137 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:397caea8f75e97f5170a7fefe06f8a05aec2ec435c2bc808f24e2608e7af54e5
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdd3485f8d83d2553dfed2526792bdb2a39f80a55bc138b0d5202800c4705367
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dad69227d2a233c91445d42d0503c168983cbb09ab6e1a80b10be311f1cc3888
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1f47567f95d3dd3c37d480c59a7ae1fa02cbfbabe2b11d13d7c119c4aa235bf
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acbceda8b0e3f90ddd941ffea9fd96050462c086b9498ea5af11ceb857234bf0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5640b7178c40c6845d14d1dcf24d917507ed44d19de23673ed82b5be02877e5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe6385b1b60f064938f7c87459100029ab630f31bb282ac8fee66acbff88efe0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:72b7ae54645fe0d156a539f19196af82ec47c612b8d4b4a4f763b2303308dc68
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.032022152096033096,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 2.663716814159292,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,139 @@
       "eval_samples_per_second": 14.183,
       "eval_steps_per_second": 3.583,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1245,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.995743661391872e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.032022152096033096,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 3.004424778761062,
   "eval_steps": 50,
+  "global_step": 169,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.183,
       "eval_steps_per_second": 3.583,
       "step": 150
+    },
+    {
+      "epoch": 2.6814159292035398,
+      "grad_norm": 0.12883880734443665,
+      "learning_rate": 3.1290169432939553e-06,
+      "loss": 0.0114,
+      "step": 151
+    },
+    {
+      "epoch": 2.6991150442477876,
+      "grad_norm": 0.16089491546154022,
+      "learning_rate": 2.794192020691544e-06,
+      "loss": 0.0165,
+      "step": 152
+    },
+    {
+      "epoch": 2.7168141592920354,
+      "grad_norm": 0.25050851702690125,
+      "learning_rate": 2.4777954629944477e-06,
+      "loss": 0.0182,
+      "step": 153
+    },
+    {
+      "epoch": 2.734513274336283,
+      "grad_norm": 0.09175170958042145,
+      "learning_rate": 2.179950786173879e-06,
+      "loss": 0.0057,
+      "step": 154
+    },
+    {
+      "epoch": 2.752212389380531,
+      "grad_norm": 0.1262611448764801,
+      "learning_rate": 1.9007742638543102e-06,
+      "loss": 0.0119,
+      "step": 155
+    },
+    {
+      "epoch": 2.769911504424779,
+      "grad_norm": 0.13375544548034668,
+      "learning_rate": 1.6403748819221466e-06,
+      "loss": 0.0125,
+      "step": 156
+    },
+    {
+      "epoch": 2.7876106194690267,
+      "grad_norm": 0.09264933317899704,
+      "learning_rate": 1.3988542959794627e-06,
+      "loss": 0.0109,
+      "step": 157
+    },
+    {
+      "epoch": 2.8053097345132745,
+      "grad_norm": 0.10276864469051361,
+      "learning_rate": 1.1763067916593262e-06,
+      "loss": 0.0125,
+      "step": 158
+    },
+    {
+      "epoch": 2.823008849557522,
+      "grad_norm": 0.08319110423326492,
+      "learning_rate": 9.728192478182574e-07,
+      "loss": 0.0082,
+      "step": 159
+    },
+    {
+      "epoch": 2.84070796460177,
+      "grad_norm": 0.168908029794693,
+      "learning_rate": 7.884711026201585e-07,
+      "loss": 0.0144,
+      "step": 160
+    },
+    {
+      "epoch": 2.8584070796460175,
+      "grad_norm": 0.1352635771036148,
+      "learning_rate": 6.233343225249933e-07,
+      "loss": 0.0158,
+      "step": 161
+    },
+    {
+      "epoch": 2.8761061946902657,
+      "grad_norm": 0.09505495429039001,
+      "learning_rate": 4.774733741942206e-07,
+      "loss": 0.0099,
+      "step": 162
+    },
+    {
+      "epoch": 2.893805309734513,
+      "grad_norm": 0.0929616317152977,
+      "learning_rate": 3.5094519932415417e-07,
+      "loss": 0.0078,
+      "step": 163
+    },
+    {
+      "epoch": 2.911504424778761,
+      "grad_norm": 0.10294952243566513,
+      "learning_rate": 2.437991924167937e-07,
+      "loss": 0.012,
+      "step": 164
+    },
+    {
+      "epoch": 2.9292035398230087,
+      "grad_norm": 0.125913605093956,
+      "learning_rate": 1.560771814970885e-07,
+      "loss": 0.0088,
+      "step": 165
+    },
+    {
+      "epoch": 2.9469026548672566,
+      "grad_norm": 0.14280952513217926,
+      "learning_rate": 8.781341178393244e-08,
+      "loss": 0.011,
+      "step": 166
+    },
+    {
+      "epoch": 2.9646017699115044,
+      "grad_norm": 0.1293206512928009,
+      "learning_rate": 3.9034532321408076e-08,
+      "loss": 0.0099,
+      "step": 167
+    },
+    {
+      "epoch": 2.982300884955752,
+      "grad_norm": 0.1486680805683136,
+      "learning_rate": 9.75958557545842e-09,
+      "loss": 0.0107,
+      "step": 168
+    },
+    {
+      "epoch": 3.004424778761062,
+      "grad_norm": 0.1905655860900879,
+      "learning_rate": 0.0,
+      "loss": 0.0132,
+      "step": 169
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.248537858501509e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null