Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87f943437f6682f7ee7de160a0fb0dd7f1a7f9b7c1e5cb4bc2beb7dea62371d6
 size 166182480

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a33954a949e48ae07c864630d71b35f52ef96e34d857fa2e6fec7f98fe356da
 size 166182480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:844a482769f0e2abd40ad13846907ca880baf715442ba45b6595fb1d2992d4c5
 size 332574358

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8f7d7ec182d15a1292055a6498657aec231fbd647506cb8eb0d6794f5cc8d4
 size 332574358

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5eafd79e713363198747e3075dba58fd79e2d3d1300105438732b2e0ee683c97
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:761540c8c7a3a2bb0f8059fd740b1f4ae73e8861f5dea25483cd38099982f051
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4a1fd21f28f132126ba0a3c0e9b7867579d24daca77e2d8e14bc16542a7a830
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b45d5c4a17baee47c3f9590614e8ee9a911e28a39e8689047f51888fe2f78fe4
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d98523765fbe4ee7d22ab0a5ea68e4b5406a21e1b54e1b37a5358bbc38419dcd
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:52fac183069a95e291b801cee9c4186c65f0d4ebf8f8ae19810e6841974db7a9
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1907ecded23c99f86058c3975d42bb30b996a62807a726ac4088c81af5fe16c9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:60c584c4176c8942dcdae24cd5d8ff148bb5dc8fa31ceff16ead102aff46da43
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9f689e3fd5df575eecb35b5e9b27f49e75a860ed67ef4150a0d2749c11e5d42
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a7c10705e29fb389f187f5e1079f175bc14c7c722484dd2f977530ef7573f25
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.7154196686751675e-06,
-  "best_model_checkpoint": "miner_id_24/checkpoint-175",
-  "epoch": 0.38655346172430455,
   "eval_steps": 25,
-  "global_step": 175,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1296,6 +1296,189 @@
       "eval_samples_per_second": 23.985,
       "eval_steps_per_second": 6.236,
       "step": 175
     }
   ],
   "logging_steps": 1,
@@ -1319,12 +1502,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.68683130781696e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.660818836375256e-06,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.4417753848277766,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.985,
       "eval_steps_per_second": 6.236,
       "step": 175
+    },
+    {
+      "epoch": 0.38876233864844345,
+      "grad_norm": 0.0001819442113628611,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 0.3909712155725823,
+      "grad_norm": 0.00019746804900933057,
+      "learning_rate": 1.314922493421946e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.3931800924967212,
+      "grad_norm": 0.0002262179768877104,
+      "learning_rate": 1.2884233295920353e-05,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 0.3953889694208601,
+      "grad_norm": 0.00020046616555191576,
+      "learning_rate": 1.2630517066764069e-05,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 0.39759784634499895,
+      "grad_norm": 0.0002561356814112514,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.39980672326913785,
+      "grad_norm": 0.0003955549036618322,
+      "learning_rate": 1.2157179502873409e-05,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 0.40201560019327676,
+      "grad_norm": 0.00018629009719006717,
+      "learning_rate": 1.1937684892050604e-05,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 0.4042244771174156,
+      "grad_norm": 9.03993786778301e-05,
+      "learning_rate": 1.172971910426671e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.4064333540415545,
+      "grad_norm": 8.99579026736319e-05,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 0.40864223096569335,
+      "grad_norm": 8.806282130535692e-05,
+      "learning_rate": 1.1348593606245522e-05,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.41085110788983226,
+      "grad_norm": 8.73383687576279e-05,
+      "learning_rate": 1.1175535932519987e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.41305998481397116,
+      "grad_norm": 8.832193998387083e-05,
+      "learning_rate": 1.1014211127539271e-05,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 0.41526886173811,
+      "grad_norm": 0.00011703837662935257,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 0.4174777386622489,
+      "grad_norm": 0.0002513094514142722,
+      "learning_rate": 1.0726929733281515e-05,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.4196866155863878,
+      "grad_norm": 0.00021101209858898073,
+      "learning_rate": 1.0601050056180447e-05,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.42189549251052666,
+      "grad_norm": 0.00020866327395197004,
+      "learning_rate": 1.0487057051584856e-05,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 0.42410436943466556,
+      "grad_norm": 0.00022013194393366575,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.42631324635880447,
+      "grad_norm": 0.00032330441172234714,
+      "learning_rate": 1.0294849944125004e-05,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 0.4285221232829433,
+      "grad_norm": 0.00035217651748098433,
+      "learning_rate": 1.0216687299751144e-05,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 0.4307310002070822,
+      "grad_norm": 8.39560671010986e-05,
+      "learning_rate": 1.0150514231086887e-05,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.4329398771312211,
+      "grad_norm": 8.635565609438345e-05,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 0.43514875405535997,
+      "grad_norm": 8.677168807480484e-05,
+      "learning_rate": 1.0054204470767243e-05,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 0.43735763097949887,
+      "grad_norm": 8.660169260110706e-05,
+      "learning_rate": 1.0024093563563546e-05,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.43956650790363777,
+      "grad_norm": 8.837666246108711e-05,
+      "learning_rate": 1.000602379406972e-05,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 0.4417753848277766,
+      "grad_norm": 8.881120447767898e-05,
+      "learning_rate": 1e-05,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.4417753848277766,
+      "eval_loss": 2.660818836375256e-06,
+      "eval_runtime": 2.0833,
+      "eval_samples_per_second": 24.001,
+      "eval_steps_per_second": 6.24,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.49923578036224e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null