Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +372 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fec0691e2913008f7cb08e2dcfd2218b96f714c3778ea27282b22bbfbfa3a1fc
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:0acefd8f8eeeb92767b2df043e9fb71de1151610e46f5d8dde30511839e1fc65
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed457c2d47c39c0a06d786de91c5724f9b5480d0f3eafd1714ee61c16094b2dc
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:11258d350092e7c16ef3e4c534b804770e49e9ce873f5bccae10cd0a9e741915
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f49b8e285b7b290ddd2c283ca99de64f6fb14df94066cb63c967267667c0a0c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f84aec7bda5c65eed2f4e3fdd64ac37661b2c414fea019ef35645df4307cf7a6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe157715eb8e05b3bab2a7f2fafac33705dc4a1a9dd7f6d860c3a7f9597d78bb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08567950874567032,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.029546461811198108,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,372 @@
       "eval_samples_per_second": 5.455,
       "eval_steps_per_second": 0.764,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1136,12 +1502,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.6110274477595034e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.07271432131528854,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.03939528241493081,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.455,
       "eval_steps_per_second": 0.764,
       "step": 150
+    },
+    {
+      "epoch": 0.029743438223272762,
+      "grad_norm": 0.9880196452140808,
+      "learning_rate": 4.659698863221513e-05,
+      "loss": 0.3546,
+      "step": 151
+    },
+    {
+      "epoch": 0.029940414635347416,
+      "grad_norm": 0.7226404547691345,
+      "learning_rate": 4.481448235912671e-05,
+      "loss": 0.2702,
+      "step": 152
+    },
+    {
+      "epoch": 0.030137391047422073,
+      "grad_norm": 0.8038386702537537,
+      "learning_rate": 4.306073275629044e-05,
+      "loss": 0.3077,
+      "step": 153
+    },
+    {
+      "epoch": 0.030334367459496726,
+      "grad_norm": 0.6242251396179199,
+      "learning_rate": 4.133621928133665e-05,
+      "loss": 0.2612,
+      "step": 154
+    },
+    {
+      "epoch": 0.03053134387157138,
+      "grad_norm": 0.6672581434249878,
+      "learning_rate": 3.964141339903026e-05,
+      "loss": 0.2917,
+      "step": 155
+    },
+    {
+      "epoch": 0.030728320283646034,
+      "grad_norm": 0.5822924375534058,
+      "learning_rate": 3.797677845237696e-05,
+      "loss": 0.3038,
+      "step": 156
+    },
+    {
+      "epoch": 0.030925296695720687,
+      "grad_norm": 0.5603398680686951,
+      "learning_rate": 3.634276953594982e-05,
+      "loss": 0.2806,
+      "step": 157
+    },
+    {
+      "epoch": 0.03112227310779534,
+      "grad_norm": 0.526652991771698,
+      "learning_rate": 3.473983337147118e-05,
+      "loss": 0.3352,
+      "step": 158
+    },
+    {
+      "epoch": 0.031319249519869995,
+      "grad_norm": 0.5369526147842407,
+      "learning_rate": 3.316840818568315e-05,
+      "loss": 0.2806,
+      "step": 159
+    },
+    {
+      "epoch": 0.03151622593194465,
+      "grad_norm": 0.4179346263408661,
+      "learning_rate": 3.162892359054098e-05,
+      "loss": 0.2744,
+      "step": 160
+    },
+    {
+      "epoch": 0.0317132023440193,
+      "grad_norm": 0.6778124570846558,
+      "learning_rate": 3.0121800465761293e-05,
+      "loss": 0.2826,
+      "step": 161
+    },
+    {
+      "epoch": 0.031910178756093956,
+      "grad_norm": 0.37569910287857056,
+      "learning_rate": 2.8647450843757897e-05,
+      "loss": 0.2533,
+      "step": 162
+    },
+    {
+      "epoch": 0.03210715516816861,
+      "grad_norm": 0.33460506796836853,
+      "learning_rate": 2.7206277796996144e-05,
+      "loss": 0.2703,
+      "step": 163
+    },
+    {
+      "epoch": 0.03230413158024326,
+      "grad_norm": 0.5205643177032471,
+      "learning_rate": 2.5798675327796993e-05,
+      "loss": 0.3269,
+      "step": 164
+    },
+    {
+      "epoch": 0.03250110799231792,
+      "grad_norm": 0.8476812243461609,
+      "learning_rate": 2.4425028260620715e-05,
+      "loss": 0.3097,
+      "step": 165
+    },
+    {
+      "epoch": 0.03269808440439258,
+      "grad_norm": 0.48694828152656555,
+      "learning_rate": 2.3085712136859668e-05,
+      "loss": 0.2699,
+      "step": 166
+    },
+    {
+      "epoch": 0.03289506081646723,
+      "grad_norm": 0.7992863655090332,
+      "learning_rate": 2.178109311216913e-05,
+      "loss": 0.2547,
+      "step": 167
+    },
+    {
+      "epoch": 0.033092037228541885,
+      "grad_norm": 0.489131361246109,
+      "learning_rate": 2.0511527856363912e-05,
+      "loss": 0.2847,
+      "step": 168
+    },
+    {
+      "epoch": 0.03328901364061654,
+      "grad_norm": 0.7267995476722717,
+      "learning_rate": 1.927736345590839e-05,
+      "loss": 0.1622,
+      "step": 169
+    },
+    {
+      "epoch": 0.03348599005269119,
+      "grad_norm": 0.4803732633590698,
+      "learning_rate": 1.8078937319026654e-05,
+      "loss": 0.2689,
+      "step": 170
+    },
+    {
+      "epoch": 0.033682966464765846,
+      "grad_norm": 0.4199903905391693,
+      "learning_rate": 1.6916577083458228e-05,
+      "loss": 0.299,
+      "step": 171
+    },
+    {
+      "epoch": 0.0338799428768405,
+      "grad_norm": 0.36284616589546204,
+      "learning_rate": 1.579060052688548e-05,
+      "loss": 0.262,
+      "step": 172
+    },
+    {
+      "epoch": 0.03407691928891515,
+      "grad_norm": 0.4913172423839569,
+      "learning_rate": 1.4701315480056164e-05,
+      "loss": 0.2382,
+      "step": 173
+    },
+    {
+      "epoch": 0.03427389570098981,
+      "grad_norm": 0.701080322265625,
+      "learning_rate": 1.3649019742625623e-05,
+      "loss": 0.2878,
+      "step": 174
+    },
+    {
+      "epoch": 0.03447087211306446,
+      "grad_norm": 0.4284681975841522,
+      "learning_rate": 1.2634001001741373e-05,
+      "loss": 0.2711,
+      "step": 175
+    },
+    {
+      "epoch": 0.03447087211306446,
+      "eval_loss": 0.07281436771154404,
+      "eval_runtime": 11.8755,
+      "eval_samples_per_second": 4.21,
+      "eval_steps_per_second": 0.589,
+      "step": 175
+    },
+    {
+      "epoch": 0.034667848525139114,
+      "grad_norm": 0.5271365642547607,
+      "learning_rate": 1.1656536753392287e-05,
+      "loss": 0.2571,
+      "step": 176
+    },
+    {
+      "epoch": 0.03486482493721377,
+      "grad_norm": 0.4727443754673004,
+      "learning_rate": 1.0716894226543953e-05,
+      "loss": 0.2677,
+      "step": 177
+    },
+    {
+      "epoch": 0.03506180134928842,
+      "grad_norm": 0.37858378887176514,
+      "learning_rate": 9.815330310080887e-06,
+      "loss": 0.2534,
+      "step": 178
+    },
+    {
+      "epoch": 0.035258777761363075,
+      "grad_norm": 0.4432028830051422,
+      "learning_rate": 8.952091482575824e-06,
+      "loss": 0.3306,
+      "step": 179
+    },
+    {
+      "epoch": 0.03545575417343773,
+      "grad_norm": 0.4843367636203766,
+      "learning_rate": 8.127413744904804e-06,
+      "loss": 0.2407,
+      "step": 180
+    },
+    {
+      "epoch": 0.03565273058551238,
+      "grad_norm": 0.5236724615097046,
+      "learning_rate": 7.34152255572697e-06,
+      "loss": 0.2688,
+      "step": 181
+    },
+    {
+      "epoch": 0.035849706997587036,
+      "grad_norm": 0.688205897808075,
+      "learning_rate": 6.594632769846353e-06,
+      "loss": 0.3668,
+      "step": 182
+    },
+    {
+      "epoch": 0.036046683409661696,
+      "grad_norm": 0.4552861452102661,
+      "learning_rate": 5.886948579472778e-06,
+      "loss": 0.275,
+      "step": 183
+    },
+    {
+      "epoch": 0.03624365982173635,
+      "grad_norm": 0.5080707669258118,
+      "learning_rate": 5.218663458397715e-06,
+      "loss": 0.2851,
+      "step": 184
+    },
+    {
+      "epoch": 0.036440636233811004,
+      "grad_norm": 0.43050211668014526,
+      "learning_rate": 4.589960109100444e-06,
+      "loss": 0.2722,
+      "step": 185
+    },
+    {
+      "epoch": 0.03663761264588566,
+      "grad_norm": 0.548950731754303,
+      "learning_rate": 4.001010412799138e-06,
+      "loss": 0.2045,
+      "step": 186
+    },
+    {
+      "epoch": 0.03683458905796031,
+      "grad_norm": 0.42442962527275085,
+      "learning_rate": 3.451975382460109e-06,
+      "loss": 0.3006,
+      "step": 187
+    },
+    {
+      "epoch": 0.037031565470034965,
+      "grad_norm": 0.5989577174186707,
+      "learning_rate": 2.9430051187785962e-06,
+      "loss": 0.1922,
+      "step": 188
+    },
+    {
+      "epoch": 0.03722854188210962,
+      "grad_norm": 0.528300404548645,
+      "learning_rate": 2.4742387691426445e-06,
+      "loss": 0.2248,
+      "step": 189
+    },
+    {
+      "epoch": 0.03742551829418427,
+      "grad_norm": 0.5548564195632935,
+      "learning_rate": 2.0458044895916513e-06,
+      "loss": 0.2838,
+      "step": 190
+    },
+    {
+      "epoch": 0.037622494706258926,
+      "grad_norm": 0.6061025857925415,
+      "learning_rate": 1.6578194097797258e-06,
+      "loss": 0.2634,
+      "step": 191
+    },
+    {
+      "epoch": 0.03781947111833358,
+      "grad_norm": 0.6724241971969604,
+      "learning_rate": 1.3103896009537207e-06,
+      "loss": 0.3241,
+      "step": 192
+    },
+    {
+      "epoch": 0.03801644753040823,
+      "grad_norm": 0.629009485244751,
+      "learning_rate": 1.0036100469542786e-06,
+      "loss": 0.2181,
+      "step": 193
+    },
+    {
+      "epoch": 0.03821342394248289,
+      "grad_norm": 0.6329449415206909,
+      "learning_rate": 7.375646182482875e-07,
+      "loss": 0.1653,
+      "step": 194
+    },
+    {
+      "epoch": 0.03841040035455754,
+      "grad_norm": 0.5899990200996399,
+      "learning_rate": 5.123260489995229e-07,
+      "loss": 0.2021,
+      "step": 195
+    },
+    {
+      "epoch": 0.038607376766632194,
+      "grad_norm": 0.6992418169975281,
+      "learning_rate": 3.2795591718381975e-07,
+      "loss": 0.1811,
+      "step": 196
+    },
+    {
+      "epoch": 0.03880435317870685,
+      "grad_norm": 0.7541390657424927,
+      "learning_rate": 1.8450462775428942e-07,
+      "loss": 0.1525,
+      "step": 197
+    },
+    {
+      "epoch": 0.0390013295907815,
+      "grad_norm": 0.5883744955062866,
+      "learning_rate": 8.201139886109264e-08,
+      "loss": 0.143,
+      "step": 198
+    },
+    {
+      "epoch": 0.039198306002856155,
+      "grad_norm": 0.8709452748298645,
+      "learning_rate": 2.0504251129649374e-08,
+      "loss": 0.1841,
+      "step": 199
+    },
+    {
+      "epoch": 0.03939528241493081,
+      "grad_norm": 0.9281623363494873,
+      "learning_rate": 0.0,
+      "loss": 0.2595,
+      "step": 200
+    },
+    {
+      "epoch": 0.03939528241493081,
+      "eval_loss": 0.07271432131528854,
+      "eval_runtime": 12.7749,
+      "eval_samples_per_second": 3.914,
+      "eval_steps_per_second": 0.548,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.47763455488426e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null