Training in progress, step 350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e204de57ae2503cc46890d9c901a16321f2d3edfcd89d3744663006d8e057607
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4169b28e4adfcda8d3fda4f7c524e1ea8b4874d9816578180414986631e8dd1
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ac33b72e593c8ee224451988f576b7f6ff2d113d0897cc263b3f21af2c5d154
 size 463916756

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0a5d329a846ace5b771d600cb779dc7bb0a8fce74458c3dd0623164a8b3be0b
 size 463916756

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3dbe675f040e447d3c3611cd927d68d5f8657bcfe483143b2c756341870e260
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bf5f0f18155e7eeeb3b5e062029e4b91e77eba2c418cfecb93aacf5a879cd0c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43da0688aca60835f4e18fa7e0f3cc099504828f82fd5dd994118be26b760a0f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9096f15f02bac6b0fc27aa7aa4986f85d87d53fca310a75657e0015357af5c5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7586191296577454,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.19023462270133165,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2163,6 +2163,364 @@
       "eval_samples_per_second": 8.875,
       "eval_steps_per_second": 2.219,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2191,7 +2549,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.020752947642368e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7529736161231995,
+  "best_model_checkpoint": "miner_id_24/checkpoint-350",
+  "epoch": 0.2219403931515536,
   "eval_steps": 50,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.875,
       "eval_steps_per_second": 2.219,
       "step": 300
+    },
+    {
+      "epoch": 0.19086873811033608,
+      "grad_norm": 1.0150848627090454,
+      "learning_rate": 1.5074431737553157e-05,
+      "loss": 3.2563,
+      "step": 301
+    },
+    {
+      "epoch": 0.19150285351934052,
+      "grad_norm": 1.2016209363937378,
+      "learning_rate": 1.4787347420660541e-05,
+      "loss": 3.2713,
+      "step": 302
+    },
+    {
+      "epoch": 0.19213696892834495,
+      "grad_norm": 1.01749849319458,
+      "learning_rate": 1.4502548002332088e-05,
+      "loss": 3.182,
+      "step": 303
+    },
+    {
+      "epoch": 0.1927710843373494,
+      "grad_norm": 0.988182783126831,
+      "learning_rate": 1.422005196279395e-05,
+      "loss": 3.1752,
+      "step": 304
+    },
+    {
+      "epoch": 0.19340519974635384,
+      "grad_norm": 0.9728803038597107,
+      "learning_rate": 1.3939877632809278e-05,
+      "loss": 3.2968,
+      "step": 305
+    },
+    {
+      "epoch": 0.19403931515535827,
+      "grad_norm": 0.935308039188385,
+      "learning_rate": 1.3662043192488849e-05,
+      "loss": 3.0506,
+      "step": 306
+    },
+    {
+      "epoch": 0.1946734305643627,
+      "grad_norm": 0.9322471618652344,
+      "learning_rate": 1.338656667011134e-05,
+      "loss": 3.2073,
+      "step": 307
+    },
+    {
+      "epoch": 0.19530754597336716,
+      "grad_norm": 0.9291597008705139,
+      "learning_rate": 1.3113465940953495e-05,
+      "loss": 3.1834,
+      "step": 308
+    },
+    {
+      "epoch": 0.1959416613823716,
+      "grad_norm": 0.927598774433136,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 3.1462,
+      "step": 309
+    },
+    {
+      "epoch": 0.19657577679137603,
+      "grad_norm": 0.9430285096168518,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 3.1203,
+      "step": 310
+    },
+    {
+      "epoch": 0.19720989220038046,
+      "grad_norm": 1.4846646785736084,
+      "learning_rate": 1.2308594946249163e-05,
+      "loss": 3.1325,
+      "step": 311
+    },
+    {
+      "epoch": 0.19784400760938492,
+      "grad_norm": 0.9747286438941956,
+      "learning_rate": 1.204517304231343e-05,
+      "loss": 3.0351,
+      "step": 312
+    },
+    {
+      "epoch": 0.19847812301838935,
+      "grad_norm": 0.9820675849914551,
+      "learning_rate": 1.178421397270758e-05,
+      "loss": 3.1296,
+      "step": 313
+    },
+    {
+      "epoch": 0.19911223842739378,
+      "grad_norm": 0.9933830499649048,
+      "learning_rate": 1.1525734670691701e-05,
+      "loss": 3.1196,
+      "step": 314
+    },
+    {
+      "epoch": 0.19974635383639822,
+      "grad_norm": 0.9653772711753845,
+      "learning_rate": 1.1269751908617277e-05,
+      "loss": 3.0227,
+      "step": 315
+    },
+    {
+      "epoch": 0.20038046924540268,
+      "grad_norm": 1.0138531923294067,
+      "learning_rate": 1.1016282296838887e-05,
+      "loss": 3.0659,
+      "step": 316
+    },
+    {
+      "epoch": 0.2010145846544071,
+      "grad_norm": 0.9920913577079773,
+      "learning_rate": 1.0765342282636416e-05,
+      "loss": 3.1804,
+      "step": 317
+    },
+    {
+      "epoch": 0.20164870006341154,
+      "grad_norm": 0.9812908172607422,
+      "learning_rate": 1.0516948149147754e-05,
+      "loss": 3.1213,
+      "step": 318
+    },
+    {
+      "epoch": 0.20228281547241597,
+      "grad_norm": 1.0075311660766602,
+      "learning_rate": 1.0271116014312293e-05,
+      "loss": 3.1012,
+      "step": 319
+    },
+    {
+      "epoch": 0.20291693088142043,
+      "grad_norm": 1.024266242980957,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 3.1247,
+      "step": 320
+    },
+    {
+      "epoch": 0.20355104629042486,
+      "grad_norm": 0.9915530681610107,
+      "learning_rate": 9.787201380101157e-06,
+      "loss": 3.1249,
+      "step": 321
+    },
+    {
+      "epoch": 0.2041851616994293,
+      "grad_norm": 1.0081713199615479,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 3.044,
+      "step": 322
+    },
+    {
+      "epoch": 0.20481927710843373,
+      "grad_norm": 1.0550603866577148,
+      "learning_rate": 9.313723980074018e-06,
+      "loss": 3.2099,
+      "step": 323
+    },
+    {
+      "epoch": 0.20545339251743816,
+      "grad_norm": 1.0586062669754028,
+      "learning_rate": 9.080937753040646e-06,
+      "loss": 3.2203,
+      "step": 324
+    },
+    {
+      "epoch": 0.20608750792644262,
+      "grad_norm": 0.9967835545539856,
+      "learning_rate": 8.850806705317183e-06,
+      "loss": 3.0307,
+      "step": 325
+    },
+    {
+      "epoch": 0.20672162333544705,
+      "grad_norm": 1.0282031297683716,
+      "learning_rate": 8.623345769777514e-06,
+      "loss": 3.0631,
+      "step": 326
+    },
+    {
+      "epoch": 0.20735573874445148,
+      "grad_norm": 0.9924097061157227,
+      "learning_rate": 8.398569706035792e-06,
+      "loss": 2.9257,
+      "step": 327
+    },
+    {
+      "epoch": 0.20798985415345592,
+      "grad_norm": 1.0178431272506714,
+      "learning_rate": 8.176493099488663e-06,
+      "loss": 3.0914,
+      "step": 328
+    },
+    {
+      "epoch": 0.20862396956246038,
+      "grad_norm": 1.0140167474746704,
+      "learning_rate": 7.957130360368898e-06,
+      "loss": 3.1761,
+      "step": 329
+    },
+    {
+      "epoch": 0.2092580849714648,
+      "grad_norm": 1.1238445043563843,
+      "learning_rate": 7.740495722810271e-06,
+      "loss": 2.9859,
+      "step": 330
+    },
+    {
+      "epoch": 0.20989220038046924,
+      "grad_norm": 1.0198321342468262,
+      "learning_rate": 7.526603243923957e-06,
+      "loss": 3.1234,
+      "step": 331
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 1.0335346460342407,
+      "learning_rate": 7.315466802886401e-06,
+      "loss": 3.0115,
+      "step": 332
+    },
+    {
+      "epoch": 0.21116043119847813,
+      "grad_norm": 1.0279099941253662,
+      "learning_rate": 7.107100100038671e-06,
+      "loss": 3.0316,
+      "step": 333
+    },
+    {
+      "epoch": 0.21179454660748256,
+      "grad_norm": 1.0411081314086914,
+      "learning_rate": 6.901516655997536e-06,
+      "loss": 3.0541,
+      "step": 334
+    },
+    {
+      "epoch": 0.212428662016487,
+      "grad_norm": 1.0638669729232788,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 3.1495,
+      "step": 335
+    },
+    {
+      "epoch": 0.21306277742549143,
+      "grad_norm": 1.0645053386688232,
+      "learning_rate": 6.498752722928042e-06,
+      "loss": 3.13,
+      "step": 336
+    },
+    {
+      "epoch": 0.2136968928344959,
+      "grad_norm": 1.1958521604537964,
+      "learning_rate": 6.301598368674105e-06,
+      "loss": 2.9266,
+      "step": 337
+    },
+    {
+      "epoch": 0.21433100824350032,
+      "grad_norm": 1.0360051393508911,
+      "learning_rate": 6.107279541079769e-06,
+      "loss": 3.0758,
+      "step": 338
+    },
+    {
+      "epoch": 0.21496512365250475,
+      "grad_norm": 1.070273518562317,
+      "learning_rate": 5.915808849215304e-06,
+      "loss": 3.0503,
+      "step": 339
+    },
+    {
+      "epoch": 0.21559923906150918,
+      "grad_norm": 1.0638577938079834,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 2.9783,
+      "step": 340
+    },
+    {
+      "epoch": 0.21623335447051364,
+      "grad_norm": 1.0641688108444214,
+      "learning_rate": 5.54146138409355e-06,
+      "loss": 3.0227,
+      "step": 341
+    },
+    {
+      "epoch": 0.21686746987951808,
+      "grad_norm": 1.0784544944763184,
+      "learning_rate": 5.358608901706802e-06,
+      "loss": 2.9654,
+      "step": 342
+    },
+    {
+      "epoch": 0.2175015852885225,
+      "grad_norm": 1.1119335889816284,
+      "learning_rate": 5.178653135214812e-06,
+      "loss": 2.8726,
+      "step": 343
+    },
+    {
+      "epoch": 0.21813570069752694,
+      "grad_norm": 1.095287799835205,
+      "learning_rate": 5.001605761689398e-06,
+      "loss": 2.8824,
+      "step": 344
+    },
+    {
+      "epoch": 0.2187698161065314,
+      "grad_norm": 1.1402324438095093,
+      "learning_rate": 4.827478269480895e-06,
+      "loss": 2.8718,
+      "step": 345
+    },
+    {
+      "epoch": 0.21940393151553583,
+      "grad_norm": 1.1678264141082764,
+      "learning_rate": 4.65628195747273e-06,
+      "loss": 2.6562,
+      "step": 346
+    },
+    {
+      "epoch": 0.22003804692454026,
+      "grad_norm": 1.156401515007019,
+      "learning_rate": 4.488027934348271e-06,
+      "loss": 2.624,
+      "step": 347
+    },
+    {
+      "epoch": 0.2206721623335447,
+      "grad_norm": 1.2031807899475098,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 2.465,
+      "step": 348
+    },
+    {
+      "epoch": 0.22130627774254916,
+      "grad_norm": 1.2508282661437988,
+      "learning_rate": 4.16039023417088e-06,
+      "loss": 2.4946,
+      "step": 349
+    },
+    {
+      "epoch": 0.2219403931515536,
+      "grad_norm": 1.4422476291656494,
+      "learning_rate": 4.001027817058789e-06,
+      "loss": 2.5989,
+      "step": 350
+    },
+    {
+      "epoch": 0.2219403931515536,
+      "eval_loss": 0.7529736161231995,
+      "eval_runtime": 298.6761,
+      "eval_samples_per_second": 8.893,
+      "eval_steps_per_second": 2.223,
+      "step": 350
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.187010255473869e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null