Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02adea0c078b9237109f11e60cb08bb51be6204374589e6e02643a1a3f7b179f
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:05aa21867173975b54c2433e2ea2e2d33b9477ac7d7330c058890afd12903750
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ea0a7e10314faf1b04ad2b5c07c7157a226207eba87f8932afb95f567984004
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b3a4b1e126c0099f085d2e4a8565a1d034f0d691cbe73ac35fc1487961c814d
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4dfbe9f6b9a0e0944ac634d00c2eec1843aea882374d48474c5fc2a25883176
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:351daf090d5da39941e428a5c5910a98049d94fdb508be4f472927f329dbcf8c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b6460bb99370887d9faf3cffceb8d3101c13b7403d6f4c0b1c1e2e73b5257e4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc4a786186a574bdc543ff4b4563aab7c5e0b442c74c85899bb42a25553c5d0c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0051817893981934,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.34305317324185247,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.337,
       "eval_steps_per_second": 3.341,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3804027338817536e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9647265076637268,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.5145797598627787,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.337,
       "eval_steps_per_second": 3.341,
       "step": 100
+    },
+    {
+      "epoch": 0.346483704974271,
+      "grad_norm": 0.36224040389060974,
+      "learning_rate": 3.1982717529770985e-05,
+      "loss": 1.0916,
+      "step": 101
+    },
+    {
+      "epoch": 0.34991423670668953,
+      "grad_norm": 0.38614827394485474,
+      "learning_rate": 3.148751264019667e-05,
+      "loss": 1.135,
+      "step": 102
+    },
+    {
+      "epoch": 0.35334476843910806,
+      "grad_norm": 0.3652215600013733,
+      "learning_rate": 3.099190107951924e-05,
+      "loss": 1.0972,
+      "step": 103
+    },
+    {
+      "epoch": 0.3567753001715266,
+      "grad_norm": 0.3642301559448242,
+      "learning_rate": 3.049601834299076e-05,
+      "loss": 1.0843,
+      "step": 104
+    },
+    {
+      "epoch": 0.3602058319039451,
+      "grad_norm": 0.3324933350086212,
+      "learning_rate": 3e-05,
+      "loss": 1.1357,
+      "step": 105
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 0.32382386922836304,
+      "learning_rate": 2.9503981657009246e-05,
+      "loss": 1.0928,
+      "step": 106
+    },
+    {
+      "epoch": 0.3670668953687822,
+      "grad_norm": 0.31067949533462524,
+      "learning_rate": 2.9008098920480752e-05,
+      "loss": 1.0738,
+      "step": 107
+    },
+    {
+      "epoch": 0.3704974271012007,
+      "grad_norm": 0.3035469055175781,
+      "learning_rate": 2.851248735980333e-05,
+      "loss": 1.0208,
+      "step": 108
+    },
+    {
+      "epoch": 0.37392795883361923,
+      "grad_norm": 0.3173302412033081,
+      "learning_rate": 2.801728247022902e-05,
+      "loss": 1.0499,
+      "step": 109
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.30463680624961853,
+      "learning_rate": 2.7522619635830034e-05,
+      "loss": 1.0523,
+      "step": 110
+    },
+    {
+      "epoch": 0.38078902229845624,
+      "grad_norm": 0.3191668689250946,
+      "learning_rate": 2.702863409248612e-05,
+      "loss": 1.0131,
+      "step": 111
+    },
+    {
+      "epoch": 0.38421955403087477,
+      "grad_norm": 0.3322906494140625,
+      "learning_rate": 2.6535460890912416e-05,
+      "loss": 0.944,
+      "step": 112
+    },
+    {
+      "epoch": 0.3876500857632933,
+      "grad_norm": 0.3359247148036957,
+      "learning_rate": 2.604323485973793e-05,
+      "loss": 0.9608,
+      "step": 113
+    },
+    {
+      "epoch": 0.3910806174957118,
+      "grad_norm": 0.32519465684890747,
+      "learning_rate": 2.555209056864474e-05,
+      "loss": 0.969,
+      "step": 114
+    },
+    {
+      "epoch": 0.39451114922813035,
+      "grad_norm": 0.3210972547531128,
+      "learning_rate": 2.5062162291577978e-05,
+      "loss": 1.0239,
+      "step": 115
+    },
+    {
+      "epoch": 0.3979416809605489,
+      "grad_norm": 0.323660671710968,
+      "learning_rate": 2.4573583970036712e-05,
+      "loss": 1.0374,
+      "step": 116
+    },
+    {
+      "epoch": 0.4013722126929674,
+      "grad_norm": 0.3377305567264557,
+      "learning_rate": 2.4086489176455595e-05,
+      "loss": 0.9631,
+      "step": 117
+    },
+    {
+      "epoch": 0.40480274442538594,
+      "grad_norm": 0.33635398745536804,
+      "learning_rate": 2.36010110776876e-05,
+      "loss": 1.0388,
+      "step": 118
+    },
+    {
+      "epoch": 0.40823327615780447,
+      "grad_norm": 0.3557407259941101,
+      "learning_rate": 2.3117282398597456e-05,
+      "loss": 0.9769,
+      "step": 119
+    },
+    {
+      "epoch": 0.411663807890223,
+      "grad_norm": 0.34973031282424927,
+      "learning_rate": 2.263543538577603e-05,
+      "loss": 1.0182,
+      "step": 120
+    },
+    {
+      "epoch": 0.41509433962264153,
+      "grad_norm": 0.3528589606285095,
+      "learning_rate": 2.215560177138541e-05,
+      "loss": 0.9451,
+      "step": 121
+    },
+    {
+      "epoch": 0.41852487135506006,
+      "grad_norm": 0.38225072622299194,
+      "learning_rate": 2.167791273714467e-05,
+      "loss": 0.9343,
+      "step": 122
+    },
+    {
+      "epoch": 0.4219554030874786,
+      "grad_norm": 0.41067805886268616,
+      "learning_rate": 2.1202498878466062e-05,
+      "loss": 1.0003,
+      "step": 123
+    },
+    {
+      "epoch": 0.42538593481989706,
+      "grad_norm": 0.3684796094894409,
+      "learning_rate": 2.072949016875158e-05,
+      "loss": 0.9985,
+      "step": 124
+    },
+    {
+      "epoch": 0.4288164665523156,
+      "grad_norm": 0.40370795130729675,
+      "learning_rate": 2.0259015923859498e-05,
+      "loss": 1.0254,
+      "step": 125
+    },
+    {
+      "epoch": 0.4322469982847341,
+      "grad_norm": 0.40378862619400024,
+      "learning_rate": 1.979120476675071e-05,
+      "loss": 1.0512,
+      "step": 126
+    },
+    {
+      "epoch": 0.43567753001715265,
+      "grad_norm": 0.40470102429389954,
+      "learning_rate": 1.9326184592324503e-05,
+      "loss": 0.9445,
+      "step": 127
+    },
+    {
+      "epoch": 0.4391080617495712,
+      "grad_norm": 0.39239588379859924,
+      "learning_rate": 1.8864082532453373e-05,
+      "loss": 0.9897,
+      "step": 128
+    },
+    {
+      "epoch": 0.4425385934819897,
+      "grad_norm": 0.4297294318675995,
+      "learning_rate": 1.840502492122644e-05,
+      "loss": 0.948,
+      "step": 129
+    },
+    {
+      "epoch": 0.44596912521440824,
+      "grad_norm": 0.3933764398097992,
+      "learning_rate": 1.7949137260410924e-05,
+      "loss": 0.9737,
+      "step": 130
+    },
+    {
+      "epoch": 0.44939965694682676,
+      "grad_norm": 0.3823975920677185,
+      "learning_rate": 1.7496544185141295e-05,
+      "loss": 0.9043,
+      "step": 131
+    },
+    {
+      "epoch": 0.4528301886792453,
+      "grad_norm": 0.40711742639541626,
+      "learning_rate": 1.7047369429845216e-05,
+      "loss": 0.9259,
+      "step": 132
+    },
+    {
+      "epoch": 0.4562607204116638,
+      "grad_norm": 0.42227280139923096,
+      "learning_rate": 1.6601735794415806e-05,
+      "loss": 0.9292,
+      "step": 133
+    },
+    {
+      "epoch": 0.45969125214408235,
+      "grad_norm": 0.41876545548439026,
+      "learning_rate": 1.615976511063937e-05,
+      "loss": 0.9579,
+      "step": 134
+    },
+    {
+      "epoch": 0.4631217838765009,
+      "grad_norm": 0.426393985748291,
+      "learning_rate": 1.5721578208887793e-05,
+      "loss": 0.9606,
+      "step": 135
+    },
+    {
+      "epoch": 0.4665523156089194,
+      "grad_norm": 0.446198046207428,
+      "learning_rate": 1.5287294885084766e-05,
+      "loss": 0.9419,
+      "step": 136
+    },
+    {
+      "epoch": 0.4699828473413379,
+      "grad_norm": 0.4536357522010803,
+      "learning_rate": 1.4857033867954697e-05,
+      "loss": 1.0326,
+      "step": 137
+    },
+    {
+      "epoch": 0.4734133790737564,
+      "grad_norm": 0.45464301109313965,
+      "learning_rate": 1.4430912786563554e-05,
+      "loss": 1.0325,
+      "step": 138
+    },
+    {
+      "epoch": 0.47684391080617494,
+      "grad_norm": 0.45512655377388,
+      "learning_rate": 1.4009048138160195e-05,
+      "loss": 0.9605,
+      "step": 139
+    },
+    {
+      "epoch": 0.48027444253859347,
+      "grad_norm": 0.4851442575454712,
+      "learning_rate": 1.3591555256327199e-05,
+      "loss": 0.9561,
+      "step": 140
+    },
+    {
+      "epoch": 0.483704974271012,
+      "grad_norm": 0.4672333300113678,
+      "learning_rate": 1.3178548279449822e-05,
+      "loss": 0.9497,
+      "step": 141
+    },
+    {
+      "epoch": 0.48713550600343053,
+      "grad_norm": 0.49268803000450134,
+      "learning_rate": 1.2770140119511693e-05,
+      "loss": 0.9491,
+      "step": 142
+    },
+    {
+      "epoch": 0.49056603773584906,
+      "grad_norm": 0.5017989277839661,
+      "learning_rate": 1.2366442431225809e-05,
+      "loss": 0.9614,
+      "step": 143
+    },
+    {
+      "epoch": 0.4939965694682676,
+      "grad_norm": 0.5563336610794067,
+      "learning_rate": 1.1967565581509248e-05,
+      "loss": 0.995,
+      "step": 144
+    },
+    {
+      "epoch": 0.4974271012006861,
+      "grad_norm": 0.5561904907226562,
+      "learning_rate": 1.1573618619309965e-05,
+      "loss": 1.0163,
+      "step": 145
+    },
+    {
+      "epoch": 0.5008576329331046,
+      "grad_norm": 0.5744907855987549,
+      "learning_rate": 1.1184709245793889e-05,
+      "loss": 1.0965,
+      "step": 146
+    },
+    {
+      "epoch": 0.5042881646655232,
+      "grad_norm": 0.6907095313072205,
+      "learning_rate": 1.0800943784900502e-05,
+      "loss": 0.9873,
+      "step": 147
+    },
+    {
+      "epoch": 0.5077186963979416,
+      "grad_norm": 0.6119263768196106,
+      "learning_rate": 1.042242715427494e-05,
+      "loss": 0.9336,
+      "step": 148
+    },
+    {
+      "epoch": 0.5111492281303602,
+      "grad_norm": 0.705530047416687,
+      "learning_rate": 1.004926283658455e-05,
+      "loss": 1.0054,
+      "step": 149
+    },
+    {
+      "epoch": 0.5145797598627787,
+      "grad_norm": 1.1301898956298828,
+      "learning_rate": 9.681552851227774e-06,
+      "loss": 1.0328,
+      "step": 150
+    },
+    {
+      "epoch": 0.5145797598627787,
+      "eval_loss": 0.9647265076637268,
+      "eval_runtime": 37.0798,
+      "eval_samples_per_second": 13.242,
+      "eval_steps_per_second": 3.317,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0722672366465843e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null