Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:255df5aa95dc1f24c0d5f3749369e6dd2a66ea53c364913338d2c7118d174b15
 size 985240

 version https://git-lfs.github.com/spec/v1
+oid sha256:cab379f924f6e6931391a70461452fe6811e9fb95c9dcc371c9d0447c1d35feb
 size 985240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf890291771828e1fbf015f60915b31c6143529dfbefedd50690ce800f2a900e
 size 520860

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5f8160ea8629dd885b8a9b742d0b6ae07d6830e832a5442e6b44bb013945ec1
 size 520860

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b05b2939fc14180e93724fd602f256c68fb8f47d6aa464c5fd7d8b07ac299313
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:281c1b8e19a7534ec4ecb60ce483c526a1015f200a9ffcb2c3ad12d2c598bab1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ba1abeedc944b50dfc9c3bffbf774b90111e900acad34ff55445cc0c42e5cd9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:940eaf31ac549488b8de7c1e32bcee52e66762875735ca6474507071594055dc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 8.80693531036377,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0859106529209622,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 122.703,
       "eval_steps_per_second": 30.801,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4105646899200.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 8.79317569732666,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.12886597938144329,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 122.703,
       "eval_steps_per_second": 30.801,
       "step": 100
+    },
+    {
+      "epoch": 0.08676975945017182,
+      "grad_norm": 1.7509822845458984,
+      "learning_rate": 5.220947368421052e-05,
+      "loss": 17.6602,
+      "step": 101
+    },
+    {
+      "epoch": 0.08762886597938144,
+      "grad_norm": 1.7642613649368286,
+      "learning_rate": 5.1682105263157895e-05,
+      "loss": 17.6406,
+      "step": 102
+    },
+    {
+      "epoch": 0.08848797250859107,
+      "grad_norm": 1.9808465242385864,
+      "learning_rate": 5.115473684210527e-05,
+      "loss": 17.8926,
+      "step": 103
+    },
+    {
+      "epoch": 0.08934707903780069,
+      "grad_norm": 1.885969877243042,
+      "learning_rate": 5.062736842105263e-05,
+      "loss": 17.7344,
+      "step": 104
+    },
+    {
+      "epoch": 0.09020618556701031,
+      "grad_norm": 1.6802561283111572,
+      "learning_rate": 5.01e-05,
+      "loss": 17.5977,
+      "step": 105
+    },
+    {
+      "epoch": 0.09106529209621993,
+      "grad_norm": 1.6616181135177612,
+      "learning_rate": 4.9572631578947363e-05,
+      "loss": 17.5918,
+      "step": 106
+    },
+    {
+      "epoch": 0.09192439862542956,
+      "grad_norm": 1.3513654470443726,
+      "learning_rate": 4.9045263157894736e-05,
+      "loss": 17.6426,
+      "step": 107
+    },
+    {
+      "epoch": 0.09278350515463918,
+      "grad_norm": 1.3804975748062134,
+      "learning_rate": 4.85178947368421e-05,
+      "loss": 17.6445,
+      "step": 108
+    },
+    {
+      "epoch": 0.0936426116838488,
+      "grad_norm": 1.1714085340499878,
+      "learning_rate": 4.799052631578947e-05,
+      "loss": 17.6777,
+      "step": 109
+    },
+    {
+      "epoch": 0.09450171821305842,
+      "grad_norm": 1.0673766136169434,
+      "learning_rate": 4.746315789473684e-05,
+      "loss": 17.8066,
+      "step": 110
+    },
+    {
+      "epoch": 0.09536082474226804,
+      "grad_norm": 1.5452264547348022,
+      "learning_rate": 4.693578947368421e-05,
+      "loss": 17.8184,
+      "step": 111
+    },
+    {
+      "epoch": 0.09621993127147767,
+      "grad_norm": 1.5296186208724976,
+      "learning_rate": 4.6408421052631576e-05,
+      "loss": 17.6094,
+      "step": 112
+    },
+    {
+      "epoch": 0.09707903780068729,
+      "grad_norm": 1.5229887962341309,
+      "learning_rate": 4.588105263157894e-05,
+      "loss": 17.8379,
+      "step": 113
+    },
+    {
+      "epoch": 0.0979381443298969,
+      "grad_norm": 2.274534225463867,
+      "learning_rate": 4.5353684210526314e-05,
+      "loss": 17.7578,
+      "step": 114
+    },
+    {
+      "epoch": 0.09879725085910653,
+      "grad_norm": 1.2260631322860718,
+      "learning_rate": 4.482631578947368e-05,
+      "loss": 17.5723,
+      "step": 115
+    },
+    {
+      "epoch": 0.09965635738831616,
+      "grad_norm": 1.5958672761917114,
+      "learning_rate": 4.429894736842105e-05,
+      "loss": 17.5117,
+      "step": 116
+    },
+    {
+      "epoch": 0.10051546391752578,
+      "grad_norm": 1.4200704097747803,
+      "learning_rate": 4.3771578947368424e-05,
+      "loss": 17.7402,
+      "step": 117
+    },
+    {
+      "epoch": 0.1013745704467354,
+      "grad_norm": 1.4764938354492188,
+      "learning_rate": 4.324421052631579e-05,
+      "loss": 17.3945,
+      "step": 118
+    },
+    {
+      "epoch": 0.10223367697594501,
+      "grad_norm": 1.3718637228012085,
+      "learning_rate": 4.2716842105263155e-05,
+      "loss": 17.3906,
+      "step": 119
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "grad_norm": 1.2205734252929688,
+      "learning_rate": 4.218947368421052e-05,
+      "loss": 17.6113,
+      "step": 120
+    },
+    {
+      "epoch": 0.10395189003436427,
+      "grad_norm": 0.978182315826416,
+      "learning_rate": 4.166210526315789e-05,
+      "loss": 17.4883,
+      "step": 121
+    },
+    {
+      "epoch": 0.10481099656357389,
+      "grad_norm": 1.3435237407684326,
+      "learning_rate": 4.1134736842105265e-05,
+      "loss": 17.709,
+      "step": 122
+    },
+    {
+      "epoch": 0.1056701030927835,
+      "grad_norm": 0.6833091378211975,
+      "learning_rate": 4.060736842105263e-05,
+      "loss": 17.4863,
+      "step": 123
+    },
+    {
+      "epoch": 0.10652920962199312,
+      "grad_norm": 0.5739802718162537,
+      "learning_rate": 4.008e-05,
+      "loss": 17.4883,
+      "step": 124
+    },
+    {
+      "epoch": 0.10738831615120274,
+      "grad_norm": 0.7817716598510742,
+      "learning_rate": 3.955263157894737e-05,
+      "loss": 17.373,
+      "step": 125
+    },
+    {
+      "epoch": 0.10824742268041238,
+      "grad_norm": 0.555398166179657,
+      "learning_rate": 3.9025263157894733e-05,
+      "loss": 17.4824,
+      "step": 126
+    },
+    {
+      "epoch": 0.109106529209622,
+      "grad_norm": 0.7074904441833496,
+      "learning_rate": 3.84978947368421e-05,
+      "loss": 17.5977,
+      "step": 127
+    },
+    {
+      "epoch": 0.10996563573883161,
+      "grad_norm": 0.8045018315315247,
+      "learning_rate": 3.797052631578947e-05,
+      "loss": 17.5996,
+      "step": 128
+    },
+    {
+      "epoch": 0.11082474226804123,
+      "grad_norm": 0.5356755256652832,
+      "learning_rate": 3.744315789473684e-05,
+      "loss": 17.4863,
+      "step": 129
+    },
+    {
+      "epoch": 0.11168384879725086,
+      "grad_norm": 1.1794716119766235,
+      "learning_rate": 3.691578947368421e-05,
+      "loss": 17.7051,
+      "step": 130
+    },
+    {
+      "epoch": 0.11254295532646048,
+      "grad_norm": 0.8735027313232422,
+      "learning_rate": 3.638842105263158e-05,
+      "loss": 17.377,
+      "step": 131
+    },
+    {
+      "epoch": 0.1134020618556701,
+      "grad_norm": 0.7275944352149963,
+      "learning_rate": 3.5861052631578946e-05,
+      "loss": 17.5977,
+      "step": 132
+    },
+    {
+      "epoch": 0.11426116838487972,
+      "grad_norm": 0.8777956962585449,
+      "learning_rate": 3.533368421052631e-05,
+      "loss": 17.3789,
+      "step": 133
+    },
+    {
+      "epoch": 0.11512027491408934,
+      "grad_norm": 1.0887410640716553,
+      "learning_rate": 3.4806315789473684e-05,
+      "loss": 17.7051,
+      "step": 134
+    },
+    {
+      "epoch": 0.11597938144329897,
+      "grad_norm": 0.860932469367981,
+      "learning_rate": 3.427894736842105e-05,
+      "loss": 17.377,
+      "step": 135
+    },
+    {
+      "epoch": 0.11683848797250859,
+      "grad_norm": 1.0373424291610718,
+      "learning_rate": 3.375157894736842e-05,
+      "loss": 17.707,
+      "step": 136
+    },
+    {
+      "epoch": 0.11769759450171821,
+      "grad_norm": 0.5653349757194519,
+      "learning_rate": 3.322421052631579e-05,
+      "loss": 17.4824,
+      "step": 137
+    },
+    {
+      "epoch": 0.11855670103092783,
+      "grad_norm": 0.899078369140625,
+      "learning_rate": 3.269684210526316e-05,
+      "loss": 17.3848,
+      "step": 138
+    },
+    {
+      "epoch": 0.11941580756013746,
+      "grad_norm": 0.8551767468452454,
+      "learning_rate": 3.2169473684210525e-05,
+      "loss": 17.3789,
+      "step": 139
+    },
+    {
+      "epoch": 0.12027491408934708,
+      "grad_norm": 0.8607640862464905,
+      "learning_rate": 3.164210526315789e-05,
+      "loss": 17.3809,
+      "step": 140
+    },
+    {
+      "epoch": 0.1211340206185567,
+      "grad_norm": 0.7621393799781799,
+      "learning_rate": 3.111473684210526e-05,
+      "loss": 17.375,
+      "step": 141
+    },
+    {
+      "epoch": 0.12199312714776632,
+      "grad_norm": 0.44112229347229004,
+      "learning_rate": 3.058736842105263e-05,
+      "loss": 17.4883,
+      "step": 142
+    },
+    {
+      "epoch": 0.12285223367697594,
+      "grad_norm": 0.5754379630088806,
+      "learning_rate": 3.0059999999999997e-05,
+      "loss": 17.5938,
+      "step": 143
+    },
+    {
+      "epoch": 0.12371134020618557,
+      "grad_norm": 1.126187801361084,
+      "learning_rate": 2.9532631578947366e-05,
+      "loss": 17.707,
+      "step": 144
+    },
+    {
+      "epoch": 0.12457044673539519,
+      "grad_norm": 0.7772193551063538,
+      "learning_rate": 2.9005263157894738e-05,
+      "loss": 17.5938,
+      "step": 145
+    },
+    {
+      "epoch": 0.1254295532646048,
+      "grad_norm": 0.5117862224578857,
+      "learning_rate": 2.8477894736842103e-05,
+      "loss": 17.4863,
+      "step": 146
+    },
+    {
+      "epoch": 0.12628865979381443,
+      "grad_norm": 1.2148230075836182,
+      "learning_rate": 2.7950526315789472e-05,
+      "loss": 17.7031,
+      "step": 147
+    },
+    {
+      "epoch": 0.12714776632302405,
+      "grad_norm": 0.8688849806785583,
+      "learning_rate": 2.7423157894736844e-05,
+      "loss": 17.5938,
+      "step": 148
+    },
+    {
+      "epoch": 0.12800687285223367,
+      "grad_norm": 2.2169699668884277,
+      "learning_rate": 2.689578947368421e-05,
+      "loss": 17.9238,
+      "step": 149
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "grad_norm": 3.289537191390991,
+      "learning_rate": 2.6368421052631575e-05,
+      "loss": 18.1348,
+      "step": 150
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "eval_loss": 8.79317569732666,
+      "eval_runtime": 3.9208,
+      "eval_samples_per_second": 124.975,
+      "eval_steps_per_second": 31.371,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6106216660992.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null