Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08eddf5d2e1789ff2f97c75af72290ccecf51a8a5190d83f884a919bd7797fbc
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:913d9e0b2e7313383348dccbf7f6f5714565d54b1a37803b1cdf3976d4f765c3
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9be178ef563b2fda0549454bcba7c6bac8dc41ee555d989efeef6bbcd010fb4d
 size 51613348

 version https://git-lfs.github.com/spec/v1
+oid sha256:84169d42af36cf044b6ed85deb6f5d3c1fc26a07e04df7f6eddd94111fcc9962
 size 51613348

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a27e81cefaa8529725105e912d37767f2af2ad487c8790d604cb2445088ea2b0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0612fcda79d6048d2cad54e51b631d9ff7aecf4af2413fcfdda06d15711e1f24
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b7af7cbef1883982510fef2007cf89af07627ee7ec1378e98375ea74556514a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb0f7a710adf9e599fc08ebbb5ad60e429eaaf1eaeec204e7c52cb45e30b9cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8693193197250366,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.05466721333880006,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 32.541,
       "eval_steps_per_second": 8.143,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.896121962482893e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8439501523971558,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.08200082000820008,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.541,
       "eval_steps_per_second": 8.143,
       "step": 100
+    },
+    {
+      "epoch": 0.05521388547218806,
+      "grad_norm": 0.44926929473876953,
+      "learning_rate": 4.3954497215805244e-05,
+      "loss": 0.63,
+      "step": 101
+    },
+    {
+      "epoch": 0.05576055760557606,
+      "grad_norm": 0.34577685594558716,
+      "learning_rate": 4.332773182649165e-05,
+      "loss": 0.6255,
+      "step": 102
+    },
+    {
+      "epoch": 0.05630722973896406,
+      "grad_norm": 0.37551775574684143,
+      "learning_rate": 4.2698122524388405e-05,
+      "loss": 0.8668,
+      "step": 103
+    },
+    {
+      "epoch": 0.05685390187235206,
+      "grad_norm": 0.3831069767475128,
+      "learning_rate": 4.206588432049535e-05,
+      "loss": 0.7327,
+      "step": 104
+    },
+    {
+      "epoch": 0.05740057400574006,
+      "grad_norm": 0.368376761674881,
+      "learning_rate": 4.143123312357996e-05,
+      "loss": 0.7613,
+      "step": 105
+    },
+    {
+      "epoch": 0.05794724613912806,
+      "grad_norm": 0.2958766222000122,
+      "learning_rate": 4.079438566644454e-05,
+      "loss": 0.8557,
+      "step": 106
+    },
+    {
+      "epoch": 0.05849391827251606,
+      "grad_norm": 0.2869422137737274,
+      "learning_rate": 4.015555943191231e-05,
+      "loss": 0.8202,
+      "step": 107
+    },
+    {
+      "epoch": 0.05904059040590406,
+      "grad_norm": 0.2743949890136719,
+      "learning_rate": 3.9514972578557114e-05,
+      "loss": 0.824,
+      "step": 108
+    },
+    {
+      "epoch": 0.05958726253929206,
+      "grad_norm": 0.2857745289802551,
+      "learning_rate": 3.8872843866202525e-05,
+      "loss": 0.8618,
+      "step": 109
+    },
+    {
+      "epoch": 0.06013393467268006,
+      "grad_norm": 0.2635364532470703,
+      "learning_rate": 3.8229392581215565e-05,
+      "loss": 0.7633,
+      "step": 110
+    },
+    {
+      "epoch": 0.06068060680606806,
+      "grad_norm": 0.27216577529907227,
+      "learning_rate": 3.7584838461620587e-05,
+      "loss": 0.8427,
+      "step": 111
+    },
+    {
+      "epoch": 0.061227278939456065,
+      "grad_norm": 0.28717127442359924,
+      "learning_rate": 3.693940162205895e-05,
+      "loss": 0.7745,
+      "step": 112
+    },
+    {
+      "epoch": 0.061773951072844065,
+      "grad_norm": 0.2799830138683319,
+      "learning_rate": 3.629330247862007e-05,
+      "loss": 0.7972,
+      "step": 113
+    },
+    {
+      "epoch": 0.062320623206232065,
+      "grad_norm": 0.3147888779640198,
+      "learning_rate": 3.564676167356954e-05,
+      "loss": 0.8222,
+      "step": 114
+    },
+    {
+      "epoch": 0.06286729533962006,
+      "grad_norm": 0.30850040912628174,
+      "learning_rate": 3.5e-05,
+      "loss": 0.8039,
+      "step": 115
+    },
+    {
+      "epoch": 0.06341396747300806,
+      "grad_norm": 0.3144112229347229,
+      "learning_rate": 3.435323832643046e-05,
+      "loss": 0.7823,
+      "step": 116
+    },
+    {
+      "epoch": 0.06396063960639606,
+      "grad_norm": 0.3839268088340759,
+      "learning_rate": 3.370669752137993e-05,
+      "loss": 0.9132,
+      "step": 117
+    },
+    {
+      "epoch": 0.06450731173978407,
+      "grad_norm": 0.37383535504341125,
+      "learning_rate": 3.306059837794105e-05,
+      "loss": 0.8359,
+      "step": 118
+    },
+    {
+      "epoch": 0.06505398387317206,
+      "grad_norm": 0.42678016424179077,
+      "learning_rate": 3.241516153837941e-05,
+      "loss": 0.9635,
+      "step": 119
+    },
+    {
+      "epoch": 0.06560065600656007,
+      "grad_norm": 0.478986918926239,
+      "learning_rate": 3.177060741878443e-05,
+      "loss": 0.8426,
+      "step": 120
+    },
+    {
+      "epoch": 0.06614732813994807,
+      "grad_norm": 0.33792608976364136,
+      "learning_rate": 3.1127156133797475e-05,
+      "loss": 0.7594,
+      "step": 121
+    },
+    {
+      "epoch": 0.06669400027333607,
+      "grad_norm": 0.401961088180542,
+      "learning_rate": 3.048502742144289e-05,
+      "loss": 0.9038,
+      "step": 122
+    },
+    {
+      "epoch": 0.06724067240672407,
+      "grad_norm": 0.3711259067058563,
+      "learning_rate": 2.984444056808768e-05,
+      "loss": 0.8834,
+      "step": 123
+    },
+    {
+      "epoch": 0.06778734454011207,
+      "grad_norm": 0.4284830689430237,
+      "learning_rate": 2.9205614333555444e-05,
+      "loss": 0.8564,
+      "step": 124
+    },
+    {
+      "epoch": 0.06833401667350007,
+      "grad_norm": 0.4255787134170532,
+      "learning_rate": 2.856876687642003e-05,
+      "loss": 0.7818,
+      "step": 125
+    },
+    {
+      "epoch": 0.06888068880688807,
+      "grad_norm": 0.4699144959449768,
+      "learning_rate": 2.7934115679504645e-05,
+      "loss": 0.8755,
+      "step": 126
+    },
+    {
+      "epoch": 0.06942736094027607,
+      "grad_norm": 0.4922056198120117,
+      "learning_rate": 2.7301877475611606e-05,
+      "loss": 0.908,
+      "step": 127
+    },
+    {
+      "epoch": 0.06997403307366407,
+      "grad_norm": 0.47387874126434326,
+      "learning_rate": 2.667226817350835e-05,
+      "loss": 0.9525,
+      "step": 128
+    },
+    {
+      "epoch": 0.07052070520705207,
+      "grad_norm": 0.47072669863700867,
+      "learning_rate": 2.604550278419475e-05,
+      "loss": 0.8472,
+      "step": 129
+    },
+    {
+      "epoch": 0.07106737734044007,
+      "grad_norm": 0.595217764377594,
+      "learning_rate": 2.54217953474771e-05,
+      "loss": 0.8562,
+      "step": 130
+    },
+    {
+      "epoch": 0.07161404947382807,
+      "grad_norm": 0.585902214050293,
+      "learning_rate": 2.4801358858873636e-05,
+      "loss": 0.8419,
+      "step": 131
+    },
+    {
+      "epoch": 0.07216072160721607,
+      "grad_norm": 0.6359130144119263,
+      "learning_rate": 2.4184405196876842e-05,
+      "loss": 0.8576,
+      "step": 132
+    },
+    {
+      "epoch": 0.07270739374060407,
+      "grad_norm": 0.532152533531189,
+      "learning_rate": 2.3571145050597088e-05,
+      "loss": 0.8793,
+      "step": 133
+    },
+    {
+      "epoch": 0.07325406587399207,
+      "grad_norm": 0.6238685250282288,
+      "learning_rate": 2.296178784781251e-05,
+      "loss": 0.8179,
+      "step": 134
+    },
+    {
+      "epoch": 0.07380073800738007,
+      "grad_norm": 0.7119914889335632,
+      "learning_rate": 2.2356541683449646e-05,
+      "loss": 0.9274,
+      "step": 135
+    },
+    {
+      "epoch": 0.07434741014076808,
+      "grad_norm": 0.7729023694992065,
+      "learning_rate": 2.175561324851914e-05,
+      "loss": 1.088,
+      "step": 136
+    },
+    {
+      "epoch": 0.07489408227415607,
+      "grad_norm": 0.7109841108322144,
+      "learning_rate": 2.1159207759531013e-05,
+      "loss": 0.9875,
+      "step": 137
+    },
+    {
+      "epoch": 0.07544075440754408,
+      "grad_norm": 0.6977630257606506,
+      "learning_rate": 2.0567528888413382e-05,
+      "loss": 0.8897,
+      "step": 138
+    },
+    {
+      "epoch": 0.07598742654093207,
+      "grad_norm": 0.7141391038894653,
+      "learning_rate": 1.9980778692958684e-05,
+      "loss": 0.9585,
+      "step": 139
+    },
+    {
+      "epoch": 0.07653409867432008,
+      "grad_norm": 0.7913526296615601,
+      "learning_rate": 1.9399157547821162e-05,
+      "loss": 0.8552,
+      "step": 140
+    },
+    {
+      "epoch": 0.07708077080770807,
+      "grad_norm": 0.9253504276275635,
+      "learning_rate": 1.882286407608904e-05,
+      "loss": 0.88,
+      "step": 141
+    },
+    {
+      "epoch": 0.07762744294109608,
+      "grad_norm": 1.1985421180725098,
+      "learning_rate": 1.825209508145497e-05,
+      "loss": 0.9832,
+      "step": 142
+    },
+    {
+      "epoch": 0.07817411507448407,
+      "grad_norm": 0.9133749008178711,
+      "learning_rate": 1.7687045481007746e-05,
+      "loss": 0.8496,
+      "step": 143
+    },
+    {
+      "epoch": 0.07872078720787208,
+      "grad_norm": 1.0693060159683228,
+      "learning_rate": 1.712790823866826e-05,
+      "loss": 0.9679,
+      "step": 144
+    },
+    {
+      "epoch": 0.07926745934126007,
+      "grad_norm": 1.4201616048812866,
+      "learning_rate": 1.657487429929254e-05,
+      "loss": 0.9618,
+      "step": 145
+    },
+    {
+      "epoch": 0.07981413147464808,
+      "grad_norm": 1.446235179901123,
+      "learning_rate": 1.602813252346427e-05,
+      "loss": 0.9855,
+      "step": 146
+    },
+    {
+      "epoch": 0.08036080360803607,
+      "grad_norm": 1.2012956142425537,
+      "learning_rate": 1.5487869622999004e-05,
+      "loss": 0.8761,
+      "step": 147
+    },
+    {
+      "epoch": 0.08090747574142408,
+      "grad_norm": 1.4860199689865112,
+      "learning_rate": 1.4954270097182317e-05,
+      "loss": 0.8868,
+      "step": 148
+    },
+    {
+      "epoch": 0.08145414787481207,
+      "grad_norm": 1.4566800594329834,
+      "learning_rate": 1.4427516169763444e-05,
+      "loss": 0.8158,
+      "step": 149
+    },
+    {
+      "epoch": 0.08200082000820008,
+      "grad_norm": 2.238769769668579,
+      "learning_rate": 1.3907787726726029e-05,
+      "loss": 0.9074,
+      "step": 150
+    },
+    {
+      "epoch": 0.08200082000820008,
+      "eval_loss": 0.8439501523971558,
+      "eval_runtime": 94.8117,
+      "eval_samples_per_second": 32.496,
+      "eval_steps_per_second": 8.132,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.351996222400102e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null