Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4944a96e3f8b1d0df3a20867cb1d55cbce82fcb349c9f1170b2bb02da35e2b90
 size 912336848

 version https://git-lfs.github.com/spec/v1
+oid sha256:88eadfdb27fb0993fe2b57c68f109f9c723a9645085d211322f31b1315be42fc
 size 912336848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7094ac9468e5f1bb1f2905ecd4a8d6be707d55f0b908d253a063661bb90bff0e
 size 1824995682

 version https://git-lfs.github.com/spec/v1
+oid sha256:d835a2a8f7ebefe958ea59d078258e2be375553e98ae2f1f7f7b9aad20a53c31
 size 1824995682

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f439dbdc7cab89b851bc5b1a439599eb4bcd2c82aa8600ce280b751cbc8aab5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:987e07c9c7bcd8e15d96b84448a7f4c3b1b4c179f5adfa392649dc25d7e2b2cc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.3840712308883667,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.016717515777155516,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 8.532,
       "eval_steps_per_second": 4.267,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3267123404996608e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.33944934606552124,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.025076273665733274,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.532,
       "eval_steps_per_second": 4.267,
       "step": 100
+    },
+    {
+      "epoch": 0.01688469093492707,
+      "grad_norm": 8.497836112976074,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 1.1939,
+      "step": 101
+    },
+    {
+      "epoch": 0.017051866092698625,
+      "grad_norm": 7.477349758148193,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.0787,
+      "step": 102
+    },
+    {
+      "epoch": 0.01721904125047018,
+      "grad_norm": 7.172429084777832,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 1.6864,
+      "step": 103
+    },
+    {
+      "epoch": 0.017386216408241735,
+      "grad_norm": 8.384211540222168,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.8249,
+      "step": 104
+    },
+    {
+      "epoch": 0.01755339156601329,
+      "grad_norm": 5.726856231689453,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 1.5703,
+      "step": 105
+    },
+    {
+      "epoch": 0.017720566723784845,
+      "grad_norm": 6.198292255401611,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.1273,
+      "step": 106
+    },
+    {
+      "epoch": 0.0178877418815564,
+      "grad_norm": 4.357252597808838,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 1.1151,
+      "step": 107
+    },
+    {
+      "epoch": 0.018054917039327954,
+      "grad_norm": 4.520287036895752,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.7011,
+      "step": 108
+    },
+    {
+      "epoch": 0.018222092197099513,
+      "grad_norm": 3.671816349029541,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 1.0517,
+      "step": 109
+    },
+    {
+      "epoch": 0.018389267354871067,
+      "grad_norm": 5.582248687744141,
+      "learning_rate": 5e-05,
+      "loss": 1.6454,
+      "step": 110
+    },
+    {
+      "epoch": 0.018556442512642622,
+      "grad_norm": 4.559932708740234,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 1.6997,
+      "step": 111
+    },
+    {
+      "epoch": 0.018723617670414177,
+      "grad_norm": 4.87907600402832,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.6121,
+      "step": 112
+    },
+    {
+      "epoch": 0.018890792828185732,
+      "grad_norm": 5.985311508178711,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 1.894,
+      "step": 113
+    },
+    {
+      "epoch": 0.019057967985957287,
+      "grad_norm": 5.563694477081299,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.4096,
+      "step": 114
+    },
+    {
+      "epoch": 0.01922514314372884,
+      "grad_norm": 4.012616157531738,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 1.1671,
+      "step": 115
+    },
+    {
+      "epoch": 0.019392318301500396,
+      "grad_norm": 5.445400238037109,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.1218,
+      "step": 116
+    },
+    {
+      "epoch": 0.01955949345927195,
+      "grad_norm": 4.193072319030762,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 1.1577,
+      "step": 117
+    },
+    {
+      "epoch": 0.019726668617043506,
+      "grad_norm": 4.184262752532959,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.3176,
+      "step": 118
+    },
+    {
+      "epoch": 0.019893843774815064,
+      "grad_norm": 3.5578956604003906,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 1.0705,
+      "step": 119
+    },
+    {
+      "epoch": 0.02006101893258662,
+      "grad_norm": 4.154637336730957,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.6145,
+      "step": 120
+    },
+    {
+      "epoch": 0.020228194090358174,
+      "grad_norm": 8.214539527893066,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 1.3255,
+      "step": 121
+    },
+    {
+      "epoch": 0.02039536924812973,
+      "grad_norm": 3.9702048301696777,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.3089,
+      "step": 122
+    },
+    {
+      "epoch": 0.020562544405901283,
+      "grad_norm": 4.168085098266602,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 1.2921,
+      "step": 123
+    },
+    {
+      "epoch": 0.020729719563672838,
+      "grad_norm": 4.158751487731934,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.1961,
+      "step": 124
+    },
+    {
+      "epoch": 0.020896894721444393,
+      "grad_norm": 3.0978500843048096,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 1.027,
+      "step": 125
+    },
+    {
+      "epoch": 0.021064069879215948,
+      "grad_norm": 4.032132625579834,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.1975,
+      "step": 126
+    },
+    {
+      "epoch": 0.021231245036987503,
+      "grad_norm": 3.2967450618743896,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 1.1724,
+      "step": 127
+    },
+    {
+      "epoch": 0.021398420194759057,
+      "grad_norm": 4.184244632720947,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.0997,
+      "step": 128
+    },
+    {
+      "epoch": 0.021565595352530612,
+      "grad_norm": 3.61553955078125,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 1.2168,
+      "step": 129
+    },
+    {
+      "epoch": 0.02173277051030217,
+      "grad_norm": 2.7184441089630127,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.9683,
+      "step": 130
+    },
+    {
+      "epoch": 0.021899945668073725,
+      "grad_norm": 2.7383294105529785,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 0.7704,
+      "step": 131
+    },
+    {
+      "epoch": 0.02206712082584528,
+      "grad_norm": 3.5409862995147705,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.9742,
+      "step": 132
+    },
+    {
+      "epoch": 0.022234295983616835,
+      "grad_norm": 2.9273834228515625,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 1.0346,
+      "step": 133
+    },
+    {
+      "epoch": 0.02240147114138839,
+      "grad_norm": 3.1921045780181885,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.1151,
+      "step": 134
+    },
+    {
+      "epoch": 0.022568646299159945,
+      "grad_norm": 3.4800987243652344,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 1.0467,
+      "step": 135
+    },
+    {
+      "epoch": 0.0227358214569315,
+      "grad_norm": 3.3189215660095215,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.1769,
+      "step": 136
+    },
+    {
+      "epoch": 0.022902996614703054,
+      "grad_norm": 3.6555469036102295,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 1.1048,
+      "step": 137
+    },
+    {
+      "epoch": 0.02307017177247461,
+      "grad_norm": 3.6582908630371094,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.1974,
+      "step": 138
+    },
+    {
+      "epoch": 0.023237346930246164,
+      "grad_norm": 2.606125593185425,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 0.7513,
+      "step": 139
+    },
+    {
+      "epoch": 0.023404522088017722,
+      "grad_norm": 3.5903327465057373,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.2009,
+      "step": 140
+    },
+    {
+      "epoch": 0.023571697245789277,
+      "grad_norm": 4.257547855377197,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 1.7713,
+      "step": 141
+    },
+    {
+      "epoch": 0.02373887240356083,
+      "grad_norm": 3.8268728256225586,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.3315,
+      "step": 142
+    },
+    {
+      "epoch": 0.023906047561332387,
+      "grad_norm": 3.9802815914154053,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 1.531,
+      "step": 143
+    },
+    {
+      "epoch": 0.02407322271910394,
+      "grad_norm": 3.5218703746795654,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.9738,
+      "step": 144
+    },
+    {
+      "epoch": 0.024240397876875496,
+      "grad_norm": 3.5325393676757812,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 1.1883,
+      "step": 145
+    },
+    {
+      "epoch": 0.02440757303464705,
+      "grad_norm": 2.8327746391296387,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.1112,
+      "step": 146
+    },
+    {
+      "epoch": 0.024574748192418606,
+      "grad_norm": 3.83736252784729,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 1.6377,
+      "step": 147
+    },
+    {
+      "epoch": 0.02474192335019016,
+      "grad_norm": 3.671001672744751,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.3769,
+      "step": 148
+    },
+    {
+      "epoch": 0.024909098507961715,
+      "grad_norm": 5.089761257171631,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 2.1632,
+      "step": 149
+    },
+    {
+      "epoch": 0.025076273665733274,
+      "grad_norm": 11.317509651184082,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.8115,
+      "step": 150
+    },
+    {
+      "epoch": 0.025076273665733274,
+      "eval_loss": 0.33944934606552124,
+      "eval_runtime": 1179.9193,
+      "eval_samples_per_second": 8.539,
+      "eval_steps_per_second": 4.27,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.4929696483311616e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null