Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05efe6546f28b7d1358002998d6b537aea441bea5dccc5285c93d1a1d6616940
 size 332316480

 version https://git-lfs.github.com/spec/v1
+oid sha256:84ed7f66bdd7ea55c49b014f2f8b4a60dabd919a9fc88b57d164a0a751f50a60
 size 332316480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b4387d27ec6ad16f82cfd0a31c7039bdd23d2a91f25a8f9ed9cb0ebc54dc9b3
 size 169157892

 version https://git-lfs.github.com/spec/v1
+oid sha256:543303ab22547c189f137c7b9d4934a59746f31934abd5b4d4a11afd2eb121e8
 size 169157892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f551e2bd006f5eb91ed31d223f8117d05e31ce7ac3c17f03c96e7fecf981f80
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9373324f8b79a1a36b872f819f02ede0569c5183d2ed0171367941452eb214e6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5313294529914856,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.003937162880428363,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 21.776,
       "eval_steps_per_second": 5.444,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.267990668489523e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4755863547325134,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.005905744320642545,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.776,
       "eval_steps_per_second": 5.444,
       "step": 100
+    },
+    {
+      "epoch": 0.003976534509232647,
+      "grad_norm": 0.6821577548980713,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.4472,
+      "step": 101
+    },
+    {
+      "epoch": 0.0040159061380369305,
+      "grad_norm": 0.6033506989479065,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.4505,
+      "step": 102
+    },
+    {
+      "epoch": 0.004055277766841214,
+      "grad_norm": 0.6802194118499756,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.4243,
+      "step": 103
+    },
+    {
+      "epoch": 0.004094649395645498,
+      "grad_norm": 1.0940698385238647,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.5355,
+      "step": 104
+    },
+    {
+      "epoch": 0.0041340210244497815,
+      "grad_norm": 1.0095839500427246,
+      "learning_rate": 5e-05,
+      "loss": 0.4859,
+      "step": 105
+    },
+    {
+      "epoch": 0.004173392653254065,
+      "grad_norm": 0.9586552381515503,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.4559,
+      "step": 106
+    },
+    {
+      "epoch": 0.004212764282058349,
+      "grad_norm": 1.0491364002227783,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.5536,
+      "step": 107
+    },
+    {
+      "epoch": 0.0042521359108626325,
+      "grad_norm": 1.0424336194992065,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.531,
+      "step": 108
+    },
+    {
+      "epoch": 0.004291507539666916,
+      "grad_norm": 1.1021971702575684,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.4656,
+      "step": 109
+    },
+    {
+      "epoch": 0.0043308791684712,
+      "grad_norm": 1.0408269166946411,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.4715,
+      "step": 110
+    },
+    {
+      "epoch": 0.0043702507972754835,
+      "grad_norm": 1.21599543094635,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.527,
+      "step": 111
+    },
+    {
+      "epoch": 0.004409622426079767,
+      "grad_norm": 1.0973793268203735,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.4781,
+      "step": 112
+    },
+    {
+      "epoch": 0.004448994054884051,
+      "grad_norm": 1.0023589134216309,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.3882,
+      "step": 113
+    },
+    {
+      "epoch": 0.0044883656836883345,
+      "grad_norm": 1.0988465547561646,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.4012,
+      "step": 114
+    },
+    {
+      "epoch": 0.004527737312492618,
+      "grad_norm": 1.2344098091125488,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.4895,
+      "step": 115
+    },
+    {
+      "epoch": 0.004567108941296902,
+      "grad_norm": 1.0267789363861084,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.4079,
+      "step": 116
+    },
+    {
+      "epoch": 0.0046064805701011855,
+      "grad_norm": 1.1937060356140137,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.4989,
+      "step": 117
+    },
+    {
+      "epoch": 0.004645852198905469,
+      "grad_norm": 1.0652450323104858,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.4234,
+      "step": 118
+    },
+    {
+      "epoch": 0.004685223827709752,
+      "grad_norm": 1.1903423070907593,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.3993,
+      "step": 119
+    },
+    {
+      "epoch": 0.004724595456514036,
+      "grad_norm": 1.204135537147522,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.3806,
+      "step": 120
+    },
+    {
+      "epoch": 0.004763967085318319,
+      "grad_norm": 1.1541450023651123,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.4245,
+      "step": 121
+    },
+    {
+      "epoch": 0.004803338714122603,
+      "grad_norm": 1.1386463642120361,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.4182,
+      "step": 122
+    },
+    {
+      "epoch": 0.004842710342926887,
+      "grad_norm": 1.179220199584961,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.4101,
+      "step": 123
+    },
+    {
+      "epoch": 0.00488208197173117,
+      "grad_norm": 1.2795960903167725,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.4203,
+      "step": 124
+    },
+    {
+      "epoch": 0.004921453600535454,
+      "grad_norm": 1.6313341856002808,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.4771,
+      "step": 125
+    },
+    {
+      "epoch": 0.004960825229339738,
+      "grad_norm": 1.3297889232635498,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.4054,
+      "step": 126
+    },
+    {
+      "epoch": 0.005000196858144021,
+      "grad_norm": 1.3898698091506958,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.4196,
+      "step": 127
+    },
+    {
+      "epoch": 0.005039568486948305,
+      "grad_norm": 1.2108392715454102,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.433,
+      "step": 128
+    },
+    {
+      "epoch": 0.005078940115752589,
+      "grad_norm": 1.320252776145935,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.4027,
+      "step": 129
+    },
+    {
+      "epoch": 0.005118311744556872,
+      "grad_norm": 1.3441872596740723,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.3871,
+      "step": 130
+    },
+    {
+      "epoch": 0.005157683373361156,
+      "grad_norm": 1.3732396364212036,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.4692,
+      "step": 131
+    },
+    {
+      "epoch": 0.00519705500216544,
+      "grad_norm": 1.471716284751892,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.3845,
+      "step": 132
+    },
+    {
+      "epoch": 0.005236426630969723,
+      "grad_norm": 1.654649019241333,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.4476,
+      "step": 133
+    },
+    {
+      "epoch": 0.005275798259774007,
+      "grad_norm": 1.314582109451294,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.3975,
+      "step": 134
+    },
+    {
+      "epoch": 0.005315169888578291,
+      "grad_norm": 1.2855511903762817,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.3836,
+      "step": 135
+    },
+    {
+      "epoch": 0.005354541517382574,
+      "grad_norm": 1.5129963159561157,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.4548,
+      "step": 136
+    },
+    {
+      "epoch": 0.005393913146186858,
+      "grad_norm": 1.40498685836792,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.4161,
+      "step": 137
+    },
+    {
+      "epoch": 0.005433284774991142,
+      "grad_norm": 1.7466362714767456,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.4721,
+      "step": 138
+    },
+    {
+      "epoch": 0.005472656403795425,
+      "grad_norm": 1.5604318380355835,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 0.4564,
+      "step": 139
+    },
+    {
+      "epoch": 0.005512028032599709,
+      "grad_norm": 1.6837966442108154,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.4667,
+      "step": 140
+    },
+    {
+      "epoch": 0.005551399661403993,
+      "grad_norm": 1.867175579071045,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.4654,
+      "step": 141
+    },
+    {
+      "epoch": 0.005590771290208276,
+      "grad_norm": 2.220432758331299,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.4996,
+      "step": 142
+    },
+    {
+      "epoch": 0.00563014291901256,
+      "grad_norm": 2.555483341217041,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.6215,
+      "step": 143
+    },
+    {
+      "epoch": 0.005669514547816844,
+      "grad_norm": 3.0226290225982666,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 0.5752,
+      "step": 144
+    },
+    {
+      "epoch": 0.005708886176621126,
+      "grad_norm": 2.8674111366271973,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.5822,
+      "step": 145
+    },
+    {
+      "epoch": 0.00574825780542541,
+      "grad_norm": 2.833491563796997,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.6672,
+      "step": 146
+    },
+    {
+      "epoch": 0.005787629434229694,
+      "grad_norm": 3.3857784271240234,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.7152,
+      "step": 147
+    },
+    {
+      "epoch": 0.005827001063033977,
+      "grad_norm": 3.082288980484009,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.622,
+      "step": 148
+    },
+    {
+      "epoch": 0.005866372691838261,
+      "grad_norm": 3.570404291152954,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.6337,
+      "step": 149
+    },
+    {
+      "epoch": 0.005905744320642545,
+      "grad_norm": 4.106326580047607,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.7418,
+      "step": 150
+    },
+    {
+      "epoch": 0.005905744320642545,
+      "eval_loss": 0.4755863547325134,
+      "eval_runtime": 1963.7539,
+      "eval_samples_per_second": 21.784,
+      "eval_steps_per_second": 5.446,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.391626802082611e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null