Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fe2bc7f410b18f2d84da57aee6a426601b74ac3145a9f8f5b999f3b26397ce8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6809709cc6e0b32acb814a9eb2ea10485e2e30a7abfc2c9b4b635a04a03b642
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3c3a3075b7c67c1ec552e99862e9a6ab02259ff2efd56545d08d9a528992115
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fc0b6e6a51ab504fa5b81fae3661f568391ff25aeb91ed011f92a1a5964026e
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a021a67ea182c2e6e2e77b7f247ec4b54190e2f7f54d32161d3ce4005a4cba3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:80e2bf3019df065cb5a9f9969cad64bcd1e961e034fab484e16358f1afda784b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcbe1ba74b58330afa49026b3467516d09bde409f813ca3b749b16b9edb36df4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ab3d2b0401484126213dd055d9044edf00d7b06db4fe9dbad6027ee8b5d34b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.573653221130371,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.03762227238525207,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 14.886,
       "eval_steps_per_second": 3.721,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8066349863469056e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.492374897003174,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.07524454477050414,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.886,
       "eval_steps_per_second": 3.721,
       "step": 50
+    },
+    {
+      "epoch": 0.03837471783295711,
+      "grad_norm": 6.201414108276367,
+      "learning_rate": 7.983263157894736e-05,
+      "loss": 4.6951,
+      "step": 51
+    },
+    {
+      "epoch": 0.03912716328066215,
+      "grad_norm": 4.830835342407227,
+      "learning_rate": 7.929684210526315e-05,
+      "loss": 5.02,
+      "step": 52
+    },
+    {
+      "epoch": 0.0398796087283672,
+      "grad_norm": 7.732100009918213,
+      "learning_rate": 7.876105263157895e-05,
+      "loss": 4.9632,
+      "step": 53
+    },
+    {
+      "epoch": 0.040632054176072234,
+      "grad_norm": 7.422882556915283,
+      "learning_rate": 7.822526315789473e-05,
+      "loss": 4.2894,
+      "step": 54
+    },
+    {
+      "epoch": 0.04138449962377728,
+      "grad_norm": 6.019810676574707,
+      "learning_rate": 7.768947368421053e-05,
+      "loss": 4.5985,
+      "step": 55
+    },
+    {
+      "epoch": 0.042136945071482315,
+      "grad_norm": 7.448675632476807,
+      "learning_rate": 7.715368421052631e-05,
+      "loss": 5.6458,
+      "step": 56
+    },
+    {
+      "epoch": 0.04288939051918736,
+      "grad_norm": 6.525016784667969,
+      "learning_rate": 7.66178947368421e-05,
+      "loss": 4.4928,
+      "step": 57
+    },
+    {
+      "epoch": 0.0436418359668924,
+      "grad_norm": 5.862019062042236,
+      "learning_rate": 7.608210526315788e-05,
+      "loss": 5.0442,
+      "step": 58
+    },
+    {
+      "epoch": 0.04439428141459744,
+      "grad_norm": 6.698094844818115,
+      "learning_rate": 7.554631578947368e-05,
+      "loss": 5.1862,
+      "step": 59
+    },
+    {
+      "epoch": 0.045146726862302484,
+      "grad_norm": 5.901148796081543,
+      "learning_rate": 7.501052631578947e-05,
+      "loss": 4.6401,
+      "step": 60
+    },
+    {
+      "epoch": 0.04589917231000752,
+      "grad_norm": 8.506747245788574,
+      "learning_rate": 7.447473684210527e-05,
+      "loss": 5.6167,
+      "step": 61
+    },
+    {
+      "epoch": 0.046651617757712566,
+      "grad_norm": 8.143284797668457,
+      "learning_rate": 7.393894736842105e-05,
+      "loss": 4.5655,
+      "step": 62
+    },
+    {
+      "epoch": 0.04740406320541761,
+      "grad_norm": 5.302389621734619,
+      "learning_rate": 7.340315789473684e-05,
+      "loss": 4.4897,
+      "step": 63
+    },
+    {
+      "epoch": 0.04815650865312265,
+      "grad_norm": 5.529751300811768,
+      "learning_rate": 7.286736842105262e-05,
+      "loss": 4.2722,
+      "step": 64
+    },
+    {
+      "epoch": 0.04890895410082769,
+      "grad_norm": 8.762489318847656,
+      "learning_rate": 7.233157894736842e-05,
+      "loss": 5.1436,
+      "step": 65
+    },
+    {
+      "epoch": 0.04966139954853273,
+      "grad_norm": 11.295607566833496,
+      "learning_rate": 7.179578947368421e-05,
+      "loss": 4.9496,
+      "step": 66
+    },
+    {
+      "epoch": 0.05041384499623777,
+      "grad_norm": 9.971809387207031,
+      "learning_rate": 7.125999999999999e-05,
+      "loss": 5.4893,
+      "step": 67
+    },
+    {
+      "epoch": 0.051166290443942816,
+      "grad_norm": 7.344180583953857,
+      "learning_rate": 7.072421052631579e-05,
+      "loss": 4.6742,
+      "step": 68
+    },
+    {
+      "epoch": 0.05191873589164785,
+      "grad_norm": 9.844782829284668,
+      "learning_rate": 7.018842105263158e-05,
+      "loss": 5.1691,
+      "step": 69
+    },
+    {
+      "epoch": 0.0526711813393529,
+      "grad_norm": 8.95771598815918,
+      "learning_rate": 6.965263157894736e-05,
+      "loss": 4.879,
+      "step": 70
+    },
+    {
+      "epoch": 0.05342362678705794,
+      "grad_norm": 8.04973030090332,
+      "learning_rate": 6.911684210526316e-05,
+      "loss": 5.0598,
+      "step": 71
+    },
+    {
+      "epoch": 0.05417607223476298,
+      "grad_norm": 8.579294204711914,
+      "learning_rate": 6.858105263157894e-05,
+      "loss": 4.8055,
+      "step": 72
+    },
+    {
+      "epoch": 0.05492851768246802,
+      "grad_norm": 7.308038234710693,
+      "learning_rate": 6.804526315789473e-05,
+      "loss": 4.7293,
+      "step": 73
+    },
+    {
+      "epoch": 0.05568096313017306,
+      "grad_norm": 7.7795233726501465,
+      "learning_rate": 6.750947368421052e-05,
+      "loss": 5.0379,
+      "step": 74
+    },
+    {
+      "epoch": 0.056433408577878104,
+      "grad_norm": 8.343374252319336,
+      "learning_rate": 6.697368421052631e-05,
+      "loss": 4.4904,
+      "step": 75
+    },
+    {
+      "epoch": 0.05718585402558315,
+      "grad_norm": 7.44524621963501,
+      "learning_rate": 6.64378947368421e-05,
+      "loss": 4.7685,
+      "step": 76
+    },
+    {
+      "epoch": 0.057938299473288185,
+      "grad_norm": 10.718270301818848,
+      "learning_rate": 6.59021052631579e-05,
+      "loss": 5.2094,
+      "step": 77
+    },
+    {
+      "epoch": 0.05869074492099323,
+      "grad_norm": 9.407214164733887,
+      "learning_rate": 6.536631578947368e-05,
+      "loss": 5.0866,
+      "step": 78
+    },
+    {
+      "epoch": 0.059443190368698266,
+      "grad_norm": 8.373135566711426,
+      "learning_rate": 6.483052631578947e-05,
+      "loss": 4.8998,
+      "step": 79
+    },
+    {
+      "epoch": 0.06019563581640331,
+      "grad_norm": 8.654524803161621,
+      "learning_rate": 6.429473684210525e-05,
+      "loss": 4.6364,
+      "step": 80
+    },
+    {
+      "epoch": 0.060948081264108354,
+      "grad_norm": 9.621380805969238,
+      "learning_rate": 6.375894736842104e-05,
+      "loss": 5.1948,
+      "step": 81
+    },
+    {
+      "epoch": 0.06170052671181339,
+      "grad_norm": 13.150786399841309,
+      "learning_rate": 6.322315789473684e-05,
+      "loss": 5.4827,
+      "step": 82
+    },
+    {
+      "epoch": 0.062452972159518436,
+      "grad_norm": 10.533498764038086,
+      "learning_rate": 6.268736842105264e-05,
+      "loss": 4.9195,
+      "step": 83
+    },
+    {
+      "epoch": 0.06320541760722348,
+      "grad_norm": 10.708104133605957,
+      "learning_rate": 6.215157894736842e-05,
+      "loss": 4.8833,
+      "step": 84
+    },
+    {
+      "epoch": 0.06395786305492852,
+      "grad_norm": 7.892517566680908,
+      "learning_rate": 6.16157894736842e-05,
+      "loss": 5.0272,
+      "step": 85
+    },
+    {
+      "epoch": 0.06471030850263355,
+      "grad_norm": 13.007377624511719,
+      "learning_rate": 6.107999999999999e-05,
+      "loss": 4.8137,
+      "step": 86
+    },
+    {
+      "epoch": 0.0654627539503386,
+      "grad_norm": 11.001848220825195,
+      "learning_rate": 6.054421052631578e-05,
+      "loss": 5.8105,
+      "step": 87
+    },
+    {
+      "epoch": 0.06621519939804364,
+      "grad_norm": 13.360245704650879,
+      "learning_rate": 6.000842105263157e-05,
+      "loss": 5.2308,
+      "step": 88
+    },
+    {
+      "epoch": 0.06696764484574869,
+      "grad_norm": 8.78776741027832,
+      "learning_rate": 5.947263157894737e-05,
+      "loss": 4.3293,
+      "step": 89
+    },
+    {
+      "epoch": 0.06772009029345373,
+      "grad_norm": 11.788161277770996,
+      "learning_rate": 5.893684210526316e-05,
+      "loss": 5.5094,
+      "step": 90
+    },
+    {
+      "epoch": 0.06847253574115876,
+      "grad_norm": 13.817206382751465,
+      "learning_rate": 5.8401052631578944e-05,
+      "loss": 5.6535,
+      "step": 91
+    },
+    {
+      "epoch": 0.0692249811888638,
+      "grad_norm": 10.35663890838623,
+      "learning_rate": 5.7865263157894736e-05,
+      "loss": 4.9656,
+      "step": 92
+    },
+    {
+      "epoch": 0.06997742663656885,
+      "grad_norm": 12.754554748535156,
+      "learning_rate": 5.732947368421052e-05,
+      "loss": 6.037,
+      "step": 93
+    },
+    {
+      "epoch": 0.07072987208427389,
+      "grad_norm": 13.788698196411133,
+      "learning_rate": 5.6793684210526306e-05,
+      "loss": 5.4732,
+      "step": 94
+    },
+    {
+      "epoch": 0.07148231753197894,
+      "grad_norm": 10.369476318359375,
+      "learning_rate": 5.6257894736842105e-05,
+      "loss": 4.9698,
+      "step": 95
+    },
+    {
+      "epoch": 0.07223476297968397,
+      "grad_norm": 11.039383888244629,
+      "learning_rate": 5.57221052631579e-05,
+      "loss": 5.0991,
+      "step": 96
+    },
+    {
+      "epoch": 0.07298720842738901,
+      "grad_norm": 18.217975616455078,
+      "learning_rate": 5.518631578947368e-05,
+      "loss": 5.7764,
+      "step": 97
+    },
+    {
+      "epoch": 0.07373965387509406,
+      "grad_norm": 13.361612319946289,
+      "learning_rate": 5.4650526315789474e-05,
+      "loss": 4.8924,
+      "step": 98
+    },
+    {
+      "epoch": 0.0744920993227991,
+      "grad_norm": 24.20296287536621,
+      "learning_rate": 5.411473684210526e-05,
+      "loss": 6.2003,
+      "step": 99
+    },
+    {
+      "epoch": 0.07524454477050414,
+      "grad_norm": 16.34416389465332,
+      "learning_rate": 5.3578947368421044e-05,
+      "loss": 5.3467,
+      "step": 100
+    },
+    {
+      "epoch": 0.07524454477050414,
+      "eval_loss": 2.492374897003174,
+      "eval_runtime": 37.6751,
+      "eval_samples_per_second": 14.864,
+      "eval_steps_per_second": 3.716,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.613269972693811e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null