Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f11e22314c371aae41118965c662bc627952289ebee2ba149ed2f9465ce713b7
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:4645db15cb8051f985e2a50c613e0570afd8d4079e8d83ec368fac88dfe2d209
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac3ec9d7978be5a2c8d06fcfc3ad8581ed2c8e7ca80dc9ade5df25803a82f5e9
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:c982507742ded6fb6c09c99f01d0b8ba2ab28404219dceb9bf512b67c6d2189a
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e4147ead9c8567589bfd5851181b566a72644d2a4770c82b2b48fb43a634fbe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:73b1a8839cfb05ca6b01f7cb76ab6a2b0ecb176121723a6354b25d30c2303bbb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9fd70aa4cf68daad2242bc04a8a03f22adc681e42e4ebf5294902cea9d0a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfd59dca009004df561617f8f6994512d029a952a68609cac24b36df5a0757ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.581653356552124,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.07544322897019992,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.007,
       "eval_steps_per_second": 5.006,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4345755040101171e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4006094932556152,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.11316484345529988,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.007,
       "eval_steps_per_second": 5.006,
       "step": 100
+    },
+    {
+      "epoch": 0.07619766125990192,
+      "grad_norm": 14.999310493469238,
+      "learning_rate": 6.279213887972179e-05,
+      "loss": 6.7778,
+      "step": 101
+    },
+    {
+      "epoch": 0.07695209354960392,
+      "grad_norm": 13.291474342346191,
+      "learning_rate": 6.189675975213094e-05,
+      "loss": 7.1744,
+      "step": 102
+    },
+    {
+      "epoch": 0.07770652583930593,
+      "grad_norm": 9.604938507080078,
+      "learning_rate": 6.099731789198344e-05,
+      "loss": 6.6883,
+      "step": 103
+    },
+    {
+      "epoch": 0.07846095812900793,
+      "grad_norm": 7.80354118347168,
+      "learning_rate": 6.009412045785051e-05,
+      "loss": 6.2805,
+      "step": 104
+    },
+    {
+      "epoch": 0.07921539041870992,
+      "grad_norm": 8.760526657104492,
+      "learning_rate": 5.918747589082853e-05,
+      "loss": 6.5151,
+      "step": 105
+    },
+    {
+      "epoch": 0.07996982270841192,
+      "grad_norm": 8.761163711547852,
+      "learning_rate": 5.82776938092065e-05,
+      "loss": 6.4826,
+      "step": 106
+    },
+    {
+      "epoch": 0.08072425499811392,
+      "grad_norm": 8.215286254882812,
+      "learning_rate": 5.736508490273188e-05,
+      "loss": 5.9167,
+      "step": 107
+    },
+    {
+      "epoch": 0.08147868728781592,
+      "grad_norm": 7.599548816680908,
+      "learning_rate": 5.644996082651017e-05,
+      "loss": 6.2646,
+      "step": 108
+    },
+    {
+      "epoch": 0.08223311957751792,
+      "grad_norm": 7.709637641906738,
+      "learning_rate": 5.553263409457504e-05,
+      "loss": 5.8361,
+      "step": 109
+    },
+    {
+      "epoch": 0.08298755186721991,
+      "grad_norm": 7.818946838378906,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 6.3807,
+      "step": 110
+    },
+    {
+      "epoch": 0.08374198415692191,
+      "grad_norm": 7.244435787200928,
+      "learning_rate": 5.3692626373743706e-05,
+      "loss": 6.0912,
+      "step": 111
+    },
+    {
+      "epoch": 0.08449641644662391,
+      "grad_norm": 7.93871545791626,
+      "learning_rate": 5.27705737457985e-05,
+      "loss": 6.1092,
+      "step": 112
+    },
+    {
+      "epoch": 0.08525084873632592,
+      "grad_norm": 7.6457319259643555,
+      "learning_rate": 5.184757496945726e-05,
+      "loss": 5.915,
+      "step": 113
+    },
+    {
+      "epoch": 0.08600528102602792,
+      "grad_norm": 7.350983619689941,
+      "learning_rate": 5.092394524795649e-05,
+      "loss": 5.7853,
+      "step": 114
+    },
+    {
+      "epoch": 0.08675971331572992,
+      "grad_norm": 7.477654933929443,
+      "learning_rate": 5e-05,
+      "loss": 5.9845,
+      "step": 115
+    },
+    {
+      "epoch": 0.08751414560543191,
+      "grad_norm": 7.959140777587891,
+      "learning_rate": 4.907605475204352e-05,
+      "loss": 5.3337,
+      "step": 116
+    },
+    {
+      "epoch": 0.08826857789513391,
+      "grad_norm": 8.025788307189941,
+      "learning_rate": 4.8152425030542766e-05,
+      "loss": 5.5754,
+      "step": 117
+    },
+    {
+      "epoch": 0.08902301018483591,
+      "grad_norm": 7.158747673034668,
+      "learning_rate": 4.72294262542015e-05,
+      "loss": 5.5501,
+      "step": 118
+    },
+    {
+      "epoch": 0.08977744247453791,
+      "grad_norm": 7.6621994972229,
+      "learning_rate": 4.6307373626256306e-05,
+      "loss": 5.9097,
+      "step": 119
+    },
+    {
+      "epoch": 0.0905318747642399,
+      "grad_norm": 7.132166862487793,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 5.744,
+      "step": 120
+    },
+    {
+      "epoch": 0.0912863070539419,
+      "grad_norm": 7.8009819984436035,
+      "learning_rate": 4.446736590542497e-05,
+      "loss": 5.5201,
+      "step": 121
+    },
+    {
+      "epoch": 0.0920407393436439,
+      "grad_norm": 7.407027721405029,
+      "learning_rate": 4.3550039173489845e-05,
+      "loss": 5.6957,
+      "step": 122
+    },
+    {
+      "epoch": 0.09279517163334591,
+      "grad_norm": 7.293229579925537,
+      "learning_rate": 4.2634915097268115e-05,
+      "loss": 6.0079,
+      "step": 123
+    },
+    {
+      "epoch": 0.09354960392304791,
+      "grad_norm": 7.645759105682373,
+      "learning_rate": 4.1722306190793495e-05,
+      "loss": 4.653,
+      "step": 124
+    },
+    {
+      "epoch": 0.09430403621274991,
+      "grad_norm": 7.993988513946533,
+      "learning_rate": 4.0812524109171476e-05,
+      "loss": 5.4163,
+      "step": 125
+    },
+    {
+      "epoch": 0.0950584685024519,
+      "grad_norm": 7.342037677764893,
+      "learning_rate": 3.99058795421495e-05,
+      "loss": 5.9263,
+      "step": 126
+    },
+    {
+      "epoch": 0.0958129007921539,
+      "grad_norm": 8.084555625915527,
+      "learning_rate": 3.9002682108016585e-05,
+      "loss": 6.2218,
+      "step": 127
+    },
+    {
+      "epoch": 0.0965673330818559,
+      "grad_norm": 8.398702621459961,
+      "learning_rate": 3.8103240247869075e-05,
+      "loss": 5.8363,
+      "step": 128
+    },
+    {
+      "epoch": 0.0973217653715579,
+      "grad_norm": 8.095590591430664,
+      "learning_rate": 3.720786112027822e-05,
+      "loss": 6.0603,
+      "step": 129
+    },
+    {
+      "epoch": 0.0980761976612599,
+      "grad_norm": 8.621750831604004,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 6.1481,
+      "step": 130
+    },
+    {
+      "epoch": 0.0988306299509619,
+      "grad_norm": 7.470015048980713,
+      "learning_rate": 3.543051265553377e-05,
+      "loss": 5.6436,
+      "step": 131
+    },
+    {
+      "epoch": 0.0995850622406639,
+      "grad_norm": 8.399615287780762,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 5.7993,
+      "step": 132
+    },
+    {
+      "epoch": 0.1003394945303659,
+      "grad_norm": 7.979325294494629,
+      "learning_rate": 3.367306435799584e-05,
+      "loss": 4.9809,
+      "step": 133
+    },
+    {
+      "epoch": 0.1010939268200679,
+      "grad_norm": 8.482051849365234,
+      "learning_rate": 3.2802554068303596e-05,
+      "loss": 4.963,
+      "step": 134
+    },
+    {
+      "epoch": 0.1018483591097699,
+      "grad_norm": 7.327165603637695,
+      "learning_rate": 3.1937916690642356e-05,
+      "loss": 4.7399,
+      "step": 135
+    },
+    {
+      "epoch": 0.1026027913994719,
+      "grad_norm": 7.478617191314697,
+      "learning_rate": 3.107944749788449e-05,
+      "loss": 5.3976,
+      "step": 136
+    },
+    {
+      "epoch": 0.1033572236891739,
+      "grad_norm": 7.518840312957764,
+      "learning_rate": 3.0227439656472877e-05,
+      "loss": 5.1067,
+      "step": 137
+    },
+    {
+      "epoch": 0.1041116559788759,
+      "grad_norm": 7.427170276641846,
+      "learning_rate": 2.9382184126304834e-05,
+      "loss": 4.4334,
+      "step": 138
+    },
+    {
+      "epoch": 0.10486608826857789,
+      "grad_norm": 8.182501792907715,
+      "learning_rate": 2.8543969561369556e-05,
+      "loss": 5.201,
+      "step": 139
+    },
+    {
+      "epoch": 0.10562052055827989,
+      "grad_norm": 9.181497573852539,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 5.1471,
+      "step": 140
+    },
+    {
+      "epoch": 0.10637495284798189,
+      "grad_norm": 8.158872604370117,
+      "learning_rate": 2.688980582298435e-05,
+      "loss": 4.324,
+      "step": 141
+    },
+    {
+      "epoch": 0.1071293851376839,
+      "grad_norm": 8.7058744430542,
+      "learning_rate": 2.607442154493568e-05,
+      "loss": 5.2668,
+      "step": 142
+    },
+    {
+      "epoch": 0.1078838174273859,
+      "grad_norm": 9.988224029541016,
+      "learning_rate": 2.5267207830011068e-05,
+      "loss": 4.9627,
+      "step": 143
+    },
+    {
+      "epoch": 0.1086382497170879,
+      "grad_norm": 9.397239685058594,
+      "learning_rate": 2.446844034095466e-05,
+      "loss": 5.4195,
+      "step": 144
+    },
+    {
+      "epoch": 0.1093926820067899,
+      "grad_norm": 8.99825668334961,
+      "learning_rate": 2.3678391856132204e-05,
+      "loss": 4.6881,
+      "step": 145
+    },
+    {
+      "epoch": 0.11014711429649189,
+      "grad_norm": 8.604011535644531,
+      "learning_rate": 2.2897332176377528e-05,
+      "loss": 4.5378,
+      "step": 146
+    },
+    {
+      "epoch": 0.11090154658619389,
+      "grad_norm": 9.167732238769531,
+      "learning_rate": 2.2125528032855724e-05,
+      "loss": 3.5005,
+      "step": 147
+    },
+    {
+      "epoch": 0.11165597887589589,
+      "grad_norm": 8.983088493347168,
+      "learning_rate": 2.136324299597474e-05,
+      "loss": 3.3061,
+      "step": 148
+    },
+    {
+      "epoch": 0.11241041116559788,
+      "grad_norm": 8.106727600097656,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.1657,
+      "step": 149
+    },
+    {
+      "epoch": 0.11316484345529988,
+      "grad_norm": 10.579435348510742,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 2.5445,
+      "step": 150
+    },
+    {
+      "epoch": 0.11316484345529988,
+      "eval_loss": 1.4006094932556152,
+      "eval_runtime": 223.0685,
+      "eval_samples_per_second": 10.01,
+      "eval_steps_per_second": 5.007,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.150074508503941e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null