Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7bed5bf6e403571cd4b2c52593e152f4e8a5d742b792e28bbacf835a35b61e2
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:04da064045142a02415d172743922bf1ddf98863d72dcf6f7b87f484ccb0a062
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdaa1eb075669105165ecff759347bd28db820270f008c4fdafba25a4463644d
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:87d5c984739222af6f79452d9f17815608148d28ff04586d07ffffff97bf287f
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e29024cee0e32918d804c461b1559b02a369606d17096809c8f0b30b8f84677b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:387fb2c0026a83f479d06df82faa40f6ae4851b1afe499bd825987f9cdd04a32
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0116993188858032,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.05040957781978576,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 47.568,
       "eval_steps_per_second": 11.903,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9486712185028608.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9601866602897644,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.07561436672967864,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.568,
       "eval_steps_per_second": 11.903,
       "step": 100
+    },
+    {
+      "epoch": 0.050913673597983614,
+      "grad_norm": 0.7841265797615051,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.8478,
+      "step": 101
+    },
+    {
+      "epoch": 0.05141776937618148,
+      "grad_norm": 0.7918402552604675,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.9741,
+      "step": 102
+    },
+    {
+      "epoch": 0.05192186515437933,
+      "grad_norm": 0.7663191556930542,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 1.061,
+      "step": 103
+    },
+    {
+      "epoch": 0.05242596093257719,
+      "grad_norm": 0.5820767879486084,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.9389,
+      "step": 104
+    },
+    {
+      "epoch": 0.052930056710775046,
+      "grad_norm": 0.4415889084339142,
+      "learning_rate": 5e-05,
+      "loss": 0.9897,
+      "step": 105
+    },
+    {
+      "epoch": 0.0534341524889729,
+      "grad_norm": 0.39681074023246765,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.9521,
+      "step": 106
+    },
+    {
+      "epoch": 0.053938248267170766,
+      "grad_norm": 0.40437906980514526,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.9214,
+      "step": 107
+    },
+    {
+      "epoch": 0.05444234404536862,
+      "grad_norm": 0.3815537095069885,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.94,
+      "step": 108
+    },
+    {
+      "epoch": 0.05494643982356648,
+      "grad_norm": 0.38426071405410767,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.9144,
+      "step": 109
+    },
+    {
+      "epoch": 0.055450535601764335,
+      "grad_norm": 0.38166847825050354,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.9569,
+      "step": 110
+    },
+    {
+      "epoch": 0.05595463137996219,
+      "grad_norm": 0.3796461224555969,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.9856,
+      "step": 111
+    },
+    {
+      "epoch": 0.05645872715816005,
+      "grad_norm": 0.3643120527267456,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.9217,
+      "step": 112
+    },
+    {
+      "epoch": 0.05696282293635791,
+      "grad_norm": 0.384927362203598,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.911,
+      "step": 113
+    },
+    {
+      "epoch": 0.05746691871455577,
+      "grad_norm": 0.38762205839157104,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.8977,
+      "step": 114
+    },
+    {
+      "epoch": 0.057971014492753624,
+      "grad_norm": 0.3947840929031372,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.9479,
+      "step": 115
+    },
+    {
+      "epoch": 0.05847511027095148,
+      "grad_norm": 0.40712770819664,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.9162,
+      "step": 116
+    },
+    {
+      "epoch": 0.05897920604914934,
+      "grad_norm": 0.41037410497665405,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.9168,
+      "step": 117
+    },
+    {
+      "epoch": 0.05948330182734719,
+      "grad_norm": 0.41304683685302734,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.8944,
+      "step": 118
+    },
+    {
+      "epoch": 0.059987397605545056,
+      "grad_norm": 0.4369380474090576,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.9477,
+      "step": 119
+    },
+    {
+      "epoch": 0.06049149338374291,
+      "grad_norm": 0.4551554322242737,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.9252,
+      "step": 120
+    },
+    {
+      "epoch": 0.06099558916194077,
+      "grad_norm": 0.46176278591156006,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.9468,
+      "step": 121
+    },
+    {
+      "epoch": 0.061499684940138626,
+      "grad_norm": 0.47067078948020935,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.9505,
+      "step": 122
+    },
+    {
+      "epoch": 0.06200378071833648,
+      "grad_norm": 0.4589996635913849,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.918,
+      "step": 123
+    },
+    {
+      "epoch": 0.06250787649653435,
+      "grad_norm": 0.47660380601882935,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.958,
+      "step": 124
+    },
+    {
+      "epoch": 0.0630119722747322,
+      "grad_norm": 0.48685434460639954,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 1.0218,
+      "step": 125
+    },
+    {
+      "epoch": 0.06351606805293006,
+      "grad_norm": 0.4912755787372589,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.9211,
+      "step": 126
+    },
+    {
+      "epoch": 0.06402016383112791,
+      "grad_norm": 0.5366457104682922,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.978,
+      "step": 127
+    },
+    {
+      "epoch": 0.06452425960932577,
+      "grad_norm": 0.5451323390007019,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.9386,
+      "step": 128
+    },
+    {
+      "epoch": 0.06502835538752363,
+      "grad_norm": 0.5842207074165344,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 1.0105,
+      "step": 129
+    },
+    {
+      "epoch": 0.06553245116572148,
+      "grad_norm": 0.555545449256897,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.9662,
+      "step": 130
+    },
+    {
+      "epoch": 0.06603654694391935,
+      "grad_norm": 0.6450053453445435,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 1.0536,
+      "step": 131
+    },
+    {
+      "epoch": 0.0665406427221172,
+      "grad_norm": 0.6146291494369507,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.8666,
+      "step": 132
+    },
+    {
+      "epoch": 0.06704473850031506,
+      "grad_norm": 0.6321956515312195,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.9245,
+      "step": 133
+    },
+    {
+      "epoch": 0.06754883427851292,
+      "grad_norm": 0.7116584181785583,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.8686,
+      "step": 134
+    },
+    {
+      "epoch": 0.06805293005671077,
+      "grad_norm": 0.8101832866668701,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.8388,
+      "step": 135
+    },
+    {
+      "epoch": 0.06855702583490864,
+      "grad_norm": 0.8933461904525757,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.9507,
+      "step": 136
+    },
+    {
+      "epoch": 0.06906112161310649,
+      "grad_norm": 0.9112444519996643,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.8868,
+      "step": 137
+    },
+    {
+      "epoch": 0.06956521739130435,
+      "grad_norm": 1.024316668510437,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 1.1932,
+      "step": 138
+    },
+    {
+      "epoch": 0.07006931316950221,
+      "grad_norm": 1.1063545942306519,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 1.0144,
+      "step": 139
+    },
+    {
+      "epoch": 0.07057340894770006,
+      "grad_norm": 1.094598412513733,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.9647,
+      "step": 140
+    },
+    {
+      "epoch": 0.07107750472589792,
+      "grad_norm": 1.3245705366134644,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 1.092,
+      "step": 141
+    },
+    {
+      "epoch": 0.07158160050409577,
+      "grad_norm": 1.3400907516479492,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.9654,
+      "step": 142
+    },
+    {
+      "epoch": 0.07208569628229364,
+      "grad_norm": 1.3648507595062256,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.8774,
+      "step": 143
+    },
+    {
+      "epoch": 0.07258979206049149,
+      "grad_norm": 1.505003571510315,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 1.0001,
+      "step": 144
+    },
+    {
+      "epoch": 0.07309388783868935,
+      "grad_norm": 1.6857004165649414,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.9833,
+      "step": 145
+    },
+    {
+      "epoch": 0.07359798361688721,
+      "grad_norm": 1.766623616218567,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.9873,
+      "step": 146
+    },
+    {
+      "epoch": 0.07410207939508506,
+      "grad_norm": 2.1166927814483643,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 1.1829,
+      "step": 147
+    },
+    {
+      "epoch": 0.07460617517328293,
+      "grad_norm": 3.463778495788574,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 1.3177,
+      "step": 148
+    },
+    {
+      "epoch": 0.07511027095148078,
+      "grad_norm": 3.5200185775756836,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 1.236,
+      "step": 149
+    },
+    {
+      "epoch": 0.07561436672967864,
+      "grad_norm": 4.4810872077941895,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 1.4402,
+      "step": 150
+    },
+    {
+      "epoch": 0.07561436672967864,
+      "eval_loss": 0.9601866602897644,
+      "eval_runtime": 70.1677,
+      "eval_samples_per_second": 47.614,
+      "eval_steps_per_second": 11.914,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4239728880582656e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null