Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a1a3c709d6087f8efd240dc4c09985ea313c4af9415e9e7dd5a8b2e8bdf2bbd
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:72930c5b70686dbc59915e0b20814f675c65c7fb5f9f39a53234738c1f7e876e
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:500044e4f7a424972583297bbbd1c78ada1775f6a0879fdf582e2055cb135b3d
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fa678228c8a714a0614a5d46bfebe49b171dbce14d7d88c01ef691d30fdcc85
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b416d1cfed2eab836f4cc34eeb4432c163a97896eaad84dfa9071e5b1b08b35
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:de4f7f46ce9f2a991d9a947996a834f2a3d46d64a84535948c375ff36bf095f2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab2cd78272b68f09e2dc52972598555d6d03b008e6b8b306b1bab47c2e80a621
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:88004fe81ddcc4e2df673ef2a68c651d0c3f66e5c526887263eba26939791c56
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.8629807233810425,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.7743362831858407,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.595,
       "eval_steps_per_second": 3.435,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.345767604224e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.8629807233810425,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 2.663716814159292,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.595,
       "eval_steps_per_second": 3.435,
       "step": 100
+    },
+    {
+      "epoch": 1.7920353982300885,
+      "grad_norm": 1.2100951671600342,
+      "learning_rate": 3.928454234674747e-05,
+      "loss": 0.6735,
+      "step": 101
+    },
+    {
+      "epoch": 1.8097345132743363,
+      "grad_norm": 1.019980788230896,
+      "learning_rate": 3.832773180720475e-05,
+      "loss": 0.4795,
+      "step": 102
+    },
+    {
+      "epoch": 1.827433628318584,
+      "grad_norm": 0.9808886051177979,
+      "learning_rate": 3.73754211492421e-05,
+      "loss": 0.605,
+      "step": 103
+    },
+    {
+      "epoch": 1.8451327433628317,
+      "grad_norm": 1.0874282121658325,
+      "learning_rate": 3.642797750674629e-05,
+      "loss": 0.7412,
+      "step": 104
+    },
+    {
+      "epoch": 1.8628318584070795,
+      "grad_norm": 1.1271072626113892,
+      "learning_rate": 3.5485766137276894e-05,
+      "loss": 0.6797,
+      "step": 105
+    },
+    {
+      "epoch": 1.8805309734513274,
+      "grad_norm": 1.0317531824111938,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.4929,
+      "step": 106
+    },
+    {
+      "epoch": 1.8982300884955752,
+      "grad_norm": 1.1021236181259155,
+      "learning_rate": 3.361849102191533e-05,
+      "loss": 0.6134,
+      "step": 107
+    },
+    {
+      "epoch": 1.915929203539823,
+      "grad_norm": 1.095332145690918,
+      "learning_rate": 3.2694147146125345e-05,
+      "loss": 0.5781,
+      "step": 108
+    },
+    {
+      "epoch": 1.9336283185840708,
+      "grad_norm": 1.1151381731033325,
+      "learning_rate": 3.177647500604252e-05,
+      "loss": 0.6545,
+      "step": 109
+    },
+    {
+      "epoch": 1.9513274336283186,
+      "grad_norm": 1.2261312007904053,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.7223,
+      "step": 110
+    },
+    {
+      "epoch": 1.9690265486725664,
+      "grad_norm": 1.0669209957122803,
+      "learning_rate": 2.996255834484296e-05,
+      "loss": 0.5042,
+      "step": 111
+    },
+    {
+      "epoch": 1.9867256637168142,
+      "grad_norm": 1.3711998462677002,
+      "learning_rate": 2.9067013123128613e-05,
+      "loss": 0.9739,
+      "step": 112
+    },
+    {
+      "epoch": 2.0088495575221237,
+      "grad_norm": 1.9376322031021118,
+      "learning_rate": 2.8179537966332887e-05,
+      "loss": 0.7555,
+      "step": 113
+    },
+    {
+      "epoch": 2.0265486725663715,
+      "grad_norm": 0.781846821308136,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 0.3182,
+      "step": 114
+    },
+    {
+      "epoch": 2.0442477876106193,
+      "grad_norm": 0.9402307868003845,
+      "learning_rate": 2.6430163158700115e-05,
+      "loss": 0.4366,
+      "step": 115
+    },
+    {
+      "epoch": 2.061946902654867,
+      "grad_norm": 0.9695858359336853,
+      "learning_rate": 2.556893792515227e-05,
+      "loss": 0.2303,
+      "step": 116
+    },
+    {
+      "epoch": 2.079646017699115,
+      "grad_norm": 1.2189714908599854,
+      "learning_rate": 2.471713133110078e-05,
+      "loss": 0.4529,
+      "step": 117
+    },
+    {
+      "epoch": 2.0973451327433628,
+      "grad_norm": 0.7794205546379089,
+      "learning_rate": 2.3875071764202563e-05,
+      "loss": 0.2843,
+      "step": 118
+    },
+    {
+      "epoch": 2.1150442477876106,
+      "grad_norm": 0.8974909782409668,
+      "learning_rate": 2.3043083854449988e-05,
+      "loss": 0.4039,
+      "step": 119
+    },
+    {
+      "epoch": 2.1327433628318584,
+      "grad_norm": 0.9793106913566589,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.3848,
+      "step": 120
+    },
+    {
+      "epoch": 2.150442477876106,
+      "grad_norm": 0.9427468180656433,
+      "learning_rate": 2.1410601988619394e-05,
+      "loss": 0.3134,
+      "step": 121
+    },
+    {
+      "epoch": 2.168141592920354,
+      "grad_norm": 1.0571012496948242,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.3331,
+      "step": 122
+    },
+    {
+      "epoch": 2.185840707964602,
+      "grad_norm": 1.081581473350525,
+      "learning_rate": 1.982220290232143e-05,
+      "loss": 0.3525,
+      "step": 123
+    },
+    {
+      "epoch": 2.2035398230088497,
+      "grad_norm": 1.3777657747268677,
+      "learning_rate": 1.9045302534508297e-05,
+      "loss": 0.4149,
+      "step": 124
+    },
+    {
+      "epoch": 2.2212389380530975,
+      "grad_norm": 0.9454907774925232,
+      "learning_rate": 1.8280335791817733e-05,
+      "loss": 0.2463,
+      "step": 125
+    },
+    {
+      "epoch": 2.2389380530973453,
+      "grad_norm": 1.1618309020996094,
+      "learning_rate": 1.7527597583490822e-05,
+      "loss": 0.3783,
+      "step": 126
+    },
+    {
+      "epoch": 2.256637168141593,
+      "grad_norm": 1.170831561088562,
+      "learning_rate": 1.678737810443593e-05,
+      "loss": 0.3626,
+      "step": 127
+    },
+    {
+      "epoch": 2.274336283185841,
+      "grad_norm": 1.1366978883743286,
+      "learning_rate": 1.605996272335291e-05,
+      "loss": 0.2512,
+      "step": 128
+    },
+    {
+      "epoch": 2.2920353982300883,
+      "grad_norm": 1.2076972723007202,
+      "learning_rate": 1.5345631872718214e-05,
+      "loss": 0.3422,
+      "step": 129
+    },
+    {
+      "epoch": 2.309734513274336,
+      "grad_norm": 1.2742947340011597,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.3533,
+      "step": 130
+    },
+    {
+      "epoch": 2.327433628318584,
+      "grad_norm": 1.1574723720550537,
+      "learning_rate": 1.3957320164854059e-05,
+      "loss": 0.3042,
+      "step": 131
+    },
+    {
+      "epoch": 2.3451327433628317,
+      "grad_norm": 1.438873052597046,
+      "learning_rate": 1.3283874528215733e-05,
+      "loss": 0.3407,
+      "step": 132
+    },
+    {
+      "epoch": 2.3628318584070795,
+      "grad_norm": 2.25028133392334,
+      "learning_rate": 1.2624583656870154e-05,
+      "loss": 0.3244,
+      "step": 133
+    },
+    {
+      "epoch": 2.3805309734513274,
+      "grad_norm": 1.5336682796478271,
+      "learning_rate": 1.1979701719998453e-05,
+      "loss": 0.4788,
+      "step": 134
+    },
+    {
+      "epoch": 2.398230088495575,
+      "grad_norm": 1.2398130893707275,
+      "learning_rate": 1.134947733186315e-05,
+      "loss": 0.3341,
+      "step": 135
+    },
+    {
+      "epoch": 2.415929203539823,
+      "grad_norm": 1.1453783512115479,
+      "learning_rate": 1.0734153455962765e-05,
+      "loss": 0.2069,
+      "step": 136
+    },
+    {
+      "epoch": 2.433628318584071,
+      "grad_norm": 1.406343936920166,
+      "learning_rate": 1.013396731136465e-05,
+      "loss": 0.365,
+      "step": 137
+    },
+    {
+      "epoch": 2.4513274336283186,
+      "grad_norm": 1.3453893661499023,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.3082,
+      "step": 138
+    },
+    {
+      "epoch": 2.4690265486725664,
+      "grad_norm": 1.331973671913147,
+      "learning_rate": 8.97992782372432e-06,
+      "loss": 0.3943,
+      "step": 139
+    },
+    {
+      "epoch": 2.4867256637168142,
+      "grad_norm": 1.3919755220413208,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 0.4101,
+      "step": 140
+    },
+    {
+      "epoch": 2.504424778761062,
+      "grad_norm": 1.3736562728881836,
+      "learning_rate": 7.889138314185678e-06,
+      "loss": 0.3286,
+      "step": 141
+    },
+    {
+      "epoch": 2.52212389380531,
+      "grad_norm": 1.3815242052078247,
+      "learning_rate": 7.367991782295391e-06,
+      "loss": 0.3418,
+      "step": 142
+    },
+    {
+      "epoch": 2.5398230088495577,
+      "grad_norm": 1.343965768814087,
+      "learning_rate": 6.863280701110408e-06,
+      "loss": 0.4067,
+      "step": 143
+    },
+    {
+      "epoch": 2.557522123893805,
+      "grad_norm": 1.2378324270248413,
+      "learning_rate": 6.375199646360142e-06,
+      "loss": 0.3246,
+      "step": 144
+    },
+    {
+      "epoch": 2.5752212389380533,
+      "grad_norm": 1.2089776992797852,
+      "learning_rate": 5.903936782582253e-06,
+      "loss": 0.4119,
+      "step": 145
+    },
+    {
+      "epoch": 2.5929203539823007,
+      "grad_norm": 0.982158362865448,
+      "learning_rate": 5.449673790581611e-06,
+      "loss": 0.2026,
+      "step": 146
+    },
+    {
+      "epoch": 2.6106194690265485,
+      "grad_norm": 1.264430046081543,
+      "learning_rate": 5.012585797388936e-06,
+      "loss": 0.312,
+      "step": 147
+    },
+    {
+      "epoch": 2.6283185840707963,
+      "grad_norm": 1.0391494035720825,
+      "learning_rate": 4.592841308745932e-06,
+      "loss": 0.2517,
+      "step": 148
+    },
+    {
+      "epoch": 2.646017699115044,
+      "grad_norm": 1.2044720649719238,
+      "learning_rate": 4.190602144143207e-06,
+      "loss": 0.2401,
+      "step": 149
+    },
+    {
+      "epoch": 2.663716814159292,
+      "grad_norm": 1.0556868314743042,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.2354,
+      "step": 150
+    },
+    {
+      "epoch": 2.663716814159292,
+      "eval_loss": 1.0171345472335815,
+      "eval_runtime": 6.9871,
+      "eval_samples_per_second": 13.597,
+      "eval_steps_per_second": 3.435,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.018651406336e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null