Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e06229dcc4a7b50ee1a49cf02e904b1d4510b86b88d7ff25804683a6b419ba92
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:791d202e9726e758ae94c8387686a58104163999faac1c517b1c3db57e6ef24e
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46b7ab16723537d3bbd6bc9e5de47b8b4a786be1157c6db6bfe9b7feb32bf481
 size 170920084

 version https://git-lfs.github.com/spec/v1
+oid sha256:b02a64bf21e7e0efd7da25ecb5f444c37f57c01408c98a7d3bc09d40cd8d7e34
 size 170920084

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b6395d8bac5405779923b4d5d5f85d1c6f4bac8b61f18ef2d90f8c4e4e4fdee
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5211c1beb1a1f527b37254d1e1eae42376005988d9061e4ce49e59a1761ea2cf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b7af7cbef1883982510fef2007cf89af07627ee7ec1378e98375ea74556514a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb0f7a710adf9e599fc08ebbb5ad60e429eaaf1eaeec204e7c52cb45e30b9cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.049590875278948676,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.048,
       "eval_steps_per_second": 2.514,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9254953866847846e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.07438631291842301,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.048,
       "eval_steps_per_second": 2.514,
       "step": 100
+    },
+    {
+      "epoch": 0.05008678403173816,
+      "grad_norm": NaN,
+      "learning_rate": 4.3954497215805244e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.05058269278452765,
+      "grad_norm": NaN,
+      "learning_rate": 4.332773182649165e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.051078601537317136,
+      "grad_norm": NaN,
+      "learning_rate": 4.2698122524388405e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.05157451029010662,
+      "grad_norm": NaN,
+      "learning_rate": 4.206588432049535e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.05207041904289611,
+      "grad_norm": NaN,
+      "learning_rate": 4.143123312357996e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.0525663277956856,
+      "grad_norm": NaN,
+      "learning_rate": 4.079438566644454e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.053062236548475084,
+      "grad_norm": NaN,
+      "learning_rate": 4.015555943191231e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.05355814530126457,
+      "grad_norm": NaN,
+      "learning_rate": 3.9514972578557114e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.05405405405405406,
+      "grad_norm": NaN,
+      "learning_rate": 3.8872843866202525e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.054549962806843544,
+      "grad_norm": NaN,
+      "learning_rate": 3.8229392581215565e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.05504587155963303,
+      "grad_norm": NaN,
+      "learning_rate": 3.7584838461620587e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.05554178031242252,
+      "grad_norm": NaN,
+      "learning_rate": 3.693940162205895e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.056037689065212004,
+      "grad_norm": NaN,
+      "learning_rate": 3.629330247862007e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.05653359781800149,
+      "grad_norm": NaN,
+      "learning_rate": 3.564676167356954e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.05702950657079098,
+      "grad_norm": NaN,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.057525415323580464,
+      "grad_norm": NaN,
+      "learning_rate": 3.435323832643046e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.05802132407636995,
+      "grad_norm": NaN,
+      "learning_rate": 3.370669752137993e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.05851723282915944,
+      "grad_norm": NaN,
+      "learning_rate": 3.306059837794105e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.059013141581948925,
+      "grad_norm": NaN,
+      "learning_rate": 3.241516153837941e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.05950905033473841,
+      "grad_norm": NaN,
+      "learning_rate": 3.177060741878443e-05,
+      "loss": 2.3783,
+      "step": 120
+    },
+    {
+      "epoch": 0.0600049590875279,
+      "grad_norm": 10.533272743225098,
+      "learning_rate": 3.1127156133797475e-05,
+      "loss": 5.9216,
+      "step": 121
+    },
+    {
+      "epoch": 0.060500867840317385,
+      "grad_norm": NaN,
+      "learning_rate": 3.048502742144289e-05,
+      "loss": 80.022,
+      "step": 122
+    },
+    {
+      "epoch": 0.06099677659310687,
+      "grad_norm": NaN,
+      "learning_rate": 2.984444056808768e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.06149268534589636,
+      "grad_norm": NaN,
+      "learning_rate": 2.9205614333555444e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.061988594098685845,
+      "grad_norm": NaN,
+      "learning_rate": 2.856876687642003e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.06248450285147533,
+      "grad_norm": NaN,
+      "learning_rate": 2.7934115679504645e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.06298041160426482,
+      "grad_norm": NaN,
+      "learning_rate": 2.7301877475611606e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.0634763203570543,
+      "grad_norm": NaN,
+      "learning_rate": 2.667226817350835e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.06397222910984379,
+      "grad_norm": NaN,
+      "learning_rate": 2.604550278419475e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.06446813786263328,
+      "grad_norm": NaN,
+      "learning_rate": 2.54217953474771e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.06496404661542277,
+      "grad_norm": NaN,
+      "learning_rate": 2.4801358858873636e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.06545995536821225,
+      "grad_norm": NaN,
+      "learning_rate": 2.4184405196876842e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.06595586412100174,
+      "grad_norm": NaN,
+      "learning_rate": 2.3571145050597088e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.06645177287379123,
+      "grad_norm": NaN,
+      "learning_rate": 2.296178784781251e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.06694768162658071,
+      "grad_norm": NaN,
+      "learning_rate": 2.2356541683449646e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.0674435903793702,
+      "grad_norm": NaN,
+      "learning_rate": 2.175561324851914e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.06793949913215969,
+      "grad_norm": NaN,
+      "learning_rate": 2.1159207759531013e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.06843540788494917,
+      "grad_norm": NaN,
+      "learning_rate": 2.0567528888413382e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.06893131663773866,
+      "grad_norm": NaN,
+      "learning_rate": 1.9980778692958684e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.06942722539052815,
+      "grad_norm": NaN,
+      "learning_rate": 1.9399157547821162e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.06992313414331763,
+      "grad_norm": NaN,
+      "learning_rate": 1.882286407608904e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.07041904289610712,
+      "grad_norm": NaN,
+      "learning_rate": 1.825209508145497e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.07091495164889661,
+      "grad_norm": NaN,
+      "learning_rate": 1.7687045481007746e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.0714108604016861,
+      "grad_norm": NaN,
+      "learning_rate": 1.712790823866826e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.07190676915447558,
+      "grad_norm": NaN,
+      "learning_rate": 1.657487429929254e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.07240267790726507,
+      "grad_norm": NaN,
+      "learning_rate": 1.602813252346427e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.07289858666005455,
+      "grad_norm": NaN,
+      "learning_rate": 1.5487869622999004e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.07339449541284404,
+      "grad_norm": NaN,
+      "learning_rate": 1.4954270097182317e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.07389040416563353,
+      "grad_norm": NaN,
+      "learning_rate": 1.4427516169763444e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.07438631291842301,
+      "grad_norm": NaN,
+      "learning_rate": 1.3907787726726029e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.07438631291842301,
+      "eval_loss": NaN,
+      "eval_runtime": 339.1066,
+      "eval_samples_per_second": 10.017,
+      "eval_steps_per_second": 2.507,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.908576594211635e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null