Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51bda91e3c7e83bdd5ec060e8c8b53a011be6565c476c602a5f732325657c660
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:25ef959bc49972065f0eb1579922e75b24031ac84581f34f6439470ee3fb8110
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48a83b0a99f0f095c3c632878deef6b3d7118417a2017e999d52fd7ecee5a75a
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:b77d913691758bd3f549babcdbd405bb3da28e97e97463214db348578b489911
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ba95427e7241c1dfd47297f17101d1daf28730b332855a47bb55cb5da7c6641
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb2e0d4afaeb4f4fc1a329ad0ad6d1305abfdebb4c656a7d8d60d6b12b349036
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c41bb450efe89fd65fecb2593939b817f9b2794a5d87a632ad90e5ebc9b592b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:48a1533051e4bee653afc683a4359c329f95831c0354ae8442616cabf80d0caa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4087783396244049,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0010475152937232883,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 34.46,
       "eval_steps_per_second": 8.615,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1941781210988544.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3863369822502136,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.0015712729405849325,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 34.46,
       "eval_steps_per_second": 8.615,
       "step": 100
+    },
+    {
+      "epoch": 0.0010579904466605213,
+      "grad_norm": 1.2196251153945923,
+      "learning_rate": 5.2157368421052626e-05,
+      "loss": 0.3787,
+      "step": 101
+    },
+    {
+      "epoch": 0.001068465599597754,
+      "grad_norm": 1.1273436546325684,
+      "learning_rate": 5.163052631578947e-05,
+      "loss": 0.4126,
+      "step": 102
+    },
+    {
+      "epoch": 0.001078940752534987,
+      "grad_norm": 1.3024041652679443,
+      "learning_rate": 5.110368421052632e-05,
+      "loss": 0.4315,
+      "step": 103
+    },
+    {
+      "epoch": 0.0010894159054722198,
+      "grad_norm": 0.8069114089012146,
+      "learning_rate": 5.057684210526316e-05,
+      "loss": 0.3689,
+      "step": 104
+    },
+    {
+      "epoch": 0.0010998910584094528,
+      "grad_norm": 1.1076774597167969,
+      "learning_rate": 5.005e-05,
+      "loss": 0.3951,
+      "step": 105
+    },
+    {
+      "epoch": 0.0011103662113466856,
+      "grad_norm": 1.0082478523254395,
+      "learning_rate": 4.9523157894736836e-05,
+      "loss": 0.3647,
+      "step": 106
+    },
+    {
+      "epoch": 0.0011208413642839186,
+      "grad_norm": 1.247436761856079,
+      "learning_rate": 4.899631578947368e-05,
+      "loss": 0.428,
+      "step": 107
+    },
+    {
+      "epoch": 0.0011313165172211514,
+      "grad_norm": 0.9683943390846252,
+      "learning_rate": 4.846947368421052e-05,
+      "loss": 0.3885,
+      "step": 108
+    },
+    {
+      "epoch": 0.0011417916701583844,
+      "grad_norm": 1.249470591545105,
+      "learning_rate": 4.794263157894737e-05,
+      "loss": 0.4012,
+      "step": 109
+    },
+    {
+      "epoch": 0.0011522668230956172,
+      "grad_norm": 1.2975919246673584,
+      "learning_rate": 4.7415789473684206e-05,
+      "loss": 0.4242,
+      "step": 110
+    },
+    {
+      "epoch": 0.0011627419760328501,
+      "grad_norm": 1.357737421989441,
+      "learning_rate": 4.688894736842105e-05,
+      "loss": 0.4239,
+      "step": 111
+    },
+    {
+      "epoch": 0.001173217128970083,
+      "grad_norm": 0.9484228491783142,
+      "learning_rate": 4.636210526315789e-05,
+      "loss": 0.398,
+      "step": 112
+    },
+    {
+      "epoch": 0.001183692281907316,
+      "grad_norm": 1.8374979496002197,
+      "learning_rate": 4.583526315789473e-05,
+      "loss": 0.4023,
+      "step": 113
+    },
+    {
+      "epoch": 0.0011941674348445487,
+      "grad_norm": 0.8284303545951843,
+      "learning_rate": 4.530842105263158e-05,
+      "loss": 0.3575,
+      "step": 114
+    },
+    {
+      "epoch": 0.0012046425877817817,
+      "grad_norm": 1.5431602001190186,
+      "learning_rate": 4.4781578947368416e-05,
+      "loss": 0.4184,
+      "step": 115
+    },
+    {
+      "epoch": 0.0012151177407190145,
+      "grad_norm": 2.5418710708618164,
+      "learning_rate": 4.425473684210526e-05,
+      "loss": 0.3906,
+      "step": 116
+    },
+    {
+      "epoch": 0.0012255928936562475,
+      "grad_norm": 1.1935153007507324,
+      "learning_rate": 4.372789473684211e-05,
+      "loss": 0.4312,
+      "step": 117
+    },
+    {
+      "epoch": 0.0012360680465934803,
+      "grad_norm": 1.3094145059585571,
+      "learning_rate": 4.320105263157895e-05,
+      "loss": 0.4287,
+      "step": 118
+    },
+    {
+      "epoch": 0.001246543199530713,
+      "grad_norm": 1.5560877323150635,
+      "learning_rate": 4.2674210526315786e-05,
+      "loss": 0.3867,
+      "step": 119
+    },
+    {
+      "epoch": 0.001257018352467946,
+      "grad_norm": 1.892146348953247,
+      "learning_rate": 4.2147368421052626e-05,
+      "loss": 0.4283,
+      "step": 120
+    },
+    {
+      "epoch": 0.0012674935054051788,
+      "grad_norm": 1.1117372512817383,
+      "learning_rate": 4.162052631578947e-05,
+      "loss": 0.4011,
+      "step": 121
+    },
+    {
+      "epoch": 0.0012779686583424118,
+      "grad_norm": 0.887161374092102,
+      "learning_rate": 4.109368421052631e-05,
+      "loss": 0.3982,
+      "step": 122
+    },
+    {
+      "epoch": 0.0012884438112796446,
+      "grad_norm": 2.119391441345215,
+      "learning_rate": 4.056684210526316e-05,
+      "loss": 0.4202,
+      "step": 123
+    },
+    {
+      "epoch": 0.0012989189642168776,
+      "grad_norm": 1.4735006093978882,
+      "learning_rate": 4.004e-05,
+      "loss": 0.4131,
+      "step": 124
+    },
+    {
+      "epoch": 0.0013093941171541104,
+      "grad_norm": 1.1728277206420898,
+      "learning_rate": 3.951315789473684e-05,
+      "loss": 0.4078,
+      "step": 125
+    },
+    {
+      "epoch": 0.0013198692700913434,
+      "grad_norm": 0.7051212787628174,
+      "learning_rate": 3.898631578947368e-05,
+      "loss": 0.3675,
+      "step": 126
+    },
+    {
+      "epoch": 0.0013303444230285762,
+      "grad_norm": 1.1503040790557861,
+      "learning_rate": 3.845947368421052e-05,
+      "loss": 0.377,
+      "step": 127
+    },
+    {
+      "epoch": 0.0013408195759658092,
+      "grad_norm": 0.9245353937149048,
+      "learning_rate": 3.7932631578947367e-05,
+      "loss": 0.4042,
+      "step": 128
+    },
+    {
+      "epoch": 0.001351294728903042,
+      "grad_norm": 0.8474845290184021,
+      "learning_rate": 3.7405789473684206e-05,
+      "loss": 0.388,
+      "step": 129
+    },
+    {
+      "epoch": 0.001361769881840275,
+      "grad_norm": 1.3868615627288818,
+      "learning_rate": 3.6878947368421045e-05,
+      "loss": 0.4165,
+      "step": 130
+    },
+    {
+      "epoch": 0.0013722450347775077,
+      "grad_norm": 0.7195939421653748,
+      "learning_rate": 3.635210526315789e-05,
+      "loss": 0.3945,
+      "step": 131
+    },
+    {
+      "epoch": 0.0013827201877147407,
+      "grad_norm": 0.6076641082763672,
+      "learning_rate": 3.582526315789474e-05,
+      "loss": 0.3685,
+      "step": 132
+    },
+    {
+      "epoch": 0.0013931953406519735,
+      "grad_norm": 1.5683972835540771,
+      "learning_rate": 3.5298421052631576e-05,
+      "loss": 0.4105,
+      "step": 133
+    },
+    {
+      "epoch": 0.0014036704935892065,
+      "grad_norm": 1.4858858585357666,
+      "learning_rate": 3.477157894736842e-05,
+      "loss": 0.4079,
+      "step": 134
+    },
+    {
+      "epoch": 0.0014141456465264393,
+      "grad_norm": 0.8402929306030273,
+      "learning_rate": 3.424473684210526e-05,
+      "loss": 0.3853,
+      "step": 135
+    },
+    {
+      "epoch": 0.0014246207994636723,
+      "grad_norm": 1.1739568710327148,
+      "learning_rate": 3.37178947368421e-05,
+      "loss": 0.4135,
+      "step": 136
+    },
+    {
+      "epoch": 0.001435095952400905,
+      "grad_norm": 0.8241525888442993,
+      "learning_rate": 3.319105263157894e-05,
+      "loss": 0.3691,
+      "step": 137
+    },
+    {
+      "epoch": 0.0014455711053381378,
+      "grad_norm": 1.062759518623352,
+      "learning_rate": 3.2664210526315786e-05,
+      "loss": 0.3906,
+      "step": 138
+    },
+    {
+      "epoch": 0.0014560462582753708,
+      "grad_norm": 1.0611199140548706,
+      "learning_rate": 3.213736842105263e-05,
+      "loss": 0.388,
+      "step": 139
+    },
+    {
+      "epoch": 0.0014665214112126036,
+      "grad_norm": 1.0666338205337524,
+      "learning_rate": 3.161052631578947e-05,
+      "loss": 0.3855,
+      "step": 140
+    },
+    {
+      "epoch": 0.0014769965641498366,
+      "grad_norm": 1.0595502853393555,
+      "learning_rate": 3.108368421052632e-05,
+      "loss": 0.3878,
+      "step": 141
+    },
+    {
+      "epoch": 0.0014874717170870694,
+      "grad_norm": 1.0443916320800781,
+      "learning_rate": 3.0556842105263156e-05,
+      "loss": 0.3801,
+      "step": 142
+    },
+    {
+      "epoch": 0.0014979468700243024,
+      "grad_norm": 1.820534586906433,
+      "learning_rate": 3.0029999999999995e-05,
+      "loss": 0.4207,
+      "step": 143
+    },
+    {
+      "epoch": 0.0015084220229615352,
+      "grad_norm": 1.2642821073532104,
+      "learning_rate": 2.9503157894736838e-05,
+      "loss": 0.3682,
+      "step": 144
+    },
+    {
+      "epoch": 0.0015188971758987682,
+      "grad_norm": 0.946820855140686,
+      "learning_rate": 2.8976315789473684e-05,
+      "loss": 0.3733,
+      "step": 145
+    },
+    {
+      "epoch": 0.001529372328836001,
+      "grad_norm": 0.8744164109230042,
+      "learning_rate": 2.8449473684210523e-05,
+      "loss": 0.3617,
+      "step": 146
+    },
+    {
+      "epoch": 0.001539847481773234,
+      "grad_norm": 0.8865841031074524,
+      "learning_rate": 2.7922631578947366e-05,
+      "loss": 0.3892,
+      "step": 147
+    },
+    {
+      "epoch": 0.0015503226347104667,
+      "grad_norm": 1.0649254322052002,
+      "learning_rate": 2.7395789473684212e-05,
+      "loss": 0.3874,
+      "step": 148
+    },
+    {
+      "epoch": 0.0015607977876476997,
+      "grad_norm": 0.8309904336929321,
+      "learning_rate": 2.686894736842105e-05,
+      "loss": 0.3948,
+      "step": 149
+    },
+    {
+      "epoch": 0.0015712729405849325,
+      "grad_norm": 1.3515825271606445,
+      "learning_rate": 2.634210526315789e-05,
+      "loss": 0.3902,
+      "step": 150
+    },
+    {
+      "epoch": 0.0015712729405849325,
+      "eval_loss": 0.3863369822502136,
+      "eval_runtime": 1164.8786,
+      "eval_samples_per_second": 34.507,
+      "eval_steps_per_second": 8.627,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2907841514962944.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null