Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:542528730dee474e1ae88abf23c3bfe1e19b7fca9b57bbded2bbef198263ac0e
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:53518718170f27ca1a52e2632045bddc635ff72631f0cc6909995db0de68ce69
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a70809eeec639f51f39abc7e3a87811adcbf301b87cd33e7718dfd0b7dd22795
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6ff70b1d9ad29b3f17057251724ecddded918d49e6ccd4a3e0475da6d86372c
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4253dace03c2bbc93981228fd26ac6c0cd235e555b7edb4597567f488ad8806f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecbf52846b0950d1b0204ef5064ad518cb02596007e36540f5b060f1237792f0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24752475247524752,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.1091,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3712871287128713,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.1091,
       "step": 50
+    },
+    {
+      "epoch": 0.2524752475247525,
+      "grad_norm": 0.608211100101471,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.97,
+      "step": 51
+    },
+    {
+      "epoch": 0.25742574257425743,
+      "grad_norm": 0.543221116065979,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.8539,
+      "step": 52
+    },
+    {
+      "epoch": 0.2623762376237624,
+      "grad_norm": 0.5867341160774231,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.019,
+      "step": 53
+    },
+    {
+      "epoch": 0.26732673267326734,
+      "grad_norm": 0.6463767886161804,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.2184,
+      "step": 54
+    },
+    {
+      "epoch": 0.26732673267326734,
+      "eval_loss": 1.0357346534729004,
+      "eval_runtime": 8.8926,
+      "eval_samples_per_second": 19.117,
+      "eval_steps_per_second": 2.474,
+      "step": 54
+    },
+    {
+      "epoch": 0.2722772277227723,
+      "grad_norm": 0.6138639450073242,
+      "learning_rate": 5e-05,
+      "loss": 1.004,
+      "step": 55
+    },
+    {
+      "epoch": 0.27722772277227725,
+      "grad_norm": 0.6514050364494324,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.1586,
+      "step": 56
+    },
+    {
+      "epoch": 0.28217821782178215,
+      "grad_norm": 0.7183387279510498,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.2656,
+      "step": 57
+    },
+    {
+      "epoch": 0.2871287128712871,
+      "grad_norm": 0.6485055685043335,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.3879,
+      "step": 58
+    },
+    {
+      "epoch": 0.29207920792079206,
+      "grad_norm": 0.6567354202270508,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.1974,
+      "step": 59
+    },
+    {
+      "epoch": 0.297029702970297,
+      "grad_norm": 0.6905341744422913,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.0661,
+      "step": 60
+    },
+    {
+      "epoch": 0.30198019801980197,
+      "grad_norm": 0.7138151526451111,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.8646,
+      "step": 61
+    },
+    {
+      "epoch": 0.3069306930693069,
+      "grad_norm": 0.7037296891212463,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.7977,
+      "step": 62
+    },
+    {
+      "epoch": 0.3118811881188119,
+      "grad_norm": 0.621353268623352,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.1507,
+      "step": 63
+    },
+    {
+      "epoch": 0.3118811881188119,
+      "eval_loss": 1.0253657102584839,
+      "eval_runtime": 8.8735,
+      "eval_samples_per_second": 19.158,
+      "eval_steps_per_second": 2.479,
+      "step": 63
+    },
+    {
+      "epoch": 0.31683168316831684,
+      "grad_norm": 0.7661076188087463,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.0134,
+      "step": 64
+    },
+    {
+      "epoch": 0.3217821782178218,
+      "grad_norm": 0.6154865026473999,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.1523,
+      "step": 65
+    },
+    {
+      "epoch": 0.32673267326732675,
+      "grad_norm": 0.6372368931770325,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.8788,
+      "step": 66
+    },
+    {
+      "epoch": 0.3316831683168317,
+      "grad_norm": 0.6684017181396484,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.9717,
+      "step": 67
+    },
+    {
+      "epoch": 0.33663366336633666,
+      "grad_norm": 0.6178404092788696,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.9614,
+      "step": 68
+    },
+    {
+      "epoch": 0.3415841584158416,
+      "grad_norm": 0.5417529344558716,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.8924,
+      "step": 69
+    },
+    {
+      "epoch": 0.3465346534653465,
+      "grad_norm": 0.6589646339416504,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0243,
+      "step": 70
+    },
+    {
+      "epoch": 0.35148514851485146,
+      "grad_norm": 0.7020885944366455,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.9927,
+      "step": 71
+    },
+    {
+      "epoch": 0.3564356435643564,
+      "grad_norm": 0.6500579714775085,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.0618,
+      "step": 72
+    },
+    {
+      "epoch": 0.3564356435643564,
+      "eval_loss": 1.0184351205825806,
+      "eval_runtime": 8.877,
+      "eval_samples_per_second": 19.151,
+      "eval_steps_per_second": 2.478,
+      "step": 72
+    },
+    {
+      "epoch": 0.3613861386138614,
+      "grad_norm": 0.6198158860206604,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.067,
+      "step": 73
+    },
+    {
+      "epoch": 0.36633663366336633,
+      "grad_norm": 0.7256537675857544,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.2676,
+      "step": 74
+    },
+    {
+      "epoch": 0.3712871287128713,
+      "grad_norm": 0.6257241368293762,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.9297,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.56415462670336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null