Training in progress, step 26, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b88437255b229bdbd416893be213eebff09a0d3b8bc9994e7ea81fbc517c2452
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed37b680abc73b706cca555e1af9dd7c93733c690ff5bb25f6753ab22a4cedec
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6e285a42b869e4bfe06330ea8cbace4b8cac836e99846071d2584c5daa77bc6
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ed3c77b9ac931ecbd58cd30fefe0cc42f6c372f1ad85a58c026d6c274b59209
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66dc5b4beaaa1d1ed076d7c2309c0c4a8a48271e0256ffc95ff5f86239ea7c04
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a4d9e4bcd048ab0ec66eeba65d1b042e9be52058adf54f6979d35473c2fe352
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4395bafb1cf8adc0d9dbfe550d1b98763496e37a8fadb76c1ca1168a4a757f4e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:37841e69eda911caeb33edeefa0b2f140e72dcce247aeb757b2fe89c00d7887b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.002324230098779779,
   "eval_steps": 10,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -37,6 +37,35 @@
       "eval_samples_per_second": 9.718,
       "eval_steps_per_second": 4.859,
       "step": 10
     }
   ],
   "logging_steps": 5,
@@ -56,7 +85,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2875537395548160.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.004648460197559558,
   "eval_steps": 10,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.718,
       "eval_steps_per_second": 4.859,
       "step": 10
+    },
+    {
+      "epoch": 0.0026818039601305146,
+      "grad_norm": 0.3924393951892853,
+      "learning_rate": 9.619397662556435e-05,
+      "loss": 2.764,
+      "step": 15
+    },
+    {
+      "epoch": 0.0035757386135073527,
+      "grad_norm": 0.4617941379547119,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 2.7949,
+      "step": 20
+    },
+    {
+      "epoch": 0.0035757386135073527,
+      "eval_loss": 2.8182547092437744,
+      "eval_runtime": 241.8579,
+      "eval_samples_per_second": 9.741,
+      "eval_steps_per_second": 4.871,
+      "step": 20
+    },
+    {
+      "epoch": 0.0044696732668841905,
+      "grad_norm": 0.5247169137001038,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 2.6913,
+      "step": 25
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5709995685445632.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null