Training in progress, step 51, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +130 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38bb48413e7fec321d31d234a33b486eafc285ce7ed9fd00b27909a34898662e
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a27096981255da323876810b71d4d0fa75aff2a623be29237e8cc96f237ee80
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57ad4d886bbce296ef82d35e7b35217a219d13c344b8f35284b8759501aa1ff1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dcfd7c73f8b512c49d9750d648bdf1702116da4421461a4a4bd0b6a13ab5b60
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e1983b20d7ce0214623b79adb071ed1f5c168cabcab4cc0ff2c0c61c63ddce9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86702c0a3caad6c51746e54805a7289de03dff9cc5abc148a58966cf1f4d339
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006783930564475399,
   "eval_steps": 50,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -253,6 +253,133 @@
       "learning_rate": 0.0001477721794706997,
       "loss": 0.0,
       "step": 34
     }
   ],
   "logging_steps": 1,
@@ -272,7 +399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0291484298877338e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.010175895846713098,
   "eval_steps": 50,
+  "global_step": 51,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001477721794706997,
       "loss": 0.0,
       "step": 34
+    },
+    {
+      "epoch": 0.006983457934018793,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001474444369716801,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.007182985303562187,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001470946271953739,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.007382512673105581,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014672285669722765,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.0075820400426489755,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014632923872213652,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.007781567412192369,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014591389316994876,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.007981094781735764,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001454769465589431,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.008180622151279158,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014501853198729012,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.008380149520822552,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014453878909250904,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.008579676890365946,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014403786400893302,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.00877920425990934,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014351590932319504,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.008978731629452733,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014297308402774875,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.009178258998996129,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001424095534724375,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.009377786368539523,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014182548931412757,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.009577313738082916,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001412210694644195,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.00977684110762631,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014059647803545467,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.009976368477169704,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001399519052838329,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.009976368477169704,
+      "eval_loss": NaN,
+      "eval_runtime": 1847.8631,
+      "eval_samples_per_second": 9.136,
+      "eval_steps_per_second": 4.568,
+      "step": 50
+    },
+    {
+      "epoch": 0.010175895846713098,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013928754755265842,
+      "loss": 0.0,
+      "step": 51
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.0437226448316006e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null