Training in progress, step 55305, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55cb1880d40c3d134639f9c78780fa699879268ce641a9683262789b7d6c1264
 size 306619286

 version https://git-lfs.github.com/spec/v1
+oid sha256:17f126e47a46daca975d4610fafaec402d025df406bc1ef1091fb3bb633e95a0
 size 306619286

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75f02914cf090b930189b526baa66e8d886e3a2e64ce91f1b47ac5c4ff6fffa7
 size 919972410

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb3ad1610c33c264ac4cc15bacd96d9f3fa7c6e6119230a90ef857002b3788af
 size 919972410

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:967c116cfad1c7605a72e42ef0cb63974f19c71b7038332b297d81e82a22bbe7
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4482438756e43b359aec133e7b920aff9ca62a0599618ff5293c529cfac8e76
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9944828802032362,
   "eval_steps": 5000,
-  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -38595,6 +38595,216 @@
       "eval_samples_per_second": 3138.58,
       "eval_steps_per_second": 49.042,
       "step": 55000
     }
   ],
   "logging_steps": 10,
@@ -38609,12 +38819,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.600375174725632e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9999977398116359,
   "eval_steps": 5000,
+  "global_step": 55305,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3138.58,
       "eval_steps_per_second": 49.042,
       "step": 55000
+    },
+    {
+      "epoch": 0.994663695272364,
+      "grad_norm": 40.125,
+      "learning_rate": 1.5541611456888346e-06,
+      "loss": 17.4001,
+      "step": 55010
+    },
+    {
+      "epoch": 0.9948445103414919,
+      "grad_norm": 40.21875,
+      "learning_rate": 1.5544436690747077e-06,
+      "loss": 17.6567,
+      "step": 55020
+    },
+    {
+      "epoch": 0.9950253254106197,
+      "grad_norm": 38.875,
+      "learning_rate": 1.554726192460581e-06,
+      "loss": 17.646,
+      "step": 55030
+    },
+    {
+      "epoch": 0.9952061404797475,
+      "grad_norm": 42.15625,
+      "learning_rate": 1.5550087158464543e-06,
+      "loss": 17.3117,
+      "step": 55040
+    },
+    {
+      "epoch": 0.9953869555488755,
+      "grad_norm": 35.9375,
+      "learning_rate": 1.5552912392323276e-06,
+      "loss": 17.9208,
+      "step": 55050
+    },
+    {
+      "epoch": 0.9955677706180033,
+      "grad_norm": 37.78125,
+      "learning_rate": 1.5555737626182007e-06,
+      "loss": 17.497,
+      "step": 55060
+    },
+    {
+      "epoch": 0.9957485856871312,
+      "grad_norm": 36.46875,
+      "learning_rate": 1.555856286004074e-06,
+      "loss": 17.4683,
+      "step": 55070
+    },
+    {
+      "epoch": 0.995929400756259,
+      "grad_norm": 38.5625,
+      "learning_rate": 1.5561388093899474e-06,
+      "loss": 17.5277,
+      "step": 55080
+    },
+    {
+      "epoch": 0.9961102158253868,
+      "grad_norm": 37.9375,
+      "learning_rate": 1.5564213327758207e-06,
+      "loss": 17.5301,
+      "step": 55090
+    },
+    {
+      "epoch": 0.9962910308945148,
+      "grad_norm": 39.3125,
+      "learning_rate": 1.556703856161694e-06,
+      "loss": 17.7091,
+      "step": 55100
+    },
+    {
+      "epoch": 0.9964718459636426,
+      "grad_norm": 42.59375,
+      "learning_rate": 1.5569863795475671e-06,
+      "loss": 17.6605,
+      "step": 55110
+    },
+    {
+      "epoch": 0.9966526610327705,
+      "grad_norm": 40.71875,
+      "learning_rate": 1.5572689029334404e-06,
+      "loss": 17.718,
+      "step": 55120
+    },
+    {
+      "epoch": 0.9968334761018983,
+      "grad_norm": 39.21875,
+      "learning_rate": 1.5575514263193137e-06,
+      "loss": 17.2612,
+      "step": 55130
+    },
+    {
+      "epoch": 0.9970142911710262,
+      "grad_norm": 38.0625,
+      "learning_rate": 1.557833949705187e-06,
+      "loss": 17.609,
+      "step": 55140
+    },
+    {
+      "epoch": 0.9971951062401541,
+      "grad_norm": 39.375,
+      "learning_rate": 1.5581164730910604e-06,
+      "loss": 18.0846,
+      "step": 55150
+    },
+    {
+      "epoch": 0.9973759213092819,
+      "grad_norm": 36.09375,
+      "learning_rate": 1.5583989964769337e-06,
+      "loss": 17.3367,
+      "step": 55160
+    },
+    {
+      "epoch": 0.9975567363784098,
+      "grad_norm": 40.6875,
+      "learning_rate": 1.5586815198628066e-06,
+      "loss": 17.6999,
+      "step": 55170
+    },
+    {
+      "epoch": 0.9977375514475376,
+      "grad_norm": 38.96875,
+      "learning_rate": 1.55896404324868e-06,
+      "loss": 17.5,
+      "step": 55180
+    },
+    {
+      "epoch": 0.9979183665166655,
+      "grad_norm": 39.375,
+      "learning_rate": 1.5592465666345532e-06,
+      "loss": 17.5552,
+      "step": 55190
+    },
+    {
+      "epoch": 0.9980991815857934,
+      "grad_norm": 41.75,
+      "learning_rate": 1.5595290900204265e-06,
+      "loss": 17.587,
+      "step": 55200
+    },
+    {
+      "epoch": 0.9982799966549212,
+      "grad_norm": 38.71875,
+      "learning_rate": 1.5598116134062999e-06,
+      "loss": 17.1768,
+      "step": 55210
+    },
+    {
+      "epoch": 0.9984608117240491,
+      "grad_norm": 38.4375,
+      "learning_rate": 1.5600941367921732e-06,
+      "loss": 17.9381,
+      "step": 55220
+    },
+    {
+      "epoch": 0.9986416267931769,
+      "grad_norm": 36.65625,
+      "learning_rate": 1.5603766601780463e-06,
+      "loss": 17.5928,
+      "step": 55230
+    },
+    {
+      "epoch": 0.9988224418623048,
+      "grad_norm": 40.8125,
+      "learning_rate": 1.5606591835639196e-06,
+      "loss": 17.5531,
+      "step": 55240
+    },
+    {
+      "epoch": 0.9990032569314327,
+      "grad_norm": 37.8125,
+      "learning_rate": 1.560941706949793e-06,
+      "loss": 17.3558,
+      "step": 55250
+    },
+    {
+      "epoch": 0.9991840720005605,
+      "grad_norm": 38.90625,
+      "learning_rate": 1.5612242303356662e-06,
+      "loss": 18.1386,
+      "step": 55260
+    },
+    {
+      "epoch": 0.9993648870696884,
+      "grad_norm": 38.28125,
+      "learning_rate": 1.5615067537215395e-06,
+      "loss": 17.7706,
+      "step": 55270
+    },
+    {
+      "epoch": 0.9995457021388162,
+      "grad_norm": 41.40625,
+      "learning_rate": 1.5617892771074129e-06,
+      "loss": 17.5942,
+      "step": 55280
+    },
+    {
+      "epoch": 0.9997265172079441,
+      "grad_norm": 39.09375,
+      "learning_rate": 1.5620718004932858e-06,
+      "loss": 17.6764,
+      "step": 55290
+    },
+    {
+      "epoch": 0.999907332277072,
+      "grad_norm": 38.65625,
+      "learning_rate": 1.562354323879159e-06,
+      "loss": 17.3797,
+      "step": 55300
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.653613618876383e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null