Training in progress, step 100, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:772bfe718d3448de6505d9f196907f00036f2960464a938d628ed66b5da375fa
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcc1b1f58fa24852e637a4af824502983f92109e15e9a5cf34858c3be1d6fbc9
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a0220e17d59927f7847f23948e5a1507c65f0a858438c8bcbcd769df6509c59
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:63f323251c7a685c4847dbc476f1aba7508bbdeb31297a3f93c845152a8c3f10
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6413aa14aafdcc9641671bfc199ce3eecc99395b74dcb3987f0ba2049861e550
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cdd5e1998f1139b3d2606fc1207245b65164fdf9041e6fa58bd90acc8d38fa5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.28139289482940555,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 6.381,
       "eval_steps_per_second": 6.381,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -387,7 +745,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -396,12 +754,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.65247887130624e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.5627857896588111,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.381,
       "eval_steps_per_second": 6.381,
       "step": 50
+    },
+    {
+      "epoch": 0.28702075272599364,
+      "grad_norm": NaN,
+      "learning_rate": 7.65e-06,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.2926486106225818,
+      "grad_norm": NaN,
+      "learning_rate": 7.8e-06,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.2982764685191699,
+      "grad_norm": NaN,
+      "learning_rate": 7.95e-06,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.303904326415758,
+      "grad_norm": NaN,
+      "learning_rate": 8.1e-06,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.30953218431234614,
+      "grad_norm": NaN,
+      "learning_rate": 8.25e-06,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.31516004220893423,
+      "grad_norm": NaN,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.32078790010552233,
+      "grad_norm": NaN,
+      "learning_rate": 8.55e-06,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.3264157580021104,
+      "grad_norm": NaN,
+      "learning_rate": 8.7e-06,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.3320436158986986,
+      "grad_norm": NaN,
+      "learning_rate": 8.85e-06,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.33767147379528667,
+      "grad_norm": NaN,
+      "learning_rate": 9e-06,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.34329933169187477,
+      "grad_norm": NaN,
+      "learning_rate": 9.15e-06,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.3489271895884629,
+      "grad_norm": NaN,
+      "learning_rate": 9.3e-06,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.354555047485051,
+      "grad_norm": NaN,
+      "learning_rate": 9.450000000000001e-06,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.3601829053816391,
+      "grad_norm": NaN,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.3658107632782272,
+      "grad_norm": NaN,
+      "learning_rate": 9.75e-06,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.37143862117481535,
+      "grad_norm": NaN,
+      "learning_rate": 9.9e-06,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.37706647907140345,
+      "grad_norm": NaN,
+      "learning_rate": 1.005e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.38269433696799154,
+      "grad_norm": NaN,
+      "learning_rate": 1.02e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.3883221948645797,
+      "grad_norm": NaN,
+      "learning_rate": 1.035e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.3939500527611678,
+      "grad_norm": NaN,
+      "learning_rate": 1.05e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.3995779106577559,
+      "grad_norm": NaN,
+      "learning_rate": 1.065e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.405205768554344,
+      "grad_norm": NaN,
+      "learning_rate": 1.08e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.41083362645093213,
+      "grad_norm": NaN,
+      "learning_rate": 1.095e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.4164614843475202,
+      "grad_norm": NaN,
+      "learning_rate": 1.11e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.4220893422441083,
+      "grad_norm": NaN,
+      "learning_rate": 1.125e-05,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.4277172001406965,
+      "grad_norm": NaN,
+      "learning_rate": 1.1400000000000001e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.43334505803728457,
+      "grad_norm": NaN,
+      "learning_rate": 1.1550000000000001e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.43897291593387266,
+      "grad_norm": NaN,
+      "learning_rate": 1.1700000000000001e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.44460077383046076,
+      "grad_norm": NaN,
+      "learning_rate": 1.185e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.4502286317270489,
+      "grad_norm": NaN,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.455856489623637,
+      "grad_norm": NaN,
+      "learning_rate": 1.215e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.4614843475202251,
+      "grad_norm": NaN,
+      "learning_rate": 1.2299999999999999e-05,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.46711220541681325,
+      "grad_norm": NaN,
+      "learning_rate": 1.245e-05,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.47274006331340135,
+      "grad_norm": NaN,
+      "learning_rate": 1.26e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.47836792120998944,
+      "grad_norm": NaN,
+      "learning_rate": 1.275e-05,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.48399577910657754,
+      "grad_norm": NaN,
+      "learning_rate": 1.29e-05,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.4896236370031657,
+      "grad_norm": NaN,
+      "learning_rate": 1.305e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.4952514948997538,
+      "grad_norm": NaN,
+      "learning_rate": 1.32e-05,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.5008793527963419,
+      "grad_norm": NaN,
+      "learning_rate": 1.3350000000000001e-05,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.50650721069293,
+      "grad_norm": NaN,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.5121350685895181,
+      "grad_norm": NaN,
+      "learning_rate": 1.3650000000000001e-05,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.5177629264861062,
+      "grad_norm": NaN,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.5233907843826944,
+      "grad_norm": NaN,
+      "learning_rate": 1.395e-05,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.5290186422792824,
+      "grad_norm": NaN,
+      "learning_rate": 1.4099999999999999e-05,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.5346465001758706,
+      "grad_norm": NaN,
+      "learning_rate": 1.4249999999999999e-05,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.5402743580724587,
+      "grad_norm": NaN,
+      "learning_rate": 1.44e-05,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.5459022159690468,
+      "grad_norm": NaN,
+      "learning_rate": 1.455e-05,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.5515300738656349,
+      "grad_norm": NaN,
+      "learning_rate": 1.47e-05,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.5571579317622231,
+      "grad_norm": NaN,
+      "learning_rate": 1.485e-05,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.5627857896588111,
+      "grad_norm": NaN,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.5627857896588111,
+      "eval_loss": NaN,
+      "eval_runtime": 23.5076,
+      "eval_samples_per_second": 6.381,
+      "eval_steps_per_second": 6.381,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.330495774261248e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null