Training in progress, step 1000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6912a030171d886527041b82690c91d03e1ea271b7d5519b38bdb4adc8170e97
 size 42002584

 version https://git-lfs.github.com/spec/v1
+oid sha256:04a023d8eae2b5ccc492ba729567d59e031019da2e3ca4bafb6d61d0d3388d86
 size 42002584

last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5b21d5e924cff4d05438ea3ca0b3615f241ee4ddb122ee35eb35ff94632f15
+size 251710672

last-checkpoint/global_step1000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85987ca267ea13d304a0c6ba3db8e4cb9594a3ac97b5c27c8d905b35241c8a98
+size 47955328

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step500~~


1	+ global_step1000

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04a8c070f714277e8a9f59e5821f85863d3c7f99e04d4f37d4f8d9de9791794d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c98879aba5b00d81dca96ce732b312683376f3923af7bda8eb2a40d4da8d98d
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.849002849002849,
   "eval_steps": 1000,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -84,6 +84,76 @@
       "learning_rate": 0.00017527527527527528,
       "loss": 0.1918,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -103,7 +173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3515320547344384e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.698005698005698,
   "eval_steps": 1000,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00017527527527527528,
       "loss": 0.1918,
       "step": 500
+    },
+    {
+      "epoch": 3.133903133903134,
+      "grad_norm": 2.571071147918701,
+      "learning_rate": 0.00017277277277277277,
+      "loss": 0.1541,
+      "step": 550
+    },
+    {
+      "epoch": 3.4188034188034186,
+      "grad_norm": 1.5915725231170654,
+      "learning_rate": 0.00017027027027027028,
+      "loss": 0.1156,
+      "step": 600
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 1.2947059869766235,
+      "learning_rate": 0.00016776776776776777,
+      "loss": 0.1157,
+      "step": 650
+    },
+    {
+      "epoch": 3.9886039886039883,
+      "grad_norm": 1.7114081382751465,
+      "learning_rate": 0.00016526526526526526,
+      "loss": 0.1309,
+      "step": 700
+    },
+    {
+      "epoch": 4.273504273504273,
+      "grad_norm": 2.1177897453308105,
+      "learning_rate": 0.00016276276276276275,
+      "loss": 0.099,
+      "step": 750
+    },
+    {
+      "epoch": 4.5584045584045585,
+      "grad_norm": 2.950777292251587,
+      "learning_rate": 0.00016026026026026027,
+      "loss": 0.1007,
+      "step": 800
+    },
+    {
+      "epoch": 4.843304843304844,
+      "grad_norm": 2.4155728816986084,
+      "learning_rate": 0.00015775775775775776,
+      "loss": 0.102,
+      "step": 850
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 1.3441689014434814,
+      "learning_rate": 0.00015525525525525525,
+      "loss": 0.0948,
+      "step": 900
+    },
+    {
+      "epoch": 5.413105413105413,
+      "grad_norm": 1.041314721107483,
+      "learning_rate": 0.00015275275275275277,
+      "loss": 0.0851,
+      "step": 950
+    },
+    {
+      "epoch": 5.698005698005698,
+      "grad_norm": 1.53568696975708,
+      "learning_rate": 0.00015025025025025026,
+      "loss": 0.0876,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.7161049585156096e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null