AmberYifan commited on Nov 25, 2024

Commit

4143474

verified ·

1 Parent(s): 404f1aa

Training in progress, epoch 2, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step313/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step313/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +258 -2

last-checkpoint/global_step313/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b581dd8c870c022eb0a39660a71f246a4781f76a360bc13913d5b5d4dc8a0d95
+size 14483467880

last-checkpoint/global_step313/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a152f57ed8c6b920b05aad58c3c4b35ca6691a9f60ceff526d1ca3f12965d02
+size 14483467880

last-checkpoint/global_step313/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f32fec7d0ed61ac327a6485380601f3836a5abd4b21f42105418b867ecef0ee2
+size 14483467880

last-checkpoint/global_step313/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e5f1ca50a923ba4996dd985e3955c4dd9e905844c25df9de7943c292bd97fcc
+size 14483467880

last-checkpoint/global_step313/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55303416a3517f901134c4f1eff39ac26ac577d0fe793b38c5fe0d52d363bb91
+size 150629

last-checkpoint/global_step313/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f254e726826fe433aca4e6eb4dbb78b3d5a0040927776a85ff62a2e33445beb
+size 150629

last-checkpoint/global_step313/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e243089f4e8eb95ac174c0d1ad91b55da0355072bfac98e1cdcb8eb28b9aaed
+size 150629

last-checkpoint/global_step313/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5be5cf16cd15b49f3e19ae306c159c18afbe73756804590a6d0824388d12ff62
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step156~~


1	+ global_step313

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86564566d04a0b1060db4669fe75cb07fbe4d4936cd25d2f934f8aeac28986b2
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:24d250e478ceec67ad697c5114ef84ef83195f94df1fc2e6d5423a259d96a851
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edf6aa834d50bf27e9aaa84927e709a4df4277057494957e4f927a1d47c94b63
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:746db1161ed175dafa557b81124b357a95144eb8daeac6de2459b049de70b0d9
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e5b931e4af6dbf48cbcfa178bf23b762a598dc466d811ac992cf5560ad7f669
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:299dfa5fb3aa044f8ce0ab7dabebb0b9db464ada1bb1b84169a35ee309b44cbd
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4a1dc8b9f546123ce9b44c28828ae71d9d0ecd6f59c6b7b8337c73cb2e24c49
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:50ca27603f7c4a4d9a980223e1a102922ac31561acfa7da4f28042e4e8b3528b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a8b225b0323772b66570a16b5c7e6446dc3c9ee076597906a2c90e3c0a383bf
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c57f658c3d9b6de611da50021823095fc4067036fb9a4b34655cc2e34fbf5c2b
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c036a8d528905f7018266618c8bebe4add10c2778ef432fd0116369fa622d815
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:109da2c363a1e09432fa2ea2b7dceb6f67d1f91975069fc669e71dd536d654d8
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b93d88429d97654e76d10b1ba4c36f29a47e210c65a03efdc136f04af8282797
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bda65e490958bfe3fe01157ed131eb2354f8fc19536842d27c998ecf29d48991
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6db26c7d425273441931218becb02d21e92e0e82e094f8c6441cf4c20b59eb2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ae44c8e61affb3be5c9387c2b397935fdb2ed21d12002009ab043a8a5fffb07
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9968051118210862,
   "eval_steps": 500,
-  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -263,6 +263,262 @@
       "eval_samples_per_second": 16.291,
       "eval_steps_per_second": 0.57,
       "step": 156
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 313,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.291,
       "eval_steps_per_second": 0.57,
       "step": 156
+    },
+    {
+      "epoch": 1.0223642172523961,
+      "grad_norm": 17.578277558626937,
+      "learning_rate": 3.6579572446555817e-07,
+      "logits/chosen": -3.59375,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -163.0,
+      "logps/rejected": -165.0,
+      "loss": 0.5154,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.337890625,
+      "rewards/margins": 0.8125,
+      "rewards/rejected": -1.1484375,
+      "step": 160
+    },
+    {
+      "epoch": 1.0862619808306708,
+      "grad_norm": 18.045497494579415,
+      "learning_rate": 3.5391923990498813e-07,
+      "logits/chosen": -3.609375,
+      "logits/rejected": -3.5625,
+      "logps/chosen": -166.0,
+      "logps/rejected": -161.0,
+      "loss": 0.2778,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.28515625,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -1.75,
+      "step": 170
+    },
+    {
+      "epoch": 1.1501597444089458,
+      "grad_norm": 31.421762384244513,
+      "learning_rate": 3.42042755344418e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -169.0,
+      "logps/rejected": -163.0,
+      "loss": 0.2699,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.0830078125,
+      "rewards/margins": 1.78125,
+      "rewards/rejected": -1.6953125,
+      "step": 180
+    },
+    {
+      "epoch": 1.2140575079872205,
+      "grad_norm": 23.922864036418108,
+      "learning_rate": 3.3016627078384796e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.625,
+      "logps/chosen": -170.0,
+      "logps/rejected": -160.0,
+      "loss": 0.2828,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.0189208984375,
+      "rewards/margins": 1.96875,
+      "rewards/rejected": -1.984375,
+      "step": 190
+    },
+    {
+      "epoch": 1.2779552715654952,
+      "grad_norm": 35.48813795033075,
+      "learning_rate": 3.182897862232779e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -166.0,
+      "logps/rejected": -172.0,
+      "loss": 0.2671,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.0281982421875,
+      "rewards/margins": 2.0,
+      "rewards/rejected": -1.96875,
+      "step": 200
+    },
+    {
+      "epoch": 1.34185303514377,
+      "grad_norm": 26.443386433583438,
+      "learning_rate": 3.0641330166270784e-07,
+      "logits/chosen": -3.671875,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -170.0,
+      "logps/rejected": -168.0,
+      "loss": 0.2989,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 0.16796875,
+      "rewards/margins": 1.875,
+      "rewards/rejected": -1.7109375,
+      "step": 210
+    },
+    {
+      "epoch": 1.4057507987220448,
+      "grad_norm": 21.45349324293884,
+      "learning_rate": 2.9453681710213776e-07,
+      "logits/chosen": -3.671875,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -172.0,
+      "logps/rejected": -171.0,
+      "loss": 0.2874,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -0.26171875,
+      "rewards/margins": 1.8125,
+      "rewards/rejected": -2.078125,
+      "step": 220
+    },
+    {
+      "epoch": 1.4696485623003195,
+      "grad_norm": 15.23988385292947,
+      "learning_rate": 2.8266033254156767e-07,
+      "logits/chosen": -3.65625,
+      "logits/rejected": -3.625,
+      "logps/chosen": -152.0,
+      "logps/rejected": -154.0,
+      "loss": 0.3156,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -0.2158203125,
+      "rewards/margins": 1.8046875,
+      "rewards/rejected": -2.015625,
+      "step": 230
+    },
+    {
+      "epoch": 1.5335463258785942,
+      "grad_norm": 20.9068024116458,
+      "learning_rate": 2.7078384798099764e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.640625,
+      "logps/chosen": -166.0,
+      "logps/rejected": -179.0,
+      "loss": 0.2663,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.17578125,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -2.46875,
+      "step": 240
+    },
+    {
+      "epoch": 1.5974440894568689,
+      "grad_norm": 23.61858832933539,
+      "learning_rate": 2.589073634204275e-07,
+      "logits/chosen": -3.625,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -169.0,
+      "logps/rejected": -175.0,
+      "loss": 0.255,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -0.302734375,
+      "rewards/margins": 2.203125,
+      "rewards/rejected": -2.515625,
+      "step": 250
+    },
+    {
+      "epoch": 1.6613418530351438,
+      "grad_norm": 15.684487484295666,
+      "learning_rate": 2.4703087885985747e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.65625,
+      "logps/chosen": -176.0,
+      "logps/rejected": -178.0,
+      "loss": 0.279,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.3984375,
+      "rewards/margins": 1.984375,
+      "rewards/rejected": -2.375,
+      "step": 260
+    },
+    {
+      "epoch": 1.7252396166134185,
+      "grad_norm": 17.902346692684933,
+      "learning_rate": 2.351543942992874e-07,
+      "logits/chosen": -3.6875,
+      "logits/rejected": -3.625,
+      "logps/chosen": -175.0,
+      "logps/rejected": -186.0,
+      "loss": 0.27,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.29296875,
+      "rewards/margins": 2.140625,
+      "rewards/rejected": -2.4375,
+      "step": 270
+    },
+    {
+      "epoch": 1.7891373801916934,
+      "grad_norm": 16.024604674297596,
+      "learning_rate": 2.2327790973871732e-07,
+      "logits/chosen": -3.65625,
+      "logits/rejected": -3.609375,
+      "logps/chosen": -178.0,
+      "logps/rejected": -186.0,
+      "loss": 0.3036,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.76171875,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -2.921875,
+      "step": 280
+    },
+    {
+      "epoch": 1.8530351437699681,
+      "grad_norm": 20.910031176692122,
+      "learning_rate": 2.1140142517814726e-07,
+      "logits/chosen": -3.625,
+      "logits/rejected": -3.59375,
+      "logps/chosen": -174.0,
+      "logps/rejected": -182.0,
+      "loss": 0.257,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -0.0810546875,
+      "rewards/margins": 2.5625,
+      "rewards/rejected": -2.640625,
+      "step": 290
+    },
+    {
+      "epoch": 1.9169329073482428,
+      "grad_norm": 26.07564194077576,
+      "learning_rate": 1.9952494061757718e-07,
+      "logits/chosen": -3.65625,
+      "logits/rejected": -3.578125,
+      "logps/chosen": -167.0,
+      "logps/rejected": -170.0,
+      "loss": 0.3132,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -0.2099609375,
+      "rewards/margins": 2.234375,
+      "rewards/rejected": -2.4375,
+      "step": 300
+    },
+    {
+      "epoch": 1.9808306709265175,
+      "grad_norm": 26.49958432728375,
+      "learning_rate": 1.876484560570071e-07,
+      "logits/chosen": -3.71875,
+      "logits/rejected": -3.703125,
+      "logps/chosen": -165.0,
+      "logps/rejected": -174.0,
+      "loss": 0.2996,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.400390625,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -2.4375,
+      "step": 310
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -3.765625,
+      "eval_logits/rejected": -3.796875,
+      "eval_logps/chosen": -167.0,
+      "eval_logps/rejected": -154.0,
+      "eval_loss": 0.5964062213897705,
+      "eval_rewards/accuracies": 0.7142857313156128,
+      "eval_rewards/chosen": -0.86328125,
+      "eval_rewards/margins": 0.5546875,
+      "eval_rewards/rejected": -1.4140625,
+      "eval_runtime": 12.2832,
+      "eval_samples_per_second": 16.282,
+      "eval_steps_per_second": 0.57,
+      "step": 313
     }
   ],
   "logging_steps": 10,