AmberYifan commited on 15 days ago

Commit

bde70cf

verified ·

1 Parent(s): 11ba313

Training in progress, epoch 3, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d980be04c557786e3b5c5a64392395038ead8f9d9148b28743b3f8bb2940d878
+size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b172d5ad0e26d51035bee7f0936957de3f5c314ea98fc88eefe31c62f0f3898
+size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6aca46144029aef0b856601d65e7b017f94f8e27bc15b309506659aa3b99f28e
+size 16060527788

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12b9f7ce0eff7667bfcfa29226162987b7d229e8ed0274be9714c659aceedcb1
+size 16060527788

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bdb7dbee9c796f9aafc9eee12e5897c440ad5a648fd8df8520d6e2380a7c1a5
+size 150693

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c0406da72cdfc68a165458ddeef11d1da49d6d97bb21ad9504edf784cedb97f
+size 150693

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:332ccdbe01b4fa4b6a35acac97bc26143f603959f45d4d12c635ad4e6a2e8632
+size 150693

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7528f0ef5669d4d46b8576941e18d57af6e08eb71acd5ffb084bdd17ea161d
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c731bed6807b1a066146f841e048edebb92956456ff88b4625eb39512bbc151d
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c8f876f869dff3fa6c4eae47ec74f9f173f50ebecd8a8b4bfab585dc1a02938
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:781ed51ac3ba232b7a1cc27c87f727c26861b9831ae514ac4ef57765fcd8c492
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0e56e2fb45bca82c71b19a4e0e2bb1a39b9bd0a34ad8a5608a5602b26672fec
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e60496574a6248a1a894d7ded33a1a2a355fd93784fca5e87fe1873578ea2d5
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3fd4280c7912fdc7da7b1e42ef7a28ff9f3420742271561e5bcf94caeb5bfc3
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7314302f8c30744216d7bddc2d001dd9d8a848384452c482ff2f638b199b8608
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ef02e9937aac502ee596979a2177ec89a3625bc2b0e8b1ec414036a786e00b2
 size 1168138808

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7725b44c69725321786f1e58dccd7ea4d3ae5794ea47bd49c0d4a139aec266d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7d17fbcfa5bee1bf6cb5aedab3ff5a70436912c200d7301d173be443809d63
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 12.683,
       "eval_steps_per_second": 0.444,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.683,
       "eval_steps_per_second": 0.444,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 0.6498565946867418,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -147.0,
+      "logps/rejected": -182.0,
+      "loss": 0.0192,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.328125,
+      "rewards/margins": 9.4375,
+      "rewards/rejected": -7.09375,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 0.3293295305702466,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -149.0,
+      "logps/rejected": -184.0,
+      "loss": 0.0076,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.109375,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -6.9375,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 0.03540134173988831,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -1.671875,
+      "logits/rejected": -1.703125,
+      "logps/chosen": -168.0,
+      "logps/rejected": -186.0,
+      "loss": 0.0006,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.328125,
+      "rewards/margins": 9.9375,
+      "rewards/rejected": -7.59375,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 16.091702934411547,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -139.0,
+      "logps/rejected": -173.0,
+      "loss": 0.0426,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 2.109375,
+      "rewards/margins": 9.125,
+      "rewards/rejected": -7.0,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 0.2098027250760498,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -149.0,
+      "logps/rejected": -178.0,
+      "loss": 0.013,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.84375,
+      "rewards/margins": 8.375,
+      "rewards/rejected": -6.5625,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 0.5339899857614889,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -123.5,
+      "logps/rejected": -182.0,
+      "loss": 0.0247,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.8203125,
+      "rewards/margins": 8.5,
+      "rewards/rejected": -6.6875,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 0.16146396901518884,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.6796875,
+      "logps/chosen": -173.0,
+      "logps/rejected": -185.0,
+      "loss": 0.0159,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.9453125,
+      "rewards/margins": 8.3125,
+      "rewards/rejected": -6.375,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 0.07042850207697388,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -137.0,
+      "logps/rejected": -180.0,
+      "loss": 0.0176,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.984375,
+      "rewards/margins": 9.0,
+      "rewards/rejected": -7.0,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 0.1655932469804816,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.6953125,
+      "logps/chosen": -149.0,
+      "logps/rejected": -180.0,
+      "loss": 0.0023,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.109375,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -6.625,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 2.1568103368975344,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -117.0,
+      "logps/rejected": -181.0,
+      "loss": 0.0671,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 1.703125,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -6.9375,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 0.314943777613801,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -156.0,
+      "logps/rejected": -181.0,
+      "loss": 0.0022,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.09375,
+      "rewards/margins": 9.0,
+      "rewards/rejected": -6.9375,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 0.1717048855680156,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -163.0,
+      "logps/rejected": -185.0,
+      "loss": 0.0042,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.203125,
+      "rewards/margins": 9.1875,
+      "rewards/rejected": -7.0,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 0.13036139910530478,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -128.0,
+      "logps/rejected": -190.0,
+      "loss": 0.0172,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.90625,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -6.78125,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 2.55842893808289,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -146.0,
+      "logps/rejected": -193.0,
+      "loss": 0.0212,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.515625,
+      "rewards/margins": 8.375,
+      "rewards/rejected": -6.875,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 0.09940252022628729,
+      "learning_rate": 1e-07,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -132.0,
+      "logps/rejected": -187.0,
+      "loss": 0.0017,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.109375,
+      "rewards/margins": 9.25,
+      "rewards/rejected": -7.15625,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 17.356505869545202,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.6953125,
+      "logps/chosen": -131.0,
+      "logps/rejected": -182.0,
+      "loss": 0.0192,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.25,
+      "rewards/margins": 9.375,
+      "rewards/rejected": -7.15625,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 0.593428314749854,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -141.0,
+      "logps/rejected": -186.0,
+      "loss": 0.021,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.359375,
+      "rewards/margins": 9.5,
+      "rewards/rejected": -7.15625,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 11.900912740835807,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6796875,
+      "logps/chosen": -132.0,
+      "logps/rejected": -186.0,
+      "loss": 0.0351,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.25,
+      "rewards/margins": 9.5625,
+      "rewards/rejected": -7.34375,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 0.06771001113976342,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -109.0,
+      "logps/rejected": -177.0,
+      "loss": 0.014,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.8046875,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -6.96875,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 0.19065837416735965,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -118.5,
+      "logps/rejected": -178.0,
+      "loss": 0.0135,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.03125,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -6.65625,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 1.1870544618648544,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -141.0,
+      "logps/rejected": -187.0,
+      "loss": 0.0074,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.96875,
+      "rewards/margins": 9.1875,
+      "rewards/rejected": -7.25,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 1.9119353584457313,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -130.0,
+      "logps/rejected": -183.0,
+      "loss": 0.0046,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.125,
+      "rewards/margins": 9.5,
+      "rewards/rejected": -7.375,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 0.10117790082745341,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -121.5,
+      "logps/rejected": -177.0,
+      "loss": 0.0396,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 2.15625,
+      "rewards/margins": 8.625,
+      "rewards/rejected": -6.4375,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 7.809237170202005,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -105.5,
+      "logps/rejected": -180.0,
+      "loss": 0.0254,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.8203125,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -6.90625,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 0.09331472530413627,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6484375,
+      "logps/chosen": -143.0,
+      "logps/rejected": -183.0,
+      "loss": 0.0163,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.9453125,
+      "rewards/margins": 9.0,
+      "rewards/rejected": -7.0625,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 5.639594850245226,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -147.0,
+      "logps/rejected": -179.0,
+      "loss": 0.0034,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.9609375,
+      "rewards/margins": 8.9375,
+      "rewards/rejected": -6.9375,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 0.20860276541522338,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -143.0,
+      "logps/rejected": -182.0,
+      "loss": 0.0047,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.265625,
+      "rewards/margins": 9.625,
+      "rewards/rejected": -7.375,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 6.794488064302702,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -155.0,
+      "logps/rejected": -189.0,
+      "loss": 0.011,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.21875,
+      "rewards/margins": 9.4375,
+      "rewards/rejected": -7.1875,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 0.9529687426961281,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -146.0,
+      "logps/rejected": -179.0,
+      "loss": 0.0325,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.09375,
+      "rewards/margins": 9.125,
+      "rewards/rejected": -7.03125,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 0.122655595633226,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -1.6171875,
+      "logits/rejected": -1.625,
+      "logps/chosen": -132.0,
+      "logps/rejected": -184.0,
+      "loss": 0.0072,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.9296875,
+      "rewards/margins": 9.3125,
+      "rewards/rejected": -7.40625,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 0.46195117646435746,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -156.0,
+      "logps/rejected": -189.0,
+      "loss": 0.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.015625,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -7.0625,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.6171875,
+      "eval_logits/rejected": -1.671875,
+      "eval_logps/chosen": -138.0,
+      "eval_logps/rejected": -181.0,
+      "eval_loss": 0.1789417862892151,
+      "eval_rewards/accuracies": 0.9642857313156128,
+      "eval_rewards/chosen": 1.84375,
+      "eval_rewards/margins": 8.375,
+      "eval_rewards/rejected": -6.5,
+      "eval_runtime": 18.4526,
+      "eval_samples_per_second": 10.839,
+      "eval_steps_per_second": 0.379,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }