Training in progress, epoch 3, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +684 -4

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35e7bd1801d0d4245d02fcc221540d160d9ca4436762abd40ab696436db37997
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cb217517103aa1f9b67671200e1088c82e998f977765551951ecbd6cacb9fc3
 size 4949453792

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fac833f220a4de94d80f1c6128e85dbd0534b37e1778d74f64d089406b9a9cd
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d306a9a8a0ee55b4dfde88bec95cd9d2efca13601a22479321364d39624178e8
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5d6ebf26b088bbc6f219afaf49ff803ae69e0485761a48a6794d7aaaccc4eb7
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:9842fedf4985d9dd12c414781f60bc29e4a8029b6b63daa86ef5332b34e099e7
 size 4546807800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84bf6c04da13948bebd4d30d4b13cd682886c3f4762b4f85e343d6b5fe8ad40e
 size 28992348490

 version https://git-lfs.github.com/spec/v1
+oid sha256:09fbba3766d6cb31a87875e81304d345ce1b8197cb449721c0f15cd8e1db6251
 size 28992348490

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06fea830cf5ad73ec00d500ea6fb952740ac936f18e93fa2d32abde1ea3ead92
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb18ac8d6db3307b1c242f7cb069fc8b8dab957434ddfcafcac997cfd6a43abf
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be561d1df19be227394d8ea607c54262a06c9bf880af0aa5e04a52596a2a6cb0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bdab708057b5f34a402d9a2b4443f5f93a8e8ee2ddb66d955f0a15ad394ecc5
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f3e24417a59435f5a8450a4aeb0f09cc92734b5c3b45a0701b2c043c415c05
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:599882a30c163a5a2a000c4e74b320ecc4a55aa1b079882fd66aa3d2559d19e7
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bea02744c29f30024590ab1629a0e7b7dabbf1e8476456c2e7c5ce46dc35c28
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:567c3b482c209c2778fc017e39a38642c488edda20673ef29f571ef7177ad81e
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:041be966454b60c86af576fc1eb7f34189114689abff8f9622b947110f7334c8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f9ffe9a916e778423aaed4ec842923c9ccfdd3d7a4fbad10dc6a3bfc278fb8e
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b85766f6596d15a810177d77dd259d9b50588cf100ec5f8ebff5fed881d57957
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7ede8a81aa3c780fb9c3cb57537752a782c4aed1dcecb7aafd6ca5a7ea90252
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8be75d04b1ebe614241b88fd010a5dda1b7bf703c00c6ebe310ca07975830fe7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b1c5c0c0afa907d332467e631e6cee80ba476689aa0caa77689ca273d83b3e4
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4699833a7ab4cb692996ef7567f934c0bac79d6a067963a873f89a38e412bd48
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:73025ac422abb13303ee974109cf39f6f848de7f7013e828d04aa4e2ec0e6757
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a23384b1a4df8f5cde36ecc73a9742d7fae5940c0f154d6cc580286c571d0dba
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dbc6caf624eba5c924d315b74568bd01ca1fccdd670b0ff8efdc24821d15151
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 300,
-  "global_step": 962,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1382,6 +1382,686 @@
       "learning_rate": 5.050432566228552e-07,
       "loss": 1.1831,
       "step": 960
     }
   ],
   "logging_steps": 5,
@@ -1396,12 +2076,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.381932813203276e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 300,
+  "global_step": 1443,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.050432566228552e-07,
       "loss": 1.1831,
       "step": 960
+    },
+    {
+      "epoch": 2.006237006237006,
+      "grad_norm": 3.609375,
+      "learning_rate": 4.956010076471065e-07,
+      "loss": 1.1592,
+      "step": 965
+    },
+    {
+      "epoch": 2.0166320166320166,
+      "grad_norm": 3.53125,
+      "learning_rate": 4.862186938359441e-07,
+      "loss": 1.1667,
+      "step": 970
+    },
+    {
+      "epoch": 2.027027027027027,
+      "grad_norm": 3.5625,
+      "learning_rate": 4.768974300419573e-07,
+      "loss": 1.1678,
+      "step": 975
+    },
+    {
+      "epoch": 2.0374220374220373,
+      "grad_norm": 3.625,
+      "learning_rate": 4.6763832386347214e-07,
+      "loss": 1.1723,
+      "step": 980
+    },
+    {
+      "epoch": 2.047817047817048,
+      "grad_norm": 3.578125,
+      "learning_rate": 4.5844247551294224e-07,
+      "loss": 1.1642,
+      "step": 985
+    },
+    {
+      "epoch": 2.0582120582120584,
+      "grad_norm": 3.609375,
+      "learning_rate": 4.493109776862143e-07,
+      "loss": 1.17,
+      "step": 990
+    },
+    {
+      "epoch": 2.0686070686070686,
+      "grad_norm": 3.640625,
+      "learning_rate": 4.402449154326913e-07,
+      "loss": 1.1651,
+      "step": 995
+    },
+    {
+      "epoch": 2.079002079002079,
+      "grad_norm": 3.640625,
+      "learning_rate": 4.312453660263987e-07,
+      "loss": 1.1783,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0893970893970892,
+      "grad_norm": 3.578125,
+      "learning_rate": 4.2231339883798025e-07,
+      "loss": 1.1711,
+      "step": 1005
+    },
+    {
+      "epoch": 2.0997920997921,
+      "grad_norm": 3.5625,
+      "learning_rate": 4.13450075207628e-07,
+      "loss": 1.163,
+      "step": 1010
+    },
+    {
+      "epoch": 2.1101871101871104,
+      "grad_norm": 3.515625,
+      "learning_rate": 4.0465644831897006e-07,
+      "loss": 1.17,
+      "step": 1015
+    },
+    {
+      "epoch": 2.1205821205821205,
+      "grad_norm": 3.5625,
+      "learning_rate": 3.9593356307392436e-07,
+      "loss": 1.1733,
+      "step": 1020
+    },
+    {
+      "epoch": 2.130977130977131,
+      "grad_norm": 3.59375,
+      "learning_rate": 3.872824559685409e-07,
+      "loss": 1.1762,
+      "step": 1025
+    },
+    {
+      "epoch": 2.141372141372141,
+      "grad_norm": 3.671875,
+      "learning_rate": 3.7870415496983743e-07,
+      "loss": 1.1734,
+      "step": 1030
+    },
+    {
+      "epoch": 2.1517671517671517,
+      "grad_norm": 3.578125,
+      "learning_rate": 3.701996793936535e-07,
+      "loss": 1.1724,
+      "step": 1035
+    },
+    {
+      "epoch": 2.1621621621621623,
+      "grad_norm": 3.5625,
+      "learning_rate": 3.6177003978352917e-07,
+      "loss": 1.1718,
+      "step": 1040
+    },
+    {
+      "epoch": 2.1725571725571724,
+      "grad_norm": 3.5625,
+      "learning_rate": 3.5341623779062813e-07,
+      "loss": 1.1688,
+      "step": 1045
+    },
+    {
+      "epoch": 2.182952182952183,
+      "grad_norm": 3.609375,
+      "learning_rate": 3.45139266054715e-07,
+      "loss": 1.1732,
+      "step": 1050
+    },
+    {
+      "epoch": 2.1933471933471935,
+      "grad_norm": 3.59375,
+      "learning_rate": 3.3694010808620733e-07,
+      "loss": 1.1619,
+      "step": 1055
+    },
+    {
+      "epoch": 2.2037422037422036,
+      "grad_norm": 3.625,
+      "learning_rate": 3.288197381493075e-07,
+      "loss": 1.1673,
+      "step": 1060
+    },
+    {
+      "epoch": 2.214137214137214,
+      "grad_norm": 3.609375,
+      "learning_rate": 3.207791211462383e-07,
+      "loss": 1.1725,
+      "step": 1065
+    },
+    {
+      "epoch": 2.2245322245322248,
+      "grad_norm": 3.546875,
+      "learning_rate": 3.128192125025869e-07,
+      "loss": 1.1673,
+      "step": 1070
+    },
+    {
+      "epoch": 2.234927234927235,
+      "grad_norm": 3.578125,
+      "learning_rate": 3.049409580537773e-07,
+      "loss": 1.1735,
+      "step": 1075
+    },
+    {
+      "epoch": 2.2453222453222454,
+      "grad_norm": 3.5625,
+      "learning_rate": 2.9714529393268016e-07,
+      "loss": 1.1583,
+      "step": 1080
+    },
+    {
+      "epoch": 2.2557172557172556,
+      "grad_norm": 3.484375,
+      "learning_rate": 2.8943314645837955e-07,
+      "loss": 1.1715,
+      "step": 1085
+    },
+    {
+      "epoch": 2.266112266112266,
+      "grad_norm": 3.609375,
+      "learning_rate": 2.8180543202609984e-07,
+      "loss": 1.164,
+      "step": 1090
+    },
+    {
+      "epoch": 2.2765072765072767,
+      "grad_norm": 3.53125,
+      "learning_rate": 2.742630569983182e-07,
+      "loss": 1.1695,
+      "step": 1095
+    },
+    {
+      "epoch": 2.286902286902287,
+      "grad_norm": 3.578125,
+      "learning_rate": 2.66806917597064e-07,
+      "loss": 1.169,
+      "step": 1100
+    },
+    {
+      "epoch": 2.2972972972972974,
+      "grad_norm": 3.578125,
+      "learning_rate": 2.594378997974267e-07,
+      "loss": 1.1615,
+      "step": 1105
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 3.6875,
+      "learning_rate": 2.5215687922227845e-07,
+      "loss": 1.1712,
+      "step": 1110
+    },
+    {
+      "epoch": 2.318087318087318,
+      "grad_norm": 3.515625,
+      "learning_rate": 2.4496472103823027e-07,
+      "loss": 1.1688,
+      "step": 1115
+    },
+    {
+      "epoch": 2.3284823284823286,
+      "grad_norm": 3.609375,
+      "learning_rate": 2.378622798528266e-07,
+      "loss": 1.1631,
+      "step": 1120
+    },
+    {
+      "epoch": 2.3388773388773387,
+      "grad_norm": 3.6875,
+      "learning_rate": 2.3085039961299814e-07,
+      "loss": 1.1671,
+      "step": 1125
+    },
+    {
+      "epoch": 2.3492723492723493,
+      "grad_norm": 3.640625,
+      "learning_rate": 2.239299135047794e-07,
+      "loss": 1.1623,
+      "step": 1130
+    },
+    {
+      "epoch": 2.35966735966736,
+      "grad_norm": 3.578125,
+      "learning_rate": 2.1710164385430585e-07,
+      "loss": 1.1716,
+      "step": 1135
+    },
+    {
+      "epoch": 2.37006237006237,
+      "grad_norm": 3.546875,
+      "learning_rate": 2.103664020300997e-07,
+      "loss": 1.1674,
+      "step": 1140
+    },
+    {
+      "epoch": 2.3804573804573805,
+      "grad_norm": 3.453125,
+      "learning_rate": 2.037249883466614e-07,
+      "loss": 1.1623,
+      "step": 1145
+    },
+    {
+      "epoch": 2.390852390852391,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.971781919693697e-07,
+      "loss": 1.1808,
+      "step": 1150
+    },
+    {
+      "epoch": 2.401247401247401,
+      "grad_norm": 3.625,
+      "learning_rate": 1.9072679082071163e-07,
+      "loss": 1.169,
+      "step": 1155
+    },
+    {
+      "epoch": 2.4116424116424118,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.8437155148784433e-07,
+      "loss": 1.1717,
+      "step": 1160
+    },
+    {
+      "epoch": 2.422037422037422,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.781132291315064e-07,
+      "loss": 1.1706,
+      "step": 1165
+    },
+    {
+      "epoch": 2.4324324324324325,
+      "grad_norm": 3.625,
+      "learning_rate": 1.7195256739628439e-07,
+      "loss": 1.1722,
+      "step": 1170
+    },
+    {
+      "epoch": 2.442827442827443,
+      "grad_norm": 3.71875,
+      "learning_rate": 1.6589029832225155e-07,
+      "loss": 1.1615,
+      "step": 1175
+    },
+    {
+      "epoch": 2.453222453222453,
+      "grad_norm": 3.625,
+      "learning_rate": 1.599271422579812e-07,
+      "loss": 1.1691,
+      "step": 1180
+    },
+    {
+      "epoch": 2.4636174636174637,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.5406380777495297e-07,
+      "loss": 1.1647,
+      "step": 1185
+    },
+    {
+      "epoch": 2.474012474012474,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.4830099158335563e-07,
+      "loss": 1.1707,
+      "step": 1190
+    },
+    {
+      "epoch": 2.4844074844074844,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.426393784493015e-07,
+      "loss": 1.1564,
+      "step": 1195
+    },
+    {
+      "epoch": 2.494802494802495,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.3707964111345805e-07,
+      "loss": 1.1721,
+      "step": 1200
+    },
+    {
+      "epoch": 2.494802494802495,
+      "eval_loss": 1.1930803060531616,
+      "eval_runtime": 10.8355,
+      "eval_samples_per_second": 85.829,
+      "eval_steps_per_second": 2.769,
+      "step": 1200
+    },
+    {
+      "epoch": 2.505197505197505,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.3162244021111123e-07,
+      "loss": 1.1677,
+      "step": 1205
+    },
+    {
+      "epoch": 2.5155925155925156,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.2626842419366369e-07,
+      "loss": 1.1551,
+      "step": 1210
+    },
+    {
+      "epoch": 2.525987525987526,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.2101822925158378e-07,
+      "loss": 1.1678,
+      "step": 1215
+    },
+    {
+      "epoch": 2.5363825363825363,
+      "grad_norm": 3.65625,
+      "learning_rate": 1.1587247923881016e-07,
+      "loss": 1.1731,
+      "step": 1220
+    },
+    {
+      "epoch": 2.546777546777547,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.1083178559862227e-07,
+      "loss": 1.1707,
+      "step": 1225
+    },
+    {
+      "epoch": 2.5571725571725574,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.0589674729098507e-07,
+      "loss": 1.1733,
+      "step": 1230
+    },
+    {
+      "epoch": 2.5675675675675675,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.0106795072137896e-07,
+      "loss": 1.1741,
+      "step": 1235
+    },
+    {
+      "epoch": 2.577962577962578,
+      "grad_norm": 3.625,
+      "learning_rate": 9.634596967111853e-08,
+      "loss": 1.1704,
+      "step": 1240
+    },
+    {
+      "epoch": 2.5883575883575882,
+      "grad_norm": 3.640625,
+      "learning_rate": 9.173136522917457e-08,
+      "loss": 1.1679,
+      "step": 1245
+    },
+    {
+      "epoch": 2.598752598752599,
+      "grad_norm": 3.546875,
+      "learning_rate": 8.722468572550213e-08,
+      "loss": 1.1682,
+      "step": 1250
+    },
+    {
+      "epoch": 2.609147609147609,
+      "grad_norm": 3.640625,
+      "learning_rate": 8.28264666658851e-08,
+      "loss": 1.1653,
+      "step": 1255
+    },
+    {
+      "epoch": 2.6195426195426195,
+      "grad_norm": 3.734375,
+      "learning_rate": 7.853723066830486e-08,
+      "loss": 1.1672,
+      "step": 1260
+    },
+    {
+      "epoch": 2.62993762993763,
+      "grad_norm": 3.640625,
+      "learning_rate": 7.435748740084046e-08,
+      "loss": 1.1606,
+      "step": 1265
+    },
+    {
+      "epoch": 2.64033264033264,
+      "grad_norm": 3.65625,
+      "learning_rate": 7.028773352110684e-08,
+      "loss": 1.1634,
+      "step": 1270
+    },
+    {
+      "epoch": 2.6507276507276507,
+      "grad_norm": 3.515625,
+      "learning_rate": 6.632845261724051e-08,
+      "loss": 1.1635,
+      "step": 1275
+    },
+    {
+      "epoch": 2.6611226611226613,
+      "grad_norm": 4.1875,
+      "learning_rate": 6.248011515043617e-08,
+      "loss": 1.1641,
+      "step": 1280
+    },
+    {
+      "epoch": 2.6715176715176714,
+      "grad_norm": 3.65625,
+      "learning_rate": 5.8743178399044966e-08,
+      "loss": 1.1642,
+      "step": 1285
+    },
+    {
+      "epoch": 2.681912681912682,
+      "grad_norm": 3.625,
+      "learning_rate": 5.511808640423765e-08,
+      "loss": 1.1727,
+      "step": 1290
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 3.59375,
+      "learning_rate": 5.160526991724246e-08,
+      "loss": 1.1732,
+      "step": 1295
+    },
+    {
+      "epoch": 2.7027027027027026,
+      "grad_norm": 3.609375,
+      "learning_rate": 4.8205146348160195e-08,
+      "loss": 1.1699,
+      "step": 1300
+    },
+    {
+      "epoch": 2.713097713097713,
+      "grad_norm": 3.6875,
+      "learning_rate": 4.491811971636605e-08,
+      "loss": 1.166,
+      "step": 1305
+    },
+    {
+      "epoch": 2.7234927234927238,
+      "grad_norm": 3.625,
+      "learning_rate": 4.174458060250208e-08,
+      "loss": 1.1712,
+      "step": 1310
+    },
+    {
+      "epoch": 2.733887733887734,
+      "grad_norm": 3.59375,
+      "learning_rate": 3.868490610206565e-08,
+      "loss": 1.1595,
+      "step": 1315
+    },
+    {
+      "epoch": 2.7442827442827444,
+      "grad_norm": 3.578125,
+      "learning_rate": 3.5739459780602665e-08,
+      "loss": 1.1684,
+      "step": 1320
+    },
+    {
+      "epoch": 2.7546777546777546,
+      "grad_norm": 3.578125,
+      "learning_rate": 3.290859163050508e-08,
+      "loss": 1.1744,
+      "step": 1325
+    },
+    {
+      "epoch": 2.765072765072765,
+      "grad_norm": 3.671875,
+      "learning_rate": 3.0192638029424735e-08,
+      "loss": 1.1664,
+      "step": 1330
+    },
+    {
+      "epoch": 2.7754677754677752,
+      "grad_norm": 3.53125,
+      "learning_rate": 2.7591921700302222e-08,
+      "loss": 1.1612,
+      "step": 1335
+    },
+    {
+      "epoch": 2.785862785862786,
+      "grad_norm": 3.609375,
+      "learning_rate": 2.5106751673020012e-08,
+      "loss": 1.174,
+      "step": 1340
+    },
+    {
+      "epoch": 2.7962577962577964,
+      "grad_norm": 3.59375,
+      "learning_rate": 2.273742324768124e-08,
+      "loss": 1.1602,
+      "step": 1345
+    },
+    {
+      "epoch": 2.8066528066528065,
+      "grad_norm": 3.546875,
+      "learning_rate": 2.048421795952171e-08,
+      "loss": 1.1708,
+      "step": 1350
+    },
+    {
+      "epoch": 2.817047817047817,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.8347403545455497e-08,
+      "loss": 1.1622,
+      "step": 1355
+    },
+    {
+      "epoch": 2.8274428274428276,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.6327233912261984e-08,
+      "loss": 1.1668,
+      "step": 1360
+    },
+    {
+      "epoch": 2.8378378378378377,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.4423949106414868e-08,
+      "loss": 1.1708,
+      "step": 1365
+    },
+    {
+      "epoch": 2.8482328482328483,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.2637775285558983e-08,
+      "loss": 1.1663,
+      "step": 1370
+    },
+    {
+      "epoch": 2.858627858627859,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.0968924691636572e-08,
+      "loss": 1.1621,
+      "step": 1375
+    },
+    {
+      "epoch": 2.869022869022869,
+      "grad_norm": 3.671875,
+      "learning_rate": 9.417595625668462e-09,
+      "loss": 1.1769,
+      "step": 1380
+    },
+    {
+      "epoch": 2.8794178794178795,
+      "grad_norm": 3.71875,
+      "learning_rate": 7.983972424190354e-09,
+      "loss": 1.1784,
+      "step": 1385
+    },
+    {
+      "epoch": 2.88981288981289,
+      "grad_norm": 3.65625,
+      "learning_rate": 6.668225437349351e-09,
+      "loss": 1.1734,
+      "step": 1390
+    },
+    {
+      "epoch": 2.9002079002079,
+      "grad_norm": 3.75,
+      "learning_rate": 5.470511008662026e-09,
+      "loss": 1.1747,
+      "step": 1395
+    },
+    {
+      "epoch": 2.9106029106029108,
+      "grad_norm": 3.671875,
+      "learning_rate": 4.390971456437076e-09,
+      "loss": 1.171,
+      "step": 1400
+    },
+    {
+      "epoch": 2.920997920997921,
+      "grad_norm": 3.671875,
+      "learning_rate": 3.429735056863725e-09,
+      "loss": 1.1667,
+      "step": 1405
+    },
+    {
+      "epoch": 2.9313929313929314,
+      "grad_norm": 3.671875,
+      "learning_rate": 2.5869160287702586e-09,
+      "loss": 1.1683,
+      "step": 1410
+    },
+    {
+      "epoch": 2.9417879417879416,
+      "grad_norm": 3.625,
+      "learning_rate": 1.8626145200513199e-09,
+      "loss": 1.1702,
+      "step": 1415
+    },
+    {
+      "epoch": 2.952182952182952,
+      "grad_norm": 3.5,
+      "learning_rate": 1.2569165957680983e-09,
+      "loss": 1.1712,
+      "step": 1420
+    },
+    {
+      "epoch": 2.9625779625779627,
+      "grad_norm": 3.640625,
+      "learning_rate": 7.698942279216192e-10,
+      "loss": 1.1725,
+      "step": 1425
+    },
+    {
+      "epoch": 2.972972972972973,
+      "grad_norm": 3.5,
+      "learning_rate": 4.016052869005859e-10,
+      "loss": 1.1693,
+      "step": 1430
+    },
+    {
+      "epoch": 2.9833679833679834,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.520935346051022e-10,
+      "loss": 1.1682,
+      "step": 1435
+    },
+    {
+      "epoch": 2.993762993762994,
+      "grad_norm": 3.609375,
+      "learning_rate": 2.1388619246498486e-11,
+      "loss": 1.1627,
+      "step": 1440
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.072899219804914e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null