Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +842 -2
vocab.model +2 -2

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8981e8a951d08a649aafc2f91f32c98f1b5ad9c74ebcb4a6c163d41f276f0557
 size 853681210

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e89ad651d32e985eb54278a73052c0a859f2fdcb293f4ee18fe1f6b24745a05
 size 853681210

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f378c82b680fef6aa4a65ad23e84317d9d1e44fdb63bea392f19560d8ec3d5b0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:489158a799545f87c162b73e1abbfe1d0335b37508a47e870496f7918f8deec2
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4947f72f90d9368c51b08bb1bac775c4c7915e7575fd4c96cd29cf7138dcbdd3
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:990bf38066c8fa8004c28e3d0c1817b366ea6e1a5e89cf1f2a6ea3b8ad356075
 size 1000

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.047531854851739,
   "eval_steps": 500,
-  "global_step": 1680000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20167,6 +20167,846 @@
       "learning_rate": 0.00020952468145148259,
       "loss": 0.0,
       "step": 1680000
     }
   ],
   "logging_steps": 500,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.424512348803894,
   "eval_steps": 500,
+  "global_step": 1750000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00020952468145148259,
       "loss": 0.0,
       "step": 1680000
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 0.00020949775427334314,
+      "loss": 0.0,
+      "step": 1680500
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 0.00020947082709520373,
+      "loss": 0.0,
+      "step": 1681000
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 0.00020944389991706428,
+      "loss": 0.0,
+      "step": 1681500
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 0.00020941697273892484,
+      "loss": 0.0,
+      "step": 1682000
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 0.00020939004556078537,
+      "loss": 0.0,
+      "step": 1682500
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 0.00020936311838264595,
+      "loss": 0.0,
+      "step": 1683000
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.0002093361912045065,
+      "loss": 0.0,
+      "step": 1683500
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.00020930926402636707,
+      "loss": 0.0,
+      "step": 1684000
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.00020928233684822765,
+      "loss": 0.0,
+      "step": 1684500
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.0002092554096700882,
+      "loss": 0.0,
+      "step": 1685000
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.00020922848249194876,
+      "loss": 0.0,
+      "step": 1685500
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.0002092015553138093,
+      "loss": 0.0,
+      "step": 1686000
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.00020917462813566987,
+      "loss": 0.0,
+      "step": 1686500
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.00020914770095753043,
+      "loss": 0.0,
+      "step": 1687000
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.000209120773779391,
+      "loss": 0.0,
+      "step": 1687500
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.00020909384660125154,
+      "loss": 0.0,
+      "step": 1688000
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 0.00020906691942311213,
+      "loss": 0.0,
+      "step": 1688500
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 0.00020903999224497268,
+      "loss": 0.0,
+      "step": 1689000
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 0.00020901306506683324,
+      "loss": 0.0,
+      "step": 1689500
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 0.00020898613788869377,
+      "loss": 0.0,
+      "step": 1690000
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 0.00020895921071055435,
+      "loss": 0.0,
+      "step": 1690500
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 0.0002089322835324149,
+      "loss": 0.0,
+      "step": 1691000
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 0.00020890535635427547,
+      "loss": 0.0,
+      "step": 1691500
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 0.00020887842917613605,
+      "loss": 0.0,
+      "step": 1692000
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 0.0002088515019979966,
+      "loss": 0.0,
+      "step": 1692500
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 0.00020882457481985716,
+      "loss": 0.0,
+      "step": 1693000
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 0.00020879764764171775,
+      "loss": 0.0,
+      "step": 1693500
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 0.00020877072046357828,
+      "loss": 0.0,
+      "step": 1694000
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 0.00020874379328543883,
+      "loss": 0.0,
+      "step": 1694500
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 0.0002087168661072994,
+      "loss": 0.0,
+      "step": 1695000
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 0.00020868993892915997,
+      "loss": 0.0,
+      "step": 1695500
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 0.00020866301175102053,
+      "loss": 0.0,
+      "step": 1696000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.0002086360845728811,
+      "loss": 0.0,
+      "step": 1696500
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.00020860915739474164,
+      "loss": 0.0,
+      "step": 1697000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.00020858223021660217,
+      "loss": 0.0,
+      "step": 1697500
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.00020855530303846276,
+      "loss": 0.0,
+      "step": 1698000
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.0002085283758603233,
+      "loss": 0.0,
+      "step": 1698500
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.00020850144868218387,
+      "loss": 0.0,
+      "step": 1699000
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.00020847452150404445,
+      "loss": 0.0,
+      "step": 1699500
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.000208447594325905,
+      "loss": 0.0,
+      "step": 1700000
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.00020842066714776557,
+      "loss": 0.0,
+      "step": 1700500
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.00020839373996962615,
+      "loss": 0.0,
+      "step": 1701000
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.00020836681279148668,
+      "loss": 0.0,
+      "step": 1701500
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 0.00020833988561334724,
+      "loss": 0.0,
+      "step": 1702000
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 0.0002083129584352078,
+      "loss": 0.0,
+      "step": 1702500
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 0.00020828603125706838,
+      "loss": 0.0,
+      "step": 1703000
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 0.00020825910407892893,
+      "loss": 0.0,
+      "step": 1703500
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.0002082321769007895,
+      "loss": 0.0,
+      "step": 1704000
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.00020820524972265005,
+      "loss": 0.0,
+      "step": 1704500
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.00020817832254451063,
+      "loss": 0.0,
+      "step": 1705000
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.00020815139536637116,
+      "loss": 0.0,
+      "step": 1705500
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.00020812446818823172,
+      "loss": 0.0,
+      "step": 1706000
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.00020809754101009227,
+      "loss": 0.0,
+      "step": 1706500
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.00020807061383195286,
+      "loss": 0.0,
+      "step": 1707000
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.0002080436866538134,
+      "loss": 0.0,
+      "step": 1707500
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.00020801675947567397,
+      "loss": 0.0,
+      "step": 1708000
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.00020798983229753455,
+      "loss": 0.0,
+      "step": 1708500
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 0.00020796290511939508,
+      "loss": 0.0,
+      "step": 1709000
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 0.00020793597794125564,
+      "loss": 0.0,
+      "step": 1709500
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 0.0002079090507631162,
+      "loss": 0.0,
+      "step": 1710000
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 0.00020788212358497678,
+      "loss": 0.0,
+      "step": 1710500
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 0.00020785519640683734,
+      "loss": 0.0,
+      "step": 1711000
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 0.0002078282692286979,
+      "loss": 0.0,
+      "step": 1711500
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 0.00020780134205055845,
+      "loss": 0.0,
+      "step": 1712000
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 0.00020777441487241903,
+      "loss": 0.0,
+      "step": 1712500
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 0.00020774748769427956,
+      "loss": 0.0,
+      "step": 1713000
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 0.00020772056051614012,
+      "loss": 0.0,
+      "step": 1713500
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 0.00020769363333800067,
+      "loss": 0.0,
+      "step": 1714000
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 0.00020766670615986126,
+      "loss": 0.0,
+      "step": 1714500
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 0.00020763977898172181,
+      "loss": 0.0,
+      "step": 1715000
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 0.00020761285180358237,
+      "loss": 0.0,
+      "step": 1715500
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 0.00020758592462544295,
+      "loss": 0.0,
+      "step": 1716000
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 0.0002075589974473035,
+      "loss": 0.0,
+      "step": 1716500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 0.00020753207026916404,
+      "loss": 0.0,
+      "step": 1717000
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 0.0002075051430910246,
+      "loss": 0.0,
+      "step": 1717500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 0.00020747821591288518,
+      "loss": 0.0,
+      "step": 1718000
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 0.00020745128873474574,
+      "loss": 0.0,
+      "step": 1718500
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 0.0002074243615566063,
+      "loss": 0.0,
+      "step": 1719000
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 0.00020739743437846688,
+      "loss": 0.0,
+      "step": 1719500
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 0.00020737050720032743,
+      "loss": 0.0,
+      "step": 1720000
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 0.00020734358002218796,
+      "loss": 0.0,
+      "step": 1720500
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 0.00020731665284404852,
+      "loss": 0.0,
+      "step": 1721000
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 0.00020728972566590908,
+      "loss": 0.0,
+      "step": 1721500
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 0.00020726279848776966,
+      "loss": 0.0,
+      "step": 1722000
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.00020723587130963022,
+      "loss": 0.0,
+      "step": 1722500
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.00020720894413149077,
+      "loss": 0.0,
+      "step": 1723000
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.00020718201695335136,
+      "loss": 0.0,
+      "step": 1723500
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 0.00020715508977521191,
+      "loss": 0.0,
+      "step": 1724000
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.00020712816259707244,
+      "loss": 0.0,
+      "step": 1724500
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.000207101235418933,
+      "loss": 0.0,
+      "step": 1725000
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.00020707430824079358,
+      "loss": 0.0,
+      "step": 1725500
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.00020704738106265414,
+      "loss": 0.0,
+      "step": 1726000
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.0002070204538845147,
+      "loss": 0.0,
+      "step": 1726500
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.00020699352670637528,
+      "loss": 0.0,
+      "step": 1727000
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 0.00020696659952823584,
+      "loss": 0.0,
+      "step": 1727500
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 0.0002069396723500964,
+      "loss": 0.0,
+      "step": 1728000
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 0.00020691274517195692,
+      "loss": 0.0,
+      "step": 1728500
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 0.0002068858179938175,
+      "loss": 0.0,
+      "step": 1729000
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 0.00020685889081567806,
+      "loss": 0.0,
+      "step": 1729500
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 0.00020683196363753862,
+      "loss": 0.0,
+      "step": 1730000
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 0.00020680503645939918,
+      "loss": 0.0,
+      "step": 1730500
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 0.00020677810928125976,
+      "loss": 0.0,
+      "step": 1731000
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 0.00020675118210312032,
+      "loss": 0.0,
+      "step": 1731500
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.00020672425492498085,
+      "loss": 0.0,
+      "step": 1732000
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.0002066973277468414,
+      "loss": 0.0,
+      "step": 1732500
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.00020667040056870199,
+      "loss": 0.0,
+      "step": 1733000
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 0.00020664347339056254,
+      "loss": 0.0,
+      "step": 1733500
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 0.0002066165462124231,
+      "loss": 0.0,
+      "step": 1734000
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 0.00020658961903428368,
+      "loss": 0.0,
+      "step": 1734500
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 0.00020656269185614424,
+      "loss": 0.0,
+      "step": 1735000
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 0.0002065357646780048,
+      "loss": 0.0,
+      "step": 1735500
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 0.00020650883749986532,
+      "loss": 0.0,
+      "step": 1736000
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 0.0002064819103217259,
+      "loss": 0.0,
+      "step": 1736500
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 0.00020645498314358647,
+      "loss": 0.0,
+      "step": 1737000
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.00020642805596544702,
+      "loss": 0.0,
+      "step": 1737500
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.00020640112878730758,
+      "loss": 0.0,
+      "step": 1738000
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 0.00020637420160916816,
+      "loss": 0.0,
+      "step": 1738500
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 0.00020634727443102872,
+      "loss": 0.0,
+      "step": 1739000
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 0.00020632034725288927,
+      "loss": 0.0,
+      "step": 1739500
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 0.0002062934200747498,
+      "loss": 0.0,
+      "step": 1740000
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 0.0002062664928966104,
+      "loss": 0.0,
+      "step": 1740500
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 0.00020623956571847094,
+      "loss": 0.0,
+      "step": 1741000
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 0.0002062126385403315,
+      "loss": 0.0,
+      "step": 1741500
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 0.00020618571136219208,
+      "loss": 0.0,
+      "step": 1742000
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 0.00020615878418405264,
+      "loss": 0.0,
+      "step": 1742500
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 0.0002061318570059132,
+      "loss": 0.0,
+      "step": 1743000
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 0.00020610492982777373,
+      "loss": 0.0,
+      "step": 1743500
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 0.0002060780026496343,
+      "loss": 0.0,
+      "step": 1744000
+    },
+    {
+      "epoch": 9.39,
+      "learning_rate": 0.00020605107547149487,
+      "loss": 0.0,
+      "step": 1744500
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 0.00020602414829335542,
+      "loss": 0.0,
+      "step": 1745000
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 0.00020599722111521598,
+      "loss": 0.0,
+      "step": 1745500
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 0.00020597029393707656,
+      "loss": 0.0,
+      "step": 1746000
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.00020594336675893712,
+      "loss": 0.0,
+      "step": 1746500
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.00020591643958079768,
+      "loss": 0.0,
+      "step": 1747000
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.0002058895124026582,
+      "loss": 0.0,
+      "step": 1747500
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 0.0002058625852245188,
+      "loss": 0.0,
+      "step": 1748000
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 0.00020583565804637935,
+      "loss": 0.0,
+      "step": 1748500
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 0.0002058087308682399,
+      "loss": 0.0,
+      "step": 1749000
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 0.0002057818036901005,
+      "loss": 0.0,
+      "step": 1749500
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 0.00020575487651196104,
+      "loss": 0.0,
+      "step": 1750000
     }
   ],
   "logging_steps": 500,

vocab.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61f6b7a026762e741c018f7964d84a7fff156d66b99565ea217ea61d985ed1b3
-size 1536738

 version https://git-lfs.github.com/spec/v1
+oid sha256:913db505dc9a9500992c7fc62f6038e04d17748445d9a72fe81b92b6eb78b0c8
+size 1536750