jssky commited on
Commit
26259f2
·
verified ·
1 Parent(s): 99a793c

Training in progress, step 460, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5b9f28f2b549c3476b3ecf3e4bbf3562d66de416e11d9426dcf6273f903901f4
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:192318a76dbdabc5493ecc666ef558e5cba0c805846db4e5de70a9d8fb1661f5
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0369fa5b8f8584c9908f04bb2ffa8231d801fd46b0b835ad0fb101285f1688ba
3
- size 41459700
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1854159ce72c01c49c84990cca6c5a4c9293a5b32835fcf2a7b719770ed5797b
3
+ size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:be63c17e31488b880bc12f3dc6717a8b10d4e77a8d6346c8d4bedafb778465b2
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:70db357d365c307295f0f171f822ed92fa64ae5a966b05696ee6a22bf77bdd7c
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9d7b42d9341d43c8dae32889a2d7c04f634623aa078d866b931b6ff8f33ac3d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e0a1b967b0e0452d968af4c52dc7534380ad7a06675bc9b554ab04875453a50f
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.250272034820457,
5
  "eval_steps": 230,
6
- "global_step": 230,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1625,6 +1625,1624 @@
1625
  "eval_samples_per_second": 15.85,
1626
  "eval_steps_per_second": 7.945,
1627
  "step": 230
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1628
  }
1629
  ],
1630
  "logging_steps": 1,
@@ -1644,7 +3262,7 @@
1644
  "attributes": {}
1645
  }
1646
  },
1647
- "total_flos": 9.305676486121882e+16,
1648
  "train_batch_size": 2,
1649
  "trial_name": null,
1650
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.500544069640914,
5
  "eval_steps": 230,
6
+ "global_step": 460,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1625
  "eval_samples_per_second": 15.85,
1626
  "eval_steps_per_second": 7.945,
1627
  "step": 230
1628
+ },
1629
+ {
1630
+ "epoch": 0.2513601741022851,
1631
+ "grad_norm": 0.14655253291130066,
1632
+ "learning_rate": 0.00017222145741734626,
1633
+ "loss": 0.0879,
1634
+ "step": 231
1635
+ },
1636
+ {
1637
+ "epoch": 0.25244831338411317,
1638
+ "grad_norm": 0.17367680370807648,
1639
+ "learning_rate": 0.00017198197898712404,
1640
+ "loss": 0.1261,
1641
+ "step": 232
1642
+ },
1643
+ {
1644
+ "epoch": 0.2535364526659412,
1645
+ "grad_norm": 0.14948749542236328,
1646
+ "learning_rate": 0.0001717416407610824,
1647
+ "loss": 0.0874,
1648
+ "step": 233
1649
+ },
1650
+ {
1651
+ "epoch": 0.2546245919477693,
1652
+ "grad_norm": 0.19695116579532623,
1653
+ "learning_rate": 0.00017150044560996488,
1654
+ "loss": 0.1119,
1655
+ "step": 234
1656
+ },
1657
+ {
1658
+ "epoch": 0.25571273122959737,
1659
+ "grad_norm": 0.2416209876537323,
1660
+ "learning_rate": 0.00017125839641475072,
1661
+ "loss": 0.1495,
1662
+ "step": 235
1663
+ },
1664
+ {
1665
+ "epoch": 0.25680087051142547,
1666
+ "grad_norm": 0.23595106601715088,
1667
+ "learning_rate": 0.00017101549606662024,
1668
+ "loss": 0.092,
1669
+ "step": 236
1670
+ },
1671
+ {
1672
+ "epoch": 0.2578890097932535,
1673
+ "grad_norm": 0.3377005457878113,
1674
+ "learning_rate": 0.00017077174746692056,
1675
+ "loss": 0.1537,
1676
+ "step": 237
1677
+ },
1678
+ {
1679
+ "epoch": 0.2589771490750816,
1680
+ "grad_norm": 0.31011515855789185,
1681
+ "learning_rate": 0.00017052715352713075,
1682
+ "loss": 0.2351,
1683
+ "step": 238
1684
+ },
1685
+ {
1686
+ "epoch": 0.2600652883569097,
1687
+ "grad_norm": 0.2296973615884781,
1688
+ "learning_rate": 0.00017028171716882714,
1689
+ "loss": 0.1034,
1690
+ "step": 239
1691
+ },
1692
+ {
1693
+ "epoch": 0.2611534276387378,
1694
+ "grad_norm": 0.33184927701950073,
1695
+ "learning_rate": 0.00017003544132364846,
1696
+ "loss": 0.1518,
1697
+ "step": 240
1698
+ },
1699
+ {
1700
+ "epoch": 0.2622415669205658,
1701
+ "grad_norm": 0.333794504404068,
1702
+ "learning_rate": 0.00016978832893326074,
1703
+ "loss": 0.1167,
1704
+ "step": 241
1705
+ },
1706
+ {
1707
+ "epoch": 0.26332970620239393,
1708
+ "grad_norm": 0.33567357063293457,
1709
+ "learning_rate": 0.00016954038294932216,
1710
+ "loss": 0.1672,
1711
+ "step": 242
1712
+ },
1713
+ {
1714
+ "epoch": 0.264417845484222,
1715
+ "grad_norm": 0.3648099899291992,
1716
+ "learning_rate": 0.0001692916063334479,
1717
+ "loss": 0.1562,
1718
+ "step": 243
1719
+ },
1720
+ {
1721
+ "epoch": 0.26550598476605003,
1722
+ "grad_norm": 0.3762454092502594,
1723
+ "learning_rate": 0.0001690420020571747,
1724
+ "loss": 0.1495,
1725
+ "step": 244
1726
+ },
1727
+ {
1728
+ "epoch": 0.26659412404787813,
1729
+ "grad_norm": 0.42424383759498596,
1730
+ "learning_rate": 0.00016879157310192535,
1731
+ "loss": 0.1763,
1732
+ "step": 245
1733
+ },
1734
+ {
1735
+ "epoch": 0.2676822633297062,
1736
+ "grad_norm": 0.4968826472759247,
1737
+ "learning_rate": 0.00016854032245897308,
1738
+ "loss": 0.2473,
1739
+ "step": 246
1740
+ },
1741
+ {
1742
+ "epoch": 0.2687704026115343,
1743
+ "grad_norm": 0.5231485366821289,
1744
+ "learning_rate": 0.00016828825312940592,
1745
+ "loss": 0.2924,
1746
+ "step": 247
1747
+ },
1748
+ {
1749
+ "epoch": 0.26985854189336234,
1750
+ "grad_norm": 0.5466935634613037,
1751
+ "learning_rate": 0.00016803536812409075,
1752
+ "loss": 0.2519,
1753
+ "step": 248
1754
+ },
1755
+ {
1756
+ "epoch": 0.27094668117519044,
1757
+ "grad_norm": 0.6696439981460571,
1758
+ "learning_rate": 0.00016778167046363734,
1759
+ "loss": 0.2106,
1760
+ "step": 249
1761
+ },
1762
+ {
1763
+ "epoch": 0.2720348204570185,
1764
+ "grad_norm": 0.7066907286643982,
1765
+ "learning_rate": 0.00016752716317836229,
1766
+ "loss": 0.2733,
1767
+ "step": 250
1768
+ },
1769
+ {
1770
+ "epoch": 0.2731229597388466,
1771
+ "grad_norm": 0.058309707790613174,
1772
+ "learning_rate": 0.00016727184930825288,
1773
+ "loss": 0.0459,
1774
+ "step": 251
1775
+ },
1776
+ {
1777
+ "epoch": 0.27421109902067464,
1778
+ "grad_norm": 0.06278934329748154,
1779
+ "learning_rate": 0.00016701573190293077,
1780
+ "loss": 0.049,
1781
+ "step": 252
1782
+ },
1783
+ {
1784
+ "epoch": 0.27529923830250275,
1785
+ "grad_norm": 0.07942797988653183,
1786
+ "learning_rate": 0.00016675881402161536,
1787
+ "loss": 0.0757,
1788
+ "step": 253
1789
+ },
1790
+ {
1791
+ "epoch": 0.2763873775843308,
1792
+ "grad_norm": 0.0874176099896431,
1793
+ "learning_rate": 0.00016650109873308765,
1794
+ "loss": 0.0952,
1795
+ "step": 254
1796
+ },
1797
+ {
1798
+ "epoch": 0.27747551686615884,
1799
+ "grad_norm": 0.0788157656788826,
1800
+ "learning_rate": 0.0001662425891156531,
1801
+ "loss": 0.0655,
1802
+ "step": 255
1803
+ },
1804
+ {
1805
+ "epoch": 0.27856365614798695,
1806
+ "grad_norm": 0.08784733712673187,
1807
+ "learning_rate": 0.00016598328825710533,
1808
+ "loss": 0.0778,
1809
+ "step": 256
1810
+ },
1811
+ {
1812
+ "epoch": 0.279651795429815,
1813
+ "grad_norm": 0.09089700132608414,
1814
+ "learning_rate": 0.00016572319925468892,
1815
+ "loss": 0.0767,
1816
+ "step": 257
1817
+ },
1818
+ {
1819
+ "epoch": 0.2807399347116431,
1820
+ "grad_norm": 0.07957662642002106,
1821
+ "learning_rate": 0.0001654623252150624,
1822
+ "loss": 0.0623,
1823
+ "step": 258
1824
+ },
1825
+ {
1826
+ "epoch": 0.28182807399347115,
1827
+ "grad_norm": 0.08320681005716324,
1828
+ "learning_rate": 0.00016520066925426144,
1829
+ "loss": 0.0812,
1830
+ "step": 259
1831
+ },
1832
+ {
1833
+ "epoch": 0.28291621327529926,
1834
+ "grad_norm": 0.10143834352493286,
1835
+ "learning_rate": 0.00016493823449766136,
1836
+ "loss": 0.0953,
1837
+ "step": 260
1838
+ },
1839
+ {
1840
+ "epoch": 0.2840043525571273,
1841
+ "grad_norm": 0.1192905604839325,
1842
+ "learning_rate": 0.00016467502407993992,
1843
+ "loss": 0.1163,
1844
+ "step": 261
1845
+ },
1846
+ {
1847
+ "epoch": 0.2850924918389554,
1848
+ "grad_norm": 0.11428846418857574,
1849
+ "learning_rate": 0.0001644110411450398,
1850
+ "loss": 0.1028,
1851
+ "step": 262
1852
+ },
1853
+ {
1854
+ "epoch": 0.28618063112078346,
1855
+ "grad_norm": 0.11233223229646683,
1856
+ "learning_rate": 0.00016414628884613107,
1857
+ "loss": 0.091,
1858
+ "step": 263
1859
+ },
1860
+ {
1861
+ "epoch": 0.28726877040261156,
1862
+ "grad_norm": 0.10367966443300247,
1863
+ "learning_rate": 0.00016388077034557355,
1864
+ "loss": 0.0797,
1865
+ "step": 264
1866
+ },
1867
+ {
1868
+ "epoch": 0.2883569096844396,
1869
+ "grad_norm": 0.11604032665491104,
1870
+ "learning_rate": 0.00016361448881487914,
1871
+ "loss": 0.0919,
1872
+ "step": 265
1873
+ },
1874
+ {
1875
+ "epoch": 0.28944504896626766,
1876
+ "grad_norm": 0.10309276729822159,
1877
+ "learning_rate": 0.00016334744743467364,
1878
+ "loss": 0.1065,
1879
+ "step": 266
1880
+ },
1881
+ {
1882
+ "epoch": 0.29053318824809576,
1883
+ "grad_norm": 0.11475658416748047,
1884
+ "learning_rate": 0.00016307964939465914,
1885
+ "loss": 0.0959,
1886
+ "step": 267
1887
+ },
1888
+ {
1889
+ "epoch": 0.2916213275299238,
1890
+ "grad_norm": 0.1230575293302536,
1891
+ "learning_rate": 0.0001628110978935756,
1892
+ "loss": 0.1031,
1893
+ "step": 268
1894
+ },
1895
+ {
1896
+ "epoch": 0.2927094668117519,
1897
+ "grad_norm": 0.1267620474100113,
1898
+ "learning_rate": 0.00016254179613916278,
1899
+ "loss": 0.1219,
1900
+ "step": 269
1901
+ },
1902
+ {
1903
+ "epoch": 0.29379760609357997,
1904
+ "grad_norm": 0.1032036617398262,
1905
+ "learning_rate": 0.000162271747348122,
1906
+ "loss": 0.0792,
1907
+ "step": 270
1908
+ },
1909
+ {
1910
+ "epoch": 0.29488574537540807,
1911
+ "grad_norm": 0.10867134481668472,
1912
+ "learning_rate": 0.00016200095474607753,
1913
+ "loss": 0.0964,
1914
+ "step": 271
1915
+ },
1916
+ {
1917
+ "epoch": 0.2959738846572361,
1918
+ "grad_norm": 0.13934585452079773,
1919
+ "learning_rate": 0.0001617294215675382,
1920
+ "loss": 0.1493,
1921
+ "step": 272
1922
+ },
1923
+ {
1924
+ "epoch": 0.2970620239390642,
1925
+ "grad_norm": 0.1254916936159134,
1926
+ "learning_rate": 0.0001614571510558588,
1927
+ "loss": 0.1035,
1928
+ "step": 273
1929
+ },
1930
+ {
1931
+ "epoch": 0.2981501632208923,
1932
+ "grad_norm": 0.10226383805274963,
1933
+ "learning_rate": 0.0001611841464632011,
1934
+ "loss": 0.0777,
1935
+ "step": 274
1936
+ },
1937
+ {
1938
+ "epoch": 0.2992383025027203,
1939
+ "grad_norm": 0.11369970440864563,
1940
+ "learning_rate": 0.0001609104110504954,
1941
+ "loss": 0.0823,
1942
+ "step": 275
1943
+ },
1944
+ {
1945
+ "epoch": 0.3003264417845484,
1946
+ "grad_norm": 0.11098276078701019,
1947
+ "learning_rate": 0.00016063594808740113,
1948
+ "loss": 0.0976,
1949
+ "step": 276
1950
+ },
1951
+ {
1952
+ "epoch": 0.3014145810663765,
1953
+ "grad_norm": 0.13366885483264923,
1954
+ "learning_rate": 0.00016036076085226814,
1955
+ "loss": 0.1378,
1956
+ "step": 277
1957
+ },
1958
+ {
1959
+ "epoch": 0.3025027203482046,
1960
+ "grad_norm": 0.11494230479001999,
1961
+ "learning_rate": 0.00016008485263209742,
1962
+ "loss": 0.072,
1963
+ "step": 278
1964
+ },
1965
+ {
1966
+ "epoch": 0.30359085963003263,
1967
+ "grad_norm": 0.11145862936973572,
1968
+ "learning_rate": 0.0001598082267225018,
1969
+ "loss": 0.066,
1970
+ "step": 279
1971
+ },
1972
+ {
1973
+ "epoch": 0.30467899891186073,
1974
+ "grad_norm": 0.1483200490474701,
1975
+ "learning_rate": 0.0001595308864276666,
1976
+ "loss": 0.1023,
1977
+ "step": 280
1978
+ },
1979
+ {
1980
+ "epoch": 0.3057671381936888,
1981
+ "grad_norm": 0.12836772203445435,
1982
+ "learning_rate": 0.0001592528350603103,
1983
+ "loss": 0.0682,
1984
+ "step": 281
1985
+ },
1986
+ {
1987
+ "epoch": 0.3068552774755169,
1988
+ "grad_norm": 0.16118410229682922,
1989
+ "learning_rate": 0.00015897407594164467,
1990
+ "loss": 0.1025,
1991
+ "step": 282
1992
+ },
1993
+ {
1994
+ "epoch": 0.30794341675734493,
1995
+ "grad_norm": 0.22559022903442383,
1996
+ "learning_rate": 0.0001586946124013354,
1997
+ "loss": 0.1228,
1998
+ "step": 283
1999
+ },
2000
+ {
2001
+ "epoch": 0.30903155603917304,
2002
+ "grad_norm": 0.233434796333313,
2003
+ "learning_rate": 0.0001584144477774623,
2004
+ "loss": 0.1928,
2005
+ "step": 284
2006
+ },
2007
+ {
2008
+ "epoch": 0.3101196953210011,
2009
+ "grad_norm": 0.21861650049686432,
2010
+ "learning_rate": 0.00015813358541647915,
2011
+ "loss": 0.1054,
2012
+ "step": 285
2013
+ },
2014
+ {
2015
+ "epoch": 0.31120783460282914,
2016
+ "grad_norm": 0.2723356783390045,
2017
+ "learning_rate": 0.00015785202867317407,
2018
+ "loss": 0.1411,
2019
+ "step": 286
2020
+ },
2021
+ {
2022
+ "epoch": 0.31229597388465724,
2023
+ "grad_norm": 0.3065739870071411,
2024
+ "learning_rate": 0.0001575697809106292,
2025
+ "loss": 0.1785,
2026
+ "step": 287
2027
+ },
2028
+ {
2029
+ "epoch": 0.3133841131664853,
2030
+ "grad_norm": 0.2983495593070984,
2031
+ "learning_rate": 0.00015728684550018064,
2032
+ "loss": 0.1402,
2033
+ "step": 288
2034
+ },
2035
+ {
2036
+ "epoch": 0.3144722524483134,
2037
+ "grad_norm": 0.3250825107097626,
2038
+ "learning_rate": 0.00015700322582137827,
2039
+ "loss": 0.1929,
2040
+ "step": 289
2041
+ },
2042
+ {
2043
+ "epoch": 0.31556039173014144,
2044
+ "grad_norm": 0.35388973355293274,
2045
+ "learning_rate": 0.00015671892526194516,
2046
+ "loss": 0.1791,
2047
+ "step": 290
2048
+ },
2049
+ {
2050
+ "epoch": 0.31664853101196955,
2051
+ "grad_norm": 0.32610148191452026,
2052
+ "learning_rate": 0.0001564339472177373,
2053
+ "loss": 0.1289,
2054
+ "step": 291
2055
+ },
2056
+ {
2057
+ "epoch": 0.3177366702937976,
2058
+ "grad_norm": 0.4028049409389496,
2059
+ "learning_rate": 0.0001561482950927029,
2060
+ "loss": 0.2026,
2061
+ "step": 292
2062
+ },
2063
+ {
2064
+ "epoch": 0.3188248095756257,
2065
+ "grad_norm": 0.2420492172241211,
2066
+ "learning_rate": 0.00015586197229884184,
2067
+ "loss": 0.098,
2068
+ "step": 293
2069
+ },
2070
+ {
2071
+ "epoch": 0.31991294885745375,
2072
+ "grad_norm": 0.3512971103191376,
2073
+ "learning_rate": 0.00015557498225616487,
2074
+ "loss": 0.205,
2075
+ "step": 294
2076
+ },
2077
+ {
2078
+ "epoch": 0.32100108813928185,
2079
+ "grad_norm": 0.39271989464759827,
2080
+ "learning_rate": 0.00015528732839265272,
2081
+ "loss": 0.1473,
2082
+ "step": 295
2083
+ },
2084
+ {
2085
+ "epoch": 0.3220892274211099,
2086
+ "grad_norm": 0.3802226185798645,
2087
+ "learning_rate": 0.0001549990141442153,
2088
+ "loss": 0.136,
2089
+ "step": 296
2090
+ },
2091
+ {
2092
+ "epoch": 0.32317736670293795,
2093
+ "grad_norm": 0.5737869739532471,
2094
+ "learning_rate": 0.00015471004295465035,
2095
+ "loss": 0.3053,
2096
+ "step": 297
2097
+ },
2098
+ {
2099
+ "epoch": 0.32426550598476606,
2100
+ "grad_norm": 0.45224013924598694,
2101
+ "learning_rate": 0.00015442041827560274,
2102
+ "loss": 0.222,
2103
+ "step": 298
2104
+ },
2105
+ {
2106
+ "epoch": 0.3253536452665941,
2107
+ "grad_norm": 0.522432267665863,
2108
+ "learning_rate": 0.00015413014356652286,
2109
+ "loss": 0.1809,
2110
+ "step": 299
2111
+ },
2112
+ {
2113
+ "epoch": 0.3264417845484222,
2114
+ "grad_norm": 0.6229780316352844,
2115
+ "learning_rate": 0.00015383922229462549,
2116
+ "loss": 0.2081,
2117
+ "step": 300
2118
+ },
2119
+ {
2120
+ "epoch": 0.32752992383025026,
2121
+ "grad_norm": 0.053111448884010315,
2122
+ "learning_rate": 0.00015354765793484834,
2123
+ "loss": 0.0414,
2124
+ "step": 301
2125
+ },
2126
+ {
2127
+ "epoch": 0.32861806311207836,
2128
+ "grad_norm": 0.07464036345481873,
2129
+ "learning_rate": 0.0001532554539698105,
2130
+ "loss": 0.0639,
2131
+ "step": 302
2132
+ },
2133
+ {
2134
+ "epoch": 0.3297062023939064,
2135
+ "grad_norm": 0.08635352551937103,
2136
+ "learning_rate": 0.00015296261388977108,
2137
+ "loss": 0.074,
2138
+ "step": 303
2139
+ },
2140
+ {
2141
+ "epoch": 0.3307943416757345,
2142
+ "grad_norm": 0.0818236917257309,
2143
+ "learning_rate": 0.000152669141192587,
2144
+ "loss": 0.0843,
2145
+ "step": 304
2146
+ },
2147
+ {
2148
+ "epoch": 0.33188248095756256,
2149
+ "grad_norm": 0.08959626406431198,
2150
+ "learning_rate": 0.00015237503938367186,
2151
+ "loss": 0.0752,
2152
+ "step": 305
2153
+ },
2154
+ {
2155
+ "epoch": 0.33297062023939067,
2156
+ "grad_norm": 0.087018683552742,
2157
+ "learning_rate": 0.00015208031197595356,
2158
+ "loss": 0.074,
2159
+ "step": 306
2160
+ },
2161
+ {
2162
+ "epoch": 0.3340587595212187,
2163
+ "grad_norm": 0.10946961492300034,
2164
+ "learning_rate": 0.00015178496248983254,
2165
+ "loss": 0.0907,
2166
+ "step": 307
2167
+ },
2168
+ {
2169
+ "epoch": 0.33514689880304677,
2170
+ "grad_norm": 0.09914237260818481,
2171
+ "learning_rate": 0.00015148899445313981,
2172
+ "loss": 0.0939,
2173
+ "step": 308
2174
+ },
2175
+ {
2176
+ "epoch": 0.33623503808487487,
2177
+ "grad_norm": 0.07641992717981339,
2178
+ "learning_rate": 0.00015119241140109467,
2179
+ "loss": 0.0587,
2180
+ "step": 309
2181
+ },
2182
+ {
2183
+ "epoch": 0.3373231773667029,
2184
+ "grad_norm": 0.10857319831848145,
2185
+ "learning_rate": 0.00015089521687626243,
2186
+ "loss": 0.1052,
2187
+ "step": 310
2188
+ },
2189
+ {
2190
+ "epoch": 0.338411316648531,
2191
+ "grad_norm": 0.0868939459323883,
2192
+ "learning_rate": 0.0001505974144285124,
2193
+ "loss": 0.0723,
2194
+ "step": 311
2195
+ },
2196
+ {
2197
+ "epoch": 0.3394994559303591,
2198
+ "grad_norm": 0.11470666527748108,
2199
+ "learning_rate": 0.00015029900761497506,
2200
+ "loss": 0.0972,
2201
+ "step": 312
2202
+ },
2203
+ {
2204
+ "epoch": 0.3405875952121872,
2205
+ "grad_norm": 0.09828225523233414,
2206
+ "learning_rate": 0.00015000000000000001,
2207
+ "loss": 0.0904,
2208
+ "step": 313
2209
+ },
2210
+ {
2211
+ "epoch": 0.3416757344940152,
2212
+ "grad_norm": 0.09422045201063156,
2213
+ "learning_rate": 0.00014970039515511304,
2214
+ "loss": 0.0736,
2215
+ "step": 314
2216
+ },
2217
+ {
2218
+ "epoch": 0.34276387377584333,
2219
+ "grad_norm": 0.09876245260238647,
2220
+ "learning_rate": 0.0001494001966589736,
2221
+ "loss": 0.0849,
2222
+ "step": 315
2223
+ },
2224
+ {
2225
+ "epoch": 0.3438520130576714,
2226
+ "grad_norm": 0.1073005348443985,
2227
+ "learning_rate": 0.00014909940809733222,
2228
+ "loss": 0.0842,
2229
+ "step": 316
2230
+ },
2231
+ {
2232
+ "epoch": 0.34494015233949943,
2233
+ "grad_norm": 0.11519600450992584,
2234
+ "learning_rate": 0.00014879803306298736,
2235
+ "loss": 0.0901,
2236
+ "step": 317
2237
+ },
2238
+ {
2239
+ "epoch": 0.34602829162132753,
2240
+ "grad_norm": 0.10380937904119492,
2241
+ "learning_rate": 0.00014849607515574276,
2242
+ "loss": 0.0688,
2243
+ "step": 318
2244
+ },
2245
+ {
2246
+ "epoch": 0.3471164309031556,
2247
+ "grad_norm": 0.10230353474617004,
2248
+ "learning_rate": 0.00014819353798236427,
2249
+ "loss": 0.064,
2250
+ "step": 319
2251
+ },
2252
+ {
2253
+ "epoch": 0.3482045701849837,
2254
+ "grad_norm": 0.10846245288848877,
2255
+ "learning_rate": 0.00014789042515653687,
2256
+ "loss": 0.0815,
2257
+ "step": 320
2258
+ },
2259
+ {
2260
+ "epoch": 0.34929270946681173,
2261
+ "grad_norm": 0.11520566791296005,
2262
+ "learning_rate": 0.00014758674029882152,
2263
+ "loss": 0.0846,
2264
+ "step": 321
2265
+ },
2266
+ {
2267
+ "epoch": 0.35038084874863984,
2268
+ "grad_norm": 0.16834412515163422,
2269
+ "learning_rate": 0.00014728248703661182,
2270
+ "loss": 0.1249,
2271
+ "step": 322
2272
+ },
2273
+ {
2274
+ "epoch": 0.3514689880304679,
2275
+ "grad_norm": 0.11053828150033951,
2276
+ "learning_rate": 0.00014697766900409074,
2277
+ "loss": 0.073,
2278
+ "step": 323
2279
+ },
2280
+ {
2281
+ "epoch": 0.352557127312296,
2282
+ "grad_norm": 0.12219499796628952,
2283
+ "learning_rate": 0.0001466722898421873,
2284
+ "loss": 0.0943,
2285
+ "step": 324
2286
+ },
2287
+ {
2288
+ "epoch": 0.35364526659412404,
2289
+ "grad_norm": 0.1294214427471161,
2290
+ "learning_rate": 0.00014636635319853275,
2291
+ "loss": 0.0761,
2292
+ "step": 325
2293
+ },
2294
+ {
2295
+ "epoch": 0.35473340587595215,
2296
+ "grad_norm": 0.13043484091758728,
2297
+ "learning_rate": 0.00014605986272741748,
2298
+ "loss": 0.1065,
2299
+ "step": 326
2300
+ },
2301
+ {
2302
+ "epoch": 0.3558215451577802,
2303
+ "grad_norm": 0.1078469529747963,
2304
+ "learning_rate": 0.00014575282208974702,
2305
+ "loss": 0.0718,
2306
+ "step": 327
2307
+ },
2308
+ {
2309
+ "epoch": 0.35690968443960824,
2310
+ "grad_norm": 0.17083537578582764,
2311
+ "learning_rate": 0.00014544523495299842,
2312
+ "loss": 0.1035,
2313
+ "step": 328
2314
+ },
2315
+ {
2316
+ "epoch": 0.35799782372143635,
2317
+ "grad_norm": 0.1370207518339157,
2318
+ "learning_rate": 0.00014513710499117647,
2319
+ "loss": 0.089,
2320
+ "step": 329
2321
+ },
2322
+ {
2323
+ "epoch": 0.3590859630032644,
2324
+ "grad_norm": 0.1698474884033203,
2325
+ "learning_rate": 0.00014482843588476974,
2326
+ "loss": 0.1172,
2327
+ "step": 330
2328
+ },
2329
+ {
2330
+ "epoch": 0.3601741022850925,
2331
+ "grad_norm": 0.1472265124320984,
2332
+ "learning_rate": 0.0001445192313207067,
2333
+ "loss": 0.0782,
2334
+ "step": 331
2335
+ },
2336
+ {
2337
+ "epoch": 0.36126224156692055,
2338
+ "grad_norm": 0.153669074177742,
2339
+ "learning_rate": 0.00014420949499231172,
2340
+ "loss": 0.0844,
2341
+ "step": 332
2342
+ },
2343
+ {
2344
+ "epoch": 0.36235038084874865,
2345
+ "grad_norm": 0.2612091600894928,
2346
+ "learning_rate": 0.00014389923059926062,
2347
+ "loss": 0.1256,
2348
+ "step": 333
2349
+ },
2350
+ {
2351
+ "epoch": 0.3634385201305767,
2352
+ "grad_norm": 0.18867933750152588,
2353
+ "learning_rate": 0.00014358844184753712,
2354
+ "loss": 0.0822,
2355
+ "step": 334
2356
+ },
2357
+ {
2358
+ "epoch": 0.3645266594124048,
2359
+ "grad_norm": 0.29405227303504944,
2360
+ "learning_rate": 0.0001432771324493879,
2361
+ "loss": 0.1562,
2362
+ "step": 335
2363
+ },
2364
+ {
2365
+ "epoch": 0.36561479869423286,
2366
+ "grad_norm": 0.299411803483963,
2367
+ "learning_rate": 0.00014296530612327863,
2368
+ "loss": 0.151,
2369
+ "step": 336
2370
+ },
2371
+ {
2372
+ "epoch": 0.36670293797606096,
2373
+ "grad_norm": 0.4020368754863739,
2374
+ "learning_rate": 0.00014265296659384956,
2375
+ "loss": 0.2564,
2376
+ "step": 337
2377
+ },
2378
+ {
2379
+ "epoch": 0.367791077257889,
2380
+ "grad_norm": 0.27561965584754944,
2381
+ "learning_rate": 0.00014234011759187083,
2382
+ "loss": 0.1193,
2383
+ "step": 338
2384
+ },
2385
+ {
2386
+ "epoch": 0.36887921653971706,
2387
+ "grad_norm": 0.36899837851524353,
2388
+ "learning_rate": 0.00014202676285419812,
2389
+ "loss": 0.1844,
2390
+ "step": 339
2391
+ },
2392
+ {
2393
+ "epoch": 0.36996735582154516,
2394
+ "grad_norm": 0.3305605351924896,
2395
+ "learning_rate": 0.0001417129061237278,
2396
+ "loss": 0.0825,
2397
+ "step": 340
2398
+ },
2399
+ {
2400
+ "epoch": 0.3710554951033732,
2401
+ "grad_norm": 0.45063266158103943,
2402
+ "learning_rate": 0.00014139855114935252,
2403
+ "loss": 0.2383,
2404
+ "step": 341
2405
+ },
2406
+ {
2407
+ "epoch": 0.3721436343852013,
2408
+ "grad_norm": 0.319297730922699,
2409
+ "learning_rate": 0.0001410837016859161,
2410
+ "loss": 0.1054,
2411
+ "step": 342
2412
+ },
2413
+ {
2414
+ "epoch": 0.37323177366702937,
2415
+ "grad_norm": 0.3711492121219635,
2416
+ "learning_rate": 0.00014076836149416887,
2417
+ "loss": 0.1265,
2418
+ "step": 343
2419
+ },
2420
+ {
2421
+ "epoch": 0.37431991294885747,
2422
+ "grad_norm": 0.4362325966358185,
2423
+ "learning_rate": 0.0001404525343407228,
2424
+ "loss": 0.1818,
2425
+ "step": 344
2426
+ },
2427
+ {
2428
+ "epoch": 0.3754080522306855,
2429
+ "grad_norm": 0.39839836955070496,
2430
+ "learning_rate": 0.00014013622399800627,
2431
+ "loss": 0.173,
2432
+ "step": 345
2433
+ },
2434
+ {
2435
+ "epoch": 0.3764961915125136,
2436
+ "grad_norm": 0.4215060770511627,
2437
+ "learning_rate": 0.00013981943424421932,
2438
+ "loss": 0.1225,
2439
+ "step": 346
2440
+ },
2441
+ {
2442
+ "epoch": 0.37758433079434167,
2443
+ "grad_norm": 0.4466668963432312,
2444
+ "learning_rate": 0.0001395021688632882,
2445
+ "loss": 0.1336,
2446
+ "step": 347
2447
+ },
2448
+ {
2449
+ "epoch": 0.3786724700761698,
2450
+ "grad_norm": 0.490313321352005,
2451
+ "learning_rate": 0.00013918443164482046,
2452
+ "loss": 0.1364,
2453
+ "step": 348
2454
+ },
2455
+ {
2456
+ "epoch": 0.3797606093579978,
2457
+ "grad_norm": 0.6865617036819458,
2458
+ "learning_rate": 0.00013886622638405952,
2459
+ "loss": 0.2864,
2460
+ "step": 349
2461
+ },
2462
+ {
2463
+ "epoch": 0.3808487486398259,
2464
+ "grad_norm": 0.7716324925422668,
2465
+ "learning_rate": 0.0001385475568818394,
2466
+ "loss": 0.2994,
2467
+ "step": 350
2468
+ },
2469
+ {
2470
+ "epoch": 0.381936887921654,
2471
+ "grad_norm": 0.04748038947582245,
2472
+ "learning_rate": 0.00013822842694453924,
2473
+ "loss": 0.0425,
2474
+ "step": 351
2475
+ },
2476
+ {
2477
+ "epoch": 0.383025027203482,
2478
+ "grad_norm": 0.06222306191921234,
2479
+ "learning_rate": 0.00013790884038403795,
2480
+ "loss": 0.0519,
2481
+ "step": 352
2482
+ },
2483
+ {
2484
+ "epoch": 0.38411316648531013,
2485
+ "grad_norm": 0.07450418174266815,
2486
+ "learning_rate": 0.0001375888010176686,
2487
+ "loss": 0.0629,
2488
+ "step": 353
2489
+ },
2490
+ {
2491
+ "epoch": 0.3852013057671382,
2492
+ "grad_norm": 0.08733393251895905,
2493
+ "learning_rate": 0.00013726831266817278,
2494
+ "loss": 0.0701,
2495
+ "step": 354
2496
+ },
2497
+ {
2498
+ "epoch": 0.3862894450489663,
2499
+ "grad_norm": 0.09622704982757568,
2500
+ "learning_rate": 0.00013694737916365517,
2501
+ "loss": 0.0909,
2502
+ "step": 355
2503
+ },
2504
+ {
2505
+ "epoch": 0.38737758433079433,
2506
+ "grad_norm": 0.08062370121479034,
2507
+ "learning_rate": 0.00013662600433753745,
2508
+ "loss": 0.0722,
2509
+ "step": 356
2510
+ },
2511
+ {
2512
+ "epoch": 0.38846572361262244,
2513
+ "grad_norm": 0.09811591356992722,
2514
+ "learning_rate": 0.00013630419202851284,
2515
+ "loss": 0.0894,
2516
+ "step": 357
2517
+ },
2518
+ {
2519
+ "epoch": 0.3895538628944505,
2520
+ "grad_norm": 0.0917980894446373,
2521
+ "learning_rate": 0.0001359819460805001,
2522
+ "loss": 0.0816,
2523
+ "step": 358
2524
+ },
2525
+ {
2526
+ "epoch": 0.3906420021762786,
2527
+ "grad_norm": 0.08292034268379211,
2528
+ "learning_rate": 0.0001356592703425976,
2529
+ "loss": 0.0832,
2530
+ "step": 359
2531
+ },
2532
+ {
2533
+ "epoch": 0.39173014145810664,
2534
+ "grad_norm": 0.0940559059381485,
2535
+ "learning_rate": 0.00013533616866903735,
2536
+ "loss": 0.078,
2537
+ "step": 360
2538
+ },
2539
+ {
2540
+ "epoch": 0.3928182807399347,
2541
+ "grad_norm": 0.09960496425628662,
2542
+ "learning_rate": 0.00013501264491913906,
2543
+ "loss": 0.0899,
2544
+ "step": 361
2545
+ },
2546
+ {
2547
+ "epoch": 0.3939064200217628,
2548
+ "grad_norm": 0.1174091249704361,
2549
+ "learning_rate": 0.00013468870295726398,
2550
+ "loss": 0.0983,
2551
+ "step": 362
2552
+ },
2553
+ {
2554
+ "epoch": 0.39499455930359084,
2555
+ "grad_norm": 0.1083730086684227,
2556
+ "learning_rate": 0.00013436434665276865,
2557
+ "loss": 0.1004,
2558
+ "step": 363
2559
+ },
2560
+ {
2561
+ "epoch": 0.39608269858541895,
2562
+ "grad_norm": 0.09829343855381012,
2563
+ "learning_rate": 0.00013403957987995882,
2564
+ "loss": 0.0851,
2565
+ "step": 364
2566
+ },
2567
+ {
2568
+ "epoch": 0.397170837867247,
2569
+ "grad_norm": 0.1172933354973793,
2570
+ "learning_rate": 0.00013371440651804313,
2571
+ "loss": 0.1033,
2572
+ "step": 365
2573
+ },
2574
+ {
2575
+ "epoch": 0.3982589771490751,
2576
+ "grad_norm": 0.11004797369241714,
2577
+ "learning_rate": 0.00013338883045108674,
2578
+ "loss": 0.0852,
2579
+ "step": 366
2580
+ },
2581
+ {
2582
+ "epoch": 0.39934711643090315,
2583
+ "grad_norm": 0.10466606914997101,
2584
+ "learning_rate": 0.00013306285556796495,
2585
+ "loss": 0.0893,
2586
+ "step": 367
2587
+ },
2588
+ {
2589
+ "epoch": 0.40043525571273125,
2590
+ "grad_norm": 0.121376633644104,
2591
+ "learning_rate": 0.0001327364857623168,
2592
+ "loss": 0.1037,
2593
+ "step": 368
2594
+ },
2595
+ {
2596
+ "epoch": 0.4015233949945593,
2597
+ "grad_norm": 0.10333437472581863,
2598
+ "learning_rate": 0.00013240972493249847,
2599
+ "loss": 0.0981,
2600
+ "step": 369
2601
+ },
2602
+ {
2603
+ "epoch": 0.40261153427638735,
2604
+ "grad_norm": 0.1174560934305191,
2605
+ "learning_rate": 0.00013208257698153677,
2606
+ "loss": 0.1187,
2607
+ "step": 370
2608
+ },
2609
+ {
2610
+ "epoch": 0.40369967355821545,
2611
+ "grad_norm": 0.09671124815940857,
2612
+ "learning_rate": 0.0001317550458170826,
2613
+ "loss": 0.0771,
2614
+ "step": 371
2615
+ },
2616
+ {
2617
+ "epoch": 0.4047878128400435,
2618
+ "grad_norm": 0.11311496794223785,
2619
+ "learning_rate": 0.00013142713535136414,
2620
+ "loss": 0.0915,
2621
+ "step": 372
2622
+ },
2623
+ {
2624
+ "epoch": 0.4058759521218716,
2625
+ "grad_norm": 0.11149045825004578,
2626
+ "learning_rate": 0.00013109884950114007,
2627
+ "loss": 0.078,
2628
+ "step": 373
2629
+ },
2630
+ {
2631
+ "epoch": 0.40696409140369966,
2632
+ "grad_norm": 0.15049664676189423,
2633
+ "learning_rate": 0.00013077019218765305,
2634
+ "loss": 0.1008,
2635
+ "step": 374
2636
+ },
2637
+ {
2638
+ "epoch": 0.40805223068552776,
2639
+ "grad_norm": 0.13566477596759796,
2640
+ "learning_rate": 0.0001304411673365826,
2641
+ "loss": 0.1116,
2642
+ "step": 375
2643
+ },
2644
+ {
2645
+ "epoch": 0.4091403699673558,
2646
+ "grad_norm": 0.1317652463912964,
2647
+ "learning_rate": 0.00013011177887799845,
2648
+ "loss": 0.1068,
2649
+ "step": 376
2650
+ },
2651
+ {
2652
+ "epoch": 0.4102285092491839,
2653
+ "grad_norm": 0.12117652595043182,
2654
+ "learning_rate": 0.00012978203074631334,
2655
+ "loss": 0.0926,
2656
+ "step": 377
2657
+ },
2658
+ {
2659
+ "epoch": 0.41131664853101196,
2660
+ "grad_norm": 0.13246335089206696,
2661
+ "learning_rate": 0.00012945192688023624,
2662
+ "loss": 0.0867,
2663
+ "step": 378
2664
+ },
2665
+ {
2666
+ "epoch": 0.41240478781284007,
2667
+ "grad_norm": 0.1427900642156601,
2668
+ "learning_rate": 0.00012912147122272523,
2669
+ "loss": 0.1054,
2670
+ "step": 379
2671
+ },
2672
+ {
2673
+ "epoch": 0.4134929270946681,
2674
+ "grad_norm": 0.13975268602371216,
2675
+ "learning_rate": 0.0001287906677209403,
2676
+ "loss": 0.0993,
2677
+ "step": 380
2678
+ },
2679
+ {
2680
+ "epoch": 0.41458106637649617,
2681
+ "grad_norm": 0.16829046607017517,
2682
+ "learning_rate": 0.0001284595203261965,
2683
+ "loss": 0.0986,
2684
+ "step": 381
2685
+ },
2686
+ {
2687
+ "epoch": 0.41566920565832427,
2688
+ "grad_norm": 0.18288354575634003,
2689
+ "learning_rate": 0.00012812803299391628,
2690
+ "loss": 0.1164,
2691
+ "step": 382
2692
+ },
2693
+ {
2694
+ "epoch": 0.4167573449401523,
2695
+ "grad_norm": 0.20097504556179047,
2696
+ "learning_rate": 0.00012779620968358273,
2697
+ "loss": 0.1273,
2698
+ "step": 383
2699
+ },
2700
+ {
2701
+ "epoch": 0.4178454842219804,
2702
+ "grad_norm": 0.1646791398525238,
2703
+ "learning_rate": 0.00012746405435869198,
2704
+ "loss": 0.0833,
2705
+ "step": 384
2706
+ },
2707
+ {
2708
+ "epoch": 0.41893362350380847,
2709
+ "grad_norm": 0.1997787058353424,
2710
+ "learning_rate": 0.0001271315709867059,
2711
+ "loss": 0.1495,
2712
+ "step": 385
2713
+ },
2714
+ {
2715
+ "epoch": 0.4200217627856366,
2716
+ "grad_norm": 0.1489897519350052,
2717
+ "learning_rate": 0.00012679876353900482,
2718
+ "loss": 0.0756,
2719
+ "step": 386
2720
+ },
2721
+ {
2722
+ "epoch": 0.4211099020674646,
2723
+ "grad_norm": 0.22502455115318298,
2724
+ "learning_rate": 0.00012646563599083996,
2725
+ "loss": 0.1427,
2726
+ "step": 387
2727
+ },
2728
+ {
2729
+ "epoch": 0.42219804134929273,
2730
+ "grad_norm": 0.19359458982944489,
2731
+ "learning_rate": 0.00012613219232128608,
2732
+ "loss": 0.121,
2733
+ "step": 388
2734
+ },
2735
+ {
2736
+ "epoch": 0.4232861806311208,
2737
+ "grad_norm": 0.244260773062706,
2738
+ "learning_rate": 0.0001257984365131938,
2739
+ "loss": 0.1469,
2740
+ "step": 389
2741
+ },
2742
+ {
2743
+ "epoch": 0.4243743199129489,
2744
+ "grad_norm": 0.18485282361507416,
2745
+ "learning_rate": 0.00012546437255314222,
2746
+ "loss": 0.0892,
2747
+ "step": 390
2748
+ },
2749
+ {
2750
+ "epoch": 0.42546245919477693,
2751
+ "grad_norm": 0.3717290461063385,
2752
+ "learning_rate": 0.00012513000443139112,
2753
+ "loss": 0.2099,
2754
+ "step": 391
2755
+ },
2756
+ {
2757
+ "epoch": 0.426550598476605,
2758
+ "grad_norm": 0.28721094131469727,
2759
+ "learning_rate": 0.00012479533614183334,
2760
+ "loss": 0.1193,
2761
+ "step": 392
2762
+ },
2763
+ {
2764
+ "epoch": 0.4276387377584331,
2765
+ "grad_norm": 0.2697299122810364,
2766
+ "learning_rate": 0.00012446037168194714,
2767
+ "loss": 0.0965,
2768
+ "step": 393
2769
+ },
2770
+ {
2771
+ "epoch": 0.42872687704026113,
2772
+ "grad_norm": 0.32627496123313904,
2773
+ "learning_rate": 0.00012412511505274844,
2774
+ "loss": 0.1832,
2775
+ "step": 394
2776
+ },
2777
+ {
2778
+ "epoch": 0.42981501632208924,
2779
+ "grad_norm": 0.37745073437690735,
2780
+ "learning_rate": 0.000123789570258743,
2781
+ "loss": 0.1572,
2782
+ "step": 395
2783
+ },
2784
+ {
2785
+ "epoch": 0.4309031556039173,
2786
+ "grad_norm": 0.4901193082332611,
2787
+ "learning_rate": 0.00012345374130787854,
2788
+ "loss": 0.1873,
2789
+ "step": 396
2790
+ },
2791
+ {
2792
+ "epoch": 0.4319912948857454,
2793
+ "grad_norm": 0.44663485884666443,
2794
+ "learning_rate": 0.000123117632211497,
2795
+ "loss": 0.3353,
2796
+ "step": 397
2797
+ },
2798
+ {
2799
+ "epoch": 0.43307943416757344,
2800
+ "grad_norm": 0.34345391392707825,
2801
+ "learning_rate": 0.0001227812469842864,
2802
+ "loss": 0.1924,
2803
+ "step": 398
2804
+ },
2805
+ {
2806
+ "epoch": 0.43416757344940154,
2807
+ "grad_norm": 0.5725805759429932,
2808
+ "learning_rate": 0.00012244458964423327,
2809
+ "loss": 0.2352,
2810
+ "step": 399
2811
+ },
2812
+ {
2813
+ "epoch": 0.4352557127312296,
2814
+ "grad_norm": 0.5519152879714966,
2815
+ "learning_rate": 0.0001221076642125742,
2816
+ "loss": 0.167,
2817
+ "step": 400
2818
+ },
2819
+ {
2820
+ "epoch": 0.4363438520130577,
2821
+ "grad_norm": 0.055198315531015396,
2822
+ "learning_rate": 0.00012177047471374807,
2823
+ "loss": 0.0472,
2824
+ "step": 401
2825
+ },
2826
+ {
2827
+ "epoch": 0.43743199129488575,
2828
+ "grad_norm": 0.09932799637317657,
2829
+ "learning_rate": 0.0001214330251753481,
2830
+ "loss": 0.0783,
2831
+ "step": 402
2832
+ },
2833
+ {
2834
+ "epoch": 0.4385201305767138,
2835
+ "grad_norm": 0.08226185292005539,
2836
+ "learning_rate": 0.00012109531962807332,
2837
+ "loss": 0.0656,
2838
+ "step": 403
2839
+ },
2840
+ {
2841
+ "epoch": 0.4396082698585419,
2842
+ "grad_norm": 0.0858379453420639,
2843
+ "learning_rate": 0.0001207573621056809,
2844
+ "loss": 0.0741,
2845
+ "step": 404
2846
+ },
2847
+ {
2848
+ "epoch": 0.44069640914036995,
2849
+ "grad_norm": 0.07838830351829529,
2850
+ "learning_rate": 0.00012041915664493761,
2851
+ "loss": 0.066,
2852
+ "step": 405
2853
+ },
2854
+ {
2855
+ "epoch": 0.44178454842219805,
2856
+ "grad_norm": 0.08843716233968735,
2857
+ "learning_rate": 0.00012008070728557186,
2858
+ "loss": 0.0817,
2859
+ "step": 406
2860
+ },
2861
+ {
2862
+ "epoch": 0.4428726877040261,
2863
+ "grad_norm": 0.09485173225402832,
2864
+ "learning_rate": 0.00011974201807022525,
2865
+ "loss": 0.0719,
2866
+ "step": 407
2867
+ },
2868
+ {
2869
+ "epoch": 0.4439608269858542,
2870
+ "grad_norm": 0.12550269067287445,
2871
+ "learning_rate": 0.00011940309304440433,
2872
+ "loss": 0.1025,
2873
+ "step": 408
2874
+ },
2875
+ {
2876
+ "epoch": 0.44504896626768226,
2877
+ "grad_norm": 0.10056477040052414,
2878
+ "learning_rate": 0.00011906393625643244,
2879
+ "loss": 0.0822,
2880
+ "step": 409
2881
+ },
2882
+ {
2883
+ "epoch": 0.44613710554951036,
2884
+ "grad_norm": 0.08779609948396683,
2885
+ "learning_rate": 0.00011872455175740112,
2886
+ "loss": 0.0731,
2887
+ "step": 410
2888
+ },
2889
+ {
2890
+ "epoch": 0.4472252448313384,
2891
+ "grad_norm": 0.08771763741970062,
2892
+ "learning_rate": 0.00011838494360112185,
2893
+ "loss": 0.0686,
2894
+ "step": 411
2895
+ },
2896
+ {
2897
+ "epoch": 0.44831338411316646,
2898
+ "grad_norm": 0.09602241218090057,
2899
+ "learning_rate": 0.00011804511584407763,
2900
+ "loss": 0.0826,
2901
+ "step": 412
2902
+ },
2903
+ {
2904
+ "epoch": 0.44940152339499456,
2905
+ "grad_norm": 0.10052221268415451,
2906
+ "learning_rate": 0.00011770507254537453,
2907
+ "loss": 0.0711,
2908
+ "step": 413
2909
+ },
2910
+ {
2911
+ "epoch": 0.4504896626768226,
2912
+ "grad_norm": 0.08452215045690536,
2913
+ "learning_rate": 0.00011736481776669306,
2914
+ "loss": 0.061,
2915
+ "step": 414
2916
+ },
2917
+ {
2918
+ "epoch": 0.4515778019586507,
2919
+ "grad_norm": 0.09362675249576569,
2920
+ "learning_rate": 0.00011702435557223987,
2921
+ "loss": 0.0852,
2922
+ "step": 415
2923
+ },
2924
+ {
2925
+ "epoch": 0.45266594124047876,
2926
+ "grad_norm": 0.10676004737615585,
2927
+ "learning_rate": 0.00011668369002869912,
2928
+ "loss": 0.101,
2929
+ "step": 416
2930
+ },
2931
+ {
2932
+ "epoch": 0.45375408052230687,
2933
+ "grad_norm": 0.10523767024278641,
2934
+ "learning_rate": 0.00011634282520518383,
2935
+ "loss": 0.0892,
2936
+ "step": 417
2937
+ },
2938
+ {
2939
+ "epoch": 0.4548422198041349,
2940
+ "grad_norm": 0.09733587503433228,
2941
+ "learning_rate": 0.00011600176517318741,
2942
+ "loss": 0.0714,
2943
+ "step": 418
2944
+ },
2945
+ {
2946
+ "epoch": 0.455930359085963,
2947
+ "grad_norm": 0.13115546107292175,
2948
+ "learning_rate": 0.00011566051400653486,
2949
+ "loss": 0.1079,
2950
+ "step": 419
2951
+ },
2952
+ {
2953
+ "epoch": 0.45701849836779107,
2954
+ "grad_norm": 0.10536440461874008,
2955
+ "learning_rate": 0.00011531907578133429,
2956
+ "loss": 0.0807,
2957
+ "step": 420
2958
+ },
2959
+ {
2960
+ "epoch": 0.4581066376496192,
2961
+ "grad_norm": 0.10071249306201935,
2962
+ "learning_rate": 0.00011497745457592816,
2963
+ "loss": 0.0647,
2964
+ "step": 421
2965
+ },
2966
+ {
2967
+ "epoch": 0.4591947769314472,
2968
+ "grad_norm": 0.12494815140962601,
2969
+ "learning_rate": 0.00011463565447084445,
2970
+ "loss": 0.0969,
2971
+ "step": 422
2972
+ },
2973
+ {
2974
+ "epoch": 0.4602829162132753,
2975
+ "grad_norm": 0.10858377069234848,
2976
+ "learning_rate": 0.00011429367954874819,
2977
+ "loss": 0.0709,
2978
+ "step": 423
2979
+ },
2980
+ {
2981
+ "epoch": 0.4613710554951034,
2982
+ "grad_norm": 0.10477497428655624,
2983
+ "learning_rate": 0.00011395153389439233,
2984
+ "loss": 0.0875,
2985
+ "step": 424
2986
+ },
2987
+ {
2988
+ "epoch": 0.4624591947769314,
2989
+ "grad_norm": 0.12716920673847198,
2990
+ "learning_rate": 0.00011360922159456928,
2991
+ "loss": 0.0864,
2992
+ "step": 425
2993
+ },
2994
+ {
2995
+ "epoch": 0.46354733405875953,
2996
+ "grad_norm": 0.13803425431251526,
2997
+ "learning_rate": 0.00011326674673806195,
2998
+ "loss": 0.1028,
2999
+ "step": 426
3000
+ },
3001
+ {
3002
+ "epoch": 0.4646354733405876,
3003
+ "grad_norm": 0.1662827581167221,
3004
+ "learning_rate": 0.0001129241134155949,
3005
+ "loss": 0.1053,
3006
+ "step": 427
3007
+ },
3008
+ {
3009
+ "epoch": 0.4657236126224157,
3010
+ "grad_norm": 0.13029906153678894,
3011
+ "learning_rate": 0.00011258132571978555,
3012
+ "loss": 0.0797,
3013
+ "step": 428
3014
+ },
3015
+ {
3016
+ "epoch": 0.46681175190424373,
3017
+ "grad_norm": 0.18869560956954956,
3018
+ "learning_rate": 0.00011223838774509514,
3019
+ "loss": 0.1292,
3020
+ "step": 429
3021
+ },
3022
+ {
3023
+ "epoch": 0.46789989118607184,
3024
+ "grad_norm": 0.14279034733772278,
3025
+ "learning_rate": 0.00011189530358778005,
3026
+ "loss": 0.0951,
3027
+ "step": 430
3028
+ },
3029
+ {
3030
+ "epoch": 0.4689880304678999,
3031
+ "grad_norm": 0.11428643018007278,
3032
+ "learning_rate": 0.00011155207734584263,
3033
+ "loss": 0.0664,
3034
+ "step": 431
3035
+ },
3036
+ {
3037
+ "epoch": 0.470076169749728,
3038
+ "grad_norm": 0.20008297264575958,
3039
+ "learning_rate": 0.00011120871311898254,
3040
+ "loss": 0.1027,
3041
+ "step": 432
3042
+ },
3043
+ {
3044
+ "epoch": 0.47116430903155604,
3045
+ "grad_norm": 0.22173888981342316,
3046
+ "learning_rate": 0.00011086521500854745,
3047
+ "loss": 0.1356,
3048
+ "step": 433
3049
+ },
3050
+ {
3051
+ "epoch": 0.4722524483133841,
3052
+ "grad_norm": 0.2382795661687851,
3053
+ "learning_rate": 0.00011052158711748434,
3054
+ "loss": 0.1516,
3055
+ "step": 434
3056
+ },
3057
+ {
3058
+ "epoch": 0.4733405875952122,
3059
+ "grad_norm": 0.2854343354701996,
3060
+ "learning_rate": 0.00011017783355029026,
3061
+ "loss": 0.1116,
3062
+ "step": 435
3063
+ },
3064
+ {
3065
+ "epoch": 0.47442872687704024,
3066
+ "grad_norm": 0.23063793778419495,
3067
+ "learning_rate": 0.00010983395841296348,
3068
+ "loss": 0.107,
3069
+ "step": 436
3070
+ },
3071
+ {
3072
+ "epoch": 0.47551686615886835,
3073
+ "grad_norm": 0.19402769207954407,
3074
+ "learning_rate": 0.00010948996581295436,
3075
+ "loss": 0.0883,
3076
+ "step": 437
3077
+ },
3078
+ {
3079
+ "epoch": 0.4766050054406964,
3080
+ "grad_norm": 0.2664678692817688,
3081
+ "learning_rate": 0.00010914585985911632,
3082
+ "loss": 0.1161,
3083
+ "step": 438
3084
+ },
3085
+ {
3086
+ "epoch": 0.4776931447225245,
3087
+ "grad_norm": 0.29061347246170044,
3088
+ "learning_rate": 0.00010880164466165674,
3089
+ "loss": 0.1833,
3090
+ "step": 439
3091
+ },
3092
+ {
3093
+ "epoch": 0.47878128400435255,
3094
+ "grad_norm": 0.33060985803604126,
3095
+ "learning_rate": 0.00010845732433208779,
3096
+ "loss": 0.1521,
3097
+ "step": 440
3098
+ },
3099
+ {
3100
+ "epoch": 0.47986942328618065,
3101
+ "grad_norm": 0.28285855054855347,
3102
+ "learning_rate": 0.00010811290298317755,
3103
+ "loss": 0.1248,
3104
+ "step": 441
3105
+ },
3106
+ {
3107
+ "epoch": 0.4809575625680087,
3108
+ "grad_norm": 0.49815383553504944,
3109
+ "learning_rate": 0.00010776838472890065,
3110
+ "loss": 0.2238,
3111
+ "step": 442
3112
+ },
3113
+ {
3114
+ "epoch": 0.4820457018498368,
3115
+ "grad_norm": 0.367214173078537,
3116
+ "learning_rate": 0.00010742377368438914,
3117
+ "loss": 0.2344,
3118
+ "step": 443
3119
+ },
3120
+ {
3121
+ "epoch": 0.48313384113166485,
3122
+ "grad_norm": 0.3444245159626007,
3123
+ "learning_rate": 0.00010707907396588361,
3124
+ "loss": 0.1254,
3125
+ "step": 444
3126
+ },
3127
+ {
3128
+ "epoch": 0.4842219804134929,
3129
+ "grad_norm": 0.31096217036247253,
3130
+ "learning_rate": 0.00010673428969068364,
3131
+ "loss": 0.1313,
3132
+ "step": 445
3133
+ },
3134
+ {
3135
+ "epoch": 0.485310119695321,
3136
+ "grad_norm": 0.5377318263053894,
3137
+ "learning_rate": 0.0001063894249770989,
3138
+ "loss": 0.2526,
3139
+ "step": 446
3140
+ },
3141
+ {
3142
+ "epoch": 0.48639825897714906,
3143
+ "grad_norm": 0.4121945798397064,
3144
+ "learning_rate": 0.00010604448394439983,
3145
+ "loss": 0.1663,
3146
+ "step": 447
3147
+ },
3148
+ {
3149
+ "epoch": 0.48748639825897716,
3150
+ "grad_norm": 0.48366662859916687,
3151
+ "learning_rate": 0.00010569947071276847,
3152
+ "loss": 0.2457,
3153
+ "step": 448
3154
+ },
3155
+ {
3156
+ "epoch": 0.4885745375408052,
3157
+ "grad_norm": 0.6081061959266663,
3158
+ "learning_rate": 0.0001053543894032493,
3159
+ "loss": 0.2678,
3160
+ "step": 449
3161
+ },
3162
+ {
3163
+ "epoch": 0.4896626768226333,
3164
+ "grad_norm": 1.0334888696670532,
3165
+ "learning_rate": 0.00010500924413769988,
3166
+ "loss": 0.3153,
3167
+ "step": 450
3168
+ },
3169
+ {
3170
+ "epoch": 0.49075081610446136,
3171
+ "grad_norm": 0.0451701320707798,
3172
+ "learning_rate": 0.00010466403903874176,
3173
+ "loss": 0.0455,
3174
+ "step": 451
3175
+ },
3176
+ {
3177
+ "epoch": 0.49183895538628947,
3178
+ "grad_norm": 0.05214075744152069,
3179
+ "learning_rate": 0.00010431877822971117,
3180
+ "loss": 0.0519,
3181
+ "step": 452
3182
+ },
3183
+ {
3184
+ "epoch": 0.4929270946681175,
3185
+ "grad_norm": 0.06553710252046585,
3186
+ "learning_rate": 0.00010397346583460971,
3187
+ "loss": 0.0557,
3188
+ "step": 453
3189
+ },
3190
+ {
3191
+ "epoch": 0.4940152339499456,
3192
+ "grad_norm": 0.06424305588006973,
3193
+ "learning_rate": 0.00010362810597805526,
3194
+ "loss": 0.0672,
3195
+ "step": 454
3196
+ },
3197
+ {
3198
+ "epoch": 0.49510337323177367,
3199
+ "grad_norm": 0.08962132036685944,
3200
+ "learning_rate": 0.00010328270278523256,
3201
+ "loss": 0.0957,
3202
+ "step": 455
3203
+ },
3204
+ {
3205
+ "epoch": 0.4961915125136017,
3206
+ "grad_norm": 0.08780992031097412,
3207
+ "learning_rate": 0.00010293726038184393,
3208
+ "loss": 0.0894,
3209
+ "step": 456
3210
+ },
3211
+ {
3212
+ "epoch": 0.4972796517954298,
3213
+ "grad_norm": 0.08018220961093903,
3214
+ "learning_rate": 0.00010259178289406011,
3215
+ "loss": 0.0663,
3216
+ "step": 457
3217
+ },
3218
+ {
3219
+ "epoch": 0.49836779107725787,
3220
+ "grad_norm": 0.07880765199661255,
3221
+ "learning_rate": 0.0001022462744484709,
3222
+ "loss": 0.0832,
3223
+ "step": 458
3224
+ },
3225
+ {
3226
+ "epoch": 0.499455930359086,
3227
+ "grad_norm": 0.07101229578256607,
3228
+ "learning_rate": 0.00010190073917203589,
3229
+ "loss": 0.054,
3230
+ "step": 459
3231
+ },
3232
+ {
3233
+ "epoch": 0.500544069640914,
3234
+ "grad_norm": 0.07901884615421295,
3235
+ "learning_rate": 0.0001015551811920351,
3236
+ "loss": 0.0611,
3237
+ "step": 460
3238
+ },
3239
+ {
3240
+ "epoch": 0.500544069640914,
3241
+ "eval_loss": 0.11412899941205978,
3242
+ "eval_runtime": 24.4441,
3243
+ "eval_samples_per_second": 15.832,
3244
+ "eval_steps_per_second": 7.936,
3245
+ "step": 460
3246
  }
3247
  ],
3248
  "logging_steps": 1,
 
3262
  "attributes": {}
3263
  }
3264
  },
3265
+ "total_flos": 1.8463228908326093e+17,
3266
  "train_batch_size": 2,
3267
  "trial_name": null,
3268
  "trial_params": null