Alphatao commited on
Commit
e68ac49
·
verified ·
1 Parent(s): 7a3c4d3

Training in progress, step 300, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:67310b278b346aedcf42b828dbaf252c4be0c671c62ea6402e97e1f206529528
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8badaa52ca519105a5380878a96d36847cb55d906e0d2e705f3717f2655e7067
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:89489c4a73e0c279f6e9957d5d7fad97283becf32320e68e655449cad2d8ee23
3
- size 18810036
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:caec36497ef1581c061792ab4a36c00600adbe0322f14b4febe97fd488c40641
3
+ size 18810356
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8d3f0d3c698a0d9d24c459f7ae6628b03169d5174249692ec48942dde2ca8f67
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d23a005f828083a9add1710a8dc106dbb2334d4fcd07e84318a29c2a3ef22527
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c7379819866926b736a73507411de0a14a4ceb99f31c9ea0971e466e8e375a5a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ea211bfadd2ed8fd9c0d8cd735af3562d7b6f16823ff7f40e995c8863ea26ad0
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 3.2505762577056885,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
- "epoch": 0.12972271769093563,
5
  "eval_steps": 100,
6
- "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1431,6 +1431,714 @@
1431
  "eval_samples_per_second": 58.69,
1432
  "eval_steps_per_second": 14.673,
1433
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1434
  }
1435
  ],
1436
  "logging_steps": 1,
@@ -1459,7 +2167,7 @@
1459
  "attributes": {}
1460
  }
1461
  },
1462
- "total_flos": 1.4419086016512e+16,
1463
  "train_batch_size": 4,
1464
  "trial_name": null,
1465
  "trial_params": null
 
1
  {
2
+ "best_metric": 3.1460793018341064,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-300",
4
+ "epoch": 0.19458407653640344,
5
  "eval_steps": 100,
6
+ "global_step": 300,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1431
  "eval_samples_per_second": 58.69,
1432
  "eval_steps_per_second": 14.673,
1433
  "step": 200
1434
+ },
1435
+ {
1436
+ "epoch": 0.1303713312793903,
1437
+ "grad_norm": 1.5361113548278809,
1438
+ "learning_rate": 0.00019810089346802346,
1439
+ "loss": 2.9761,
1440
+ "step": 201
1441
+ },
1442
+ {
1443
+ "epoch": 0.131019944867845,
1444
+ "grad_norm": 1.7124556303024292,
1445
+ "learning_rate": 0.0001980810194908336,
1446
+ "loss": 3.1084,
1447
+ "step": 202
1448
+ },
1449
+ {
1450
+ "epoch": 0.13166855845629966,
1451
+ "grad_norm": 1.9076920747756958,
1452
+ "learning_rate": 0.00019806104307190222,
1453
+ "loss": 3.4621,
1454
+ "step": 203
1455
+ },
1456
+ {
1457
+ "epoch": 0.13231717204475435,
1458
+ "grad_norm": 1.381435751914978,
1459
+ "learning_rate": 0.00019804096423209398,
1460
+ "loss": 2.7652,
1461
+ "step": 204
1462
+ },
1463
+ {
1464
+ "epoch": 0.13296578563320902,
1465
+ "grad_norm": 1.352182149887085,
1466
+ "learning_rate": 0.00019802078299238044,
1467
+ "loss": 2.717,
1468
+ "step": 205
1469
+ },
1470
+ {
1471
+ "epoch": 0.13361439922166368,
1472
+ "grad_norm": 1.5664377212524414,
1473
+ "learning_rate": 0.00019800049937384004,
1474
+ "loss": 2.9769,
1475
+ "step": 206
1476
+ },
1477
+ {
1478
+ "epoch": 0.13426301281011838,
1479
+ "grad_norm": 1.786026120185852,
1480
+ "learning_rate": 0.00019798011339765826,
1481
+ "loss": 3.341,
1482
+ "step": 207
1483
+ },
1484
+ {
1485
+ "epoch": 0.13491162639857304,
1486
+ "grad_norm": 1.4288690090179443,
1487
+ "learning_rate": 0.00019795962508512742,
1488
+ "loss": 2.676,
1489
+ "step": 208
1490
+ },
1491
+ {
1492
+ "epoch": 0.13556023998702774,
1493
+ "grad_norm": 1.6291303634643555,
1494
+ "learning_rate": 0.00019793903445764675,
1495
+ "loss": 3.1092,
1496
+ "step": 209
1497
+ },
1498
+ {
1499
+ "epoch": 0.1362088535754824,
1500
+ "grad_norm": 1.7784898281097412,
1501
+ "learning_rate": 0.0001979183415367224,
1502
+ "loss": 3.4292,
1503
+ "step": 210
1504
+ },
1505
+ {
1506
+ "epoch": 0.1368574671639371,
1507
+ "grad_norm": 1.7724665403366089,
1508
+ "learning_rate": 0.00019789754634396724,
1509
+ "loss": 3.3831,
1510
+ "step": 211
1511
+ },
1512
+ {
1513
+ "epoch": 0.13750608075239176,
1514
+ "grad_norm": 1.4297045469284058,
1515
+ "learning_rate": 0.00019787664890110108,
1516
+ "loss": 2.8106,
1517
+ "step": 212
1518
+ },
1519
+ {
1520
+ "epoch": 0.13815469434084643,
1521
+ "grad_norm": 1.650215983390808,
1522
+ "learning_rate": 0.0001978556492299504,
1523
+ "loss": 3.1152,
1524
+ "step": 213
1525
+ },
1526
+ {
1527
+ "epoch": 0.13880330792930112,
1528
+ "grad_norm": 1.4097318649291992,
1529
+ "learning_rate": 0.0001978345473524486,
1530
+ "loss": 3.1504,
1531
+ "step": 214
1532
+ },
1533
+ {
1534
+ "epoch": 0.1394519215177558,
1535
+ "grad_norm": 1.5713872909545898,
1536
+ "learning_rate": 0.00019781334329063572,
1537
+ "loss": 3.5687,
1538
+ "step": 215
1539
+ },
1540
+ {
1541
+ "epoch": 0.14010053510621048,
1542
+ "grad_norm": 1.2881985902786255,
1543
+ "learning_rate": 0.00019779203706665857,
1544
+ "loss": 3.0303,
1545
+ "step": 216
1546
+ },
1547
+ {
1548
+ "epoch": 0.14074914869466515,
1549
+ "grad_norm": 1.3899292945861816,
1550
+ "learning_rate": 0.00019777062870277064,
1551
+ "loss": 2.7401,
1552
+ "step": 217
1553
+ },
1554
+ {
1555
+ "epoch": 0.14139776228311984,
1556
+ "grad_norm": 1.5206934213638306,
1557
+ "learning_rate": 0.00019774911822133216,
1558
+ "loss": 2.8458,
1559
+ "step": 218
1560
+ },
1561
+ {
1562
+ "epoch": 0.1420463758715745,
1563
+ "grad_norm": 1.777827262878418,
1564
+ "learning_rate": 0.00019772750564480993,
1565
+ "loss": 3.1399,
1566
+ "step": 219
1567
+ },
1568
+ {
1569
+ "epoch": 0.14269498946002918,
1570
+ "grad_norm": 1.5830134153366089,
1571
+ "learning_rate": 0.00019770579099577743,
1572
+ "loss": 2.9685,
1573
+ "step": 220
1574
+ },
1575
+ {
1576
+ "epoch": 0.14334360304848387,
1577
+ "grad_norm": 1.619513750076294,
1578
+ "learning_rate": 0.0001976839742969148,
1579
+ "loss": 3.1719,
1580
+ "step": 221
1581
+ },
1582
+ {
1583
+ "epoch": 0.14399221663693854,
1584
+ "grad_norm": 1.6449589729309082,
1585
+ "learning_rate": 0.00019766205557100868,
1586
+ "loss": 3.1031,
1587
+ "step": 222
1588
+ },
1589
+ {
1590
+ "epoch": 0.14464083022539323,
1591
+ "grad_norm": 1.5686246156692505,
1592
+ "learning_rate": 0.0001976400348409523,
1593
+ "loss": 3.1232,
1594
+ "step": 223
1595
+ },
1596
+ {
1597
+ "epoch": 0.1452894438138479,
1598
+ "grad_norm": 1.781656265258789,
1599
+ "learning_rate": 0.0001976179121297455,
1600
+ "loss": 3.3703,
1601
+ "step": 224
1602
+ },
1603
+ {
1604
+ "epoch": 0.1459380574023026,
1605
+ "grad_norm": 1.6864426136016846,
1606
+ "learning_rate": 0.00019759568746049452,
1607
+ "loss": 3.3688,
1608
+ "step": 225
1609
+ },
1610
+ {
1611
+ "epoch": 0.14658667099075726,
1612
+ "grad_norm": 1.545371651649475,
1613
+ "learning_rate": 0.00019757336085641218,
1614
+ "loss": 3.3151,
1615
+ "step": 226
1616
+ },
1617
+ {
1618
+ "epoch": 0.14723528457921192,
1619
+ "grad_norm": 1.3052035570144653,
1620
+ "learning_rate": 0.0001975509323408177,
1621
+ "loss": 2.8913,
1622
+ "step": 227
1623
+ },
1624
+ {
1625
+ "epoch": 0.14788389816766662,
1626
+ "grad_norm": 1.2720938920974731,
1627
+ "learning_rate": 0.0001975284019371368,
1628
+ "loss": 3.0601,
1629
+ "step": 228
1630
+ },
1631
+ {
1632
+ "epoch": 0.14853251175612128,
1633
+ "grad_norm": 1.3967403173446655,
1634
+ "learning_rate": 0.00019750576966890158,
1635
+ "loss": 3.1093,
1636
+ "step": 229
1637
+ },
1638
+ {
1639
+ "epoch": 0.14918112534457598,
1640
+ "grad_norm": 1.4218616485595703,
1641
+ "learning_rate": 0.00019748303555975057,
1642
+ "loss": 2.8957,
1643
+ "step": 230
1644
+ },
1645
+ {
1646
+ "epoch": 0.14982973893303064,
1647
+ "grad_norm": 1.502661943435669,
1648
+ "learning_rate": 0.0001974601996334286,
1649
+ "loss": 3.1115,
1650
+ "step": 231
1651
+ },
1652
+ {
1653
+ "epoch": 0.15047835252148534,
1654
+ "grad_norm": 1.4609853029251099,
1655
+ "learning_rate": 0.00019743726191378698,
1656
+ "loss": 2.9707,
1657
+ "step": 232
1658
+ },
1659
+ {
1660
+ "epoch": 0.15112696610994,
1661
+ "grad_norm": 1.4173173904418945,
1662
+ "learning_rate": 0.00019741422242478316,
1663
+ "loss": 2.7085,
1664
+ "step": 233
1665
+ },
1666
+ {
1667
+ "epoch": 0.15177557969839467,
1668
+ "grad_norm": 1.6199264526367188,
1669
+ "learning_rate": 0.000197391081190481,
1670
+ "loss": 3.1486,
1671
+ "step": 234
1672
+ },
1673
+ {
1674
+ "epoch": 0.15242419328684936,
1675
+ "grad_norm": 1.5446836948394775,
1676
+ "learning_rate": 0.00019736783823505065,
1677
+ "loss": 2.884,
1678
+ "step": 235
1679
+ },
1680
+ {
1681
+ "epoch": 0.15307280687530403,
1682
+ "grad_norm": 1.59959876537323,
1683
+ "learning_rate": 0.00019734449358276842,
1684
+ "loss": 3.1943,
1685
+ "step": 236
1686
+ },
1687
+ {
1688
+ "epoch": 0.15372142046375872,
1689
+ "grad_norm": 1.547925353050232,
1690
+ "learning_rate": 0.00019732104725801684,
1691
+ "loss": 3.1038,
1692
+ "step": 237
1693
+ },
1694
+ {
1695
+ "epoch": 0.1543700340522134,
1696
+ "grad_norm": 1.5789741277694702,
1697
+ "learning_rate": 0.0001972974992852847,
1698
+ "loss": 3.0996,
1699
+ "step": 238
1700
+ },
1701
+ {
1702
+ "epoch": 0.15501864764066808,
1703
+ "grad_norm": 1.675233244895935,
1704
+ "learning_rate": 0.00019727384968916693,
1705
+ "loss": 3.3453,
1706
+ "step": 239
1707
+ },
1708
+ {
1709
+ "epoch": 0.15566726122912275,
1710
+ "grad_norm": 1.5575461387634277,
1711
+ "learning_rate": 0.00019725009849436463,
1712
+ "loss": 3.0918,
1713
+ "step": 240
1714
+ },
1715
+ {
1716
+ "epoch": 0.15631587481757742,
1717
+ "grad_norm": 1.6142653226852417,
1718
+ "learning_rate": 0.00019722624572568492,
1719
+ "loss": 3.0376,
1720
+ "step": 241
1721
+ },
1722
+ {
1723
+ "epoch": 0.1569644884060321,
1724
+ "grad_norm": 1.6989195346832275,
1725
+ "learning_rate": 0.0001972022914080411,
1726
+ "loss": 3.4667,
1727
+ "step": 242
1728
+ },
1729
+ {
1730
+ "epoch": 0.15761310199448678,
1731
+ "grad_norm": 1.5104671716690063,
1732
+ "learning_rate": 0.0001971782355664525,
1733
+ "loss": 2.9191,
1734
+ "step": 243
1735
+ },
1736
+ {
1737
+ "epoch": 0.15826171558294147,
1738
+ "grad_norm": 1.792704463005066,
1739
+ "learning_rate": 0.00019715407822604451,
1740
+ "loss": 3.2042,
1741
+ "step": 244
1742
+ },
1743
+ {
1744
+ "epoch": 0.15891032917139614,
1745
+ "grad_norm": 1.798724889755249,
1746
+ "learning_rate": 0.00019712981941204848,
1747
+ "loss": 3.1007,
1748
+ "step": 245
1749
+ },
1750
+ {
1751
+ "epoch": 0.15955894275985083,
1752
+ "grad_norm": 1.3790630102157593,
1753
+ "learning_rate": 0.00019710545914980183,
1754
+ "loss": 3.0556,
1755
+ "step": 246
1756
+ },
1757
+ {
1758
+ "epoch": 0.1602075563483055,
1759
+ "grad_norm": 1.8706490993499756,
1760
+ "learning_rate": 0.00019708099746474785,
1761
+ "loss": 3.3396,
1762
+ "step": 247
1763
+ },
1764
+ {
1765
+ "epoch": 0.16085616993676016,
1766
+ "grad_norm": 1.6114487648010254,
1767
+ "learning_rate": 0.00019705643438243584,
1768
+ "loss": 2.6075,
1769
+ "step": 248
1770
+ },
1771
+ {
1772
+ "epoch": 0.16150478352521486,
1773
+ "grad_norm": 1.5196325778961182,
1774
+ "learning_rate": 0.0001970317699285209,
1775
+ "loss": 3.0033,
1776
+ "step": 249
1777
+ },
1778
+ {
1779
+ "epoch": 0.16215339711366952,
1780
+ "grad_norm": 1.6828662157058716,
1781
+ "learning_rate": 0.00019700700412876416,
1782
+ "loss": 3.0495,
1783
+ "step": 250
1784
+ },
1785
+ {
1786
+ "epoch": 0.16280201070212422,
1787
+ "grad_norm": 1.5269091129302979,
1788
+ "learning_rate": 0.00019698213700903246,
1789
+ "loss": 3.0902,
1790
+ "step": 251
1791
+ },
1792
+ {
1793
+ "epoch": 0.16345062429057888,
1794
+ "grad_norm": 1.3918476104736328,
1795
+ "learning_rate": 0.00019695716859529855,
1796
+ "loss": 2.9452,
1797
+ "step": 252
1798
+ },
1799
+ {
1800
+ "epoch": 0.16409923787903358,
1801
+ "grad_norm": 1.6424914598464966,
1802
+ "learning_rate": 0.00019693209891364093,
1803
+ "loss": 3.2129,
1804
+ "step": 253
1805
+ },
1806
+ {
1807
+ "epoch": 0.16474785146748824,
1808
+ "grad_norm": 2.0256524085998535,
1809
+ "learning_rate": 0.0001969069279902439,
1810
+ "loss": 3.6181,
1811
+ "step": 254
1812
+ },
1813
+ {
1814
+ "epoch": 0.1653964650559429,
1815
+ "grad_norm": 1.7617406845092773,
1816
+ "learning_rate": 0.00019688165585139748,
1817
+ "loss": 3.2462,
1818
+ "step": 255
1819
+ },
1820
+ {
1821
+ "epoch": 0.1660450786443976,
1822
+ "grad_norm": 1.5007916688919067,
1823
+ "learning_rate": 0.00019685628252349744,
1824
+ "loss": 3.0225,
1825
+ "step": 256
1826
+ },
1827
+ {
1828
+ "epoch": 0.16669369223285227,
1829
+ "grad_norm": 1.6564241647720337,
1830
+ "learning_rate": 0.0001968308080330452,
1831
+ "loss": 3.0276,
1832
+ "step": 257
1833
+ },
1834
+ {
1835
+ "epoch": 0.16734230582130696,
1836
+ "grad_norm": 1.571022868156433,
1837
+ "learning_rate": 0.00019680523240664786,
1838
+ "loss": 2.853,
1839
+ "step": 258
1840
+ },
1841
+ {
1842
+ "epoch": 0.16799091940976163,
1843
+ "grad_norm": 1.3106783628463745,
1844
+ "learning_rate": 0.00019677955567101813,
1845
+ "loss": 2.539,
1846
+ "step": 259
1847
+ },
1848
+ {
1849
+ "epoch": 0.16863953299821632,
1850
+ "grad_norm": 1.4485841989517212,
1851
+ "learning_rate": 0.0001967537778529744,
1852
+ "loss": 2.9644,
1853
+ "step": 260
1854
+ },
1855
+ {
1856
+ "epoch": 0.169288146586671,
1857
+ "grad_norm": 1.4725185632705688,
1858
+ "learning_rate": 0.00019672789897944056,
1859
+ "loss": 2.8638,
1860
+ "step": 261
1861
+ },
1862
+ {
1863
+ "epoch": 0.16993676017512566,
1864
+ "grad_norm": 1.7089518308639526,
1865
+ "learning_rate": 0.00019670191907744598,
1866
+ "loss": 3.2726,
1867
+ "step": 262
1868
+ },
1869
+ {
1870
+ "epoch": 0.17058537376358035,
1871
+ "grad_norm": 2.0805907249450684,
1872
+ "learning_rate": 0.00019667583817412578,
1873
+ "loss": 3.5152,
1874
+ "step": 263
1875
+ },
1876
+ {
1877
+ "epoch": 0.17123398735203502,
1878
+ "grad_norm": 1.42578125,
1879
+ "learning_rate": 0.00019664965629672033,
1880
+ "loss": 2.7068,
1881
+ "step": 264
1882
+ },
1883
+ {
1884
+ "epoch": 0.1718826009404897,
1885
+ "grad_norm": 1.70866858959198,
1886
+ "learning_rate": 0.0001966233734725756,
1887
+ "loss": 2.9573,
1888
+ "step": 265
1889
+ },
1890
+ {
1891
+ "epoch": 0.17253121452894438,
1892
+ "grad_norm": 1.55576491355896,
1893
+ "learning_rate": 0.000196596989729143,
1894
+ "loss": 3.1079,
1895
+ "step": 266
1896
+ },
1897
+ {
1898
+ "epoch": 0.17317982811739907,
1899
+ "grad_norm": 1.4486907720565796,
1900
+ "learning_rate": 0.00019657050509397923,
1901
+ "loss": 2.9568,
1902
+ "step": 267
1903
+ },
1904
+ {
1905
+ "epoch": 0.17382844170585374,
1906
+ "grad_norm": 2.7671091556549072,
1907
+ "learning_rate": 0.00019654391959474647,
1908
+ "loss": 3.3971,
1909
+ "step": 268
1910
+ },
1911
+ {
1912
+ "epoch": 0.1744770552943084,
1913
+ "grad_norm": 1.6282739639282227,
1914
+ "learning_rate": 0.00019651723325921224,
1915
+ "loss": 3.3782,
1916
+ "step": 269
1917
+ },
1918
+ {
1919
+ "epoch": 0.1751256688827631,
1920
+ "grad_norm": 1.6156924962997437,
1921
+ "learning_rate": 0.00019649044611524933,
1922
+ "loss": 3.1748,
1923
+ "step": 270
1924
+ },
1925
+ {
1926
+ "epoch": 0.17577428247121776,
1927
+ "grad_norm": 1.4323394298553467,
1928
+ "learning_rate": 0.00019646355819083589,
1929
+ "loss": 2.9028,
1930
+ "step": 271
1931
+ },
1932
+ {
1933
+ "epoch": 0.17642289605967246,
1934
+ "grad_norm": 1.5577207803726196,
1935
+ "learning_rate": 0.00019643656951405525,
1936
+ "loss": 3.1325,
1937
+ "step": 272
1938
+ },
1939
+ {
1940
+ "epoch": 0.17707150964812712,
1941
+ "grad_norm": 1.5941506624221802,
1942
+ "learning_rate": 0.00019640948011309604,
1943
+ "loss": 3.0872,
1944
+ "step": 273
1945
+ },
1946
+ {
1947
+ "epoch": 0.17772012323658182,
1948
+ "grad_norm": 1.3285024166107178,
1949
+ "learning_rate": 0.00019638229001625205,
1950
+ "loss": 2.6622,
1951
+ "step": 274
1952
+ },
1953
+ {
1954
+ "epoch": 0.17836873682503648,
1955
+ "grad_norm": 1.4673588275909424,
1956
+ "learning_rate": 0.0001963549992519223,
1957
+ "loss": 3.1656,
1958
+ "step": 275
1959
+ },
1960
+ {
1961
+ "epoch": 0.17901735041349115,
1962
+ "grad_norm": 1.9262672662734985,
1963
+ "learning_rate": 0.00019632760784861087,
1964
+ "loss": 2.8955,
1965
+ "step": 276
1966
+ },
1967
+ {
1968
+ "epoch": 0.17966596400194584,
1969
+ "grad_norm": 1.5531195402145386,
1970
+ "learning_rate": 0.00019630011583492702,
1971
+ "loss": 2.9895,
1972
+ "step": 277
1973
+ },
1974
+ {
1975
+ "epoch": 0.1803145775904005,
1976
+ "grad_norm": 1.259700059890747,
1977
+ "learning_rate": 0.00019627252323958504,
1978
+ "loss": 2.4601,
1979
+ "step": 278
1980
+ },
1981
+ {
1982
+ "epoch": 0.1809631911788552,
1983
+ "grad_norm": 1.4137221574783325,
1984
+ "learning_rate": 0.00019624483009140435,
1985
+ "loss": 2.7425,
1986
+ "step": 279
1987
+ },
1988
+ {
1989
+ "epoch": 0.18161180476730987,
1990
+ "grad_norm": 1.2611486911773682,
1991
+ "learning_rate": 0.0001962170364193093,
1992
+ "loss": 2.7371,
1993
+ "step": 280
1994
+ },
1995
+ {
1996
+ "epoch": 0.18226041835576456,
1997
+ "grad_norm": 1.7357769012451172,
1998
+ "learning_rate": 0.00019618914225232934,
1999
+ "loss": 3.0614,
2000
+ "step": 281
2001
+ },
2002
+ {
2003
+ "epoch": 0.18290903194421923,
2004
+ "grad_norm": 1.706430435180664,
2005
+ "learning_rate": 0.00019616114761959874,
2006
+ "loss": 2.9595,
2007
+ "step": 282
2008
+ },
2009
+ {
2010
+ "epoch": 0.1835576455326739,
2011
+ "grad_norm": 1.6613085269927979,
2012
+ "learning_rate": 0.00019613305255035686,
2013
+ "loss": 2.9299,
2014
+ "step": 283
2015
+ },
2016
+ {
2017
+ "epoch": 0.1842062591211286,
2018
+ "grad_norm": 1.4859459400177002,
2019
+ "learning_rate": 0.00019610485707394784,
2020
+ "loss": 2.8886,
2021
+ "step": 284
2022
+ },
2023
+ {
2024
+ "epoch": 0.18485487270958326,
2025
+ "grad_norm": 1.5165742635726929,
2026
+ "learning_rate": 0.00019607656121982075,
2027
+ "loss": 2.7321,
2028
+ "step": 285
2029
+ },
2030
+ {
2031
+ "epoch": 0.18550348629803795,
2032
+ "grad_norm": 1.711745023727417,
2033
+ "learning_rate": 0.00019604816501752947,
2034
+ "loss": 2.8954,
2035
+ "step": 286
2036
+ },
2037
+ {
2038
+ "epoch": 0.18615209988649262,
2039
+ "grad_norm": 1.5451345443725586,
2040
+ "learning_rate": 0.00019601966849673276,
2041
+ "loss": 2.9563,
2042
+ "step": 287
2043
+ },
2044
+ {
2045
+ "epoch": 0.1868007134749473,
2046
+ "grad_norm": 1.3915531635284424,
2047
+ "learning_rate": 0.00019599107168719412,
2048
+ "loss": 3.0462,
2049
+ "step": 288
2050
+ },
2051
+ {
2052
+ "epoch": 0.18744932706340198,
2053
+ "grad_norm": 1.2463390827178955,
2054
+ "learning_rate": 0.0001959623746187817,
2055
+ "loss": 2.7958,
2056
+ "step": 289
2057
+ },
2058
+ {
2059
+ "epoch": 0.18809794065185664,
2060
+ "grad_norm": 1.683665156364441,
2061
+ "learning_rate": 0.0001959335773214685,
2062
+ "loss": 2.8798,
2063
+ "step": 290
2064
+ },
2065
+ {
2066
+ "epoch": 0.18874655424031134,
2067
+ "grad_norm": 1.5754495859146118,
2068
+ "learning_rate": 0.00019590467982533215,
2069
+ "loss": 2.8401,
2070
+ "step": 291
2071
+ },
2072
+ {
2073
+ "epoch": 0.189395167828766,
2074
+ "grad_norm": 1.6469128131866455,
2075
+ "learning_rate": 0.000195875682160555,
2076
+ "loss": 3.0458,
2077
+ "step": 292
2078
+ },
2079
+ {
2080
+ "epoch": 0.1900437814172207,
2081
+ "grad_norm": 1.4030909538269043,
2082
+ "learning_rate": 0.00019584658435742384,
2083
+ "loss": 2.8845,
2084
+ "step": 293
2085
+ },
2086
+ {
2087
+ "epoch": 0.19069239500567536,
2088
+ "grad_norm": 1.4269638061523438,
2089
+ "learning_rate": 0.00019581738644633027,
2090
+ "loss": 3.1745,
2091
+ "step": 294
2092
+ },
2093
+ {
2094
+ "epoch": 0.19134100859413006,
2095
+ "grad_norm": 1.8712362051010132,
2096
+ "learning_rate": 0.00019578808845777034,
2097
+ "loss": 2.9603,
2098
+ "step": 295
2099
+ },
2100
+ {
2101
+ "epoch": 0.19198962218258472,
2102
+ "grad_norm": 1.3823246955871582,
2103
+ "learning_rate": 0.0001957586904223446,
2104
+ "loss": 2.8134,
2105
+ "step": 296
2106
+ },
2107
+ {
2108
+ "epoch": 0.1926382357710394,
2109
+ "grad_norm": 1.6640461683273315,
2110
+ "learning_rate": 0.00019572919237075817,
2111
+ "loss": 3.0434,
2112
+ "step": 297
2113
+ },
2114
+ {
2115
+ "epoch": 0.19328684935949408,
2116
+ "grad_norm": 1.68658447265625,
2117
+ "learning_rate": 0.0001956995943338206,
2118
+ "loss": 3.2863,
2119
+ "step": 298
2120
+ },
2121
+ {
2122
+ "epoch": 0.19393546294794875,
2123
+ "grad_norm": 1.4889813661575317,
2124
+ "learning_rate": 0.00019566989634244584,
2125
+ "loss": 2.7607,
2126
+ "step": 299
2127
+ },
2128
+ {
2129
+ "epoch": 0.19458407653640344,
2130
+ "grad_norm": 1.526188850402832,
2131
+ "learning_rate": 0.00019564009842765225,
2132
+ "loss": 2.9834,
2133
+ "step": 300
2134
+ },
2135
+ {
2136
+ "epoch": 0.19458407653640344,
2137
+ "eval_loss": 3.1460793018341064,
2138
+ "eval_runtime": 35.0284,
2139
+ "eval_samples_per_second": 58.695,
2140
+ "eval_steps_per_second": 14.674,
2141
+ "step": 300
2142
  }
2143
  ],
2144
  "logging_steps": 1,
 
2167
  "attributes": {}
2168
  }
2169
  },
2170
+ "total_flos": 2.1628629024768e+16,
2171
  "train_batch_size": 4,
2172
  "trial_name": null,
2173
  "trial_params": null