{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.4188518224417316, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 0.019933333333333334, "loss": 5.6119, "step": 10 }, { "epoch": 0.0, "learning_rate": 0.019866666666666668, "loss": 5.2846, "step": 20 }, { "epoch": 0.0, "learning_rate": 0.0198, "loss": 5.0585, "step": 30 }, { "epoch": 0.01, "learning_rate": 0.019733333333333335, "loss": 4.8779, "step": 40 }, { "epoch": 0.01, "learning_rate": 0.019666666666666666, "loss": 4.9533, "step": 50 }, { "epoch": 0.01, "learning_rate": 0.0196, "loss": 4.9514, "step": 60 }, { "epoch": 0.01, "learning_rate": 0.019533333333333333, "loss": 4.9911, "step": 70 }, { "epoch": 0.01, "learning_rate": 0.019466666666666667, "loss": 4.9367, "step": 80 }, { "epoch": 0.01, "learning_rate": 0.0194, "loss": 4.897, "step": 90 }, { "epoch": 0.01, "learning_rate": 0.019333333333333334, "loss": 4.9265, "step": 100 }, { "epoch": 0.02, "learning_rate": 0.019266666666666668, "loss": 5.013, "step": 110 }, { "epoch": 0.02, "learning_rate": 0.0192, "loss": 4.9166, "step": 120 }, { "epoch": 0.02, "learning_rate": 0.019133333333333332, "loss": 4.7679, "step": 130 }, { "epoch": 0.02, "learning_rate": 0.01906666666666667, "loss": 4.8172, "step": 140 }, { "epoch": 0.02, "learning_rate": 0.019, "loss": 4.8529, "step": 150 }, { "epoch": 0.02, "learning_rate": 0.018933333333333333, "loss": 4.7713, "step": 160 }, { "epoch": 0.02, "learning_rate": 0.018866666666666667, "loss": 4.7998, "step": 170 }, { "epoch": 0.03, "learning_rate": 0.0188, "loss": 4.77, "step": 180 }, { "epoch": 0.03, "learning_rate": 0.018733333333333334, "loss": 4.7859, "step": 190 }, { "epoch": 0.03, "learning_rate": 0.018666666666666668, "loss": 4.7434, "step": 200 }, { "epoch": 0.03, "learning_rate": 0.018600000000000002, "loss": 4.7431, "step": 210 }, { "epoch": 0.03, "learning_rate": 0.018533333333333332, "loss": 4.813, "step": 220 }, { "epoch": 0.03, "learning_rate": 0.018466666666666666, "loss": 4.6724, "step": 230 }, { "epoch": 0.03, "learning_rate": 0.0184, "loss": 4.7102, "step": 240 }, { "epoch": 0.03, "learning_rate": 0.018333333333333333, "loss": 4.6639, "step": 250 }, { "epoch": 0.04, "learning_rate": 0.018266666666666667, "loss": 4.7244, "step": 260 }, { "epoch": 0.04, "learning_rate": 0.0182, "loss": 4.6309, "step": 270 }, { "epoch": 0.04, "learning_rate": 0.01813333333333333, "loss": 4.7794, "step": 280 }, { "epoch": 0.04, "learning_rate": 0.01806666666666667, "loss": 4.669, "step": 290 }, { "epoch": 0.04, "learning_rate": 0.018000000000000002, "loss": 4.5794, "step": 300 }, { "epoch": 0.04, "learning_rate": 0.017933333333333332, "loss": 4.514, "step": 310 }, { "epoch": 0.04, "learning_rate": 0.017866666666666666, "loss": 4.7443, "step": 320 }, { "epoch": 0.05, "learning_rate": 0.0178, "loss": 4.6219, "step": 330 }, { "epoch": 0.05, "learning_rate": 0.017733333333333334, "loss": 4.6182, "step": 340 }, { "epoch": 0.05, "learning_rate": 0.017666666666666667, "loss": 4.5902, "step": 350 }, { "epoch": 0.05, "learning_rate": 0.0176, "loss": 4.503, "step": 360 }, { "epoch": 0.05, "learning_rate": 0.017533333333333335, "loss": 4.4582, "step": 370 }, { "epoch": 0.05, "learning_rate": 0.017466666666666665, "loss": 4.6201, "step": 380 }, { "epoch": 0.05, "learning_rate": 0.0174, "loss": 4.6286, "step": 390 }, { "epoch": 0.06, "learning_rate": 0.017333333333333336, "loss": 4.4491, "step": 400 }, { "epoch": 0.06, "learning_rate": 0.017266666666666666, "loss": 4.5641, "step": 410 }, { "epoch": 0.06, "learning_rate": 0.0172, "loss": 4.5081, "step": 420 }, { "epoch": 0.06, "learning_rate": 0.017133333333333334, "loss": 4.632, "step": 430 }, { "epoch": 0.06, "learning_rate": 0.017066666666666667, "loss": 4.5361, "step": 440 }, { "epoch": 0.06, "learning_rate": 0.017, "loss": 4.5287, "step": 450 }, { "epoch": 0.06, "learning_rate": 0.016933333333333335, "loss": 4.5825, "step": 460 }, { "epoch": 0.07, "learning_rate": 0.01686666666666667, "loss": 4.5743, "step": 470 }, { "epoch": 0.07, "learning_rate": 0.0168, "loss": 4.5689, "step": 480 }, { "epoch": 0.07, "learning_rate": 0.016733333333333333, "loss": 4.4719, "step": 490 }, { "epoch": 0.07, "learning_rate": 0.016666666666666666, "loss": 4.5414, "step": 500 }, { "epoch": 0.07, "learning_rate": 0.0166, "loss": 4.5289, "step": 510 }, { "epoch": 0.07, "learning_rate": 0.016533333333333334, "loss": 4.4657, "step": 520 }, { "epoch": 0.07, "learning_rate": 0.016466666666666668, "loss": 4.6115, "step": 530 }, { "epoch": 0.08, "learning_rate": 0.016399999999999998, "loss": 4.4937, "step": 540 }, { "epoch": 0.08, "learning_rate": 0.01633333333333333, "loss": 4.4462, "step": 550 }, { "epoch": 0.08, "learning_rate": 0.01626666666666667, "loss": 4.4596, "step": 560 }, { "epoch": 0.08, "learning_rate": 0.016200000000000003, "loss": 4.4789, "step": 570 }, { "epoch": 0.08, "learning_rate": 0.016133333333333333, "loss": 4.5218, "step": 580 }, { "epoch": 0.08, "learning_rate": 0.016066666666666667, "loss": 4.5306, "step": 590 }, { "epoch": 0.08, "learning_rate": 0.016, "loss": 4.5056, "step": 600 }, { "epoch": 0.09, "learning_rate": 0.015933333333333334, "loss": 4.451, "step": 610 }, { "epoch": 0.09, "learning_rate": 0.015866666666666668, "loss": 4.4026, "step": 620 }, { "epoch": 0.09, "learning_rate": 0.0158, "loss": 4.4766, "step": 630 }, { "epoch": 0.09, "learning_rate": 0.015733333333333332, "loss": 4.5372, "step": 640 }, { "epoch": 0.09, "learning_rate": 0.015666666666666666, "loss": 4.4114, "step": 650 }, { "epoch": 0.09, "learning_rate": 0.015600000000000001, "loss": 4.5123, "step": 660 }, { "epoch": 0.09, "learning_rate": 0.015533333333333333, "loss": 4.4942, "step": 670 }, { "epoch": 0.09, "learning_rate": 0.015466666666666667, "loss": 4.3913, "step": 680 }, { "epoch": 0.1, "learning_rate": 0.0154, "loss": 4.4759, "step": 690 }, { "epoch": 0.1, "learning_rate": 0.015333333333333334, "loss": 4.4615, "step": 700 }, { "epoch": 0.1, "learning_rate": 0.015266666666666666, "loss": 4.4956, "step": 710 }, { "epoch": 0.1, "learning_rate": 0.0152, "loss": 4.4553, "step": 720 }, { "epoch": 0.1, "learning_rate": 0.015133333333333334, "loss": 4.5372, "step": 730 }, { "epoch": 0.1, "learning_rate": 0.015066666666666666, "loss": 4.2449, "step": 740 }, { "epoch": 0.1, "learning_rate": 0.015, "loss": 4.4695, "step": 750 }, { "epoch": 0.11, "learning_rate": 0.014933333333333335, "loss": 4.4008, "step": 760 }, { "epoch": 0.11, "learning_rate": 0.014866666666666667, "loss": 4.3532, "step": 770 }, { "epoch": 0.11, "learning_rate": 0.0148, "loss": 4.4851, "step": 780 }, { "epoch": 0.11, "learning_rate": 0.014733333333333334, "loss": 4.4434, "step": 790 }, { "epoch": 0.11, "learning_rate": 0.014666666666666666, "loss": 4.4009, "step": 800 }, { "epoch": 0.11, "learning_rate": 0.0146, "loss": 4.423, "step": 810 }, { "epoch": 0.11, "learning_rate": 0.014533333333333334, "loss": 4.3859, "step": 820 }, { "epoch": 0.12, "learning_rate": 0.014466666666666668, "loss": 4.3807, "step": 830 }, { "epoch": 0.12, "learning_rate": 0.0144, "loss": 4.4503, "step": 840 }, { "epoch": 0.12, "learning_rate": 0.014333333333333333, "loss": 4.4248, "step": 850 }, { "epoch": 0.12, "learning_rate": 0.014266666666666667, "loss": 4.3893, "step": 860 }, { "epoch": 0.12, "learning_rate": 0.014199999999999999, "loss": 4.3332, "step": 870 }, { "epoch": 0.12, "learning_rate": 0.014133333333333333, "loss": 4.41, "step": 880 }, { "epoch": 0.12, "learning_rate": 0.014066666666666668, "loss": 4.4403, "step": 890 }, { "epoch": 0.13, "learning_rate": 0.013999999999999999, "loss": 4.4213, "step": 900 }, { "epoch": 0.13, "learning_rate": 0.013933333333333334, "loss": 4.4287, "step": 910 }, { "epoch": 0.13, "learning_rate": 0.013866666666666668, "loss": 4.4164, "step": 920 }, { "epoch": 0.13, "learning_rate": 0.0138, "loss": 4.3533, "step": 930 }, { "epoch": 0.13, "learning_rate": 0.013733333333333334, "loss": 4.4456, "step": 940 }, { "epoch": 0.13, "learning_rate": 0.013666666666666667, "loss": 4.3651, "step": 950 }, { "epoch": 0.13, "learning_rate": 0.013600000000000001, "loss": 4.4245, "step": 960 }, { "epoch": 0.14, "learning_rate": 0.013533333333333333, "loss": 4.4529, "step": 970 }, { "epoch": 0.14, "learning_rate": 0.013466666666666667, "loss": 4.3509, "step": 980 }, { "epoch": 0.14, "learning_rate": 0.0134, "loss": 4.3997, "step": 990 }, { "epoch": 0.14, "learning_rate": 0.013333333333333332, "loss": 4.374, "step": 1000 }, { "epoch": 0.14, "learning_rate": 0.013266666666666666, "loss": 4.3492, "step": 1010 }, { "epoch": 0.14, "learning_rate": 0.013200000000000002, "loss": 4.3657, "step": 1020 }, { "epoch": 0.14, "learning_rate": 0.013133333333333332, "loss": 4.3626, "step": 1030 }, { "epoch": 0.15, "learning_rate": 0.013066666666666667, "loss": 4.3667, "step": 1040 }, { "epoch": 0.15, "learning_rate": 0.013000000000000001, "loss": 4.4296, "step": 1050 }, { "epoch": 0.15, "learning_rate": 0.012933333333333333, "loss": 4.3831, "step": 1060 }, { "epoch": 0.15, "learning_rate": 0.012866666666666667, "loss": 4.3336, "step": 1070 }, { "epoch": 0.15, "learning_rate": 0.0128, "loss": 4.3769, "step": 1080 }, { "epoch": 0.15, "learning_rate": 0.012733333333333334, "loss": 4.36, "step": 1090 }, { "epoch": 0.15, "learning_rate": 0.012666666666666666, "loss": 4.3591, "step": 1100 }, { "epoch": 0.15, "learning_rate": 0.0126, "loss": 4.4125, "step": 1110 }, { "epoch": 0.16, "learning_rate": 0.012533333333333334, "loss": 4.3879, "step": 1120 }, { "epoch": 0.16, "learning_rate": 0.012466666666666666, "loss": 4.3607, "step": 1130 }, { "epoch": 0.16, "learning_rate": 0.0124, "loss": 4.4118, "step": 1140 }, { "epoch": 0.16, "learning_rate": 0.012333333333333335, "loss": 4.3082, "step": 1150 }, { "epoch": 0.16, "learning_rate": 0.012266666666666665, "loss": 4.287, "step": 1160 }, { "epoch": 0.16, "learning_rate": 0.0122, "loss": 4.3417, "step": 1170 }, { "epoch": 0.16, "learning_rate": 0.012133333333333335, "loss": 4.2476, "step": 1180 }, { "epoch": 0.17, "learning_rate": 0.012066666666666668, "loss": 4.3127, "step": 1190 }, { "epoch": 0.17, "learning_rate": 0.012, "loss": 4.3429, "step": 1200 }, { "epoch": 0.17, "learning_rate": 0.011933333333333334, "loss": 4.2408, "step": 1210 }, { "epoch": 0.17, "learning_rate": 0.011866666666666668, "loss": 4.3378, "step": 1220 }, { "epoch": 0.17, "learning_rate": 0.0118, "loss": 4.4297, "step": 1230 }, { "epoch": 0.17, "learning_rate": 0.011733333333333333, "loss": 4.3244, "step": 1240 }, { "epoch": 0.17, "learning_rate": 0.011666666666666667, "loss": 4.4323, "step": 1250 }, { "epoch": 0.18, "learning_rate": 0.0116, "loss": 4.2787, "step": 1260 }, { "epoch": 0.18, "learning_rate": 0.011533333333333333, "loss": 4.2644, "step": 1270 }, { "epoch": 0.18, "learning_rate": 0.011466666666666667, "loss": 4.372, "step": 1280 }, { "epoch": 0.18, "learning_rate": 0.011399999999999999, "loss": 4.3774, "step": 1290 }, { "epoch": 0.18, "learning_rate": 0.011333333333333332, "loss": 4.3372, "step": 1300 }, { "epoch": 0.18, "learning_rate": 0.011266666666666668, "loss": 4.3823, "step": 1310 }, { "epoch": 0.18, "learning_rate": 0.011200000000000002, "loss": 4.3343, "step": 1320 }, { "epoch": 0.19, "learning_rate": 0.011133333333333334, "loss": 4.2203, "step": 1330 }, { "epoch": 0.19, "learning_rate": 0.011066666666666667, "loss": 4.2418, "step": 1340 }, { "epoch": 0.19, "learning_rate": 0.011000000000000001, "loss": 4.3764, "step": 1350 }, { "epoch": 0.19, "learning_rate": 0.010933333333333333, "loss": 4.309, "step": 1360 }, { "epoch": 0.19, "learning_rate": 0.010866666666666667, "loss": 4.3907, "step": 1370 }, { "epoch": 0.19, "learning_rate": 0.0108, "loss": 4.3096, "step": 1380 }, { "epoch": 0.19, "learning_rate": 0.010733333333333333, "loss": 4.2665, "step": 1390 }, { "epoch": 0.2, "learning_rate": 0.010666666666666666, "loss": 4.2569, "step": 1400 }, { "epoch": 0.2, "learning_rate": 0.0106, "loss": 4.3202, "step": 1410 }, { "epoch": 0.2, "learning_rate": 0.010533333333333332, "loss": 4.338, "step": 1420 }, { "epoch": 0.2, "learning_rate": 0.010466666666666666, "loss": 4.3256, "step": 1430 }, { "epoch": 0.2, "learning_rate": 0.010400000000000001, "loss": 4.2674, "step": 1440 }, { "epoch": 0.2, "learning_rate": 0.010333333333333335, "loss": 4.3574, "step": 1450 }, { "epoch": 0.2, "learning_rate": 0.010266666666666667, "loss": 4.2928, "step": 1460 }, { "epoch": 0.21, "learning_rate": 0.0102, "loss": 4.3733, "step": 1470 }, { "epoch": 0.21, "learning_rate": 0.010133333333333334, "loss": 4.2972, "step": 1480 }, { "epoch": 0.21, "learning_rate": 0.010066666666666666, "loss": 4.2665, "step": 1490 }, { "epoch": 0.21, "learning_rate": 0.01, "loss": 4.1333, "step": 1500 }, { "epoch": 0.21, "learning_rate": 0.009933333333333334, "loss": 4.2497, "step": 1510 }, { "epoch": 0.21, "learning_rate": 0.009866666666666668, "loss": 4.2816, "step": 1520 }, { "epoch": 0.21, "learning_rate": 0.0098, "loss": 4.3032, "step": 1530 }, { "epoch": 0.22, "learning_rate": 0.009733333333333333, "loss": 4.342, "step": 1540 }, { "epoch": 0.22, "learning_rate": 0.009666666666666667, "loss": 4.4099, "step": 1550 }, { "epoch": 0.22, "learning_rate": 0.0096, "loss": 4.26, "step": 1560 }, { "epoch": 0.22, "learning_rate": 0.009533333333333335, "loss": 4.2302, "step": 1570 }, { "epoch": 0.22, "learning_rate": 0.009466666666666667, "loss": 4.2708, "step": 1580 }, { "epoch": 0.22, "learning_rate": 0.0094, "loss": 4.3247, "step": 1590 }, { "epoch": 0.22, "learning_rate": 0.009333333333333334, "loss": 4.3749, "step": 1600 }, { "epoch": 0.22, "learning_rate": 0.009266666666666666, "loss": 4.3138, "step": 1610 }, { "epoch": 0.23, "learning_rate": 0.0092, "loss": 4.2585, "step": 1620 }, { "epoch": 0.23, "learning_rate": 0.009133333333333334, "loss": 4.3222, "step": 1630 }, { "epoch": 0.23, "learning_rate": 0.009066666666666666, "loss": 4.2409, "step": 1640 }, { "epoch": 0.23, "learning_rate": 0.009000000000000001, "loss": 4.2171, "step": 1650 }, { "epoch": 0.23, "learning_rate": 0.008933333333333333, "loss": 4.3067, "step": 1660 }, { "epoch": 0.23, "learning_rate": 0.008866666666666667, "loss": 4.2911, "step": 1670 }, { "epoch": 0.23, "learning_rate": 0.0088, "loss": 4.3508, "step": 1680 }, { "epoch": 0.24, "learning_rate": 0.008733333333333333, "loss": 4.3618, "step": 1690 }, { "epoch": 0.24, "learning_rate": 0.008666666666666668, "loss": 4.4098, "step": 1700 }, { "epoch": 0.24, "learning_rate": 0.0086, "loss": 4.3049, "step": 1710 }, { "epoch": 0.24, "learning_rate": 0.008533333333333334, "loss": 4.3161, "step": 1720 }, { "epoch": 0.24, "learning_rate": 0.008466666666666667, "loss": 4.2826, "step": 1730 }, { "epoch": 0.24, "learning_rate": 0.0084, "loss": 4.2415, "step": 1740 }, { "epoch": 0.24, "learning_rate": 0.008333333333333333, "loss": 4.3193, "step": 1750 }, { "epoch": 0.25, "learning_rate": 0.008266666666666667, "loss": 4.2242, "step": 1760 }, { "epoch": 0.25, "learning_rate": 0.008199999999999999, "loss": 4.2363, "step": 1770 }, { "epoch": 0.25, "learning_rate": 0.008133333333333334, "loss": 4.3742, "step": 1780 }, { "epoch": 0.25, "learning_rate": 0.008066666666666666, "loss": 4.2402, "step": 1790 }, { "epoch": 0.25, "learning_rate": 0.008, "loss": 4.1865, "step": 1800 }, { "epoch": 0.25, "learning_rate": 0.007933333333333334, "loss": 4.2293, "step": 1810 }, { "epoch": 0.25, "learning_rate": 0.007866666666666666, "loss": 4.3368, "step": 1820 }, { "epoch": 0.26, "learning_rate": 0.0078000000000000005, "loss": 4.2354, "step": 1830 }, { "epoch": 0.26, "learning_rate": 0.007733333333333333, "loss": 4.245, "step": 1840 }, { "epoch": 0.26, "learning_rate": 0.007666666666666667, "loss": 4.3676, "step": 1850 }, { "epoch": 0.26, "learning_rate": 0.0076, "loss": 4.2759, "step": 1860 }, { "epoch": 0.26, "learning_rate": 0.007533333333333333, "loss": 4.2842, "step": 1870 }, { "epoch": 0.26, "learning_rate": 0.0074666666666666675, "loss": 4.2555, "step": 1880 }, { "epoch": 0.26, "learning_rate": 0.0074, "loss": 4.274, "step": 1890 }, { "epoch": 0.27, "learning_rate": 0.007333333333333333, "loss": 4.212, "step": 1900 }, { "epoch": 0.27, "learning_rate": 0.007266666666666667, "loss": 4.2709, "step": 1910 }, { "epoch": 0.27, "learning_rate": 0.0072, "loss": 4.2349, "step": 1920 }, { "epoch": 0.27, "learning_rate": 0.0071333333333333335, "loss": 4.3479, "step": 1930 }, { "epoch": 0.27, "learning_rate": 0.007066666666666666, "loss": 4.2805, "step": 1940 }, { "epoch": 0.27, "learning_rate": 0.006999999999999999, "loss": 4.2147, "step": 1950 }, { "epoch": 0.27, "learning_rate": 0.006933333333333334, "loss": 4.3567, "step": 1960 }, { "epoch": 0.28, "learning_rate": 0.006866666666666667, "loss": 4.2515, "step": 1970 }, { "epoch": 0.28, "learning_rate": 0.0068000000000000005, "loss": 4.2705, "step": 1980 }, { "epoch": 0.28, "learning_rate": 0.006733333333333333, "loss": 4.2765, "step": 1990 }, { "epoch": 0.28, "learning_rate": 0.006666666666666666, "loss": 4.2554, "step": 2000 }, { "epoch": 0.28, "learning_rate": 0.006600000000000001, "loss": 4.284, "step": 2010 }, { "epoch": 0.28, "learning_rate": 0.006533333333333334, "loss": 4.2372, "step": 2020 }, { "epoch": 0.28, "learning_rate": 0.006466666666666667, "loss": 4.1838, "step": 2030 }, { "epoch": 0.28, "learning_rate": 0.0064, "loss": 4.3375, "step": 2040 }, { "epoch": 0.29, "learning_rate": 0.006333333333333333, "loss": 4.2264, "step": 2050 }, { "epoch": 0.29, "learning_rate": 0.006266666666666667, "loss": 4.2317, "step": 2060 }, { "epoch": 0.29, "learning_rate": 0.0062, "loss": 4.2542, "step": 2070 }, { "epoch": 0.29, "learning_rate": 0.006133333333333333, "loss": 4.3121, "step": 2080 }, { "epoch": 0.29, "learning_rate": 0.006066666666666667, "loss": 4.1947, "step": 2090 }, { "epoch": 0.29, "learning_rate": 0.006, "loss": 4.319, "step": 2100 }, { "epoch": 0.29, "learning_rate": 0.005933333333333334, "loss": 4.1753, "step": 2110 }, { "epoch": 0.3, "learning_rate": 0.005866666666666667, "loss": 4.0508, "step": 2120 }, { "epoch": 0.3, "learning_rate": 0.0058, "loss": 4.2185, "step": 2130 }, { "epoch": 0.3, "learning_rate": 0.005733333333333333, "loss": 4.2218, "step": 2140 }, { "epoch": 0.3, "learning_rate": 0.005666666666666666, "loss": 4.2197, "step": 2150 }, { "epoch": 0.3, "learning_rate": 0.005600000000000001, "loss": 4.27, "step": 2160 }, { "epoch": 0.3, "learning_rate": 0.005533333333333334, "loss": 4.2044, "step": 2170 }, { "epoch": 0.3, "learning_rate": 0.0054666666666666665, "loss": 4.2073, "step": 2180 }, { "epoch": 0.31, "learning_rate": 0.0054, "loss": 4.2359, "step": 2190 }, { "epoch": 0.31, "learning_rate": 0.005333333333333333, "loss": 4.2184, "step": 2200 }, { "epoch": 0.31, "learning_rate": 0.005266666666666666, "loss": 4.2501, "step": 2210 }, { "epoch": 0.31, "learning_rate": 0.005200000000000001, "loss": 4.2619, "step": 2220 }, { "epoch": 0.31, "learning_rate": 0.0051333333333333335, "loss": 4.2529, "step": 2230 }, { "epoch": 0.31, "learning_rate": 0.005066666666666667, "loss": 4.1966, "step": 2240 }, { "epoch": 0.31, "learning_rate": 0.005, "loss": 4.232, "step": 2250 }, { "epoch": 0.32, "learning_rate": 0.004933333333333334, "loss": 4.27, "step": 2260 }, { "epoch": 0.32, "learning_rate": 0.004866666666666667, "loss": 4.3078, "step": 2270 }, { "epoch": 0.32, "learning_rate": 0.0048, "loss": 4.2052, "step": 2280 }, { "epoch": 0.32, "learning_rate": 0.004733333333333333, "loss": 4.2445, "step": 2290 }, { "epoch": 0.32, "learning_rate": 0.004666666666666667, "loss": 4.2674, "step": 2300 }, { "epoch": 0.32, "learning_rate": 0.0046, "loss": 4.1429, "step": 2310 }, { "epoch": 0.32, "learning_rate": 0.004533333333333333, "loss": 4.2968, "step": 2320 }, { "epoch": 0.33, "learning_rate": 0.0044666666666666665, "loss": 4.1463, "step": 2330 }, { "epoch": 0.33, "learning_rate": 0.0044, "loss": 4.2368, "step": 2340 }, { "epoch": 0.33, "learning_rate": 0.004333333333333334, "loss": 4.2088, "step": 2350 }, { "epoch": 0.33, "learning_rate": 0.004266666666666667, "loss": 4.2387, "step": 2360 }, { "epoch": 0.33, "learning_rate": 0.0042, "loss": 4.2523, "step": 2370 }, { "epoch": 0.33, "learning_rate": 0.0041333333333333335, "loss": 4.2008, "step": 2380 }, { "epoch": 0.33, "learning_rate": 0.004066666666666667, "loss": 4.317, "step": 2390 }, { "epoch": 0.34, "learning_rate": 0.004, "loss": 4.2478, "step": 2400 }, { "epoch": 0.34, "learning_rate": 0.003933333333333333, "loss": 4.3108, "step": 2410 }, { "epoch": 0.34, "learning_rate": 0.0038666666666666667, "loss": 4.2346, "step": 2420 }, { "epoch": 0.34, "learning_rate": 0.0038, "loss": 4.145, "step": 2430 }, { "epoch": 0.34, "learning_rate": 0.0037333333333333337, "loss": 4.223, "step": 2440 }, { "epoch": 0.34, "learning_rate": 0.0036666666666666666, "loss": 4.2162, "step": 2450 }, { "epoch": 0.34, "learning_rate": 0.0036, "loss": 4.2363, "step": 2460 }, { "epoch": 0.34, "learning_rate": 0.003533333333333333, "loss": 4.2644, "step": 2470 }, { "epoch": 0.35, "learning_rate": 0.003466666666666667, "loss": 4.1643, "step": 2480 }, { "epoch": 0.35, "learning_rate": 0.0034000000000000002, "loss": 4.2057, "step": 2490 }, { "epoch": 0.35, "learning_rate": 0.003333333333333333, "loss": 4.2314, "step": 2500 }, { "epoch": 0.35, "learning_rate": 0.003266666666666667, "loss": 4.2705, "step": 2510 }, { "epoch": 0.35, "learning_rate": 0.0032, "loss": 4.2309, "step": 2520 }, { "epoch": 0.35, "learning_rate": 0.0031333333333333335, "loss": 4.2009, "step": 2530 }, { "epoch": 0.35, "learning_rate": 0.0030666666666666663, "loss": 4.1622, "step": 2540 }, { "epoch": 0.36, "learning_rate": 0.003, "loss": 4.2584, "step": 2550 }, { "epoch": 0.36, "learning_rate": 0.0029333333333333334, "loss": 4.2567, "step": 2560 }, { "epoch": 0.36, "learning_rate": 0.0028666666666666667, "loss": 4.26, "step": 2570 }, { "epoch": 0.36, "learning_rate": 0.0028000000000000004, "loss": 4.1409, "step": 2580 }, { "epoch": 0.36, "learning_rate": 0.0027333333333333333, "loss": 4.2, "step": 2590 }, { "epoch": 0.36, "learning_rate": 0.0026666666666666666, "loss": 4.2003, "step": 2600 }, { "epoch": 0.36, "learning_rate": 0.0026000000000000003, "loss": 4.1803, "step": 2610 }, { "epoch": 0.37, "learning_rate": 0.0025333333333333336, "loss": 4.148, "step": 2620 }, { "epoch": 0.37, "learning_rate": 0.002466666666666667, "loss": 4.2575, "step": 2630 }, { "epoch": 0.37, "learning_rate": 0.0024, "loss": 4.207, "step": 2640 }, { "epoch": 0.37, "learning_rate": 0.0023333333333333335, "loss": 4.217, "step": 2650 }, { "epoch": 0.37, "learning_rate": 0.0022666666666666664, "loss": 4.189, "step": 2660 }, { "epoch": 0.37, "learning_rate": 0.0022, "loss": 4.1061, "step": 2670 }, { "epoch": 0.37, "learning_rate": 0.0021333333333333334, "loss": 4.2077, "step": 2680 }, { "epoch": 0.38, "learning_rate": 0.0020666666666666667, "loss": 4.1984, "step": 2690 }, { "epoch": 0.38, "learning_rate": 0.002, "loss": 4.2469, "step": 2700 }, { "epoch": 0.38, "learning_rate": 0.0019333333333333333, "loss": 4.1721, "step": 2710 }, { "epoch": 0.38, "learning_rate": 0.0018666666666666669, "loss": 4.1631, "step": 2720 }, { "epoch": 0.38, "learning_rate": 0.0018, "loss": 4.3608, "step": 2730 }, { "epoch": 0.38, "learning_rate": 0.0017333333333333335, "loss": 4.1835, "step": 2740 }, { "epoch": 0.38, "learning_rate": 0.0016666666666666666, "loss": 4.1769, "step": 2750 }, { "epoch": 0.39, "learning_rate": 0.0016, "loss": 4.2351, "step": 2760 }, { "epoch": 0.39, "learning_rate": 0.0015333333333333332, "loss": 4.248, "step": 2770 }, { "epoch": 0.39, "learning_rate": 0.0014666666666666667, "loss": 4.2987, "step": 2780 }, { "epoch": 0.39, "learning_rate": 0.0014000000000000002, "loss": 4.2774, "step": 2790 }, { "epoch": 0.39, "learning_rate": 0.0013333333333333333, "loss": 4.229, "step": 2800 }, { "epoch": 0.39, "learning_rate": 0.0012666666666666668, "loss": 4.2186, "step": 2810 }, { "epoch": 0.39, "learning_rate": 0.0012, "loss": 4.2388, "step": 2820 }, { "epoch": 0.4, "learning_rate": 0.0011333333333333332, "loss": 4.1078, "step": 2830 }, { "epoch": 0.4, "learning_rate": 0.0010666666666666667, "loss": 4.1597, "step": 2840 }, { "epoch": 0.4, "learning_rate": 0.001, "loss": 4.2124, "step": 2850 }, { "epoch": 0.4, "learning_rate": 0.0009333333333333334, "loss": 4.1604, "step": 2860 }, { "epoch": 0.4, "learning_rate": 0.0008666666666666667, "loss": 4.1405, "step": 2870 }, { "epoch": 0.4, "learning_rate": 0.0008, "loss": 4.1741, "step": 2880 }, { "epoch": 0.4, "learning_rate": 0.0007333333333333333, "loss": 4.0945, "step": 2890 }, { "epoch": 0.4, "learning_rate": 0.0006666666666666666, "loss": 4.1799, "step": 2900 }, { "epoch": 0.41, "learning_rate": 0.0006, "loss": 4.1807, "step": 2910 }, { "epoch": 0.41, "learning_rate": 0.0005333333333333334, "loss": 4.1781, "step": 2920 }, { "epoch": 0.41, "learning_rate": 0.0004666666666666667, "loss": 4.1585, "step": 2930 }, { "epoch": 0.41, "learning_rate": 0.0004, "loss": 4.199, "step": 2940 }, { "epoch": 0.41, "learning_rate": 0.0003333333333333333, "loss": 4.2495, "step": 2950 }, { "epoch": 0.41, "learning_rate": 0.0002666666666666667, "loss": 4.2666, "step": 2960 }, { "epoch": 0.41, "learning_rate": 0.0002, "loss": 4.0738, "step": 2970 }, { "epoch": 0.42, "learning_rate": 0.00013333333333333334, "loss": 4.1684, "step": 2980 }, { "epoch": 0.42, "learning_rate": 6.666666666666667e-05, "loss": 4.1643, "step": 2990 }, { "epoch": 0.42, "learning_rate": 0.0, "loss": 4.0902, "step": 3000 } ], "max_steps": 3000, "num_train_epochs": 1, "total_flos": 1.03997163700224e+17, "trial_name": null, "trial_params": null }