{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.08, "eval_steps": 500, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 2.6666666666666667e-05, "grad_norm": 1.234375, "learning_rate": 1.0000000000000002e-06, "loss": 2.0543, "step": 1 }, { "epoch": 5.333333333333333e-05, "grad_norm": 1.265625, "learning_rate": 2.0000000000000003e-06, "loss": 1.8775, "step": 2 }, { "epoch": 8e-05, "grad_norm": 1.0625, "learning_rate": 3e-06, "loss": 1.5143, "step": 3 }, { "epoch": 0.00010666666666666667, "grad_norm": 1.5703125, "learning_rate": 4.000000000000001e-06, "loss": 1.6793, "step": 4 }, { "epoch": 0.00013333333333333334, "grad_norm": 1.4375, "learning_rate": 5e-06, "loss": 2.1411, "step": 5 }, { "epoch": 0.00016, "grad_norm": 1.5234375, "learning_rate": 6e-06, "loss": 1.9868, "step": 6 }, { "epoch": 0.00018666666666666666, "grad_norm": 1.6328125, "learning_rate": 7.000000000000001e-06, "loss": 1.8274, "step": 7 }, { "epoch": 0.00021333333333333333, "grad_norm": 2.140625, "learning_rate": 8.000000000000001e-06, "loss": 2.1104, "step": 8 }, { "epoch": 0.00024, "grad_norm": 1.53125, "learning_rate": 9e-06, "loss": 2.0808, "step": 9 }, { "epoch": 0.0002666666666666667, "grad_norm": 1.21875, "learning_rate": 1e-05, "loss": 1.8135, "step": 10 }, { "epoch": 0.0002933333333333333, "grad_norm": 1.90625, "learning_rate": 1.1000000000000001e-05, "loss": 1.882, "step": 11 }, { "epoch": 0.00032, "grad_norm": 1.546875, "learning_rate": 1.2e-05, "loss": 1.7732, "step": 12 }, { "epoch": 0.00034666666666666667, "grad_norm": 1.328125, "learning_rate": 1.3000000000000001e-05, "loss": 1.6041, "step": 13 }, { "epoch": 0.0003733333333333333, "grad_norm": 1.140625, "learning_rate": 1.4000000000000001e-05, "loss": 1.4583, "step": 14 }, { "epoch": 0.0004, "grad_norm": 1.1015625, "learning_rate": 1.5e-05, "loss": 1.8498, "step": 15 }, { "epoch": 0.00042666666666666667, "grad_norm": 1.625, "learning_rate": 1.6000000000000003e-05, "loss": 1.767, "step": 16 }, { "epoch": 0.0004533333333333333, "grad_norm": 1.921875, "learning_rate": 1.7000000000000003e-05, "loss": 2.0172, "step": 17 }, { "epoch": 0.00048, "grad_norm": 1.0625, "learning_rate": 1.8e-05, "loss": 1.552, "step": 18 }, { "epoch": 0.0005066666666666667, "grad_norm": 1.6796875, "learning_rate": 1.9e-05, "loss": 1.9645, "step": 19 }, { "epoch": 0.0005333333333333334, "grad_norm": 1.40625, "learning_rate": 2e-05, "loss": 1.9524, "step": 20 }, { "epoch": 0.00056, "grad_norm": 1.171875, "learning_rate": 2.1e-05, "loss": 1.7175, "step": 21 }, { "epoch": 0.0005866666666666667, "grad_norm": 1.921875, "learning_rate": 2.2000000000000003e-05, "loss": 1.9866, "step": 22 }, { "epoch": 0.0006133333333333334, "grad_norm": 1.203125, "learning_rate": 2.3000000000000003e-05, "loss": 1.8521, "step": 23 }, { "epoch": 0.00064, "grad_norm": 1.765625, "learning_rate": 2.4e-05, "loss": 2.0686, "step": 24 }, { "epoch": 0.0006666666666666666, "grad_norm": 1.2890625, "learning_rate": 2.5e-05, "loss": 1.5779, "step": 25 }, { "epoch": 0.0006933333333333333, "grad_norm": 1.328125, "learning_rate": 2.6000000000000002e-05, "loss": 1.4056, "step": 26 }, { "epoch": 0.00072, "grad_norm": 1.4375, "learning_rate": 2.7000000000000002e-05, "loss": 1.7264, "step": 27 }, { "epoch": 0.0007466666666666666, "grad_norm": 2.921875, "learning_rate": 2.8000000000000003e-05, "loss": 1.6427, "step": 28 }, { "epoch": 0.0007733333333333333, "grad_norm": 1.1328125, "learning_rate": 2.9e-05, "loss": 1.7336, "step": 29 }, { "epoch": 0.0008, "grad_norm": 1.859375, "learning_rate": 3e-05, "loss": 2.0158, "step": 30 }, { "epoch": 0.0008266666666666666, "grad_norm": 3.703125, "learning_rate": 3.1e-05, "loss": 2.2075, "step": 31 }, { "epoch": 0.0008533333333333333, "grad_norm": 1.90625, "learning_rate": 3.2000000000000005e-05, "loss": 1.8511, "step": 32 }, { "epoch": 0.00088, "grad_norm": 1.3671875, "learning_rate": 3.3e-05, "loss": 1.6825, "step": 33 }, { "epoch": 0.0009066666666666666, "grad_norm": 1.328125, "learning_rate": 3.4000000000000007e-05, "loss": 1.5274, "step": 34 }, { "epoch": 0.0009333333333333333, "grad_norm": 2.125, "learning_rate": 3.5e-05, "loss": 1.736, "step": 35 }, { "epoch": 0.00096, "grad_norm": 1.4765625, "learning_rate": 3.6e-05, "loss": 2.1845, "step": 36 }, { "epoch": 0.0009866666666666667, "grad_norm": 1.4296875, "learning_rate": 3.7e-05, "loss": 1.776, "step": 37 }, { "epoch": 0.0010133333333333333, "grad_norm": 1.640625, "learning_rate": 3.8e-05, "loss": 1.7937, "step": 38 }, { "epoch": 0.00104, "grad_norm": 0.890625, "learning_rate": 3.9000000000000006e-05, "loss": 1.6608, "step": 39 }, { "epoch": 0.0010666666666666667, "grad_norm": 1.3046875, "learning_rate": 4e-05, "loss": 1.5734, "step": 40 }, { "epoch": 0.0010933333333333333, "grad_norm": 1.6328125, "learning_rate": 4.1e-05, "loss": 1.8595, "step": 41 }, { "epoch": 0.00112, "grad_norm": 1.359375, "learning_rate": 4.2e-05, "loss": 1.0518, "step": 42 }, { "epoch": 0.0011466666666666667, "grad_norm": 1.3125, "learning_rate": 4.3e-05, "loss": 1.7251, "step": 43 }, { "epoch": 0.0011733333333333333, "grad_norm": 1.09375, "learning_rate": 4.4000000000000006e-05, "loss": 1.5273, "step": 44 }, { "epoch": 0.0012, "grad_norm": 1.03125, "learning_rate": 4.5e-05, "loss": 1.8053, "step": 45 }, { "epoch": 0.0012266666666666667, "grad_norm": 1.4140625, "learning_rate": 4.600000000000001e-05, "loss": 1.6833, "step": 46 }, { "epoch": 0.0012533333333333333, "grad_norm": 1.0546875, "learning_rate": 4.7e-05, "loss": 1.6437, "step": 47 }, { "epoch": 0.00128, "grad_norm": 1.125, "learning_rate": 4.8e-05, "loss": 1.6791, "step": 48 }, { "epoch": 0.0013066666666666667, "grad_norm": 1.2890625, "learning_rate": 4.9e-05, "loss": 1.7853, "step": 49 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.7421875, "learning_rate": 5e-05, "loss": 1.7093, "step": 50 }, { "epoch": 0.00136, "grad_norm": 1.2578125, "learning_rate": 5.1000000000000006e-05, "loss": 1.4798, "step": 51 }, { "epoch": 0.0013866666666666667, "grad_norm": 1.484375, "learning_rate": 5.2000000000000004e-05, "loss": 1.587, "step": 52 }, { "epoch": 0.0014133333333333333, "grad_norm": 1.4375, "learning_rate": 5.300000000000001e-05, "loss": 1.7362, "step": 53 }, { "epoch": 0.00144, "grad_norm": 1.0859375, "learning_rate": 5.4000000000000005e-05, "loss": 2.0556, "step": 54 }, { "epoch": 0.0014666666666666667, "grad_norm": 1.3203125, "learning_rate": 5.500000000000001e-05, "loss": 1.9384, "step": 55 }, { "epoch": 0.0014933333333333333, "grad_norm": 2.1875, "learning_rate": 5.6000000000000006e-05, "loss": 2.0937, "step": 56 }, { "epoch": 0.00152, "grad_norm": 1.59375, "learning_rate": 5.6999999999999996e-05, "loss": 1.6195, "step": 57 }, { "epoch": 0.0015466666666666667, "grad_norm": 1.2890625, "learning_rate": 5.8e-05, "loss": 1.5973, "step": 58 }, { "epoch": 0.0015733333333333333, "grad_norm": 1.265625, "learning_rate": 5.9e-05, "loss": 1.7423, "step": 59 }, { "epoch": 0.0016, "grad_norm": 1.0078125, "learning_rate": 6e-05, "loss": 1.8206, "step": 60 }, { "epoch": 0.0016266666666666667, "grad_norm": 0.99609375, "learning_rate": 6.1e-05, "loss": 1.6092, "step": 61 }, { "epoch": 0.0016533333333333333, "grad_norm": 1.1796875, "learning_rate": 6.2e-05, "loss": 1.497, "step": 62 }, { "epoch": 0.00168, "grad_norm": 1.5234375, "learning_rate": 6.3e-05, "loss": 1.6698, "step": 63 }, { "epoch": 0.0017066666666666667, "grad_norm": 1.5, "learning_rate": 6.400000000000001e-05, "loss": 1.8877, "step": 64 }, { "epoch": 0.0017333333333333333, "grad_norm": 1.15625, "learning_rate": 6.500000000000001e-05, "loss": 1.6832, "step": 65 }, { "epoch": 0.00176, "grad_norm": 1.078125, "learning_rate": 6.6e-05, "loss": 1.4364, "step": 66 }, { "epoch": 0.0017866666666666667, "grad_norm": 1.046875, "learning_rate": 6.7e-05, "loss": 1.9019, "step": 67 }, { "epoch": 0.0018133333333333332, "grad_norm": 1.453125, "learning_rate": 6.800000000000001e-05, "loss": 1.7715, "step": 68 }, { "epoch": 0.00184, "grad_norm": 0.921875, "learning_rate": 6.9e-05, "loss": 1.7423, "step": 69 }, { "epoch": 0.0018666666666666666, "grad_norm": 1.3671875, "learning_rate": 7e-05, "loss": 2.0202, "step": 70 }, { "epoch": 0.0018933333333333332, "grad_norm": 1.078125, "learning_rate": 7.1e-05, "loss": 1.3834, "step": 71 }, { "epoch": 0.00192, "grad_norm": 1.3125, "learning_rate": 7.2e-05, "loss": 1.8731, "step": 72 }, { "epoch": 0.0019466666666666666, "grad_norm": 1.5078125, "learning_rate": 7.3e-05, "loss": 1.3887, "step": 73 }, { "epoch": 0.0019733333333333334, "grad_norm": 1.34375, "learning_rate": 7.4e-05, "loss": 1.6483, "step": 74 }, { "epoch": 0.002, "grad_norm": 0.96484375, "learning_rate": 7.500000000000001e-05, "loss": 1.5747, "step": 75 }, { "epoch": 0.0020266666666666666, "grad_norm": 1.0625, "learning_rate": 7.6e-05, "loss": 1.3718, "step": 76 }, { "epoch": 0.0020533333333333332, "grad_norm": 0.9765625, "learning_rate": 7.7e-05, "loss": 1.7091, "step": 77 }, { "epoch": 0.00208, "grad_norm": 1.109375, "learning_rate": 7.800000000000001e-05, "loss": 1.4578, "step": 78 }, { "epoch": 0.002106666666666667, "grad_norm": 1.2578125, "learning_rate": 7.900000000000001e-05, "loss": 1.7306, "step": 79 }, { "epoch": 0.0021333333333333334, "grad_norm": 2.0625, "learning_rate": 8e-05, "loss": 1.7148, "step": 80 }, { "epoch": 0.00216, "grad_norm": 0.8671875, "learning_rate": 8.1e-05, "loss": 1.1959, "step": 81 }, { "epoch": 0.0021866666666666666, "grad_norm": 0.7421875, "learning_rate": 8.2e-05, "loss": 1.4683, "step": 82 }, { "epoch": 0.002213333333333333, "grad_norm": 0.94921875, "learning_rate": 8.3e-05, "loss": 1.519, "step": 83 }, { "epoch": 0.00224, "grad_norm": 1.1875, "learning_rate": 8.4e-05, "loss": 1.3938, "step": 84 }, { "epoch": 0.002266666666666667, "grad_norm": 1.4765625, "learning_rate": 8.5e-05, "loss": 1.6219, "step": 85 }, { "epoch": 0.0022933333333333334, "grad_norm": 0.9921875, "learning_rate": 8.6e-05, "loss": 1.5705, "step": 86 }, { "epoch": 0.00232, "grad_norm": 0.89453125, "learning_rate": 8.7e-05, "loss": 1.5433, "step": 87 }, { "epoch": 0.0023466666666666666, "grad_norm": 1.046875, "learning_rate": 8.800000000000001e-05, "loss": 1.2381, "step": 88 }, { "epoch": 0.002373333333333333, "grad_norm": 1.2734375, "learning_rate": 8.900000000000001e-05, "loss": 1.6263, "step": 89 }, { "epoch": 0.0024, "grad_norm": 2.34375, "learning_rate": 9e-05, "loss": 1.6519, "step": 90 }, { "epoch": 0.002426666666666667, "grad_norm": 0.828125, "learning_rate": 9.1e-05, "loss": 1.9444, "step": 91 }, { "epoch": 0.0024533333333333334, "grad_norm": 1.1875, "learning_rate": 9.200000000000001e-05, "loss": 1.6474, "step": 92 }, { "epoch": 0.00248, "grad_norm": 1.140625, "learning_rate": 9.300000000000001e-05, "loss": 1.6517, "step": 93 }, { "epoch": 0.0025066666666666666, "grad_norm": 0.9921875, "learning_rate": 9.4e-05, "loss": 1.3256, "step": 94 }, { "epoch": 0.002533333333333333, "grad_norm": 0.8359375, "learning_rate": 9.5e-05, "loss": 1.569, "step": 95 }, { "epoch": 0.00256, "grad_norm": 0.86328125, "learning_rate": 9.6e-05, "loss": 1.4042, "step": 96 }, { "epoch": 0.002586666666666667, "grad_norm": 0.8984375, "learning_rate": 9.7e-05, "loss": 1.5672, "step": 97 }, { "epoch": 0.0026133333333333334, "grad_norm": 0.875, "learning_rate": 9.8e-05, "loss": 1.678, "step": 98 }, { "epoch": 0.00264, "grad_norm": 0.80859375, "learning_rate": 9.900000000000001e-05, "loss": 1.4259, "step": 99 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.84375, "learning_rate": 0.0001, "loss": 1.4638, "step": 100 }, { "epoch": 0.002693333333333333, "grad_norm": 1.2890625, "learning_rate": 9.999497487437187e-05, "loss": 1.7384, "step": 101 }, { "epoch": 0.00272, "grad_norm": 3.703125, "learning_rate": 9.998994974874373e-05, "loss": 1.2284, "step": 102 }, { "epoch": 0.002746666666666667, "grad_norm": 0.81640625, "learning_rate": 9.998492462311558e-05, "loss": 1.5624, "step": 103 }, { "epoch": 0.0027733333333333334, "grad_norm": 0.984375, "learning_rate": 9.997989949748744e-05, "loss": 1.2504, "step": 104 }, { "epoch": 0.0028, "grad_norm": 0.9921875, "learning_rate": 9.99748743718593e-05, "loss": 1.4552, "step": 105 }, { "epoch": 0.0028266666666666666, "grad_norm": 0.86328125, "learning_rate": 9.996984924623116e-05, "loss": 1.458, "step": 106 }, { "epoch": 0.002853333333333333, "grad_norm": 0.9765625, "learning_rate": 9.996482412060301e-05, "loss": 1.423, "step": 107 }, { "epoch": 0.00288, "grad_norm": 0.7578125, "learning_rate": 9.995979899497487e-05, "loss": 1.4605, "step": 108 }, { "epoch": 0.0029066666666666668, "grad_norm": 0.78515625, "learning_rate": 9.995477386934674e-05, "loss": 1.2831, "step": 109 }, { "epoch": 0.0029333333333333334, "grad_norm": 0.8203125, "learning_rate": 9.99497487437186e-05, "loss": 1.6005, "step": 110 }, { "epoch": 0.00296, "grad_norm": 1.0859375, "learning_rate": 9.994472361809045e-05, "loss": 1.6893, "step": 111 }, { "epoch": 0.0029866666666666665, "grad_norm": 0.69140625, "learning_rate": 9.993969849246232e-05, "loss": 1.528, "step": 112 }, { "epoch": 0.003013333333333333, "grad_norm": 0.7421875, "learning_rate": 9.993467336683417e-05, "loss": 1.349, "step": 113 }, { "epoch": 0.00304, "grad_norm": 1.1640625, "learning_rate": 9.992964824120603e-05, "loss": 1.9702, "step": 114 }, { "epoch": 0.0030666666666666668, "grad_norm": 0.77734375, "learning_rate": 9.99246231155779e-05, "loss": 1.4164, "step": 115 }, { "epoch": 0.0030933333333333334, "grad_norm": 0.7421875, "learning_rate": 9.991959798994976e-05, "loss": 1.7361, "step": 116 }, { "epoch": 0.00312, "grad_norm": 0.73046875, "learning_rate": 9.99145728643216e-05, "loss": 1.5704, "step": 117 }, { "epoch": 0.0031466666666666665, "grad_norm": 0.671875, "learning_rate": 9.990954773869348e-05, "loss": 1.3745, "step": 118 }, { "epoch": 0.003173333333333333, "grad_norm": 0.703125, "learning_rate": 9.990452261306533e-05, "loss": 1.4891, "step": 119 }, { "epoch": 0.0032, "grad_norm": 0.69921875, "learning_rate": 9.989949748743719e-05, "loss": 1.4132, "step": 120 }, { "epoch": 0.0032266666666666667, "grad_norm": 1.0234375, "learning_rate": 9.989447236180905e-05, "loss": 1.8781, "step": 121 }, { "epoch": 0.0032533333333333333, "grad_norm": 0.8359375, "learning_rate": 9.988944723618092e-05, "loss": 1.4675, "step": 122 }, { "epoch": 0.00328, "grad_norm": 1.140625, "learning_rate": 9.988442211055276e-05, "loss": 1.639, "step": 123 }, { "epoch": 0.0033066666666666665, "grad_norm": 0.83984375, "learning_rate": 9.987939698492463e-05, "loss": 1.4446, "step": 124 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.59375, "learning_rate": 9.987437185929649e-05, "loss": 1.5208, "step": 125 }, { "epoch": 0.00336, "grad_norm": 0.78515625, "learning_rate": 9.986934673366835e-05, "loss": 1.2235, "step": 126 }, { "epoch": 0.0033866666666666667, "grad_norm": 0.84765625, "learning_rate": 9.98643216080402e-05, "loss": 1.6019, "step": 127 }, { "epoch": 0.0034133333333333333, "grad_norm": 1.234375, "learning_rate": 9.985929648241207e-05, "loss": 1.5165, "step": 128 }, { "epoch": 0.00344, "grad_norm": 0.921875, "learning_rate": 9.985427135678392e-05, "loss": 1.3078, "step": 129 }, { "epoch": 0.0034666666666666665, "grad_norm": 0.890625, "learning_rate": 9.984924623115578e-05, "loss": 1.6069, "step": 130 }, { "epoch": 0.0034933333333333335, "grad_norm": 0.6640625, "learning_rate": 9.984422110552765e-05, "loss": 1.3173, "step": 131 }, { "epoch": 0.00352, "grad_norm": 1.0625, "learning_rate": 9.983919597989951e-05, "loss": 1.2697, "step": 132 }, { "epoch": 0.0035466666666666667, "grad_norm": 0.7109375, "learning_rate": 9.983417085427136e-05, "loss": 1.546, "step": 133 }, { "epoch": 0.0035733333333333333, "grad_norm": 0.96875, "learning_rate": 9.982914572864322e-05, "loss": 1.3978, "step": 134 }, { "epoch": 0.0036, "grad_norm": 1.3046875, "learning_rate": 9.982412060301508e-05, "loss": 1.3278, "step": 135 }, { "epoch": 0.0036266666666666665, "grad_norm": 0.6640625, "learning_rate": 9.981909547738694e-05, "loss": 1.6247, "step": 136 }, { "epoch": 0.0036533333333333335, "grad_norm": 0.81640625, "learning_rate": 9.98140703517588e-05, "loss": 1.5339, "step": 137 }, { "epoch": 0.00368, "grad_norm": 0.91015625, "learning_rate": 9.980904522613065e-05, "loss": 1.4993, "step": 138 }, { "epoch": 0.0037066666666666667, "grad_norm": 1.1796875, "learning_rate": 9.980402010050252e-05, "loss": 1.6576, "step": 139 }, { "epoch": 0.0037333333333333333, "grad_norm": 0.9140625, "learning_rate": 9.979899497487438e-05, "loss": 1.4283, "step": 140 }, { "epoch": 0.00376, "grad_norm": 0.8671875, "learning_rate": 9.979396984924624e-05, "loss": 1.6094, "step": 141 }, { "epoch": 0.0037866666666666665, "grad_norm": 0.7109375, "learning_rate": 9.978894472361809e-05, "loss": 1.5906, "step": 142 }, { "epoch": 0.0038133333333333335, "grad_norm": 1.046875, "learning_rate": 9.978391959798995e-05, "loss": 1.1612, "step": 143 }, { "epoch": 0.00384, "grad_norm": 1.0078125, "learning_rate": 9.977889447236181e-05, "loss": 1.4377, "step": 144 }, { "epoch": 0.0038666666666666667, "grad_norm": 0.84765625, "learning_rate": 9.977386934673367e-05, "loss": 1.7958, "step": 145 }, { "epoch": 0.0038933333333333333, "grad_norm": 0.7265625, "learning_rate": 9.976884422110552e-05, "loss": 1.2925, "step": 146 }, { "epoch": 0.00392, "grad_norm": 1.0, "learning_rate": 9.97638190954774e-05, "loss": 1.2545, "step": 147 }, { "epoch": 0.003946666666666667, "grad_norm": 0.8359375, "learning_rate": 9.975879396984925e-05, "loss": 1.3715, "step": 148 }, { "epoch": 0.003973333333333333, "grad_norm": 0.74609375, "learning_rate": 9.975376884422111e-05, "loss": 1.4331, "step": 149 }, { "epoch": 0.004, "grad_norm": 0.96484375, "learning_rate": 9.974874371859297e-05, "loss": 1.3951, "step": 150 }, { "epoch": 0.004026666666666666, "grad_norm": 1.296875, "learning_rate": 9.974371859296483e-05, "loss": 1.5217, "step": 151 }, { "epoch": 0.004053333333333333, "grad_norm": 0.70703125, "learning_rate": 9.973869346733668e-05, "loss": 1.4833, "step": 152 }, { "epoch": 0.00408, "grad_norm": 0.65234375, "learning_rate": 9.973366834170856e-05, "loss": 1.5787, "step": 153 }, { "epoch": 0.0041066666666666665, "grad_norm": 0.66796875, "learning_rate": 9.97286432160804e-05, "loss": 1.3664, "step": 154 }, { "epoch": 0.0041333333333333335, "grad_norm": 0.97265625, "learning_rate": 9.972361809045227e-05, "loss": 1.4228, "step": 155 }, { "epoch": 0.00416, "grad_norm": 0.69921875, "learning_rate": 9.971859296482412e-05, "loss": 1.2868, "step": 156 }, { "epoch": 0.004186666666666667, "grad_norm": 1.25, "learning_rate": 9.971356783919599e-05, "loss": 1.3367, "step": 157 }, { "epoch": 0.004213333333333334, "grad_norm": 0.8046875, "learning_rate": 9.970854271356784e-05, "loss": 1.5293, "step": 158 }, { "epoch": 0.00424, "grad_norm": 0.57421875, "learning_rate": 9.97035175879397e-05, "loss": 1.3245, "step": 159 }, { "epoch": 0.004266666666666667, "grad_norm": 0.546875, "learning_rate": 9.969849246231156e-05, "loss": 1.1939, "step": 160 }, { "epoch": 0.004293333333333333, "grad_norm": 0.73828125, "learning_rate": 9.969346733668343e-05, "loss": 1.4575, "step": 161 }, { "epoch": 0.00432, "grad_norm": 0.74609375, "learning_rate": 9.968844221105527e-05, "loss": 1.4188, "step": 162 }, { "epoch": 0.004346666666666667, "grad_norm": 0.703125, "learning_rate": 9.968341708542715e-05, "loss": 1.5767, "step": 163 }, { "epoch": 0.004373333333333333, "grad_norm": 0.7890625, "learning_rate": 9.9678391959799e-05, "loss": 1.2974, "step": 164 }, { "epoch": 0.0044, "grad_norm": 0.81640625, "learning_rate": 9.967336683417086e-05, "loss": 1.1786, "step": 165 }, { "epoch": 0.004426666666666666, "grad_norm": 0.7578125, "learning_rate": 9.966834170854272e-05, "loss": 1.3845, "step": 166 }, { "epoch": 0.0044533333333333334, "grad_norm": 0.890625, "learning_rate": 9.966331658291458e-05, "loss": 1.191, "step": 167 }, { "epoch": 0.00448, "grad_norm": 0.96875, "learning_rate": 9.965829145728643e-05, "loss": 1.5553, "step": 168 }, { "epoch": 0.004506666666666667, "grad_norm": 0.9140625, "learning_rate": 9.96532663316583e-05, "loss": 1.6435, "step": 169 }, { "epoch": 0.004533333333333334, "grad_norm": 1.0, "learning_rate": 9.964824120603016e-05, "loss": 1.3114, "step": 170 }, { "epoch": 0.00456, "grad_norm": 0.62890625, "learning_rate": 9.964321608040202e-05, "loss": 1.3184, "step": 171 }, { "epoch": 0.004586666666666667, "grad_norm": 0.671875, "learning_rate": 9.963819095477387e-05, "loss": 1.3401, "step": 172 }, { "epoch": 0.004613333333333333, "grad_norm": 0.671875, "learning_rate": 9.963316582914573e-05, "loss": 1.3016, "step": 173 }, { "epoch": 0.00464, "grad_norm": 0.9296875, "learning_rate": 9.962814070351759e-05, "loss": 1.4719, "step": 174 }, { "epoch": 0.004666666666666667, "grad_norm": 0.74609375, "learning_rate": 9.962311557788945e-05, "loss": 1.5546, "step": 175 }, { "epoch": 0.004693333333333333, "grad_norm": 0.76953125, "learning_rate": 9.961809045226132e-05, "loss": 1.3355, "step": 176 }, { "epoch": 0.00472, "grad_norm": 0.671875, "learning_rate": 9.961306532663316e-05, "loss": 1.2095, "step": 177 }, { "epoch": 0.004746666666666666, "grad_norm": 0.8203125, "learning_rate": 9.960804020100503e-05, "loss": 1.159, "step": 178 }, { "epoch": 0.004773333333333333, "grad_norm": 0.828125, "learning_rate": 9.960301507537689e-05, "loss": 1.416, "step": 179 }, { "epoch": 0.0048, "grad_norm": 0.72265625, "learning_rate": 9.959798994974875e-05, "loss": 1.6408, "step": 180 }, { "epoch": 0.004826666666666667, "grad_norm": 0.73046875, "learning_rate": 9.95929648241206e-05, "loss": 1.29, "step": 181 }, { "epoch": 0.004853333333333334, "grad_norm": 0.6953125, "learning_rate": 9.958793969849247e-05, "loss": 1.7172, "step": 182 }, { "epoch": 0.00488, "grad_norm": 0.86328125, "learning_rate": 9.958291457286432e-05, "loss": 1.3481, "step": 183 }, { "epoch": 0.004906666666666667, "grad_norm": 0.765625, "learning_rate": 9.957788944723619e-05, "loss": 1.6088, "step": 184 }, { "epoch": 0.004933333333333333, "grad_norm": 0.7265625, "learning_rate": 9.957286432160805e-05, "loss": 1.433, "step": 185 }, { "epoch": 0.00496, "grad_norm": 0.7109375, "learning_rate": 9.956783919597991e-05, "loss": 1.5688, "step": 186 }, { "epoch": 0.004986666666666667, "grad_norm": 0.72265625, "learning_rate": 9.956281407035176e-05, "loss": 1.4585, "step": 187 }, { "epoch": 0.005013333333333333, "grad_norm": 1.7265625, "learning_rate": 9.955778894472362e-05, "loss": 1.3796, "step": 188 }, { "epoch": 0.00504, "grad_norm": 1.0703125, "learning_rate": 9.955276381909548e-05, "loss": 1.2399, "step": 189 }, { "epoch": 0.005066666666666666, "grad_norm": 0.87109375, "learning_rate": 9.954773869346734e-05, "loss": 1.428, "step": 190 }, { "epoch": 0.005093333333333333, "grad_norm": 0.65625, "learning_rate": 9.954271356783919e-05, "loss": 1.6296, "step": 191 }, { "epoch": 0.00512, "grad_norm": 0.5234375, "learning_rate": 9.953768844221107e-05, "loss": 1.3918, "step": 192 }, { "epoch": 0.005146666666666667, "grad_norm": 0.68359375, "learning_rate": 9.953266331658292e-05, "loss": 1.4326, "step": 193 }, { "epoch": 0.005173333333333334, "grad_norm": 0.6484375, "learning_rate": 9.952763819095478e-05, "loss": 1.1445, "step": 194 }, { "epoch": 0.0052, "grad_norm": 0.91015625, "learning_rate": 9.952261306532664e-05, "loss": 1.5661, "step": 195 }, { "epoch": 0.005226666666666667, "grad_norm": 0.703125, "learning_rate": 9.95175879396985e-05, "loss": 1.2216, "step": 196 }, { "epoch": 0.005253333333333333, "grad_norm": 0.7109375, "learning_rate": 9.951256281407035e-05, "loss": 1.4779, "step": 197 }, { "epoch": 0.00528, "grad_norm": 0.65625, "learning_rate": 9.950753768844223e-05, "loss": 1.3493, "step": 198 }, { "epoch": 0.005306666666666667, "grad_norm": 0.6875, "learning_rate": 9.950251256281408e-05, "loss": 1.3449, "step": 199 }, { "epoch": 0.005333333333333333, "grad_norm": 0.7734375, "learning_rate": 9.949748743718594e-05, "loss": 1.5144, "step": 200 }, { "epoch": 0.00536, "grad_norm": 0.9296875, "learning_rate": 9.94924623115578e-05, "loss": 1.4267, "step": 201 }, { "epoch": 0.005386666666666666, "grad_norm": 0.765625, "learning_rate": 9.948743718592966e-05, "loss": 1.4039, "step": 202 }, { "epoch": 0.005413333333333333, "grad_norm": 0.83984375, "learning_rate": 9.948241206030151e-05, "loss": 1.2587, "step": 203 }, { "epoch": 0.00544, "grad_norm": 0.5859375, "learning_rate": 9.947738693467337e-05, "loss": 1.3451, "step": 204 }, { "epoch": 0.0054666666666666665, "grad_norm": 0.94140625, "learning_rate": 9.947236180904523e-05, "loss": 1.3876, "step": 205 }, { "epoch": 0.005493333333333334, "grad_norm": 0.6953125, "learning_rate": 9.94673366834171e-05, "loss": 1.6201, "step": 206 }, { "epoch": 0.00552, "grad_norm": 0.62890625, "learning_rate": 9.946231155778894e-05, "loss": 1.4899, "step": 207 }, { "epoch": 0.005546666666666667, "grad_norm": 1.0625, "learning_rate": 9.94572864321608e-05, "loss": 1.2053, "step": 208 }, { "epoch": 0.005573333333333333, "grad_norm": 0.74609375, "learning_rate": 9.945226130653267e-05, "loss": 1.5572, "step": 209 }, { "epoch": 0.0056, "grad_norm": 0.55859375, "learning_rate": 9.944723618090453e-05, "loss": 1.1421, "step": 210 }, { "epoch": 0.005626666666666667, "grad_norm": 0.81640625, "learning_rate": 9.944221105527639e-05, "loss": 1.6573, "step": 211 }, { "epoch": 0.005653333333333333, "grad_norm": 0.59765625, "learning_rate": 9.943718592964824e-05, "loss": 1.3716, "step": 212 }, { "epoch": 0.00568, "grad_norm": 0.9453125, "learning_rate": 9.94321608040201e-05, "loss": 1.574, "step": 213 }, { "epoch": 0.005706666666666666, "grad_norm": 0.8984375, "learning_rate": 9.942713567839197e-05, "loss": 1.2326, "step": 214 }, { "epoch": 0.005733333333333333, "grad_norm": 0.703125, "learning_rate": 9.942211055276383e-05, "loss": 1.347, "step": 215 }, { "epoch": 0.00576, "grad_norm": 0.6484375, "learning_rate": 9.941708542713568e-05, "loss": 1.2251, "step": 216 }, { "epoch": 0.0057866666666666665, "grad_norm": 0.73828125, "learning_rate": 9.941206030150754e-05, "loss": 1.3863, "step": 217 }, { "epoch": 0.0058133333333333335, "grad_norm": 0.7265625, "learning_rate": 9.94070351758794e-05, "loss": 1.4812, "step": 218 }, { "epoch": 0.00584, "grad_norm": 0.98828125, "learning_rate": 9.940201005025126e-05, "loss": 1.5745, "step": 219 }, { "epoch": 0.005866666666666667, "grad_norm": 0.83203125, "learning_rate": 9.939698492462311e-05, "loss": 1.275, "step": 220 }, { "epoch": 0.005893333333333334, "grad_norm": 0.75390625, "learning_rate": 9.939195979899499e-05, "loss": 1.4572, "step": 221 }, { "epoch": 0.00592, "grad_norm": 1.03125, "learning_rate": 9.938693467336683e-05, "loss": 1.4736, "step": 222 }, { "epoch": 0.005946666666666667, "grad_norm": 0.67578125, "learning_rate": 9.93819095477387e-05, "loss": 1.5953, "step": 223 }, { "epoch": 0.005973333333333333, "grad_norm": 1.359375, "learning_rate": 9.937688442211056e-05, "loss": 1.3674, "step": 224 }, { "epoch": 0.006, "grad_norm": 0.625, "learning_rate": 9.937185929648242e-05, "loss": 1.6762, "step": 225 }, { "epoch": 0.006026666666666666, "grad_norm": 0.65625, "learning_rate": 9.936683417085427e-05, "loss": 1.6745, "step": 226 }, { "epoch": 0.006053333333333333, "grad_norm": 0.64453125, "learning_rate": 9.936180904522614e-05, "loss": 1.5903, "step": 227 }, { "epoch": 0.00608, "grad_norm": 1.1171875, "learning_rate": 9.935678391959799e-05, "loss": 1.6042, "step": 228 }, { "epoch": 0.0061066666666666665, "grad_norm": 0.78515625, "learning_rate": 9.935175879396985e-05, "loss": 1.6095, "step": 229 }, { "epoch": 0.0061333333333333335, "grad_norm": 0.87109375, "learning_rate": 9.934673366834172e-05, "loss": 1.5792, "step": 230 }, { "epoch": 0.00616, "grad_norm": 0.8046875, "learning_rate": 9.934170854271358e-05, "loss": 1.4368, "step": 231 }, { "epoch": 0.006186666666666667, "grad_norm": 0.578125, "learning_rate": 9.933668341708543e-05, "loss": 1.4752, "step": 232 }, { "epoch": 0.006213333333333334, "grad_norm": 0.7890625, "learning_rate": 9.933165829145729e-05, "loss": 1.2359, "step": 233 }, { "epoch": 0.00624, "grad_norm": 0.75, "learning_rate": 9.932663316582915e-05, "loss": 1.5339, "step": 234 }, { "epoch": 0.006266666666666667, "grad_norm": 0.859375, "learning_rate": 9.932160804020101e-05, "loss": 1.687, "step": 235 }, { "epoch": 0.006293333333333333, "grad_norm": 0.71484375, "learning_rate": 9.931658291457286e-05, "loss": 1.1993, "step": 236 }, { "epoch": 0.00632, "grad_norm": 0.61328125, "learning_rate": 9.931155778894474e-05, "loss": 1.3445, "step": 237 }, { "epoch": 0.006346666666666666, "grad_norm": 0.76953125, "learning_rate": 9.930653266331659e-05, "loss": 1.5138, "step": 238 }, { "epoch": 0.006373333333333333, "grad_norm": 0.58984375, "learning_rate": 9.930150753768845e-05, "loss": 1.3553, "step": 239 }, { "epoch": 0.0064, "grad_norm": 1.171875, "learning_rate": 9.929648241206031e-05, "loss": 1.6713, "step": 240 }, { "epoch": 0.0064266666666666665, "grad_norm": 0.64453125, "learning_rate": 9.929145728643217e-05, "loss": 1.2666, "step": 241 }, { "epoch": 0.0064533333333333335, "grad_norm": 0.6640625, "learning_rate": 9.928643216080402e-05, "loss": 1.4223, "step": 242 }, { "epoch": 0.00648, "grad_norm": 0.6171875, "learning_rate": 9.928140703517588e-05, "loss": 1.3897, "step": 243 }, { "epoch": 0.006506666666666667, "grad_norm": 0.703125, "learning_rate": 9.927638190954774e-05, "loss": 1.5738, "step": 244 }, { "epoch": 0.006533333333333334, "grad_norm": 0.67578125, "learning_rate": 9.927135678391961e-05, "loss": 1.2941, "step": 245 }, { "epoch": 0.00656, "grad_norm": 0.6953125, "learning_rate": 9.926633165829147e-05, "loss": 1.4216, "step": 246 }, { "epoch": 0.006586666666666667, "grad_norm": 0.66796875, "learning_rate": 9.926130653266332e-05, "loss": 1.4919, "step": 247 }, { "epoch": 0.006613333333333333, "grad_norm": 2.421875, "learning_rate": 9.925628140703518e-05, "loss": 1.3449, "step": 248 }, { "epoch": 0.00664, "grad_norm": 0.64453125, "learning_rate": 9.925125628140703e-05, "loss": 1.383, "step": 249 }, { "epoch": 0.006666666666666667, "grad_norm": 0.6796875, "learning_rate": 9.92462311557789e-05, "loss": 1.352, "step": 250 }, { "epoch": 0.006693333333333333, "grad_norm": 0.66796875, "learning_rate": 9.924120603015075e-05, "loss": 1.2192, "step": 251 }, { "epoch": 0.00672, "grad_norm": 0.65234375, "learning_rate": 9.923618090452261e-05, "loss": 1.5016, "step": 252 }, { "epoch": 0.0067466666666666664, "grad_norm": 0.625, "learning_rate": 9.923115577889448e-05, "loss": 1.3775, "step": 253 }, { "epoch": 0.0067733333333333335, "grad_norm": 0.734375, "learning_rate": 9.922613065326634e-05, "loss": 1.3494, "step": 254 }, { "epoch": 0.0068, "grad_norm": 0.734375, "learning_rate": 9.922110552763819e-05, "loss": 1.3683, "step": 255 }, { "epoch": 0.006826666666666667, "grad_norm": 0.58984375, "learning_rate": 9.921608040201006e-05, "loss": 0.9964, "step": 256 }, { "epoch": 0.006853333333333334, "grad_norm": 0.75390625, "learning_rate": 9.921105527638191e-05, "loss": 1.6976, "step": 257 }, { "epoch": 0.00688, "grad_norm": 0.65234375, "learning_rate": 9.920603015075377e-05, "loss": 1.6516, "step": 258 }, { "epoch": 0.006906666666666667, "grad_norm": 0.6953125, "learning_rate": 9.920100502512563e-05, "loss": 1.5133, "step": 259 }, { "epoch": 0.006933333333333333, "grad_norm": 0.796875, "learning_rate": 9.91959798994975e-05, "loss": 1.4517, "step": 260 }, { "epoch": 0.00696, "grad_norm": 0.69140625, "learning_rate": 9.919095477386935e-05, "loss": 1.0901, "step": 261 }, { "epoch": 0.006986666666666667, "grad_norm": 0.671875, "learning_rate": 9.918592964824122e-05, "loss": 1.5148, "step": 262 }, { "epoch": 0.007013333333333333, "grad_norm": 0.890625, "learning_rate": 9.918090452261307e-05, "loss": 1.3758, "step": 263 }, { "epoch": 0.00704, "grad_norm": 0.62109375, "learning_rate": 9.917587939698493e-05, "loss": 1.279, "step": 264 }, { "epoch": 0.007066666666666666, "grad_norm": 0.9453125, "learning_rate": 9.917085427135678e-05, "loss": 1.2284, "step": 265 }, { "epoch": 0.0070933333333333334, "grad_norm": 0.625, "learning_rate": 9.916582914572866e-05, "loss": 1.2727, "step": 266 }, { "epoch": 0.00712, "grad_norm": 0.921875, "learning_rate": 9.91608040201005e-05, "loss": 1.4938, "step": 267 }, { "epoch": 0.007146666666666667, "grad_norm": 0.9296875, "learning_rate": 9.915577889447237e-05, "loss": 1.5615, "step": 268 }, { "epoch": 0.007173333333333334, "grad_norm": 0.6640625, "learning_rate": 9.915075376884423e-05, "loss": 1.2249, "step": 269 }, { "epoch": 0.0072, "grad_norm": 0.578125, "learning_rate": 9.914572864321609e-05, "loss": 1.4414, "step": 270 }, { "epoch": 0.007226666666666667, "grad_norm": 0.59375, "learning_rate": 9.914070351758794e-05, "loss": 1.3823, "step": 271 }, { "epoch": 0.007253333333333333, "grad_norm": 0.61328125, "learning_rate": 9.913567839195981e-05, "loss": 1.1625, "step": 272 }, { "epoch": 0.00728, "grad_norm": 0.58203125, "learning_rate": 9.913065326633166e-05, "loss": 1.0628, "step": 273 }, { "epoch": 0.007306666666666667, "grad_norm": 0.609375, "learning_rate": 9.912562814070352e-05, "loss": 1.3324, "step": 274 }, { "epoch": 0.007333333333333333, "grad_norm": 0.61328125, "learning_rate": 9.912060301507539e-05, "loss": 1.5529, "step": 275 }, { "epoch": 0.00736, "grad_norm": 0.66796875, "learning_rate": 9.911557788944725e-05, "loss": 1.148, "step": 276 }, { "epoch": 0.007386666666666666, "grad_norm": 0.73828125, "learning_rate": 9.91105527638191e-05, "loss": 1.842, "step": 277 }, { "epoch": 0.007413333333333333, "grad_norm": 0.83203125, "learning_rate": 9.910552763819096e-05, "loss": 1.3925, "step": 278 }, { "epoch": 0.00744, "grad_norm": 0.75390625, "learning_rate": 9.910050251256282e-05, "loss": 1.2835, "step": 279 }, { "epoch": 0.007466666666666667, "grad_norm": 1.1171875, "learning_rate": 9.909547738693468e-05, "loss": 1.6619, "step": 280 }, { "epoch": 0.007493333333333334, "grad_norm": 0.77734375, "learning_rate": 9.909045226130653e-05, "loss": 1.4762, "step": 281 }, { "epoch": 0.00752, "grad_norm": 0.78515625, "learning_rate": 9.90854271356784e-05, "loss": 1.0147, "step": 282 }, { "epoch": 0.007546666666666667, "grad_norm": 0.640625, "learning_rate": 9.908040201005026e-05, "loss": 1.2288, "step": 283 }, { "epoch": 0.007573333333333333, "grad_norm": 0.9921875, "learning_rate": 9.90753768844221e-05, "loss": 1.743, "step": 284 }, { "epoch": 0.0076, "grad_norm": 0.69140625, "learning_rate": 9.907035175879398e-05, "loss": 1.6781, "step": 285 }, { "epoch": 0.007626666666666667, "grad_norm": 0.8125, "learning_rate": 9.906532663316583e-05, "loss": 1.4661, "step": 286 }, { "epoch": 0.007653333333333333, "grad_norm": 0.5703125, "learning_rate": 9.906030150753769e-05, "loss": 1.2207, "step": 287 }, { "epoch": 0.00768, "grad_norm": 0.6640625, "learning_rate": 9.905527638190955e-05, "loss": 1.4476, "step": 288 }, { "epoch": 0.007706666666666666, "grad_norm": 0.7734375, "learning_rate": 9.905025125628141e-05, "loss": 1.2824, "step": 289 }, { "epoch": 0.007733333333333333, "grad_norm": 0.94921875, "learning_rate": 9.904522613065326e-05, "loss": 1.315, "step": 290 }, { "epoch": 0.00776, "grad_norm": 0.7421875, "learning_rate": 9.904020100502514e-05, "loss": 1.4561, "step": 291 }, { "epoch": 0.0077866666666666666, "grad_norm": 0.77734375, "learning_rate": 9.903517587939699e-05, "loss": 1.6189, "step": 292 }, { "epoch": 0.007813333333333334, "grad_norm": 0.88671875, "learning_rate": 9.903015075376885e-05, "loss": 1.3952, "step": 293 }, { "epoch": 0.00784, "grad_norm": 0.6171875, "learning_rate": 9.902512562814071e-05, "loss": 1.3276, "step": 294 }, { "epoch": 0.007866666666666666, "grad_norm": 0.53125, "learning_rate": 9.902010050251257e-05, "loss": 1.2815, "step": 295 }, { "epoch": 0.007893333333333334, "grad_norm": 1.828125, "learning_rate": 9.901507537688442e-05, "loss": 1.2368, "step": 296 }, { "epoch": 0.00792, "grad_norm": 0.8515625, "learning_rate": 9.901005025125628e-05, "loss": 1.0168, "step": 297 }, { "epoch": 0.007946666666666666, "grad_norm": 0.6171875, "learning_rate": 9.900502512562815e-05, "loss": 1.6179, "step": 298 }, { "epoch": 0.007973333333333334, "grad_norm": 0.8125, "learning_rate": 9.900000000000001e-05, "loss": 1.3295, "step": 299 }, { "epoch": 0.008, "grad_norm": 0.7109375, "learning_rate": 9.899497487437186e-05, "loss": 1.5067, "step": 300 }, { "epoch": 0.008026666666666666, "grad_norm": 0.64453125, "learning_rate": 9.898994974874373e-05, "loss": 1.417, "step": 301 }, { "epoch": 0.008053333333333332, "grad_norm": 0.6953125, "learning_rate": 9.898492462311558e-05, "loss": 1.1937, "step": 302 }, { "epoch": 0.00808, "grad_norm": 0.6875, "learning_rate": 9.897989949748744e-05, "loss": 1.5965, "step": 303 }, { "epoch": 0.008106666666666667, "grad_norm": 0.6796875, "learning_rate": 9.89748743718593e-05, "loss": 1.1561, "step": 304 }, { "epoch": 0.008133333333333333, "grad_norm": 0.53125, "learning_rate": 9.896984924623117e-05, "loss": 1.1865, "step": 305 }, { "epoch": 0.00816, "grad_norm": 0.66015625, "learning_rate": 9.896482412060301e-05, "loss": 1.2954, "step": 306 }, { "epoch": 0.008186666666666667, "grad_norm": 0.84765625, "learning_rate": 9.895979899497489e-05, "loss": 1.4431, "step": 307 }, { "epoch": 0.008213333333333333, "grad_norm": 0.58203125, "learning_rate": 9.895477386934674e-05, "loss": 1.3977, "step": 308 }, { "epoch": 0.00824, "grad_norm": 0.84375, "learning_rate": 9.89497487437186e-05, "loss": 1.2262, "step": 309 }, { "epoch": 0.008266666666666667, "grad_norm": 0.671875, "learning_rate": 9.894472361809046e-05, "loss": 1.2643, "step": 310 }, { "epoch": 0.008293333333333333, "grad_norm": 0.78515625, "learning_rate": 9.893969849246232e-05, "loss": 1.5795, "step": 311 }, { "epoch": 0.00832, "grad_norm": 0.640625, "learning_rate": 9.893467336683417e-05, "loss": 1.1817, "step": 312 }, { "epoch": 0.008346666666666667, "grad_norm": 0.70703125, "learning_rate": 9.892964824120604e-05, "loss": 1.2694, "step": 313 }, { "epoch": 0.008373333333333333, "grad_norm": 0.83203125, "learning_rate": 9.89246231155779e-05, "loss": 1.1892, "step": 314 }, { "epoch": 0.0084, "grad_norm": 0.6875, "learning_rate": 9.891959798994975e-05, "loss": 1.5104, "step": 315 }, { "epoch": 0.008426666666666667, "grad_norm": 0.8203125, "learning_rate": 9.891457286432161e-05, "loss": 1.4881, "step": 316 }, { "epoch": 0.008453333333333334, "grad_norm": 0.75, "learning_rate": 9.890954773869347e-05, "loss": 1.6036, "step": 317 }, { "epoch": 0.00848, "grad_norm": 1.3203125, "learning_rate": 9.890452261306533e-05, "loss": 1.6213, "step": 318 }, { "epoch": 0.008506666666666666, "grad_norm": 0.68359375, "learning_rate": 9.889949748743718e-05, "loss": 1.5822, "step": 319 }, { "epoch": 0.008533333333333334, "grad_norm": 0.60546875, "learning_rate": 9.889447236180906e-05, "loss": 1.4947, "step": 320 }, { "epoch": 0.00856, "grad_norm": 0.71484375, "learning_rate": 9.88894472361809e-05, "loss": 1.3841, "step": 321 }, { "epoch": 0.008586666666666666, "grad_norm": 1.1015625, "learning_rate": 9.888442211055277e-05, "loss": 1.4236, "step": 322 }, { "epoch": 0.008613333333333334, "grad_norm": 2.53125, "learning_rate": 9.887939698492463e-05, "loss": 1.6149, "step": 323 }, { "epoch": 0.00864, "grad_norm": 1.4375, "learning_rate": 9.887437185929649e-05, "loss": 1.2976, "step": 324 }, { "epoch": 0.008666666666666666, "grad_norm": 0.58203125, "learning_rate": 9.886934673366834e-05, "loss": 1.4079, "step": 325 }, { "epoch": 0.008693333333333334, "grad_norm": 0.8125, "learning_rate": 9.886432160804021e-05, "loss": 1.2562, "step": 326 }, { "epoch": 0.00872, "grad_norm": 0.7265625, "learning_rate": 9.885929648241206e-05, "loss": 1.3111, "step": 327 }, { "epoch": 0.008746666666666666, "grad_norm": 0.796875, "learning_rate": 9.885427135678393e-05, "loss": 1.5197, "step": 328 }, { "epoch": 0.008773333333333333, "grad_norm": 0.86328125, "learning_rate": 9.884924623115577e-05, "loss": 1.1929, "step": 329 }, { "epoch": 0.0088, "grad_norm": 0.65625, "learning_rate": 9.884422110552765e-05, "loss": 1.5327, "step": 330 }, { "epoch": 0.008826666666666667, "grad_norm": 0.7734375, "learning_rate": 9.88391959798995e-05, "loss": 1.1054, "step": 331 }, { "epoch": 0.008853333333333333, "grad_norm": 0.68359375, "learning_rate": 9.883417085427136e-05, "loss": 1.2453, "step": 332 }, { "epoch": 0.00888, "grad_norm": 0.5625, "learning_rate": 9.882914572864322e-05, "loss": 1.2468, "step": 333 }, { "epoch": 0.008906666666666667, "grad_norm": 0.80078125, "learning_rate": 9.882412060301508e-05, "loss": 1.5969, "step": 334 }, { "epoch": 0.008933333333333333, "grad_norm": 0.625, "learning_rate": 9.881909547738693e-05, "loss": 1.5395, "step": 335 }, { "epoch": 0.00896, "grad_norm": 0.6015625, "learning_rate": 9.881407035175881e-05, "loss": 1.2784, "step": 336 }, { "epoch": 0.008986666666666667, "grad_norm": 0.765625, "learning_rate": 9.880904522613066e-05, "loss": 1.2737, "step": 337 }, { "epoch": 0.009013333333333333, "grad_norm": 0.6328125, "learning_rate": 9.880402010050252e-05, "loss": 1.2394, "step": 338 }, { "epoch": 0.00904, "grad_norm": 0.64453125, "learning_rate": 9.879899497487438e-05, "loss": 1.2411, "step": 339 }, { "epoch": 0.009066666666666667, "grad_norm": 0.6953125, "learning_rate": 9.879396984924624e-05, "loss": 1.6756, "step": 340 }, { "epoch": 0.009093333333333333, "grad_norm": 0.74609375, "learning_rate": 9.878894472361809e-05, "loss": 1.4151, "step": 341 }, { "epoch": 0.00912, "grad_norm": 0.76953125, "learning_rate": 9.878391959798995e-05, "loss": 1.4773, "step": 342 }, { "epoch": 0.009146666666666668, "grad_norm": 0.7109375, "learning_rate": 9.877889447236182e-05, "loss": 1.325, "step": 343 }, { "epoch": 0.009173333333333334, "grad_norm": 0.65234375, "learning_rate": 9.877386934673368e-05, "loss": 1.2497, "step": 344 }, { "epoch": 0.0092, "grad_norm": 0.5390625, "learning_rate": 9.876884422110553e-05, "loss": 1.178, "step": 345 }, { "epoch": 0.009226666666666666, "grad_norm": 0.5390625, "learning_rate": 9.87638190954774e-05, "loss": 1.0276, "step": 346 }, { "epoch": 0.009253333333333334, "grad_norm": 0.58984375, "learning_rate": 9.875879396984925e-05, "loss": 1.1824, "step": 347 }, { "epoch": 0.00928, "grad_norm": 0.58984375, "learning_rate": 9.875376884422111e-05, "loss": 1.3105, "step": 348 }, { "epoch": 0.009306666666666666, "grad_norm": 0.7109375, "learning_rate": 9.874874371859297e-05, "loss": 1.361, "step": 349 }, { "epoch": 0.009333333333333334, "grad_norm": 0.69140625, "learning_rate": 9.874371859296482e-05, "loss": 1.387, "step": 350 }, { "epoch": 0.00936, "grad_norm": 0.74609375, "learning_rate": 9.873869346733668e-05, "loss": 1.1026, "step": 351 }, { "epoch": 0.009386666666666666, "grad_norm": 0.8046875, "learning_rate": 9.873366834170855e-05, "loss": 1.5456, "step": 352 }, { "epoch": 0.009413333333333333, "grad_norm": 0.5234375, "learning_rate": 9.872864321608041e-05, "loss": 1.1934, "step": 353 }, { "epoch": 0.00944, "grad_norm": 0.50390625, "learning_rate": 9.872361809045226e-05, "loss": 1.2542, "step": 354 }, { "epoch": 0.009466666666666667, "grad_norm": 0.46484375, "learning_rate": 9.871859296482413e-05, "loss": 1.1359, "step": 355 }, { "epoch": 0.009493333333333333, "grad_norm": 0.67578125, "learning_rate": 9.871356783919598e-05, "loss": 1.0832, "step": 356 }, { "epoch": 0.00952, "grad_norm": 0.6875, "learning_rate": 9.870854271356784e-05, "loss": 1.4937, "step": 357 }, { "epoch": 0.009546666666666667, "grad_norm": 0.91796875, "learning_rate": 9.870351758793969e-05, "loss": 1.3795, "step": 358 }, { "epoch": 0.009573333333333333, "grad_norm": 0.5625, "learning_rate": 9.869849246231157e-05, "loss": 1.3774, "step": 359 }, { "epoch": 0.0096, "grad_norm": 0.78125, "learning_rate": 9.869346733668342e-05, "loss": 1.1621, "step": 360 }, { "epoch": 0.009626666666666667, "grad_norm": 0.60546875, "learning_rate": 9.868844221105528e-05, "loss": 1.4249, "step": 361 }, { "epoch": 0.009653333333333333, "grad_norm": 0.6796875, "learning_rate": 9.868341708542714e-05, "loss": 1.4179, "step": 362 }, { "epoch": 0.00968, "grad_norm": 0.63671875, "learning_rate": 9.8678391959799e-05, "loss": 1.4134, "step": 363 }, { "epoch": 0.009706666666666667, "grad_norm": 0.62109375, "learning_rate": 9.867336683417085e-05, "loss": 1.5895, "step": 364 }, { "epoch": 0.009733333333333333, "grad_norm": 0.59375, "learning_rate": 9.866834170854273e-05, "loss": 1.2519, "step": 365 }, { "epoch": 0.00976, "grad_norm": 0.494140625, "learning_rate": 9.866331658291457e-05, "loss": 1.3393, "step": 366 }, { "epoch": 0.009786666666666667, "grad_norm": 0.75, "learning_rate": 9.865829145728644e-05, "loss": 1.3682, "step": 367 }, { "epoch": 0.009813333333333334, "grad_norm": 0.71875, "learning_rate": 9.86532663316583e-05, "loss": 1.1906, "step": 368 }, { "epoch": 0.00984, "grad_norm": 0.57421875, "learning_rate": 9.864824120603016e-05, "loss": 1.364, "step": 369 }, { "epoch": 0.009866666666666666, "grad_norm": 0.625, "learning_rate": 9.864321608040201e-05, "loss": 1.3469, "step": 370 }, { "epoch": 0.009893333333333334, "grad_norm": 0.71484375, "learning_rate": 9.863819095477388e-05, "loss": 1.4546, "step": 371 }, { "epoch": 0.00992, "grad_norm": 0.6640625, "learning_rate": 9.863316582914573e-05, "loss": 1.4224, "step": 372 }, { "epoch": 0.009946666666666666, "grad_norm": 1.671875, "learning_rate": 9.86281407035176e-05, "loss": 1.4729, "step": 373 }, { "epoch": 0.009973333333333334, "grad_norm": 0.69140625, "learning_rate": 9.862311557788944e-05, "loss": 1.339, "step": 374 }, { "epoch": 0.01, "grad_norm": 0.7734375, "learning_rate": 9.861809045226132e-05, "loss": 1.4067, "step": 375 }, { "epoch": 0.010026666666666666, "grad_norm": 0.51171875, "learning_rate": 9.861306532663317e-05, "loss": 1.223, "step": 376 }, { "epoch": 0.010053333333333333, "grad_norm": 0.82421875, "learning_rate": 9.860804020100503e-05, "loss": 1.4767, "step": 377 }, { "epoch": 0.01008, "grad_norm": 0.66015625, "learning_rate": 9.860301507537689e-05, "loss": 1.3131, "step": 378 }, { "epoch": 0.010106666666666667, "grad_norm": 0.5703125, "learning_rate": 9.859798994974875e-05, "loss": 1.2998, "step": 379 }, { "epoch": 0.010133333333333333, "grad_norm": 0.671875, "learning_rate": 9.85929648241206e-05, "loss": 1.4585, "step": 380 }, { "epoch": 0.01016, "grad_norm": 1.125, "learning_rate": 9.858793969849246e-05, "loss": 1.7114, "step": 381 }, { "epoch": 0.010186666666666667, "grad_norm": 0.62109375, "learning_rate": 9.858291457286433e-05, "loss": 1.5555, "step": 382 }, { "epoch": 0.010213333333333333, "grad_norm": 0.84765625, "learning_rate": 9.857788944723619e-05, "loss": 1.3507, "step": 383 }, { "epoch": 0.01024, "grad_norm": 0.74609375, "learning_rate": 9.857286432160805e-05, "loss": 1.4239, "step": 384 }, { "epoch": 0.010266666666666667, "grad_norm": 0.66015625, "learning_rate": 9.85678391959799e-05, "loss": 1.3991, "step": 385 }, { "epoch": 0.010293333333333333, "grad_norm": 0.96484375, "learning_rate": 9.856281407035176e-05, "loss": 1.323, "step": 386 }, { "epoch": 0.01032, "grad_norm": 0.77734375, "learning_rate": 9.855778894472362e-05, "loss": 1.5028, "step": 387 }, { "epoch": 0.010346666666666667, "grad_norm": 0.73828125, "learning_rate": 9.855276381909548e-05, "loss": 1.3559, "step": 388 }, { "epoch": 0.010373333333333333, "grad_norm": 0.57421875, "learning_rate": 9.854773869346733e-05, "loss": 1.6353, "step": 389 }, { "epoch": 0.0104, "grad_norm": 0.90625, "learning_rate": 9.85427135678392e-05, "loss": 1.2066, "step": 390 }, { "epoch": 0.010426666666666667, "grad_norm": 0.703125, "learning_rate": 9.853768844221106e-05, "loss": 1.4343, "step": 391 }, { "epoch": 0.010453333333333334, "grad_norm": 0.83984375, "learning_rate": 9.853266331658292e-05, "loss": 1.1584, "step": 392 }, { "epoch": 0.01048, "grad_norm": 0.7109375, "learning_rate": 9.852763819095477e-05, "loss": 1.5354, "step": 393 }, { "epoch": 0.010506666666666666, "grad_norm": 0.74609375, "learning_rate": 9.852261306532664e-05, "loss": 1.1991, "step": 394 }, { "epoch": 0.010533333333333334, "grad_norm": 0.68359375, "learning_rate": 9.851758793969849e-05, "loss": 1.1606, "step": 395 }, { "epoch": 0.01056, "grad_norm": 0.71875, "learning_rate": 9.851256281407035e-05, "loss": 1.4575, "step": 396 }, { "epoch": 0.010586666666666666, "grad_norm": 0.734375, "learning_rate": 9.850753768844222e-05, "loss": 1.2941, "step": 397 }, { "epoch": 0.010613333333333334, "grad_norm": 0.53125, "learning_rate": 9.850251256281408e-05, "loss": 1.0651, "step": 398 }, { "epoch": 0.01064, "grad_norm": 0.8359375, "learning_rate": 9.849748743718593e-05, "loss": 1.4413, "step": 399 }, { "epoch": 0.010666666666666666, "grad_norm": 1.015625, "learning_rate": 9.84924623115578e-05, "loss": 1.2561, "step": 400 }, { "epoch": 0.010693333333333332, "grad_norm": 0.6328125, "learning_rate": 9.848743718592965e-05, "loss": 1.1882, "step": 401 }, { "epoch": 0.01072, "grad_norm": 0.57421875, "learning_rate": 9.848241206030151e-05, "loss": 1.2092, "step": 402 }, { "epoch": 0.010746666666666667, "grad_norm": 0.5234375, "learning_rate": 9.847738693467337e-05, "loss": 1.2956, "step": 403 }, { "epoch": 0.010773333333333333, "grad_norm": 0.68359375, "learning_rate": 9.847236180904524e-05, "loss": 1.5827, "step": 404 }, { "epoch": 0.0108, "grad_norm": 0.83203125, "learning_rate": 9.846733668341709e-05, "loss": 1.2314, "step": 405 }, { "epoch": 0.010826666666666667, "grad_norm": 0.6015625, "learning_rate": 9.846231155778895e-05, "loss": 1.3653, "step": 406 }, { "epoch": 0.010853333333333333, "grad_norm": 0.76171875, "learning_rate": 9.845728643216081e-05, "loss": 1.2085, "step": 407 }, { "epoch": 0.01088, "grad_norm": 0.6953125, "learning_rate": 9.845226130653267e-05, "loss": 1.6504, "step": 408 }, { "epoch": 0.010906666666666667, "grad_norm": 0.71484375, "learning_rate": 9.844723618090452e-05, "loss": 1.3013, "step": 409 }, { "epoch": 0.010933333333333333, "grad_norm": 0.8671875, "learning_rate": 9.84422110552764e-05, "loss": 1.3068, "step": 410 }, { "epoch": 0.01096, "grad_norm": 0.94921875, "learning_rate": 9.843718592964824e-05, "loss": 1.3636, "step": 411 }, { "epoch": 0.010986666666666667, "grad_norm": 0.63671875, "learning_rate": 9.84321608040201e-05, "loss": 1.1092, "step": 412 }, { "epoch": 0.011013333333333333, "grad_norm": 0.5390625, "learning_rate": 9.842713567839197e-05, "loss": 1.692, "step": 413 }, { "epoch": 0.01104, "grad_norm": 0.6484375, "learning_rate": 9.842211055276383e-05, "loss": 1.4205, "step": 414 }, { "epoch": 0.011066666666666667, "grad_norm": 0.47265625, "learning_rate": 9.841708542713568e-05, "loss": 1.4075, "step": 415 }, { "epoch": 0.011093333333333334, "grad_norm": 0.6953125, "learning_rate": 9.841206030150754e-05, "loss": 1.446, "step": 416 }, { "epoch": 0.01112, "grad_norm": 0.59765625, "learning_rate": 9.84070351758794e-05, "loss": 1.3335, "step": 417 }, { "epoch": 0.011146666666666666, "grad_norm": 1.1484375, "learning_rate": 9.840201005025126e-05, "loss": 1.5333, "step": 418 }, { "epoch": 0.011173333333333334, "grad_norm": 0.65234375, "learning_rate": 9.839698492462313e-05, "loss": 1.5907, "step": 419 }, { "epoch": 0.0112, "grad_norm": 2.40625, "learning_rate": 9.839195979899497e-05, "loss": 1.3635, "step": 420 }, { "epoch": 0.011226666666666666, "grad_norm": 0.67578125, "learning_rate": 9.838693467336684e-05, "loss": 1.4873, "step": 421 }, { "epoch": 0.011253333333333334, "grad_norm": 0.609375, "learning_rate": 9.83819095477387e-05, "loss": 1.3725, "step": 422 }, { "epoch": 0.01128, "grad_norm": 0.66796875, "learning_rate": 9.837688442211056e-05, "loss": 1.4428, "step": 423 }, { "epoch": 0.011306666666666666, "grad_norm": 0.921875, "learning_rate": 9.837185929648241e-05, "loss": 1.3589, "step": 424 }, { "epoch": 0.011333333333333334, "grad_norm": 0.68359375, "learning_rate": 9.836683417085427e-05, "loss": 1.5469, "step": 425 }, { "epoch": 0.01136, "grad_norm": 0.9375, "learning_rate": 9.836180904522613e-05, "loss": 1.1843, "step": 426 }, { "epoch": 0.011386666666666666, "grad_norm": 0.515625, "learning_rate": 9.8356783919598e-05, "loss": 1.1969, "step": 427 }, { "epoch": 0.011413333333333333, "grad_norm": 0.52734375, "learning_rate": 9.835175879396984e-05, "loss": 1.112, "step": 428 }, { "epoch": 0.01144, "grad_norm": 0.62890625, "learning_rate": 9.834673366834172e-05, "loss": 1.5133, "step": 429 }, { "epoch": 0.011466666666666667, "grad_norm": 0.63671875, "learning_rate": 9.834170854271357e-05, "loss": 1.4293, "step": 430 }, { "epoch": 0.011493333333333333, "grad_norm": 0.6875, "learning_rate": 9.833668341708543e-05, "loss": 1.3686, "step": 431 }, { "epoch": 0.01152, "grad_norm": 0.96875, "learning_rate": 9.833165829145729e-05, "loss": 1.1888, "step": 432 }, { "epoch": 0.011546666666666667, "grad_norm": 0.62890625, "learning_rate": 9.832663316582915e-05, "loss": 1.247, "step": 433 }, { "epoch": 0.011573333333333333, "grad_norm": 0.61328125, "learning_rate": 9.8321608040201e-05, "loss": 1.2992, "step": 434 }, { "epoch": 0.0116, "grad_norm": 0.6640625, "learning_rate": 9.831658291457288e-05, "loss": 1.1938, "step": 435 }, { "epoch": 0.011626666666666667, "grad_norm": 0.80078125, "learning_rate": 9.831155778894473e-05, "loss": 1.3447, "step": 436 }, { "epoch": 0.011653333333333333, "grad_norm": 0.671875, "learning_rate": 9.830653266331659e-05, "loss": 1.5565, "step": 437 }, { "epoch": 0.01168, "grad_norm": 0.69921875, "learning_rate": 9.830150753768844e-05, "loss": 1.2307, "step": 438 }, { "epoch": 0.011706666666666667, "grad_norm": 0.5859375, "learning_rate": 9.829648241206031e-05, "loss": 0.9142, "step": 439 }, { "epoch": 0.011733333333333333, "grad_norm": 0.6953125, "learning_rate": 9.829145728643216e-05, "loss": 1.6662, "step": 440 }, { "epoch": 0.01176, "grad_norm": 0.56640625, "learning_rate": 9.828643216080402e-05, "loss": 1.2092, "step": 441 }, { "epoch": 0.011786666666666668, "grad_norm": 0.6796875, "learning_rate": 9.828140703517589e-05, "loss": 1.2242, "step": 442 }, { "epoch": 0.011813333333333334, "grad_norm": 0.498046875, "learning_rate": 9.827638190954775e-05, "loss": 1.2433, "step": 443 }, { "epoch": 0.01184, "grad_norm": 0.7265625, "learning_rate": 9.82713567839196e-05, "loss": 1.435, "step": 444 }, { "epoch": 0.011866666666666666, "grad_norm": 0.6875, "learning_rate": 9.826633165829147e-05, "loss": 1.2332, "step": 445 }, { "epoch": 0.011893333333333334, "grad_norm": 0.6328125, "learning_rate": 9.826130653266332e-05, "loss": 1.3223, "step": 446 }, { "epoch": 0.01192, "grad_norm": 0.71875, "learning_rate": 9.825628140703518e-05, "loss": 1.4076, "step": 447 }, { "epoch": 0.011946666666666666, "grad_norm": 0.65234375, "learning_rate": 9.825125628140704e-05, "loss": 1.3927, "step": 448 }, { "epoch": 0.011973333333333334, "grad_norm": 0.62890625, "learning_rate": 9.82462311557789e-05, "loss": 1.033, "step": 449 }, { "epoch": 0.012, "grad_norm": 0.6875, "learning_rate": 9.824120603015075e-05, "loss": 1.1938, "step": 450 }, { "epoch": 0.012026666666666666, "grad_norm": 0.640625, "learning_rate": 9.823618090452262e-05, "loss": 1.2898, "step": 451 }, { "epoch": 0.012053333333333333, "grad_norm": 0.58984375, "learning_rate": 9.823115577889448e-05, "loss": 1.4219, "step": 452 }, { "epoch": 0.01208, "grad_norm": 0.65625, "learning_rate": 9.822613065326634e-05, "loss": 1.3438, "step": 453 }, { "epoch": 0.012106666666666667, "grad_norm": 0.58203125, "learning_rate": 9.822110552763819e-05, "loss": 1.3857, "step": 454 }, { "epoch": 0.012133333333333333, "grad_norm": 0.59765625, "learning_rate": 9.821608040201005e-05, "loss": 1.3732, "step": 455 }, { "epoch": 0.01216, "grad_norm": 0.9453125, "learning_rate": 9.821105527638191e-05, "loss": 1.3522, "step": 456 }, { "epoch": 0.012186666666666667, "grad_norm": 0.6171875, "learning_rate": 9.820603015075378e-05, "loss": 1.1942, "step": 457 }, { "epoch": 0.012213333333333333, "grad_norm": 0.7578125, "learning_rate": 9.820100502512564e-05, "loss": 1.2084, "step": 458 }, { "epoch": 0.01224, "grad_norm": 0.70703125, "learning_rate": 9.819597989949749e-05, "loss": 1.231, "step": 459 }, { "epoch": 0.012266666666666667, "grad_norm": 0.83203125, "learning_rate": 9.819095477386935e-05, "loss": 1.4392, "step": 460 }, { "epoch": 0.012293333333333333, "grad_norm": 0.73828125, "learning_rate": 9.818592964824121e-05, "loss": 1.4179, "step": 461 }, { "epoch": 0.01232, "grad_norm": 0.6875, "learning_rate": 9.818090452261307e-05, "loss": 1.4351, "step": 462 }, { "epoch": 0.012346666666666667, "grad_norm": 0.5703125, "learning_rate": 9.817587939698492e-05, "loss": 1.3217, "step": 463 }, { "epoch": 0.012373333333333333, "grad_norm": 0.86328125, "learning_rate": 9.81708542713568e-05, "loss": 1.4013, "step": 464 }, { "epoch": 0.0124, "grad_norm": 0.8203125, "learning_rate": 9.816582914572864e-05, "loss": 1.5006, "step": 465 }, { "epoch": 0.012426666666666667, "grad_norm": 0.5078125, "learning_rate": 9.81608040201005e-05, "loss": 1.2484, "step": 466 }, { "epoch": 0.012453333333333334, "grad_norm": 0.6328125, "learning_rate": 9.815577889447236e-05, "loss": 1.636, "step": 467 }, { "epoch": 0.01248, "grad_norm": 0.546875, "learning_rate": 9.815075376884423e-05, "loss": 1.2859, "step": 468 }, { "epoch": 0.012506666666666666, "grad_norm": 0.5234375, "learning_rate": 9.814572864321608e-05, "loss": 1.463, "step": 469 }, { "epoch": 0.012533333333333334, "grad_norm": 0.51171875, "learning_rate": 9.814070351758794e-05, "loss": 1.1548, "step": 470 }, { "epoch": 0.01256, "grad_norm": 0.8515625, "learning_rate": 9.81356783919598e-05, "loss": 1.229, "step": 471 }, { "epoch": 0.012586666666666666, "grad_norm": 0.61328125, "learning_rate": 9.813065326633167e-05, "loss": 1.5194, "step": 472 }, { "epoch": 0.012613333333333334, "grad_norm": 0.87109375, "learning_rate": 9.812562814070351e-05, "loss": 1.3216, "step": 473 }, { "epoch": 0.01264, "grad_norm": 0.79296875, "learning_rate": 9.812060301507539e-05, "loss": 1.3582, "step": 474 }, { "epoch": 0.012666666666666666, "grad_norm": 0.5703125, "learning_rate": 9.811557788944724e-05, "loss": 1.3168, "step": 475 }, { "epoch": 0.012693333333333333, "grad_norm": 0.55859375, "learning_rate": 9.81105527638191e-05, "loss": 1.4878, "step": 476 }, { "epoch": 0.01272, "grad_norm": 0.58203125, "learning_rate": 9.810552763819096e-05, "loss": 1.4159, "step": 477 }, { "epoch": 0.012746666666666667, "grad_norm": 0.75390625, "learning_rate": 9.810050251256282e-05, "loss": 1.7695, "step": 478 }, { "epoch": 0.012773333333333333, "grad_norm": 1.5703125, "learning_rate": 9.809547738693467e-05, "loss": 1.2414, "step": 479 }, { "epoch": 0.0128, "grad_norm": 0.63671875, "learning_rate": 9.809045226130655e-05, "loss": 1.2744, "step": 480 }, { "epoch": 0.012826666666666667, "grad_norm": 0.71875, "learning_rate": 9.80854271356784e-05, "loss": 1.3514, "step": 481 }, { "epoch": 0.012853333333333333, "grad_norm": 0.61328125, "learning_rate": 9.808040201005026e-05, "loss": 1.5071, "step": 482 }, { "epoch": 0.01288, "grad_norm": 0.65625, "learning_rate": 9.807537688442211e-05, "loss": 1.2896, "step": 483 }, { "epoch": 0.012906666666666667, "grad_norm": 0.72265625, "learning_rate": 9.807035175879398e-05, "loss": 1.6965, "step": 484 }, { "epoch": 0.012933333333333333, "grad_norm": 0.671875, "learning_rate": 9.806532663316583e-05, "loss": 1.2084, "step": 485 }, { "epoch": 0.01296, "grad_norm": 1.3203125, "learning_rate": 9.806030150753769e-05, "loss": 1.4171, "step": 486 }, { "epoch": 0.012986666666666667, "grad_norm": 1.3984375, "learning_rate": 9.805527638190956e-05, "loss": 1.2872, "step": 487 }, { "epoch": 0.013013333333333333, "grad_norm": 0.6328125, "learning_rate": 9.805025125628142e-05, "loss": 1.3838, "step": 488 }, { "epoch": 0.01304, "grad_norm": 0.75, "learning_rate": 9.804522613065327e-05, "loss": 1.384, "step": 489 }, { "epoch": 0.013066666666666667, "grad_norm": 0.6328125, "learning_rate": 9.804020100502513e-05, "loss": 1.0593, "step": 490 }, { "epoch": 0.013093333333333334, "grad_norm": 0.6015625, "learning_rate": 9.803517587939699e-05, "loss": 1.3642, "step": 491 }, { "epoch": 0.01312, "grad_norm": 0.6640625, "learning_rate": 9.803015075376885e-05, "loss": 1.3962, "step": 492 }, { "epoch": 0.013146666666666666, "grad_norm": 0.6953125, "learning_rate": 9.802512562814071e-05, "loss": 1.1958, "step": 493 }, { "epoch": 0.013173333333333334, "grad_norm": 0.7890625, "learning_rate": 9.802010050251256e-05, "loss": 1.4142, "step": 494 }, { "epoch": 0.0132, "grad_norm": 0.6484375, "learning_rate": 9.801507537688442e-05, "loss": 1.6125, "step": 495 }, { "epoch": 0.013226666666666666, "grad_norm": 0.734375, "learning_rate": 9.801005025125629e-05, "loss": 1.2727, "step": 496 }, { "epoch": 0.013253333333333334, "grad_norm": 0.6328125, "learning_rate": 9.800502512562815e-05, "loss": 1.3119, "step": 497 }, { "epoch": 0.01328, "grad_norm": 0.8359375, "learning_rate": 9.8e-05, "loss": 1.4058, "step": 498 }, { "epoch": 0.013306666666666666, "grad_norm": 0.68359375, "learning_rate": 9.799497487437186e-05, "loss": 1.1807, "step": 499 }, { "epoch": 0.013333333333333334, "grad_norm": 0.97265625, "learning_rate": 9.798994974874372e-05, "loss": 1.2822, "step": 500 }, { "epoch": 0.01336, "grad_norm": 0.625, "learning_rate": 9.798492462311558e-05, "loss": 1.5514, "step": 501 }, { "epoch": 0.013386666666666667, "grad_norm": 0.640625, "learning_rate": 9.797989949748743e-05, "loss": 1.33, "step": 502 }, { "epoch": 0.013413333333333333, "grad_norm": 0.5703125, "learning_rate": 9.797487437185931e-05, "loss": 1.002, "step": 503 }, { "epoch": 0.01344, "grad_norm": 0.6953125, "learning_rate": 9.796984924623116e-05, "loss": 1.3291, "step": 504 }, { "epoch": 0.013466666666666667, "grad_norm": 0.94921875, "learning_rate": 9.796482412060302e-05, "loss": 1.47, "step": 505 }, { "epoch": 0.013493333333333333, "grad_norm": 0.6328125, "learning_rate": 9.795979899497488e-05, "loss": 1.4737, "step": 506 }, { "epoch": 0.01352, "grad_norm": 0.9140625, "learning_rate": 9.795477386934674e-05, "loss": 1.3577, "step": 507 }, { "epoch": 0.013546666666666667, "grad_norm": 0.60546875, "learning_rate": 9.794974874371859e-05, "loss": 1.5004, "step": 508 }, { "epoch": 0.013573333333333333, "grad_norm": 0.82421875, "learning_rate": 9.794472361809047e-05, "loss": 1.3675, "step": 509 }, { "epoch": 0.0136, "grad_norm": 0.58203125, "learning_rate": 9.793969849246231e-05, "loss": 1.549, "step": 510 }, { "epoch": 0.013626666666666667, "grad_norm": 0.7421875, "learning_rate": 9.793467336683418e-05, "loss": 1.1657, "step": 511 }, { "epoch": 0.013653333333333333, "grad_norm": 0.64453125, "learning_rate": 9.792964824120604e-05, "loss": 1.4993, "step": 512 }, { "epoch": 0.01368, "grad_norm": 0.515625, "learning_rate": 9.79246231155779e-05, "loss": 1.0853, "step": 513 }, { "epoch": 0.013706666666666667, "grad_norm": 0.60546875, "learning_rate": 9.791959798994975e-05, "loss": 1.2645, "step": 514 }, { "epoch": 0.013733333333333334, "grad_norm": 0.82421875, "learning_rate": 9.791457286432161e-05, "loss": 1.4429, "step": 515 }, { "epoch": 0.01376, "grad_norm": 0.85546875, "learning_rate": 9.790954773869347e-05, "loss": 1.4952, "step": 516 }, { "epoch": 0.013786666666666666, "grad_norm": 0.765625, "learning_rate": 9.790452261306533e-05, "loss": 1.5046, "step": 517 }, { "epoch": 0.013813333333333334, "grad_norm": 1.2421875, "learning_rate": 9.789949748743718e-05, "loss": 1.4123, "step": 518 }, { "epoch": 0.01384, "grad_norm": 0.7265625, "learning_rate": 9.789447236180906e-05, "loss": 1.0883, "step": 519 }, { "epoch": 0.013866666666666666, "grad_norm": 0.52734375, "learning_rate": 9.788944723618091e-05, "loss": 1.136, "step": 520 }, { "epoch": 0.013893333333333334, "grad_norm": 0.55859375, "learning_rate": 9.788442211055277e-05, "loss": 1.0754, "step": 521 }, { "epoch": 0.01392, "grad_norm": 0.61328125, "learning_rate": 9.787939698492463e-05, "loss": 1.379, "step": 522 }, { "epoch": 0.013946666666666666, "grad_norm": 0.6875, "learning_rate": 9.78743718592965e-05, "loss": 1.2108, "step": 523 }, { "epoch": 0.013973333333333334, "grad_norm": 0.63671875, "learning_rate": 9.786934673366834e-05, "loss": 1.2519, "step": 524 }, { "epoch": 0.014, "grad_norm": 0.74609375, "learning_rate": 9.78643216080402e-05, "loss": 1.6748, "step": 525 }, { "epoch": 0.014026666666666666, "grad_norm": 0.6015625, "learning_rate": 9.785929648241207e-05, "loss": 1.5879, "step": 526 }, { "epoch": 0.014053333333333333, "grad_norm": 0.64453125, "learning_rate": 9.785427135678393e-05, "loss": 1.1141, "step": 527 }, { "epoch": 0.01408, "grad_norm": 0.67578125, "learning_rate": 9.784924623115579e-05, "loss": 0.9671, "step": 528 }, { "epoch": 0.014106666666666667, "grad_norm": 0.6015625, "learning_rate": 9.784422110552764e-05, "loss": 1.2362, "step": 529 }, { "epoch": 0.014133333333333333, "grad_norm": 0.46875, "learning_rate": 9.78391959798995e-05, "loss": 1.3319, "step": 530 }, { "epoch": 0.01416, "grad_norm": 0.72265625, "learning_rate": 9.783417085427136e-05, "loss": 1.756, "step": 531 }, { "epoch": 0.014186666666666667, "grad_norm": 0.75390625, "learning_rate": 9.782914572864322e-05, "loss": 1.7915, "step": 532 }, { "epoch": 0.014213333333333333, "grad_norm": 0.703125, "learning_rate": 9.782412060301507e-05, "loss": 1.3103, "step": 533 }, { "epoch": 0.01424, "grad_norm": 0.6953125, "learning_rate": 9.781909547738694e-05, "loss": 1.1953, "step": 534 }, { "epoch": 0.014266666666666667, "grad_norm": 0.640625, "learning_rate": 9.78140703517588e-05, "loss": 1.1369, "step": 535 }, { "epoch": 0.014293333333333333, "grad_norm": 0.65625, "learning_rate": 9.780904522613066e-05, "loss": 1.2355, "step": 536 }, { "epoch": 0.01432, "grad_norm": 0.7421875, "learning_rate": 9.780402010050251e-05, "loss": 1.1553, "step": 537 }, { "epoch": 0.014346666666666667, "grad_norm": 0.640625, "learning_rate": 9.779899497487438e-05, "loss": 1.4532, "step": 538 }, { "epoch": 0.014373333333333333, "grad_norm": 0.6796875, "learning_rate": 9.779396984924623e-05, "loss": 1.1511, "step": 539 }, { "epoch": 0.0144, "grad_norm": 0.734375, "learning_rate": 9.77889447236181e-05, "loss": 1.4096, "step": 540 }, { "epoch": 0.014426666666666667, "grad_norm": 0.7578125, "learning_rate": 9.778391959798996e-05, "loss": 1.18, "step": 541 }, { "epoch": 0.014453333333333334, "grad_norm": 0.6953125, "learning_rate": 9.777889447236182e-05, "loss": 1.271, "step": 542 }, { "epoch": 0.01448, "grad_norm": 0.5546875, "learning_rate": 9.777386934673367e-05, "loss": 1.2963, "step": 543 }, { "epoch": 0.014506666666666666, "grad_norm": 0.60546875, "learning_rate": 9.776884422110554e-05, "loss": 1.5885, "step": 544 }, { "epoch": 0.014533333333333334, "grad_norm": 0.64453125, "learning_rate": 9.776381909547739e-05, "loss": 1.2833, "step": 545 }, { "epoch": 0.01456, "grad_norm": 0.5625, "learning_rate": 9.775879396984925e-05, "loss": 1.6072, "step": 546 }, { "epoch": 0.014586666666666666, "grad_norm": 0.6640625, "learning_rate": 9.77537688442211e-05, "loss": 1.3284, "step": 547 }, { "epoch": 0.014613333333333334, "grad_norm": 0.4609375, "learning_rate": 9.774874371859298e-05, "loss": 1.3578, "step": 548 }, { "epoch": 0.01464, "grad_norm": 0.52734375, "learning_rate": 9.774371859296483e-05, "loss": 1.1652, "step": 549 }, { "epoch": 0.014666666666666666, "grad_norm": 0.60546875, "learning_rate": 9.773869346733669e-05, "loss": 1.2322, "step": 550 }, { "epoch": 0.014693333333333333, "grad_norm": 0.546875, "learning_rate": 9.773366834170855e-05, "loss": 1.055, "step": 551 }, { "epoch": 0.01472, "grad_norm": 1.375, "learning_rate": 9.772864321608041e-05, "loss": 1.4294, "step": 552 }, { "epoch": 0.014746666666666667, "grad_norm": 0.59765625, "learning_rate": 9.772361809045226e-05, "loss": 1.3847, "step": 553 }, { "epoch": 0.014773333333333333, "grad_norm": 0.61328125, "learning_rate": 9.771859296482414e-05, "loss": 1.4731, "step": 554 }, { "epoch": 0.0148, "grad_norm": 1.0234375, "learning_rate": 9.771356783919598e-05, "loss": 1.4968, "step": 555 }, { "epoch": 0.014826666666666667, "grad_norm": 0.78515625, "learning_rate": 9.770854271356785e-05, "loss": 1.3108, "step": 556 }, { "epoch": 0.014853333333333333, "grad_norm": 0.546875, "learning_rate": 9.770351758793971e-05, "loss": 1.4347, "step": 557 }, { "epoch": 0.01488, "grad_norm": 0.65234375, "learning_rate": 9.769849246231157e-05, "loss": 1.2575, "step": 558 }, { "epoch": 0.014906666666666667, "grad_norm": 0.61328125, "learning_rate": 9.769346733668342e-05, "loss": 1.2934, "step": 559 }, { "epoch": 0.014933333333333333, "grad_norm": 0.60546875, "learning_rate": 9.768844221105528e-05, "loss": 1.3049, "step": 560 }, { "epoch": 0.01496, "grad_norm": 0.7265625, "learning_rate": 9.768341708542714e-05, "loss": 1.3045, "step": 561 }, { "epoch": 0.014986666666666667, "grad_norm": 1.6796875, "learning_rate": 9.7678391959799e-05, "loss": 1.2408, "step": 562 }, { "epoch": 0.015013333333333333, "grad_norm": 0.734375, "learning_rate": 9.767336683417085e-05, "loss": 1.2879, "step": 563 }, { "epoch": 0.01504, "grad_norm": 0.5625, "learning_rate": 9.766834170854271e-05, "loss": 1.3263, "step": 564 }, { "epoch": 0.015066666666666667, "grad_norm": 0.56640625, "learning_rate": 9.766331658291458e-05, "loss": 1.2617, "step": 565 }, { "epoch": 0.015093333333333334, "grad_norm": 0.69140625, "learning_rate": 9.765829145728644e-05, "loss": 1.0263, "step": 566 }, { "epoch": 0.01512, "grad_norm": 0.7109375, "learning_rate": 9.76532663316583e-05, "loss": 1.5802, "step": 567 }, { "epoch": 0.015146666666666666, "grad_norm": 0.55859375, "learning_rate": 9.764824120603015e-05, "loss": 1.3997, "step": 568 }, { "epoch": 0.015173333333333334, "grad_norm": 0.58203125, "learning_rate": 9.764321608040201e-05, "loss": 1.2991, "step": 569 }, { "epoch": 0.0152, "grad_norm": 0.72265625, "learning_rate": 9.763819095477387e-05, "loss": 1.2918, "step": 570 }, { "epoch": 0.015226666666666666, "grad_norm": 0.60546875, "learning_rate": 9.763316582914574e-05, "loss": 1.2849, "step": 571 }, { "epoch": 0.015253333333333334, "grad_norm": 0.5546875, "learning_rate": 9.762814070351758e-05, "loss": 1.3161, "step": 572 }, { "epoch": 0.01528, "grad_norm": 0.67578125, "learning_rate": 9.762311557788946e-05, "loss": 1.3947, "step": 573 }, { "epoch": 0.015306666666666666, "grad_norm": 0.58203125, "learning_rate": 9.761809045226131e-05, "loss": 1.4213, "step": 574 }, { "epoch": 0.015333333333333332, "grad_norm": 0.53515625, "learning_rate": 9.761306532663317e-05, "loss": 1.4346, "step": 575 }, { "epoch": 0.01536, "grad_norm": 0.76171875, "learning_rate": 9.760804020100502e-05, "loss": 1.3749, "step": 576 }, { "epoch": 0.015386666666666667, "grad_norm": 0.7890625, "learning_rate": 9.76030150753769e-05, "loss": 1.4447, "step": 577 }, { "epoch": 0.015413333333333333, "grad_norm": 0.859375, "learning_rate": 9.759798994974874e-05, "loss": 1.3542, "step": 578 }, { "epoch": 0.01544, "grad_norm": 0.62109375, "learning_rate": 9.75929648241206e-05, "loss": 1.5098, "step": 579 }, { "epoch": 0.015466666666666667, "grad_norm": 0.75390625, "learning_rate": 9.758793969849247e-05, "loss": 1.2388, "step": 580 }, { "epoch": 0.015493333333333333, "grad_norm": 0.81640625, "learning_rate": 9.758291457286433e-05, "loss": 1.704, "step": 581 }, { "epoch": 0.01552, "grad_norm": 0.5703125, "learning_rate": 9.757788944723618e-05, "loss": 1.2953, "step": 582 }, { "epoch": 0.015546666666666667, "grad_norm": 0.67578125, "learning_rate": 9.757286432160805e-05, "loss": 1.4905, "step": 583 }, { "epoch": 0.015573333333333333, "grad_norm": 0.640625, "learning_rate": 9.75678391959799e-05, "loss": 1.1801, "step": 584 }, { "epoch": 0.0156, "grad_norm": 0.7578125, "learning_rate": 9.756281407035176e-05, "loss": 1.2997, "step": 585 }, { "epoch": 0.015626666666666667, "grad_norm": 0.67578125, "learning_rate": 9.755778894472363e-05, "loss": 1.302, "step": 586 }, { "epoch": 0.01565333333333333, "grad_norm": 0.53515625, "learning_rate": 9.755276381909549e-05, "loss": 1.4089, "step": 587 }, { "epoch": 0.01568, "grad_norm": 0.6171875, "learning_rate": 9.754773869346734e-05, "loss": 1.3454, "step": 588 }, { "epoch": 0.015706666666666667, "grad_norm": 0.7890625, "learning_rate": 9.754271356783921e-05, "loss": 1.3143, "step": 589 }, { "epoch": 0.015733333333333332, "grad_norm": 0.71484375, "learning_rate": 9.753768844221106e-05, "loss": 1.1878, "step": 590 }, { "epoch": 0.01576, "grad_norm": 0.67578125, "learning_rate": 9.753266331658292e-05, "loss": 1.5691, "step": 591 }, { "epoch": 0.015786666666666668, "grad_norm": 0.73828125, "learning_rate": 9.752763819095477e-05, "loss": 1.1963, "step": 592 }, { "epoch": 0.015813333333333332, "grad_norm": 0.60546875, "learning_rate": 9.752261306532665e-05, "loss": 1.364, "step": 593 }, { "epoch": 0.01584, "grad_norm": 0.765625, "learning_rate": 9.75175879396985e-05, "loss": 1.3238, "step": 594 }, { "epoch": 0.015866666666666668, "grad_norm": 0.85546875, "learning_rate": 9.751256281407036e-05, "loss": 1.5313, "step": 595 }, { "epoch": 0.015893333333333332, "grad_norm": 0.73046875, "learning_rate": 9.750753768844222e-05, "loss": 1.4835, "step": 596 }, { "epoch": 0.01592, "grad_norm": 0.6171875, "learning_rate": 9.750251256281408e-05, "loss": 1.3215, "step": 597 }, { "epoch": 0.015946666666666668, "grad_norm": 0.62890625, "learning_rate": 9.749748743718593e-05, "loss": 1.3986, "step": 598 }, { "epoch": 0.015973333333333332, "grad_norm": 0.9765625, "learning_rate": 9.749246231155779e-05, "loss": 1.5367, "step": 599 }, { "epoch": 0.016, "grad_norm": 1.0390625, "learning_rate": 9.748743718592965e-05, "loss": 1.0533, "step": 600 }, { "epoch": 0.016026666666666668, "grad_norm": 0.63671875, "learning_rate": 9.748241206030152e-05, "loss": 1.1449, "step": 601 }, { "epoch": 0.016053333333333333, "grad_norm": 0.470703125, "learning_rate": 9.747738693467338e-05, "loss": 1.2796, "step": 602 }, { "epoch": 0.01608, "grad_norm": 0.60546875, "learning_rate": 9.747236180904523e-05, "loss": 1.3091, "step": 603 }, { "epoch": 0.016106666666666665, "grad_norm": 0.60546875, "learning_rate": 9.746733668341709e-05, "loss": 1.3205, "step": 604 }, { "epoch": 0.016133333333333333, "grad_norm": 0.796875, "learning_rate": 9.746231155778895e-05, "loss": 1.2449, "step": 605 }, { "epoch": 0.01616, "grad_norm": 0.92578125, "learning_rate": 9.745728643216081e-05, "loss": 1.2386, "step": 606 }, { "epoch": 0.016186666666666665, "grad_norm": 0.640625, "learning_rate": 9.745226130653266e-05, "loss": 1.5867, "step": 607 }, { "epoch": 0.016213333333333333, "grad_norm": 0.55078125, "learning_rate": 9.744723618090452e-05, "loss": 1.3766, "step": 608 }, { "epoch": 0.01624, "grad_norm": 0.796875, "learning_rate": 9.744221105527638e-05, "loss": 1.2415, "step": 609 }, { "epoch": 0.016266666666666665, "grad_norm": 0.578125, "learning_rate": 9.743718592964825e-05, "loss": 1.3712, "step": 610 }, { "epoch": 0.016293333333333333, "grad_norm": 0.54296875, "learning_rate": 9.74321608040201e-05, "loss": 1.1726, "step": 611 }, { "epoch": 0.01632, "grad_norm": 0.56640625, "learning_rate": 9.742713567839197e-05, "loss": 1.153, "step": 612 }, { "epoch": 0.016346666666666666, "grad_norm": 0.58203125, "learning_rate": 9.742211055276382e-05, "loss": 1.4675, "step": 613 }, { "epoch": 0.016373333333333333, "grad_norm": 0.95703125, "learning_rate": 9.741708542713568e-05, "loss": 1.3686, "step": 614 }, { "epoch": 0.0164, "grad_norm": 0.6875, "learning_rate": 9.741206030150754e-05, "loss": 1.2716, "step": 615 }, { "epoch": 0.016426666666666666, "grad_norm": 0.64453125, "learning_rate": 9.74070351758794e-05, "loss": 1.2665, "step": 616 }, { "epoch": 0.016453333333333334, "grad_norm": 0.54296875, "learning_rate": 9.740201005025125e-05, "loss": 1.1023, "step": 617 }, { "epoch": 0.01648, "grad_norm": 0.61328125, "learning_rate": 9.739698492462313e-05, "loss": 1.5293, "step": 618 }, { "epoch": 0.016506666666666666, "grad_norm": 0.6875, "learning_rate": 9.739195979899498e-05, "loss": 1.574, "step": 619 }, { "epoch": 0.016533333333333334, "grad_norm": 0.515625, "learning_rate": 9.738693467336684e-05, "loss": 1.6304, "step": 620 }, { "epoch": 0.01656, "grad_norm": 0.72265625, "learning_rate": 9.73819095477387e-05, "loss": 1.0652, "step": 621 }, { "epoch": 0.016586666666666666, "grad_norm": 0.88671875, "learning_rate": 9.737688442211056e-05, "loss": 1.1309, "step": 622 }, { "epoch": 0.016613333333333334, "grad_norm": 0.671875, "learning_rate": 9.737185929648241e-05, "loss": 1.3183, "step": 623 }, { "epoch": 0.01664, "grad_norm": 0.875, "learning_rate": 9.736683417085427e-05, "loss": 1.088, "step": 624 }, { "epoch": 0.016666666666666666, "grad_norm": 0.640625, "learning_rate": 9.736180904522614e-05, "loss": 1.1369, "step": 625 }, { "epoch": 0.016693333333333334, "grad_norm": 0.8125, "learning_rate": 9.7356783919598e-05, "loss": 1.6487, "step": 626 }, { "epoch": 0.01672, "grad_norm": 0.66015625, "learning_rate": 9.735175879396985e-05, "loss": 1.272, "step": 627 }, { "epoch": 0.016746666666666667, "grad_norm": 0.6171875, "learning_rate": 9.734673366834172e-05, "loss": 1.396, "step": 628 }, { "epoch": 0.016773333333333335, "grad_norm": 0.60546875, "learning_rate": 9.734170854271357e-05, "loss": 1.4177, "step": 629 }, { "epoch": 0.0168, "grad_norm": 0.80859375, "learning_rate": 9.733668341708543e-05, "loss": 1.3696, "step": 630 }, { "epoch": 0.016826666666666667, "grad_norm": 0.8828125, "learning_rate": 9.73316582914573e-05, "loss": 1.3057, "step": 631 }, { "epoch": 0.016853333333333335, "grad_norm": 0.69140625, "learning_rate": 9.732663316582916e-05, "loss": 1.4167, "step": 632 }, { "epoch": 0.01688, "grad_norm": 0.5703125, "learning_rate": 9.7321608040201e-05, "loss": 1.3152, "step": 633 }, { "epoch": 0.016906666666666667, "grad_norm": 0.9765625, "learning_rate": 9.731658291457287e-05, "loss": 1.4511, "step": 634 }, { "epoch": 0.016933333333333335, "grad_norm": 0.494140625, "learning_rate": 9.731155778894473e-05, "loss": 1.1743, "step": 635 }, { "epoch": 0.01696, "grad_norm": 0.6484375, "learning_rate": 9.730653266331659e-05, "loss": 1.3481, "step": 636 }, { "epoch": 0.016986666666666667, "grad_norm": 0.79296875, "learning_rate": 9.730150753768845e-05, "loss": 1.2858, "step": 637 }, { "epoch": 0.01701333333333333, "grad_norm": 0.61328125, "learning_rate": 9.72964824120603e-05, "loss": 1.2634, "step": 638 }, { "epoch": 0.01704, "grad_norm": 0.703125, "learning_rate": 9.729145728643216e-05, "loss": 0.9963, "step": 639 }, { "epoch": 0.017066666666666667, "grad_norm": 0.546875, "learning_rate": 9.728643216080403e-05, "loss": 1.3144, "step": 640 }, { "epoch": 0.017093333333333332, "grad_norm": 0.79296875, "learning_rate": 9.728140703517589e-05, "loss": 1.5747, "step": 641 }, { "epoch": 0.01712, "grad_norm": 0.80859375, "learning_rate": 9.727638190954774e-05, "loss": 1.5306, "step": 642 }, { "epoch": 0.017146666666666668, "grad_norm": 0.57421875, "learning_rate": 9.72713567839196e-05, "loss": 1.3098, "step": 643 }, { "epoch": 0.017173333333333332, "grad_norm": 0.61328125, "learning_rate": 9.726633165829146e-05, "loss": 1.3232, "step": 644 }, { "epoch": 0.0172, "grad_norm": 0.609375, "learning_rate": 9.726130653266332e-05, "loss": 1.2455, "step": 645 }, { "epoch": 0.017226666666666668, "grad_norm": 0.51171875, "learning_rate": 9.725628140703517e-05, "loss": 1.1208, "step": 646 }, { "epoch": 0.017253333333333332, "grad_norm": 1.0, "learning_rate": 9.725125628140705e-05, "loss": 1.3716, "step": 647 }, { "epoch": 0.01728, "grad_norm": 0.69140625, "learning_rate": 9.72462311557789e-05, "loss": 1.5148, "step": 648 }, { "epoch": 0.017306666666666668, "grad_norm": 0.82421875, "learning_rate": 9.724120603015076e-05, "loss": 1.4295, "step": 649 }, { "epoch": 0.017333333333333333, "grad_norm": 0.54296875, "learning_rate": 9.723618090452262e-05, "loss": 1.1628, "step": 650 }, { "epoch": 0.01736, "grad_norm": 0.6796875, "learning_rate": 9.723115577889448e-05, "loss": 1.1501, "step": 651 }, { "epoch": 0.01738666666666667, "grad_norm": 0.54296875, "learning_rate": 9.722613065326633e-05, "loss": 1.4971, "step": 652 }, { "epoch": 0.017413333333333333, "grad_norm": 0.70703125, "learning_rate": 9.72211055276382e-05, "loss": 1.1853, "step": 653 }, { "epoch": 0.01744, "grad_norm": 0.64453125, "learning_rate": 9.721608040201005e-05, "loss": 1.2974, "step": 654 }, { "epoch": 0.017466666666666665, "grad_norm": 0.703125, "learning_rate": 9.721105527638192e-05, "loss": 1.3707, "step": 655 }, { "epoch": 0.017493333333333333, "grad_norm": 0.765625, "learning_rate": 9.720603015075376e-05, "loss": 1.2241, "step": 656 }, { "epoch": 0.01752, "grad_norm": 0.73828125, "learning_rate": 9.720100502512564e-05, "loss": 1.4259, "step": 657 }, { "epoch": 0.017546666666666665, "grad_norm": 0.59375, "learning_rate": 9.719597989949749e-05, "loss": 1.4013, "step": 658 }, { "epoch": 0.017573333333333333, "grad_norm": 0.60546875, "learning_rate": 9.719095477386935e-05, "loss": 1.331, "step": 659 }, { "epoch": 0.0176, "grad_norm": 0.9765625, "learning_rate": 9.718592964824121e-05, "loss": 1.4455, "step": 660 }, { "epoch": 0.017626666666666665, "grad_norm": 0.73828125, "learning_rate": 9.718090452261307e-05, "loss": 1.5584, "step": 661 }, { "epoch": 0.017653333333333333, "grad_norm": 0.66015625, "learning_rate": 9.717587939698492e-05, "loss": 1.434, "step": 662 }, { "epoch": 0.01768, "grad_norm": 0.69140625, "learning_rate": 9.71708542713568e-05, "loss": 1.2139, "step": 663 }, { "epoch": 0.017706666666666666, "grad_norm": 0.61328125, "learning_rate": 9.716582914572865e-05, "loss": 1.3125, "step": 664 }, { "epoch": 0.017733333333333334, "grad_norm": 0.86328125, "learning_rate": 9.716080402010051e-05, "loss": 1.2795, "step": 665 }, { "epoch": 0.01776, "grad_norm": 0.765625, "learning_rate": 9.715577889447237e-05, "loss": 1.2761, "step": 666 }, { "epoch": 0.017786666666666666, "grad_norm": 0.546875, "learning_rate": 9.715075376884423e-05, "loss": 1.214, "step": 667 }, { "epoch": 0.017813333333333334, "grad_norm": 0.60546875, "learning_rate": 9.714572864321608e-05, "loss": 1.4773, "step": 668 }, { "epoch": 0.01784, "grad_norm": 0.60546875, "learning_rate": 9.714070351758794e-05, "loss": 1.5038, "step": 669 }, { "epoch": 0.017866666666666666, "grad_norm": 0.470703125, "learning_rate": 9.71356783919598e-05, "loss": 1.2352, "step": 670 }, { "epoch": 0.017893333333333334, "grad_norm": 0.67578125, "learning_rate": 9.713065326633167e-05, "loss": 1.29, "step": 671 }, { "epoch": 0.01792, "grad_norm": 0.71875, "learning_rate": 9.712562814070352e-05, "loss": 1.3285, "step": 672 }, { "epoch": 0.017946666666666666, "grad_norm": 0.7109375, "learning_rate": 9.712060301507538e-05, "loss": 1.1587, "step": 673 }, { "epoch": 0.017973333333333334, "grad_norm": 0.75, "learning_rate": 9.711557788944724e-05, "loss": 1.5832, "step": 674 }, { "epoch": 0.018, "grad_norm": 0.67578125, "learning_rate": 9.71105527638191e-05, "loss": 1.3783, "step": 675 }, { "epoch": 0.018026666666666667, "grad_norm": 0.65234375, "learning_rate": 9.710552763819096e-05, "loss": 0.9603, "step": 676 }, { "epoch": 0.018053333333333334, "grad_norm": 1.0859375, "learning_rate": 9.710050251256281e-05, "loss": 1.5854, "step": 677 }, { "epoch": 0.01808, "grad_norm": 0.72265625, "learning_rate": 9.709547738693468e-05, "loss": 1.2559, "step": 678 }, { "epoch": 0.018106666666666667, "grad_norm": 0.578125, "learning_rate": 9.709045226130654e-05, "loss": 1.5926, "step": 679 }, { "epoch": 0.018133333333333335, "grad_norm": 0.5625, "learning_rate": 9.70854271356784e-05, "loss": 1.4463, "step": 680 }, { "epoch": 0.01816, "grad_norm": 0.78515625, "learning_rate": 9.708040201005025e-05, "loss": 1.186, "step": 681 }, { "epoch": 0.018186666666666667, "grad_norm": 0.7265625, "learning_rate": 9.707537688442212e-05, "loss": 1.2424, "step": 682 }, { "epoch": 0.018213333333333335, "grad_norm": 0.59765625, "learning_rate": 9.707035175879397e-05, "loss": 1.3763, "step": 683 }, { "epoch": 0.01824, "grad_norm": 0.796875, "learning_rate": 9.706532663316583e-05, "loss": 1.5592, "step": 684 }, { "epoch": 0.018266666666666667, "grad_norm": 0.6484375, "learning_rate": 9.706030150753768e-05, "loss": 1.2659, "step": 685 }, { "epoch": 0.018293333333333335, "grad_norm": 0.625, "learning_rate": 9.705527638190956e-05, "loss": 1.2482, "step": 686 }, { "epoch": 0.01832, "grad_norm": 0.62109375, "learning_rate": 9.70502512562814e-05, "loss": 1.5021, "step": 687 }, { "epoch": 0.018346666666666667, "grad_norm": 0.55078125, "learning_rate": 9.704522613065327e-05, "loss": 1.1677, "step": 688 }, { "epoch": 0.018373333333333332, "grad_norm": 0.53515625, "learning_rate": 9.704020100502513e-05, "loss": 1.6184, "step": 689 }, { "epoch": 0.0184, "grad_norm": 0.515625, "learning_rate": 9.703517587939699e-05, "loss": 1.0313, "step": 690 }, { "epoch": 0.018426666666666668, "grad_norm": 0.71484375, "learning_rate": 9.703015075376884e-05, "loss": 1.5012, "step": 691 }, { "epoch": 0.018453333333333332, "grad_norm": 0.609375, "learning_rate": 9.702512562814072e-05, "loss": 1.4032, "step": 692 }, { "epoch": 0.01848, "grad_norm": 0.703125, "learning_rate": 9.702010050251257e-05, "loss": 1.2468, "step": 693 }, { "epoch": 0.018506666666666668, "grad_norm": 0.48828125, "learning_rate": 9.701507537688443e-05, "loss": 1.3878, "step": 694 }, { "epoch": 0.018533333333333332, "grad_norm": 0.69140625, "learning_rate": 9.701005025125629e-05, "loss": 1.442, "step": 695 }, { "epoch": 0.01856, "grad_norm": 0.8203125, "learning_rate": 9.700502512562815e-05, "loss": 1.5437, "step": 696 }, { "epoch": 0.018586666666666668, "grad_norm": 0.58984375, "learning_rate": 9.7e-05, "loss": 1.4895, "step": 697 }, { "epoch": 0.018613333333333332, "grad_norm": 0.72265625, "learning_rate": 9.699497487437188e-05, "loss": 1.1932, "step": 698 }, { "epoch": 0.01864, "grad_norm": 0.625, "learning_rate": 9.698994974874372e-05, "loss": 1.2047, "step": 699 }, { "epoch": 0.018666666666666668, "grad_norm": 0.765625, "learning_rate": 9.698492462311559e-05, "loss": 1.3303, "step": 700 }, { "epoch": 0.018693333333333333, "grad_norm": 0.74609375, "learning_rate": 9.697989949748743e-05, "loss": 1.3125, "step": 701 }, { "epoch": 0.01872, "grad_norm": 0.640625, "learning_rate": 9.697487437185931e-05, "loss": 1.2777, "step": 702 }, { "epoch": 0.018746666666666665, "grad_norm": 0.796875, "learning_rate": 9.696984924623116e-05, "loss": 1.2941, "step": 703 }, { "epoch": 0.018773333333333333, "grad_norm": 0.52734375, "learning_rate": 9.696482412060302e-05, "loss": 1.1846, "step": 704 }, { "epoch": 0.0188, "grad_norm": 0.7578125, "learning_rate": 9.695979899497488e-05, "loss": 1.4559, "step": 705 }, { "epoch": 0.018826666666666665, "grad_norm": 0.62890625, "learning_rate": 9.695477386934674e-05, "loss": 1.2886, "step": 706 }, { "epoch": 0.018853333333333333, "grad_norm": 0.58203125, "learning_rate": 9.694974874371859e-05, "loss": 1.278, "step": 707 }, { "epoch": 0.01888, "grad_norm": 0.7578125, "learning_rate": 9.694472361809045e-05, "loss": 1.3349, "step": 708 }, { "epoch": 0.018906666666666665, "grad_norm": 0.73828125, "learning_rate": 9.693969849246232e-05, "loss": 1.3862, "step": 709 }, { "epoch": 0.018933333333333333, "grad_norm": 0.625, "learning_rate": 9.693467336683418e-05, "loss": 1.0275, "step": 710 }, { "epoch": 0.01896, "grad_norm": 0.70703125, "learning_rate": 9.692964824120604e-05, "loss": 1.289, "step": 711 }, { "epoch": 0.018986666666666666, "grad_norm": 1.1015625, "learning_rate": 9.692462311557789e-05, "loss": 1.0628, "step": 712 }, { "epoch": 0.019013333333333333, "grad_norm": 0.62109375, "learning_rate": 9.691959798994975e-05, "loss": 1.0652, "step": 713 }, { "epoch": 0.01904, "grad_norm": 0.5078125, "learning_rate": 9.691457286432161e-05, "loss": 1.159, "step": 714 }, { "epoch": 0.019066666666666666, "grad_norm": 0.9765625, "learning_rate": 9.690954773869348e-05, "loss": 1.2529, "step": 715 }, { "epoch": 0.019093333333333334, "grad_norm": 0.50390625, "learning_rate": 9.690452261306532e-05, "loss": 1.3185, "step": 716 }, { "epoch": 0.01912, "grad_norm": 0.625, "learning_rate": 9.689949748743719e-05, "loss": 1.5611, "step": 717 }, { "epoch": 0.019146666666666666, "grad_norm": 0.78515625, "learning_rate": 9.689447236180905e-05, "loss": 1.4373, "step": 718 }, { "epoch": 0.019173333333333334, "grad_norm": 0.53515625, "learning_rate": 9.688944723618091e-05, "loss": 1.4347, "step": 719 }, { "epoch": 0.0192, "grad_norm": 0.546875, "learning_rate": 9.688442211055276e-05, "loss": 1.2074, "step": 720 }, { "epoch": 0.019226666666666666, "grad_norm": 0.67578125, "learning_rate": 9.687939698492463e-05, "loss": 1.2616, "step": 721 }, { "epoch": 0.019253333333333334, "grad_norm": 0.65234375, "learning_rate": 9.687437185929648e-05, "loss": 1.3277, "step": 722 }, { "epoch": 0.01928, "grad_norm": 0.75390625, "learning_rate": 9.686934673366834e-05, "loss": 1.5729, "step": 723 }, { "epoch": 0.019306666666666666, "grad_norm": 0.7109375, "learning_rate": 9.686432160804021e-05, "loss": 1.1948, "step": 724 }, { "epoch": 0.019333333333333334, "grad_norm": 0.72265625, "learning_rate": 9.685929648241207e-05, "loss": 1.076, "step": 725 }, { "epoch": 0.01936, "grad_norm": 0.68359375, "learning_rate": 9.685427135678392e-05, "loss": 1.4697, "step": 726 }, { "epoch": 0.019386666666666667, "grad_norm": 0.66796875, "learning_rate": 9.684924623115579e-05, "loss": 1.2538, "step": 727 }, { "epoch": 0.019413333333333335, "grad_norm": 0.6484375, "learning_rate": 9.684422110552764e-05, "loss": 1.3877, "step": 728 }, { "epoch": 0.01944, "grad_norm": 0.58203125, "learning_rate": 9.68391959798995e-05, "loss": 1.2672, "step": 729 }, { "epoch": 0.019466666666666667, "grad_norm": 0.5, "learning_rate": 9.683417085427137e-05, "loss": 1.2279, "step": 730 }, { "epoch": 0.019493333333333335, "grad_norm": 0.423828125, "learning_rate": 9.682914572864323e-05, "loss": 1.2053, "step": 731 }, { "epoch": 0.01952, "grad_norm": 0.6015625, "learning_rate": 9.682412060301508e-05, "loss": 1.2447, "step": 732 }, { "epoch": 0.019546666666666667, "grad_norm": 0.6875, "learning_rate": 9.681909547738694e-05, "loss": 1.2189, "step": 733 }, { "epoch": 0.019573333333333335, "grad_norm": 0.55078125, "learning_rate": 9.68140703517588e-05, "loss": 1.3934, "step": 734 }, { "epoch": 0.0196, "grad_norm": 0.6171875, "learning_rate": 9.680904522613066e-05, "loss": 1.2334, "step": 735 }, { "epoch": 0.019626666666666667, "grad_norm": 0.70703125, "learning_rate": 9.680402010050251e-05, "loss": 1.6104, "step": 736 }, { "epoch": 0.01965333333333333, "grad_norm": 0.6640625, "learning_rate": 9.679899497487439e-05, "loss": 1.4006, "step": 737 }, { "epoch": 0.01968, "grad_norm": 0.640625, "learning_rate": 9.679396984924623e-05, "loss": 1.4759, "step": 738 }, { "epoch": 0.019706666666666667, "grad_norm": 0.79296875, "learning_rate": 9.67889447236181e-05, "loss": 1.3718, "step": 739 }, { "epoch": 0.019733333333333332, "grad_norm": 0.62109375, "learning_rate": 9.678391959798996e-05, "loss": 1.4402, "step": 740 }, { "epoch": 0.01976, "grad_norm": 0.60546875, "learning_rate": 9.677889447236182e-05, "loss": 1.2827, "step": 741 }, { "epoch": 0.019786666666666668, "grad_norm": 0.5546875, "learning_rate": 9.677386934673367e-05, "loss": 1.3555, "step": 742 }, { "epoch": 0.019813333333333332, "grad_norm": 0.62890625, "learning_rate": 9.676884422110553e-05, "loss": 1.3082, "step": 743 }, { "epoch": 0.01984, "grad_norm": 0.53125, "learning_rate": 9.67638190954774e-05, "loss": 1.2823, "step": 744 }, { "epoch": 0.019866666666666668, "grad_norm": 0.69921875, "learning_rate": 9.675879396984924e-05, "loss": 1.5806, "step": 745 }, { "epoch": 0.019893333333333332, "grad_norm": 0.59375, "learning_rate": 9.675376884422112e-05, "loss": 1.0991, "step": 746 }, { "epoch": 0.01992, "grad_norm": 0.87109375, "learning_rate": 9.674874371859297e-05, "loss": 1.2147, "step": 747 }, { "epoch": 0.019946666666666668, "grad_norm": 0.5859375, "learning_rate": 9.674371859296483e-05, "loss": 1.3718, "step": 748 }, { "epoch": 0.019973333333333333, "grad_norm": 0.58984375, "learning_rate": 9.673869346733668e-05, "loss": 1.1109, "step": 749 }, { "epoch": 0.02, "grad_norm": 0.90625, "learning_rate": 9.673366834170855e-05, "loss": 1.2541, "step": 750 }, { "epoch": 0.02002666666666667, "grad_norm": 0.8359375, "learning_rate": 9.67286432160804e-05, "loss": 1.0856, "step": 751 }, { "epoch": 0.020053333333333333, "grad_norm": 0.703125, "learning_rate": 9.672361809045226e-05, "loss": 1.1721, "step": 752 }, { "epoch": 0.02008, "grad_norm": 0.51171875, "learning_rate": 9.671859296482412e-05, "loss": 1.2998, "step": 753 }, { "epoch": 0.020106666666666665, "grad_norm": 0.80859375, "learning_rate": 9.671356783919599e-05, "loss": 1.5761, "step": 754 }, { "epoch": 0.020133333333333333, "grad_norm": 0.5390625, "learning_rate": 9.670854271356784e-05, "loss": 1.4095, "step": 755 }, { "epoch": 0.02016, "grad_norm": 0.640625, "learning_rate": 9.670351758793971e-05, "loss": 1.5557, "step": 756 }, { "epoch": 0.020186666666666665, "grad_norm": 0.84765625, "learning_rate": 9.669849246231156e-05, "loss": 1.4269, "step": 757 }, { "epoch": 0.020213333333333333, "grad_norm": 0.4921875, "learning_rate": 9.669346733668342e-05, "loss": 1.2407, "step": 758 }, { "epoch": 0.02024, "grad_norm": 0.447265625, "learning_rate": 9.668844221105528e-05, "loss": 1.4688, "step": 759 }, { "epoch": 0.020266666666666665, "grad_norm": 0.6953125, "learning_rate": 9.668341708542715e-05, "loss": 1.5614, "step": 760 }, { "epoch": 0.020293333333333333, "grad_norm": 0.62890625, "learning_rate": 9.6678391959799e-05, "loss": 1.4419, "step": 761 }, { "epoch": 0.02032, "grad_norm": 0.6328125, "learning_rate": 9.667336683417087e-05, "loss": 1.2849, "step": 762 }, { "epoch": 0.020346666666666666, "grad_norm": 0.84765625, "learning_rate": 9.666834170854272e-05, "loss": 1.3878, "step": 763 }, { "epoch": 0.020373333333333334, "grad_norm": 0.62109375, "learning_rate": 9.666331658291458e-05, "loss": 1.3718, "step": 764 }, { "epoch": 0.0204, "grad_norm": 0.54296875, "learning_rate": 9.665829145728643e-05, "loss": 1.4756, "step": 765 }, { "epoch": 0.020426666666666666, "grad_norm": 0.640625, "learning_rate": 9.66532663316583e-05, "loss": 1.4404, "step": 766 }, { "epoch": 0.020453333333333334, "grad_norm": 0.625, "learning_rate": 9.664824120603015e-05, "loss": 1.2767, "step": 767 }, { "epoch": 0.02048, "grad_norm": 0.62890625, "learning_rate": 9.664321608040201e-05, "loss": 1.227, "step": 768 }, { "epoch": 0.020506666666666666, "grad_norm": 0.59375, "learning_rate": 9.663819095477388e-05, "loss": 1.2862, "step": 769 }, { "epoch": 0.020533333333333334, "grad_norm": 0.86328125, "learning_rate": 9.663316582914574e-05, "loss": 1.2194, "step": 770 }, { "epoch": 0.02056, "grad_norm": 0.56640625, "learning_rate": 9.662814070351759e-05, "loss": 1.4173, "step": 771 }, { "epoch": 0.020586666666666666, "grad_norm": 0.73046875, "learning_rate": 9.662311557788946e-05, "loss": 1.2572, "step": 772 }, { "epoch": 0.020613333333333334, "grad_norm": 0.58203125, "learning_rate": 9.661809045226131e-05, "loss": 1.2182, "step": 773 }, { "epoch": 0.02064, "grad_norm": 0.71875, "learning_rate": 9.661306532663317e-05, "loss": 1.3262, "step": 774 }, { "epoch": 0.020666666666666667, "grad_norm": 0.65625, "learning_rate": 9.660804020100504e-05, "loss": 1.5991, "step": 775 }, { "epoch": 0.020693333333333334, "grad_norm": 0.85546875, "learning_rate": 9.66030150753769e-05, "loss": 1.4758, "step": 776 }, { "epoch": 0.02072, "grad_norm": 0.62109375, "learning_rate": 9.659798994974875e-05, "loss": 1.2006, "step": 777 }, { "epoch": 0.020746666666666667, "grad_norm": 0.75, "learning_rate": 9.659296482412061e-05, "loss": 1.5681, "step": 778 }, { "epoch": 0.020773333333333335, "grad_norm": 0.55078125, "learning_rate": 9.658793969849247e-05, "loss": 1.341, "step": 779 }, { "epoch": 0.0208, "grad_norm": 0.69921875, "learning_rate": 9.658291457286432e-05, "loss": 1.3418, "step": 780 }, { "epoch": 0.020826666666666667, "grad_norm": 0.76171875, "learning_rate": 9.657788944723618e-05, "loss": 1.5117, "step": 781 }, { "epoch": 0.020853333333333335, "grad_norm": 0.75390625, "learning_rate": 9.657286432160804e-05, "loss": 1.3332, "step": 782 }, { "epoch": 0.02088, "grad_norm": 0.62109375, "learning_rate": 9.65678391959799e-05, "loss": 0.9882, "step": 783 }, { "epoch": 0.020906666666666667, "grad_norm": 0.75, "learning_rate": 9.656281407035175e-05, "loss": 1.3005, "step": 784 }, { "epoch": 0.020933333333333335, "grad_norm": 1.3203125, "learning_rate": 9.655778894472363e-05, "loss": 1.3748, "step": 785 }, { "epoch": 0.02096, "grad_norm": 0.6171875, "learning_rate": 9.655276381909548e-05, "loss": 1.2829, "step": 786 }, { "epoch": 0.020986666666666667, "grad_norm": 0.66015625, "learning_rate": 9.654773869346734e-05, "loss": 1.1742, "step": 787 }, { "epoch": 0.021013333333333332, "grad_norm": 0.49609375, "learning_rate": 9.65427135678392e-05, "loss": 1.1063, "step": 788 }, { "epoch": 0.02104, "grad_norm": 0.61328125, "learning_rate": 9.653768844221106e-05, "loss": 1.3415, "step": 789 }, { "epoch": 0.021066666666666668, "grad_norm": 0.73046875, "learning_rate": 9.653266331658291e-05, "loss": 1.3234, "step": 790 }, { "epoch": 0.021093333333333332, "grad_norm": 0.62109375, "learning_rate": 9.652763819095479e-05, "loss": 1.2651, "step": 791 }, { "epoch": 0.02112, "grad_norm": 0.51171875, "learning_rate": 9.652261306532664e-05, "loss": 1.3374, "step": 792 }, { "epoch": 0.021146666666666668, "grad_norm": 0.7734375, "learning_rate": 9.65175879396985e-05, "loss": 1.2395, "step": 793 }, { "epoch": 0.021173333333333332, "grad_norm": 0.875, "learning_rate": 9.651256281407036e-05, "loss": 1.7078, "step": 794 }, { "epoch": 0.0212, "grad_norm": 0.91796875, "learning_rate": 9.650753768844222e-05, "loss": 1.55, "step": 795 }, { "epoch": 0.021226666666666668, "grad_norm": 0.55078125, "learning_rate": 9.650251256281407e-05, "loss": 1.1239, "step": 796 }, { "epoch": 0.021253333333333332, "grad_norm": 0.6171875, "learning_rate": 9.649748743718593e-05, "loss": 1.6273, "step": 797 }, { "epoch": 0.02128, "grad_norm": 1.03125, "learning_rate": 9.64924623115578e-05, "loss": 1.3139, "step": 798 }, { "epoch": 0.021306666666666668, "grad_norm": 0.671875, "learning_rate": 9.648743718592966e-05, "loss": 1.5006, "step": 799 }, { "epoch": 0.021333333333333333, "grad_norm": 0.66796875, "learning_rate": 9.64824120603015e-05, "loss": 1.4423, "step": 800 }, { "epoch": 0.02136, "grad_norm": 0.92578125, "learning_rate": 9.647738693467338e-05, "loss": 1.3338, "step": 801 }, { "epoch": 0.021386666666666665, "grad_norm": 0.53515625, "learning_rate": 9.647236180904523e-05, "loss": 1.2938, "step": 802 }, { "epoch": 0.021413333333333333, "grad_norm": 0.73046875, "learning_rate": 9.646733668341709e-05, "loss": 1.415, "step": 803 }, { "epoch": 0.02144, "grad_norm": 0.75390625, "learning_rate": 9.646231155778895e-05, "loss": 1.4426, "step": 804 }, { "epoch": 0.021466666666666665, "grad_norm": 0.671875, "learning_rate": 9.645728643216081e-05, "loss": 1.3744, "step": 805 }, { "epoch": 0.021493333333333333, "grad_norm": 0.8203125, "learning_rate": 9.645226130653266e-05, "loss": 1.0682, "step": 806 }, { "epoch": 0.02152, "grad_norm": 0.57421875, "learning_rate": 9.644723618090454e-05, "loss": 1.5266, "step": 807 }, { "epoch": 0.021546666666666665, "grad_norm": 0.625, "learning_rate": 9.644221105527639e-05, "loss": 1.4181, "step": 808 }, { "epoch": 0.021573333333333333, "grad_norm": 0.765625, "learning_rate": 9.643718592964825e-05, "loss": 1.2794, "step": 809 }, { "epoch": 0.0216, "grad_norm": 0.72265625, "learning_rate": 9.64321608040201e-05, "loss": 1.5631, "step": 810 }, { "epoch": 0.021626666666666666, "grad_norm": 0.6484375, "learning_rate": 9.642713567839196e-05, "loss": 1.1639, "step": 811 }, { "epoch": 0.021653333333333333, "grad_norm": 0.5078125, "learning_rate": 9.642211055276382e-05, "loss": 1.069, "step": 812 }, { "epoch": 0.02168, "grad_norm": 0.63671875, "learning_rate": 9.641708542713568e-05, "loss": 1.4659, "step": 813 }, { "epoch": 0.021706666666666666, "grad_norm": 0.71875, "learning_rate": 9.641206030150755e-05, "loss": 1.0635, "step": 814 }, { "epoch": 0.021733333333333334, "grad_norm": 0.66796875, "learning_rate": 9.64070351758794e-05, "loss": 1.2838, "step": 815 }, { "epoch": 0.02176, "grad_norm": 0.62109375, "learning_rate": 9.640201005025126e-05, "loss": 0.9677, "step": 816 }, { "epoch": 0.021786666666666666, "grad_norm": 0.5703125, "learning_rate": 9.639698492462312e-05, "loss": 1.2603, "step": 817 }, { "epoch": 0.021813333333333334, "grad_norm": 0.66015625, "learning_rate": 9.639195979899498e-05, "loss": 1.1974, "step": 818 }, { "epoch": 0.02184, "grad_norm": 0.57421875, "learning_rate": 9.638693467336683e-05, "loss": 1.0657, "step": 819 }, { "epoch": 0.021866666666666666, "grad_norm": 0.546875, "learning_rate": 9.63819095477387e-05, "loss": 1.3618, "step": 820 }, { "epoch": 0.021893333333333334, "grad_norm": 0.703125, "learning_rate": 9.637688442211055e-05, "loss": 1.3769, "step": 821 }, { "epoch": 0.02192, "grad_norm": 0.71484375, "learning_rate": 9.637185929648242e-05, "loss": 1.3996, "step": 822 }, { "epoch": 0.021946666666666666, "grad_norm": 0.59765625, "learning_rate": 9.636683417085428e-05, "loss": 1.2048, "step": 823 }, { "epoch": 0.021973333333333334, "grad_norm": 0.62109375, "learning_rate": 9.636180904522614e-05, "loss": 1.4249, "step": 824 }, { "epoch": 0.022, "grad_norm": 0.54296875, "learning_rate": 9.635678391959799e-05, "loss": 1.2706, "step": 825 }, { "epoch": 0.022026666666666667, "grad_norm": 0.62890625, "learning_rate": 9.635175879396985e-05, "loss": 1.3158, "step": 826 }, { "epoch": 0.022053333333333335, "grad_norm": 1.265625, "learning_rate": 9.634673366834171e-05, "loss": 1.513, "step": 827 }, { "epoch": 0.02208, "grad_norm": 0.65234375, "learning_rate": 9.634170854271357e-05, "loss": 1.2314, "step": 828 }, { "epoch": 0.022106666666666667, "grad_norm": 0.55078125, "learning_rate": 9.633668341708542e-05, "loss": 1.3815, "step": 829 }, { "epoch": 0.022133333333333335, "grad_norm": 0.9375, "learning_rate": 9.63316582914573e-05, "loss": 1.7501, "step": 830 }, { "epoch": 0.02216, "grad_norm": 0.58984375, "learning_rate": 9.632663316582915e-05, "loss": 1.12, "step": 831 }, { "epoch": 0.022186666666666667, "grad_norm": 0.61328125, "learning_rate": 9.632160804020101e-05, "loss": 1.3514, "step": 832 }, { "epoch": 0.022213333333333335, "grad_norm": 0.70703125, "learning_rate": 9.631658291457287e-05, "loss": 1.1473, "step": 833 }, { "epoch": 0.02224, "grad_norm": 0.49609375, "learning_rate": 9.631155778894473e-05, "loss": 1.4085, "step": 834 }, { "epoch": 0.022266666666666667, "grad_norm": 0.6171875, "learning_rate": 9.630653266331658e-05, "loss": 1.3069, "step": 835 }, { "epoch": 0.02229333333333333, "grad_norm": 0.515625, "learning_rate": 9.630150753768846e-05, "loss": 1.3249, "step": 836 }, { "epoch": 0.02232, "grad_norm": 0.57421875, "learning_rate": 9.62964824120603e-05, "loss": 1.5292, "step": 837 }, { "epoch": 0.022346666666666667, "grad_norm": 0.7421875, "learning_rate": 9.629145728643217e-05, "loss": 1.3338, "step": 838 }, { "epoch": 0.022373333333333332, "grad_norm": 0.53125, "learning_rate": 9.628643216080403e-05, "loss": 1.332, "step": 839 }, { "epoch": 0.0224, "grad_norm": 0.47265625, "learning_rate": 9.628140703517589e-05, "loss": 1.177, "step": 840 }, { "epoch": 0.022426666666666668, "grad_norm": 0.8515625, "learning_rate": 9.627638190954774e-05, "loss": 1.5036, "step": 841 }, { "epoch": 0.022453333333333332, "grad_norm": 0.96484375, "learning_rate": 9.62713567839196e-05, "loss": 1.5698, "step": 842 }, { "epoch": 0.02248, "grad_norm": 0.64453125, "learning_rate": 9.626633165829146e-05, "loss": 1.4161, "step": 843 }, { "epoch": 0.022506666666666668, "grad_norm": 0.5390625, "learning_rate": 9.626130653266333e-05, "loss": 1.1747, "step": 844 }, { "epoch": 0.022533333333333332, "grad_norm": 0.69921875, "learning_rate": 9.625628140703517e-05, "loss": 1.4752, "step": 845 }, { "epoch": 0.02256, "grad_norm": 0.67578125, "learning_rate": 9.625125628140704e-05, "loss": 1.3036, "step": 846 }, { "epoch": 0.022586666666666668, "grad_norm": 0.62109375, "learning_rate": 9.62462311557789e-05, "loss": 1.4789, "step": 847 }, { "epoch": 0.022613333333333333, "grad_norm": 0.578125, "learning_rate": 9.624120603015076e-05, "loss": 1.3294, "step": 848 }, { "epoch": 0.02264, "grad_norm": 0.73828125, "learning_rate": 9.623618090452262e-05, "loss": 1.279, "step": 849 }, { "epoch": 0.02266666666666667, "grad_norm": 1.0390625, "learning_rate": 9.623115577889447e-05, "loss": 1.5506, "step": 850 }, { "epoch": 0.022693333333333333, "grad_norm": 0.5703125, "learning_rate": 9.622613065326633e-05, "loss": 1.2359, "step": 851 }, { "epoch": 0.02272, "grad_norm": 0.578125, "learning_rate": 9.62211055276382e-05, "loss": 1.1414, "step": 852 }, { "epoch": 0.022746666666666665, "grad_norm": 0.64453125, "learning_rate": 9.621608040201006e-05, "loss": 1.3033, "step": 853 }, { "epoch": 0.022773333333333333, "grad_norm": 0.70703125, "learning_rate": 9.62110552763819e-05, "loss": 1.1729, "step": 854 }, { "epoch": 0.0228, "grad_norm": 0.55078125, "learning_rate": 9.620603015075378e-05, "loss": 1.434, "step": 855 }, { "epoch": 0.022826666666666665, "grad_norm": 0.78125, "learning_rate": 9.620100502512563e-05, "loss": 1.255, "step": 856 }, { "epoch": 0.022853333333333333, "grad_norm": 0.58203125, "learning_rate": 9.619597989949749e-05, "loss": 1.0728, "step": 857 }, { "epoch": 0.02288, "grad_norm": 0.61328125, "learning_rate": 9.619095477386934e-05, "loss": 1.183, "step": 858 }, { "epoch": 0.022906666666666665, "grad_norm": 0.494140625, "learning_rate": 9.618592964824122e-05, "loss": 1.0173, "step": 859 }, { "epoch": 0.022933333333333333, "grad_norm": 0.53125, "learning_rate": 9.618090452261306e-05, "loss": 1.2144, "step": 860 }, { "epoch": 0.02296, "grad_norm": 0.6875, "learning_rate": 9.617587939698493e-05, "loss": 1.1066, "step": 861 }, { "epoch": 0.022986666666666666, "grad_norm": 0.5859375, "learning_rate": 9.617085427135679e-05, "loss": 1.4058, "step": 862 }, { "epoch": 0.023013333333333334, "grad_norm": 0.76171875, "learning_rate": 9.616582914572865e-05, "loss": 1.1447, "step": 863 }, { "epoch": 0.02304, "grad_norm": 0.67578125, "learning_rate": 9.61608040201005e-05, "loss": 1.5815, "step": 864 }, { "epoch": 0.023066666666666666, "grad_norm": 0.546875, "learning_rate": 9.615577889447237e-05, "loss": 1.3672, "step": 865 }, { "epoch": 0.023093333333333334, "grad_norm": 0.55078125, "learning_rate": 9.615075376884422e-05, "loss": 1.2955, "step": 866 }, { "epoch": 0.02312, "grad_norm": 0.55859375, "learning_rate": 9.614572864321608e-05, "loss": 1.2832, "step": 867 }, { "epoch": 0.023146666666666666, "grad_norm": 0.6171875, "learning_rate": 9.614070351758795e-05, "loss": 1.2298, "step": 868 }, { "epoch": 0.023173333333333334, "grad_norm": 0.6328125, "learning_rate": 9.613567839195981e-05, "loss": 1.3041, "step": 869 }, { "epoch": 0.0232, "grad_norm": 0.78515625, "learning_rate": 9.613065326633166e-05, "loss": 1.0916, "step": 870 }, { "epoch": 0.023226666666666666, "grad_norm": 0.69140625, "learning_rate": 9.612562814070353e-05, "loss": 1.244, "step": 871 }, { "epoch": 0.023253333333333334, "grad_norm": 0.60546875, "learning_rate": 9.612060301507538e-05, "loss": 1.1786, "step": 872 }, { "epoch": 0.02328, "grad_norm": 0.49609375, "learning_rate": 9.611557788944724e-05, "loss": 1.4166, "step": 873 }, { "epoch": 0.023306666666666667, "grad_norm": 0.55078125, "learning_rate": 9.611055276381909e-05, "loss": 1.2687, "step": 874 }, { "epoch": 0.023333333333333334, "grad_norm": 0.53515625, "learning_rate": 9.610552763819097e-05, "loss": 1.1383, "step": 875 }, { "epoch": 0.02336, "grad_norm": 0.51171875, "learning_rate": 9.610050251256282e-05, "loss": 1.5852, "step": 876 }, { "epoch": 0.023386666666666667, "grad_norm": 0.5625, "learning_rate": 9.609547738693468e-05, "loss": 1.2804, "step": 877 }, { "epoch": 0.023413333333333335, "grad_norm": 0.53125, "learning_rate": 9.609045226130654e-05, "loss": 1.6031, "step": 878 }, { "epoch": 0.02344, "grad_norm": 0.76171875, "learning_rate": 9.60854271356784e-05, "loss": 1.2235, "step": 879 }, { "epoch": 0.023466666666666667, "grad_norm": 0.51171875, "learning_rate": 9.608040201005025e-05, "loss": 1.1437, "step": 880 }, { "epoch": 0.023493333333333335, "grad_norm": 0.7109375, "learning_rate": 9.607537688442211e-05, "loss": 1.5194, "step": 881 }, { "epoch": 0.02352, "grad_norm": 1.265625, "learning_rate": 9.607035175879397e-05, "loss": 1.1911, "step": 882 }, { "epoch": 0.023546666666666667, "grad_norm": 0.6328125, "learning_rate": 9.606532663316584e-05, "loss": 1.3988, "step": 883 }, { "epoch": 0.023573333333333335, "grad_norm": 1.5625, "learning_rate": 9.60603015075377e-05, "loss": 1.6053, "step": 884 }, { "epoch": 0.0236, "grad_norm": 0.84375, "learning_rate": 9.605527638190955e-05, "loss": 1.2963, "step": 885 }, { "epoch": 0.023626666666666667, "grad_norm": 0.5546875, "learning_rate": 9.605025125628141e-05, "loss": 1.0994, "step": 886 }, { "epoch": 0.023653333333333332, "grad_norm": 0.6484375, "learning_rate": 9.604522613065327e-05, "loss": 1.1529, "step": 887 }, { "epoch": 0.02368, "grad_norm": 0.59375, "learning_rate": 9.604020100502513e-05, "loss": 1.2237, "step": 888 }, { "epoch": 0.023706666666666668, "grad_norm": 0.73046875, "learning_rate": 9.603517587939698e-05, "loss": 1.2349, "step": 889 }, { "epoch": 0.023733333333333332, "grad_norm": 0.9609375, "learning_rate": 9.603015075376884e-05, "loss": 1.184, "step": 890 }, { "epoch": 0.02376, "grad_norm": 0.703125, "learning_rate": 9.60251256281407e-05, "loss": 1.3315, "step": 891 }, { "epoch": 0.023786666666666668, "grad_norm": 1.1796875, "learning_rate": 9.602010050251257e-05, "loss": 1.3626, "step": 892 }, { "epoch": 0.023813333333333332, "grad_norm": 0.62109375, "learning_rate": 9.601507537688442e-05, "loss": 0.9359, "step": 893 }, { "epoch": 0.02384, "grad_norm": 0.6328125, "learning_rate": 9.601005025125629e-05, "loss": 1.4483, "step": 894 }, { "epoch": 0.023866666666666668, "grad_norm": 0.59375, "learning_rate": 9.600502512562814e-05, "loss": 1.3852, "step": 895 }, { "epoch": 0.023893333333333332, "grad_norm": 0.5625, "learning_rate": 9.6e-05, "loss": 1.3539, "step": 896 }, { "epoch": 0.02392, "grad_norm": 0.671875, "learning_rate": 9.599497487437186e-05, "loss": 1.4792, "step": 897 }, { "epoch": 0.023946666666666668, "grad_norm": 0.640625, "learning_rate": 9.598994974874373e-05, "loss": 1.2475, "step": 898 }, { "epoch": 0.023973333333333333, "grad_norm": 0.50390625, "learning_rate": 9.598492462311557e-05, "loss": 1.3416, "step": 899 }, { "epoch": 0.024, "grad_norm": 0.69921875, "learning_rate": 9.597989949748745e-05, "loss": 1.2365, "step": 900 }, { "epoch": 0.02402666666666667, "grad_norm": 0.546875, "learning_rate": 9.59748743718593e-05, "loss": 1.1499, "step": 901 }, { "epoch": 0.024053333333333333, "grad_norm": 0.80859375, "learning_rate": 9.596984924623116e-05, "loss": 1.0955, "step": 902 }, { "epoch": 0.02408, "grad_norm": 0.6015625, "learning_rate": 9.596482412060302e-05, "loss": 1.1946, "step": 903 }, { "epoch": 0.024106666666666665, "grad_norm": 0.65234375, "learning_rate": 9.595979899497489e-05, "loss": 1.3585, "step": 904 }, { "epoch": 0.024133333333333333, "grad_norm": 0.69140625, "learning_rate": 9.595477386934673e-05, "loss": 1.5155, "step": 905 }, { "epoch": 0.02416, "grad_norm": 0.53515625, "learning_rate": 9.59497487437186e-05, "loss": 1.3832, "step": 906 }, { "epoch": 0.024186666666666665, "grad_norm": 0.63671875, "learning_rate": 9.594472361809046e-05, "loss": 1.204, "step": 907 }, { "epoch": 0.024213333333333333, "grad_norm": 0.5078125, "learning_rate": 9.593969849246232e-05, "loss": 1.4217, "step": 908 }, { "epoch": 0.02424, "grad_norm": 0.57421875, "learning_rate": 9.593467336683417e-05, "loss": 1.2775, "step": 909 }, { "epoch": 0.024266666666666666, "grad_norm": 0.62890625, "learning_rate": 9.592964824120604e-05, "loss": 1.2995, "step": 910 }, { "epoch": 0.024293333333333333, "grad_norm": 0.5859375, "learning_rate": 9.592462311557789e-05, "loss": 1.3091, "step": 911 }, { "epoch": 0.02432, "grad_norm": 0.74609375, "learning_rate": 9.591959798994975e-05, "loss": 1.1792, "step": 912 }, { "epoch": 0.024346666666666666, "grad_norm": 0.76953125, "learning_rate": 9.591457286432162e-05, "loss": 0.9508, "step": 913 }, { "epoch": 0.024373333333333334, "grad_norm": 0.6328125, "learning_rate": 9.590954773869348e-05, "loss": 1.2579, "step": 914 }, { "epoch": 0.0244, "grad_norm": 0.466796875, "learning_rate": 9.590452261306533e-05, "loss": 1.4423, "step": 915 }, { "epoch": 0.024426666666666666, "grad_norm": 0.6328125, "learning_rate": 9.589949748743719e-05, "loss": 1.2007, "step": 916 }, { "epoch": 0.024453333333333334, "grad_norm": 0.66796875, "learning_rate": 9.589447236180905e-05, "loss": 1.554, "step": 917 }, { "epoch": 0.02448, "grad_norm": 0.71484375, "learning_rate": 9.588944723618091e-05, "loss": 1.494, "step": 918 }, { "epoch": 0.024506666666666666, "grad_norm": 0.55078125, "learning_rate": 9.588442211055276e-05, "loss": 1.2799, "step": 919 }, { "epoch": 0.024533333333333334, "grad_norm": 0.56640625, "learning_rate": 9.587939698492462e-05, "loss": 1.405, "step": 920 }, { "epoch": 0.02456, "grad_norm": 0.62890625, "learning_rate": 9.587437185929649e-05, "loss": 1.2177, "step": 921 }, { "epoch": 0.024586666666666666, "grad_norm": 0.65625, "learning_rate": 9.586934673366835e-05, "loss": 1.232, "step": 922 }, { "epoch": 0.024613333333333334, "grad_norm": 0.5703125, "learning_rate": 9.586432160804021e-05, "loss": 1.2466, "step": 923 }, { "epoch": 0.02464, "grad_norm": 0.859375, "learning_rate": 9.585929648241206e-05, "loss": 1.3931, "step": 924 }, { "epoch": 0.024666666666666667, "grad_norm": 0.93359375, "learning_rate": 9.585427135678392e-05, "loss": 1.3, "step": 925 }, { "epoch": 0.024693333333333334, "grad_norm": 0.515625, "learning_rate": 9.584924623115578e-05, "loss": 1.1567, "step": 926 }, { "epoch": 0.02472, "grad_norm": 0.73046875, "learning_rate": 9.584422110552764e-05, "loss": 1.2568, "step": 927 }, { "epoch": 0.024746666666666667, "grad_norm": 0.5, "learning_rate": 9.583919597989949e-05, "loss": 1.3469, "step": 928 }, { "epoch": 0.024773333333333335, "grad_norm": 0.8046875, "learning_rate": 9.583417085427137e-05, "loss": 1.3105, "step": 929 }, { "epoch": 0.0248, "grad_norm": 0.9375, "learning_rate": 9.582914572864322e-05, "loss": 1.2518, "step": 930 }, { "epoch": 0.024826666666666667, "grad_norm": 0.498046875, "learning_rate": 9.582412060301508e-05, "loss": 1.0808, "step": 931 }, { "epoch": 0.024853333333333335, "grad_norm": 0.6171875, "learning_rate": 9.581909547738694e-05, "loss": 1.5092, "step": 932 }, { "epoch": 0.02488, "grad_norm": 0.53515625, "learning_rate": 9.58140703517588e-05, "loss": 1.0441, "step": 933 }, { "epoch": 0.024906666666666667, "grad_norm": 0.6796875, "learning_rate": 9.580904522613065e-05, "loss": 1.0557, "step": 934 }, { "epoch": 0.02493333333333333, "grad_norm": 0.8046875, "learning_rate": 9.580402010050251e-05, "loss": 1.2154, "step": 935 }, { "epoch": 0.02496, "grad_norm": 0.5, "learning_rate": 9.579899497487438e-05, "loss": 1.1593, "step": 936 }, { "epoch": 0.024986666666666667, "grad_norm": 0.52734375, "learning_rate": 9.579396984924624e-05, "loss": 1.2655, "step": 937 }, { "epoch": 0.025013333333333332, "grad_norm": 0.58984375, "learning_rate": 9.578894472361809e-05, "loss": 1.1961, "step": 938 }, { "epoch": 0.02504, "grad_norm": 0.61328125, "learning_rate": 9.578391959798996e-05, "loss": 1.4228, "step": 939 }, { "epoch": 0.025066666666666668, "grad_norm": 0.63671875, "learning_rate": 9.577889447236181e-05, "loss": 1.23, "step": 940 }, { "epoch": 0.025093333333333332, "grad_norm": 0.68359375, "learning_rate": 9.577386934673367e-05, "loss": 1.3939, "step": 941 }, { "epoch": 0.02512, "grad_norm": 0.8125, "learning_rate": 9.576884422110553e-05, "loss": 1.2022, "step": 942 }, { "epoch": 0.025146666666666668, "grad_norm": 0.58984375, "learning_rate": 9.57638190954774e-05, "loss": 1.2897, "step": 943 }, { "epoch": 0.025173333333333332, "grad_norm": 0.75390625, "learning_rate": 9.575879396984924e-05, "loss": 1.0998, "step": 944 }, { "epoch": 0.0252, "grad_norm": 0.6953125, "learning_rate": 9.575376884422112e-05, "loss": 1.2128, "step": 945 }, { "epoch": 0.025226666666666668, "grad_norm": 0.765625, "learning_rate": 9.574874371859297e-05, "loss": 1.4439, "step": 946 }, { "epoch": 0.025253333333333332, "grad_norm": 0.5859375, "learning_rate": 9.574371859296483e-05, "loss": 1.2061, "step": 947 }, { "epoch": 0.02528, "grad_norm": 0.482421875, "learning_rate": 9.573869346733669e-05, "loss": 1.3675, "step": 948 }, { "epoch": 0.02530666666666667, "grad_norm": 0.48828125, "learning_rate": 9.573366834170855e-05, "loss": 1.2079, "step": 949 }, { "epoch": 0.025333333333333333, "grad_norm": 0.60546875, "learning_rate": 9.57286432160804e-05, "loss": 1.2504, "step": 950 }, { "epoch": 0.02536, "grad_norm": 0.69921875, "learning_rate": 9.572361809045227e-05, "loss": 1.0277, "step": 951 }, { "epoch": 0.025386666666666665, "grad_norm": 0.62890625, "learning_rate": 9.571859296482413e-05, "loss": 1.3316, "step": 952 }, { "epoch": 0.025413333333333333, "grad_norm": 0.73046875, "learning_rate": 9.571356783919599e-05, "loss": 1.1441, "step": 953 }, { "epoch": 0.02544, "grad_norm": 0.61328125, "learning_rate": 9.570854271356784e-05, "loss": 1.2391, "step": 954 }, { "epoch": 0.025466666666666665, "grad_norm": 0.62109375, "learning_rate": 9.57035175879397e-05, "loss": 1.3308, "step": 955 }, { "epoch": 0.025493333333333333, "grad_norm": 0.58984375, "learning_rate": 9.569849246231156e-05, "loss": 1.1598, "step": 956 }, { "epoch": 0.02552, "grad_norm": 0.78515625, "learning_rate": 9.569346733668342e-05, "loss": 1.0366, "step": 957 }, { "epoch": 0.025546666666666665, "grad_norm": 0.69140625, "learning_rate": 9.568844221105529e-05, "loss": 1.3979, "step": 958 }, { "epoch": 0.025573333333333333, "grad_norm": 0.64453125, "learning_rate": 9.568341708542713e-05, "loss": 1.6653, "step": 959 }, { "epoch": 0.0256, "grad_norm": 0.9921875, "learning_rate": 9.5678391959799e-05, "loss": 1.2412, "step": 960 }, { "epoch": 0.025626666666666666, "grad_norm": 0.53515625, "learning_rate": 9.567336683417086e-05, "loss": 1.1218, "step": 961 }, { "epoch": 0.025653333333333334, "grad_norm": 0.5703125, "learning_rate": 9.566834170854272e-05, "loss": 1.1788, "step": 962 }, { "epoch": 0.02568, "grad_norm": 0.6875, "learning_rate": 9.566331658291457e-05, "loss": 1.3804, "step": 963 }, { "epoch": 0.025706666666666666, "grad_norm": 0.58203125, "learning_rate": 9.565829145728644e-05, "loss": 1.2918, "step": 964 }, { "epoch": 0.025733333333333334, "grad_norm": 0.63671875, "learning_rate": 9.565326633165829e-05, "loss": 1.1401, "step": 965 }, { "epoch": 0.02576, "grad_norm": 1.0546875, "learning_rate": 9.564824120603016e-05, "loss": 1.2914, "step": 966 }, { "epoch": 0.025786666666666666, "grad_norm": 0.6640625, "learning_rate": 9.5643216080402e-05, "loss": 1.1676, "step": 967 }, { "epoch": 0.025813333333333334, "grad_norm": 0.67578125, "learning_rate": 9.563819095477388e-05, "loss": 1.3619, "step": 968 }, { "epoch": 0.02584, "grad_norm": 0.609375, "learning_rate": 9.563316582914573e-05, "loss": 1.3051, "step": 969 }, { "epoch": 0.025866666666666666, "grad_norm": 0.48828125, "learning_rate": 9.562814070351759e-05, "loss": 1.372, "step": 970 }, { "epoch": 0.025893333333333334, "grad_norm": 0.7421875, "learning_rate": 9.562311557788945e-05, "loss": 1.2732, "step": 971 }, { "epoch": 0.02592, "grad_norm": 0.515625, "learning_rate": 9.561809045226131e-05, "loss": 1.1594, "step": 972 }, { "epoch": 0.025946666666666666, "grad_norm": 0.76171875, "learning_rate": 9.561306532663316e-05, "loss": 1.3703, "step": 973 }, { "epoch": 0.025973333333333334, "grad_norm": 0.703125, "learning_rate": 9.560804020100504e-05, "loss": 1.3178, "step": 974 }, { "epoch": 0.026, "grad_norm": 0.5625, "learning_rate": 9.560301507537689e-05, "loss": 1.3662, "step": 975 }, { "epoch": 0.026026666666666667, "grad_norm": 0.58984375, "learning_rate": 9.559798994974875e-05, "loss": 1.4002, "step": 976 }, { "epoch": 0.026053333333333335, "grad_norm": 0.80078125, "learning_rate": 9.559296482412061e-05, "loss": 1.4289, "step": 977 }, { "epoch": 0.02608, "grad_norm": 0.59375, "learning_rate": 9.558793969849247e-05, "loss": 1.2667, "step": 978 }, { "epoch": 0.026106666666666667, "grad_norm": 0.53125, "learning_rate": 9.558291457286432e-05, "loss": 1.4286, "step": 979 }, { "epoch": 0.026133333333333335, "grad_norm": 0.671875, "learning_rate": 9.55778894472362e-05, "loss": 1.1753, "step": 980 }, { "epoch": 0.02616, "grad_norm": 0.67578125, "learning_rate": 9.557286432160804e-05, "loss": 1.551, "step": 981 }, { "epoch": 0.026186666666666667, "grad_norm": 0.5625, "learning_rate": 9.556783919597991e-05, "loss": 1.0075, "step": 982 }, { "epoch": 0.026213333333333335, "grad_norm": 1.0, "learning_rate": 9.556281407035176e-05, "loss": 1.4478, "step": 983 }, { "epoch": 0.02624, "grad_norm": 0.55859375, "learning_rate": 9.555778894472363e-05, "loss": 1.2847, "step": 984 }, { "epoch": 0.026266666666666667, "grad_norm": 0.51171875, "learning_rate": 9.555276381909548e-05, "loss": 1.2541, "step": 985 }, { "epoch": 0.026293333333333332, "grad_norm": 0.6796875, "learning_rate": 9.554773869346734e-05, "loss": 1.3993, "step": 986 }, { "epoch": 0.02632, "grad_norm": 1.296875, "learning_rate": 9.55427135678392e-05, "loss": 1.1793, "step": 987 }, { "epoch": 0.026346666666666668, "grad_norm": 0.5078125, "learning_rate": 9.553768844221107e-05, "loss": 1.3406, "step": 988 }, { "epoch": 0.026373333333333332, "grad_norm": 0.6328125, "learning_rate": 9.553266331658291e-05, "loss": 1.1711, "step": 989 }, { "epoch": 0.0264, "grad_norm": 0.5859375, "learning_rate": 9.552763819095478e-05, "loss": 1.2732, "step": 990 }, { "epoch": 0.026426666666666668, "grad_norm": 0.80078125, "learning_rate": 9.552261306532664e-05, "loss": 1.3356, "step": 991 }, { "epoch": 0.026453333333333332, "grad_norm": 0.53515625, "learning_rate": 9.55175879396985e-05, "loss": 1.2225, "step": 992 }, { "epoch": 0.02648, "grad_norm": 0.63671875, "learning_rate": 9.551256281407036e-05, "loss": 1.1992, "step": 993 }, { "epoch": 0.026506666666666668, "grad_norm": 0.67578125, "learning_rate": 9.550753768844221e-05, "loss": 1.0167, "step": 994 }, { "epoch": 0.026533333333333332, "grad_norm": 0.5703125, "learning_rate": 9.550251256281407e-05, "loss": 1.2047, "step": 995 }, { "epoch": 0.02656, "grad_norm": 0.59375, "learning_rate": 9.549748743718593e-05, "loss": 1.5045, "step": 996 }, { "epoch": 0.026586666666666668, "grad_norm": 0.796875, "learning_rate": 9.54924623115578e-05, "loss": 1.6177, "step": 997 }, { "epoch": 0.026613333333333333, "grad_norm": 0.482421875, "learning_rate": 9.548743718592965e-05, "loss": 1.2185, "step": 998 }, { "epoch": 0.02664, "grad_norm": 0.57421875, "learning_rate": 9.548241206030151e-05, "loss": 1.3879, "step": 999 }, { "epoch": 0.02666666666666667, "grad_norm": 0.5078125, "learning_rate": 9.547738693467337e-05, "loss": 1.3379, "step": 1000 }, { "epoch": 0.026693333333333333, "grad_norm": 0.5703125, "learning_rate": 9.547236180904523e-05, "loss": 1.0974, "step": 1001 }, { "epoch": 0.02672, "grad_norm": 0.82421875, "learning_rate": 9.546733668341708e-05, "loss": 1.1995, "step": 1002 }, { "epoch": 0.026746666666666665, "grad_norm": 0.640625, "learning_rate": 9.546231155778896e-05, "loss": 1.273, "step": 1003 }, { "epoch": 0.026773333333333333, "grad_norm": 0.5546875, "learning_rate": 9.54572864321608e-05, "loss": 1.4717, "step": 1004 }, { "epoch": 0.0268, "grad_norm": 0.77734375, "learning_rate": 9.545226130653267e-05, "loss": 1.1611, "step": 1005 }, { "epoch": 0.026826666666666665, "grad_norm": 0.546875, "learning_rate": 9.544723618090453e-05, "loss": 1.0959, "step": 1006 }, { "epoch": 0.026853333333333333, "grad_norm": 0.62109375, "learning_rate": 9.544221105527639e-05, "loss": 1.1058, "step": 1007 }, { "epoch": 0.02688, "grad_norm": 0.69140625, "learning_rate": 9.543718592964824e-05, "loss": 1.2519, "step": 1008 }, { "epoch": 0.026906666666666666, "grad_norm": 0.62890625, "learning_rate": 9.543216080402011e-05, "loss": 0.9533, "step": 1009 }, { "epoch": 0.026933333333333333, "grad_norm": 0.51171875, "learning_rate": 9.542713567839196e-05, "loss": 1.3127, "step": 1010 }, { "epoch": 0.02696, "grad_norm": 1.6640625, "learning_rate": 9.542211055276382e-05, "loss": 1.6133, "step": 1011 }, { "epoch": 0.026986666666666666, "grad_norm": 0.76953125, "learning_rate": 9.541708542713569e-05, "loss": 1.2933, "step": 1012 }, { "epoch": 0.027013333333333334, "grad_norm": 0.84375, "learning_rate": 9.541206030150755e-05, "loss": 1.3039, "step": 1013 }, { "epoch": 0.02704, "grad_norm": 0.703125, "learning_rate": 9.54070351758794e-05, "loss": 1.4286, "step": 1014 }, { "epoch": 0.027066666666666666, "grad_norm": 0.68359375, "learning_rate": 9.540201005025126e-05, "loss": 1.342, "step": 1015 }, { "epoch": 0.027093333333333334, "grad_norm": 1.0390625, "learning_rate": 9.539698492462312e-05, "loss": 1.3506, "step": 1016 }, { "epoch": 0.02712, "grad_norm": 0.66796875, "learning_rate": 9.539195979899498e-05, "loss": 1.1799, "step": 1017 }, { "epoch": 0.027146666666666666, "grad_norm": 0.65625, "learning_rate": 9.538693467336683e-05, "loss": 1.2031, "step": 1018 }, { "epoch": 0.027173333333333334, "grad_norm": 0.625, "learning_rate": 9.538190954773871e-05, "loss": 1.3411, "step": 1019 }, { "epoch": 0.0272, "grad_norm": 0.62890625, "learning_rate": 9.537688442211056e-05, "loss": 1.3115, "step": 1020 }, { "epoch": 0.027226666666666666, "grad_norm": 1.015625, "learning_rate": 9.537185929648242e-05, "loss": 1.4754, "step": 1021 }, { "epoch": 0.027253333333333334, "grad_norm": 0.6015625, "learning_rate": 9.536683417085428e-05, "loss": 1.4342, "step": 1022 }, { "epoch": 0.02728, "grad_norm": 0.5703125, "learning_rate": 9.536180904522614e-05, "loss": 1.1799, "step": 1023 }, { "epoch": 0.027306666666666667, "grad_norm": 0.625, "learning_rate": 9.535678391959799e-05, "loss": 1.5513, "step": 1024 }, { "epoch": 0.027333333333333334, "grad_norm": 0.64453125, "learning_rate": 9.535175879396985e-05, "loss": 1.4946, "step": 1025 }, { "epoch": 0.02736, "grad_norm": 0.578125, "learning_rate": 9.534673366834171e-05, "loss": 1.371, "step": 1026 }, { "epoch": 0.027386666666666667, "grad_norm": 0.62109375, "learning_rate": 9.534170854271358e-05, "loss": 1.4937, "step": 1027 }, { "epoch": 0.027413333333333335, "grad_norm": 0.6328125, "learning_rate": 9.533668341708543e-05, "loss": 1.2938, "step": 1028 }, { "epoch": 0.02744, "grad_norm": 0.57421875, "learning_rate": 9.533165829145729e-05, "loss": 1.4113, "step": 1029 }, { "epoch": 0.027466666666666667, "grad_norm": 0.80859375, "learning_rate": 9.532663316582915e-05, "loss": 1.3467, "step": 1030 }, { "epoch": 0.027493333333333335, "grad_norm": 0.66015625, "learning_rate": 9.532160804020101e-05, "loss": 1.4302, "step": 1031 }, { "epoch": 0.02752, "grad_norm": 1.0, "learning_rate": 9.531658291457287e-05, "loss": 1.2187, "step": 1032 }, { "epoch": 0.027546666666666667, "grad_norm": 1.359375, "learning_rate": 9.531155778894472e-05, "loss": 1.2419, "step": 1033 }, { "epoch": 0.02757333333333333, "grad_norm": 0.6640625, "learning_rate": 9.530653266331658e-05, "loss": 1.4233, "step": 1034 }, { "epoch": 0.0276, "grad_norm": 0.59375, "learning_rate": 9.530150753768845e-05, "loss": 1.3629, "step": 1035 }, { "epoch": 0.027626666666666667, "grad_norm": 0.58984375, "learning_rate": 9.529648241206031e-05, "loss": 1.0943, "step": 1036 }, { "epoch": 0.027653333333333332, "grad_norm": 0.72265625, "learning_rate": 9.529145728643216e-05, "loss": 1.4533, "step": 1037 }, { "epoch": 0.02768, "grad_norm": 0.69140625, "learning_rate": 9.528643216080403e-05, "loss": 1.1443, "step": 1038 }, { "epoch": 0.027706666666666668, "grad_norm": 0.5390625, "learning_rate": 9.528140703517588e-05, "loss": 1.3374, "step": 1039 }, { "epoch": 0.027733333333333332, "grad_norm": 0.70703125, "learning_rate": 9.527638190954774e-05, "loss": 1.1901, "step": 1040 }, { "epoch": 0.02776, "grad_norm": 0.60546875, "learning_rate": 9.52713567839196e-05, "loss": 1.1812, "step": 1041 }, { "epoch": 0.027786666666666668, "grad_norm": 0.546875, "learning_rate": 9.526633165829147e-05, "loss": 1.1759, "step": 1042 }, { "epoch": 0.027813333333333332, "grad_norm": 0.72265625, "learning_rate": 9.526130653266331e-05, "loss": 1.3208, "step": 1043 }, { "epoch": 0.02784, "grad_norm": 0.58984375, "learning_rate": 9.525628140703518e-05, "loss": 1.2521, "step": 1044 }, { "epoch": 0.027866666666666668, "grad_norm": 0.7421875, "learning_rate": 9.525125628140704e-05, "loss": 1.4326, "step": 1045 }, { "epoch": 0.027893333333333332, "grad_norm": 0.625, "learning_rate": 9.52462311557789e-05, "loss": 1.1584, "step": 1046 }, { "epoch": 0.02792, "grad_norm": 0.58984375, "learning_rate": 9.524120603015075e-05, "loss": 1.3919, "step": 1047 }, { "epoch": 0.02794666666666667, "grad_norm": 0.671875, "learning_rate": 9.523618090452263e-05, "loss": 1.3469, "step": 1048 }, { "epoch": 0.027973333333333333, "grad_norm": 0.87890625, "learning_rate": 9.523115577889447e-05, "loss": 1.3655, "step": 1049 }, { "epoch": 0.028, "grad_norm": 0.455078125, "learning_rate": 9.522613065326634e-05, "loss": 1.2016, "step": 1050 }, { "epoch": 0.028026666666666665, "grad_norm": 0.51953125, "learning_rate": 9.52211055276382e-05, "loss": 1.5446, "step": 1051 }, { "epoch": 0.028053333333333333, "grad_norm": 0.49609375, "learning_rate": 9.521608040201006e-05, "loss": 1.1293, "step": 1052 }, { "epoch": 0.02808, "grad_norm": 1.0078125, "learning_rate": 9.521105527638191e-05, "loss": 1.3555, "step": 1053 }, { "epoch": 0.028106666666666665, "grad_norm": 0.59375, "learning_rate": 9.520603015075378e-05, "loss": 1.2253, "step": 1054 }, { "epoch": 0.028133333333333333, "grad_norm": 0.8203125, "learning_rate": 9.520100502512563e-05, "loss": 1.3649, "step": 1055 }, { "epoch": 0.02816, "grad_norm": 0.9609375, "learning_rate": 9.51959798994975e-05, "loss": 1.4381, "step": 1056 }, { "epoch": 0.028186666666666665, "grad_norm": 0.58984375, "learning_rate": 9.519095477386936e-05, "loss": 1.2161, "step": 1057 }, { "epoch": 0.028213333333333333, "grad_norm": 0.5703125, "learning_rate": 9.518592964824122e-05, "loss": 1.1418, "step": 1058 }, { "epoch": 0.02824, "grad_norm": 0.73046875, "learning_rate": 9.518090452261307e-05, "loss": 1.3986, "step": 1059 }, { "epoch": 0.028266666666666666, "grad_norm": 0.75, "learning_rate": 9.517587939698493e-05, "loss": 1.5786, "step": 1060 }, { "epoch": 0.028293333333333334, "grad_norm": 1.2890625, "learning_rate": 9.517085427135679e-05, "loss": 1.3822, "step": 1061 }, { "epoch": 0.02832, "grad_norm": 0.640625, "learning_rate": 9.516582914572865e-05, "loss": 1.3015, "step": 1062 }, { "epoch": 0.028346666666666666, "grad_norm": 0.63671875, "learning_rate": 9.51608040201005e-05, "loss": 1.2815, "step": 1063 }, { "epoch": 0.028373333333333334, "grad_norm": 0.66796875, "learning_rate": 9.515577889447236e-05, "loss": 1.7113, "step": 1064 }, { "epoch": 0.0284, "grad_norm": 0.64453125, "learning_rate": 9.515075376884423e-05, "loss": 1.3383, "step": 1065 }, { "epoch": 0.028426666666666666, "grad_norm": 0.703125, "learning_rate": 9.514572864321609e-05, "loss": 1.2944, "step": 1066 }, { "epoch": 0.028453333333333334, "grad_norm": 0.6328125, "learning_rate": 9.514070351758795e-05, "loss": 1.4229, "step": 1067 }, { "epoch": 0.02848, "grad_norm": 0.8125, "learning_rate": 9.51356783919598e-05, "loss": 1.2222, "step": 1068 }, { "epoch": 0.028506666666666666, "grad_norm": 0.68359375, "learning_rate": 9.513065326633166e-05, "loss": 1.2936, "step": 1069 }, { "epoch": 0.028533333333333334, "grad_norm": 0.9140625, "learning_rate": 9.512562814070352e-05, "loss": 1.2693, "step": 1070 }, { "epoch": 0.02856, "grad_norm": 0.73046875, "learning_rate": 9.512060301507538e-05, "loss": 1.2663, "step": 1071 }, { "epoch": 0.028586666666666666, "grad_norm": 0.625, "learning_rate": 9.511557788944723e-05, "loss": 1.4131, "step": 1072 }, { "epoch": 0.028613333333333334, "grad_norm": 0.65625, "learning_rate": 9.511055276381911e-05, "loss": 1.4446, "step": 1073 }, { "epoch": 0.02864, "grad_norm": 0.609375, "learning_rate": 9.510552763819096e-05, "loss": 1.0316, "step": 1074 }, { "epoch": 0.028666666666666667, "grad_norm": 0.515625, "learning_rate": 9.510050251256282e-05, "loss": 1.1563, "step": 1075 }, { "epoch": 0.028693333333333335, "grad_norm": 0.5234375, "learning_rate": 9.509547738693467e-05, "loss": 1.1353, "step": 1076 }, { "epoch": 0.02872, "grad_norm": 0.55078125, "learning_rate": 9.509045226130654e-05, "loss": 1.3857, "step": 1077 }, { "epoch": 0.028746666666666667, "grad_norm": 0.88671875, "learning_rate": 9.508542713567839e-05, "loss": 1.4855, "step": 1078 }, { "epoch": 0.028773333333333335, "grad_norm": 0.59765625, "learning_rate": 9.508040201005025e-05, "loss": 1.3489, "step": 1079 }, { "epoch": 0.0288, "grad_norm": 0.72265625, "learning_rate": 9.507537688442212e-05, "loss": 1.3875, "step": 1080 }, { "epoch": 0.028826666666666667, "grad_norm": 0.5078125, "learning_rate": 9.507035175879398e-05, "loss": 1.5207, "step": 1081 }, { "epoch": 0.028853333333333335, "grad_norm": 0.96875, "learning_rate": 9.506532663316583e-05, "loss": 1.4437, "step": 1082 }, { "epoch": 0.02888, "grad_norm": 1.015625, "learning_rate": 9.50603015075377e-05, "loss": 1.2221, "step": 1083 }, { "epoch": 0.028906666666666667, "grad_norm": 0.7109375, "learning_rate": 9.505527638190955e-05, "loss": 1.2095, "step": 1084 }, { "epoch": 0.028933333333333332, "grad_norm": 0.5859375, "learning_rate": 9.505025125628141e-05, "loss": 1.2225, "step": 1085 }, { "epoch": 0.02896, "grad_norm": 0.58203125, "learning_rate": 9.504522613065327e-05, "loss": 1.2054, "step": 1086 }, { "epoch": 0.028986666666666668, "grad_norm": 0.671875, "learning_rate": 9.504020100502514e-05, "loss": 1.3012, "step": 1087 }, { "epoch": 0.029013333333333332, "grad_norm": 1.8984375, "learning_rate": 9.503517587939698e-05, "loss": 1.1159, "step": 1088 }, { "epoch": 0.02904, "grad_norm": 0.5234375, "learning_rate": 9.503015075376886e-05, "loss": 1.5622, "step": 1089 }, { "epoch": 0.029066666666666668, "grad_norm": 0.640625, "learning_rate": 9.502512562814071e-05, "loss": 1.2992, "step": 1090 }, { "epoch": 0.029093333333333332, "grad_norm": 0.625, "learning_rate": 9.502010050251257e-05, "loss": 1.4954, "step": 1091 }, { "epoch": 0.02912, "grad_norm": 0.62890625, "learning_rate": 9.501507537688442e-05, "loss": 1.2322, "step": 1092 }, { "epoch": 0.029146666666666668, "grad_norm": 0.6015625, "learning_rate": 9.50100502512563e-05, "loss": 1.4681, "step": 1093 }, { "epoch": 0.029173333333333332, "grad_norm": 0.64453125, "learning_rate": 9.500502512562814e-05, "loss": 1.1596, "step": 1094 }, { "epoch": 0.0292, "grad_norm": 0.53125, "learning_rate": 9.5e-05, "loss": 1.234, "step": 1095 }, { "epoch": 0.029226666666666668, "grad_norm": 0.90625, "learning_rate": 9.499497487437187e-05, "loss": 1.3208, "step": 1096 }, { "epoch": 0.029253333333333333, "grad_norm": 0.6171875, "learning_rate": 9.498994974874373e-05, "loss": 1.4023, "step": 1097 }, { "epoch": 0.02928, "grad_norm": 0.59375, "learning_rate": 9.498492462311558e-05, "loss": 1.3525, "step": 1098 }, { "epoch": 0.02930666666666667, "grad_norm": 0.703125, "learning_rate": 9.497989949748744e-05, "loss": 1.2032, "step": 1099 }, { "epoch": 0.029333333333333333, "grad_norm": 1.265625, "learning_rate": 9.49748743718593e-05, "loss": 1.346, "step": 1100 }, { "epoch": 0.02936, "grad_norm": 0.58203125, "learning_rate": 9.496984924623116e-05, "loss": 1.5636, "step": 1101 }, { "epoch": 0.029386666666666665, "grad_norm": 0.58203125, "learning_rate": 9.496482412060303e-05, "loss": 1.3291, "step": 1102 }, { "epoch": 0.029413333333333333, "grad_norm": 0.8984375, "learning_rate": 9.495979899497487e-05, "loss": 1.6252, "step": 1103 }, { "epoch": 0.02944, "grad_norm": 0.47265625, "learning_rate": 9.495477386934674e-05, "loss": 1.078, "step": 1104 }, { "epoch": 0.029466666666666665, "grad_norm": 0.50390625, "learning_rate": 9.49497487437186e-05, "loss": 1.4096, "step": 1105 }, { "epoch": 0.029493333333333333, "grad_norm": 0.71484375, "learning_rate": 9.494472361809046e-05, "loss": 1.0539, "step": 1106 }, { "epoch": 0.02952, "grad_norm": 1.796875, "learning_rate": 9.493969849246231e-05, "loss": 1.1512, "step": 1107 }, { "epoch": 0.029546666666666666, "grad_norm": 0.6171875, "learning_rate": 9.493467336683417e-05, "loss": 1.4309, "step": 1108 }, { "epoch": 0.029573333333333333, "grad_norm": 0.53125, "learning_rate": 9.492964824120603e-05, "loss": 1.1012, "step": 1109 }, { "epoch": 0.0296, "grad_norm": 0.6328125, "learning_rate": 9.49246231155779e-05, "loss": 1.4978, "step": 1110 }, { "epoch": 0.029626666666666666, "grad_norm": 0.57421875, "learning_rate": 9.491959798994974e-05, "loss": 1.2877, "step": 1111 }, { "epoch": 0.029653333333333334, "grad_norm": 0.72265625, "learning_rate": 9.491457286432162e-05, "loss": 1.2523, "step": 1112 }, { "epoch": 0.02968, "grad_norm": 0.57421875, "learning_rate": 9.490954773869347e-05, "loss": 1.1723, "step": 1113 }, { "epoch": 0.029706666666666666, "grad_norm": 0.625, "learning_rate": 9.490452261306533e-05, "loss": 1.5874, "step": 1114 }, { "epoch": 0.029733333333333334, "grad_norm": 0.55078125, "learning_rate": 9.489949748743719e-05, "loss": 1.4448, "step": 1115 }, { "epoch": 0.02976, "grad_norm": 0.96875, "learning_rate": 9.489447236180905e-05, "loss": 1.3108, "step": 1116 }, { "epoch": 0.029786666666666666, "grad_norm": 0.6953125, "learning_rate": 9.48894472361809e-05, "loss": 1.3984, "step": 1117 }, { "epoch": 0.029813333333333334, "grad_norm": 0.48828125, "learning_rate": 9.488442211055278e-05, "loss": 1.2072, "step": 1118 }, { "epoch": 0.02984, "grad_norm": 0.7109375, "learning_rate": 9.487939698492463e-05, "loss": 1.3488, "step": 1119 }, { "epoch": 0.029866666666666666, "grad_norm": 0.5625, "learning_rate": 9.487437185929649e-05, "loss": 1.3612, "step": 1120 }, { "epoch": 0.029893333333333334, "grad_norm": 0.7578125, "learning_rate": 9.486934673366835e-05, "loss": 1.319, "step": 1121 }, { "epoch": 0.02992, "grad_norm": 0.76953125, "learning_rate": 9.486432160804021e-05, "loss": 1.4892, "step": 1122 }, { "epoch": 0.029946666666666667, "grad_norm": 0.494140625, "learning_rate": 9.485929648241206e-05, "loss": 1.2685, "step": 1123 }, { "epoch": 0.029973333333333334, "grad_norm": 0.70703125, "learning_rate": 9.485427135678392e-05, "loss": 1.5523, "step": 1124 }, { "epoch": 0.03, "grad_norm": 0.5234375, "learning_rate": 9.484924623115578e-05, "loss": 1.1091, "step": 1125 }, { "epoch": 0.030026666666666667, "grad_norm": 0.50390625, "learning_rate": 9.484422110552765e-05, "loss": 1.1116, "step": 1126 }, { "epoch": 0.030053333333333335, "grad_norm": 0.58203125, "learning_rate": 9.48391959798995e-05, "loss": 1.3014, "step": 1127 }, { "epoch": 0.03008, "grad_norm": 0.61328125, "learning_rate": 9.483417085427137e-05, "loss": 1.2887, "step": 1128 }, { "epoch": 0.030106666666666667, "grad_norm": 0.64453125, "learning_rate": 9.482914572864322e-05, "loss": 1.0656, "step": 1129 }, { "epoch": 0.030133333333333335, "grad_norm": 0.58984375, "learning_rate": 9.482412060301508e-05, "loss": 1.4503, "step": 1130 }, { "epoch": 0.03016, "grad_norm": 1.2109375, "learning_rate": 9.481909547738694e-05, "loss": 1.3459, "step": 1131 }, { "epoch": 0.030186666666666667, "grad_norm": 0.66796875, "learning_rate": 9.48140703517588e-05, "loss": 1.1839, "step": 1132 }, { "epoch": 0.03021333333333333, "grad_norm": 0.5234375, "learning_rate": 9.480904522613065e-05, "loss": 1.0555, "step": 1133 }, { "epoch": 0.03024, "grad_norm": 0.57421875, "learning_rate": 9.480402010050252e-05, "loss": 1.309, "step": 1134 }, { "epoch": 0.030266666666666667, "grad_norm": 0.59765625, "learning_rate": 9.479899497487438e-05, "loss": 1.4748, "step": 1135 }, { "epoch": 0.030293333333333332, "grad_norm": 0.58203125, "learning_rate": 9.479396984924624e-05, "loss": 1.1288, "step": 1136 }, { "epoch": 0.03032, "grad_norm": 1.640625, "learning_rate": 9.47889447236181e-05, "loss": 1.3569, "step": 1137 }, { "epoch": 0.030346666666666668, "grad_norm": 0.88671875, "learning_rate": 9.478391959798995e-05, "loss": 1.2825, "step": 1138 }, { "epoch": 0.030373333333333332, "grad_norm": 0.640625, "learning_rate": 9.477889447236181e-05, "loss": 1.4455, "step": 1139 }, { "epoch": 0.0304, "grad_norm": 0.50390625, "learning_rate": 9.477386934673366e-05, "loss": 1.1334, "step": 1140 }, { "epoch": 0.030426666666666668, "grad_norm": 0.4296875, "learning_rate": 9.476884422110554e-05, "loss": 1.4357, "step": 1141 }, { "epoch": 0.030453333333333332, "grad_norm": 0.69140625, "learning_rate": 9.476381909547739e-05, "loss": 1.2889, "step": 1142 }, { "epoch": 0.03048, "grad_norm": 0.71875, "learning_rate": 9.475879396984925e-05, "loss": 1.1637, "step": 1143 }, { "epoch": 0.030506666666666668, "grad_norm": 0.6328125, "learning_rate": 9.475376884422111e-05, "loss": 0.9594, "step": 1144 }, { "epoch": 0.030533333333333332, "grad_norm": 0.50390625, "learning_rate": 9.474874371859297e-05, "loss": 0.9402, "step": 1145 }, { "epoch": 0.03056, "grad_norm": 0.8828125, "learning_rate": 9.474371859296482e-05, "loss": 1.3834, "step": 1146 }, { "epoch": 0.030586666666666668, "grad_norm": 0.59375, "learning_rate": 9.47386934673367e-05, "loss": 1.214, "step": 1147 }, { "epoch": 0.030613333333333333, "grad_norm": 0.87890625, "learning_rate": 9.473366834170854e-05, "loss": 1.233, "step": 1148 }, { "epoch": 0.03064, "grad_norm": 0.6953125, "learning_rate": 9.47286432160804e-05, "loss": 1.3849, "step": 1149 }, { "epoch": 0.030666666666666665, "grad_norm": 0.49609375, "learning_rate": 9.472361809045227e-05, "loss": 1.2146, "step": 1150 }, { "epoch": 0.030693333333333333, "grad_norm": 0.73046875, "learning_rate": 9.471859296482413e-05, "loss": 1.6745, "step": 1151 }, { "epoch": 0.03072, "grad_norm": 0.65234375, "learning_rate": 9.471356783919598e-05, "loss": 1.3467, "step": 1152 }, { "epoch": 0.030746666666666665, "grad_norm": 0.5390625, "learning_rate": 9.470854271356784e-05, "loss": 1.3759, "step": 1153 }, { "epoch": 0.030773333333333333, "grad_norm": 0.65234375, "learning_rate": 9.47035175879397e-05, "loss": 1.0399, "step": 1154 }, { "epoch": 0.0308, "grad_norm": 0.77734375, "learning_rate": 9.469849246231156e-05, "loss": 1.536, "step": 1155 }, { "epoch": 0.030826666666666665, "grad_norm": 0.486328125, "learning_rate": 9.469346733668341e-05, "loss": 1.3832, "step": 1156 }, { "epoch": 0.030853333333333333, "grad_norm": 0.60546875, "learning_rate": 9.468844221105529e-05, "loss": 1.0156, "step": 1157 }, { "epoch": 0.03088, "grad_norm": 0.5546875, "learning_rate": 9.468341708542714e-05, "loss": 1.557, "step": 1158 }, { "epoch": 0.030906666666666666, "grad_norm": 0.5546875, "learning_rate": 9.4678391959799e-05, "loss": 1.1539, "step": 1159 }, { "epoch": 0.030933333333333334, "grad_norm": 0.76953125, "learning_rate": 9.467336683417086e-05, "loss": 1.1695, "step": 1160 }, { "epoch": 0.03096, "grad_norm": 0.64453125, "learning_rate": 9.466834170854272e-05, "loss": 1.5344, "step": 1161 }, { "epoch": 0.030986666666666666, "grad_norm": 0.64453125, "learning_rate": 9.466331658291457e-05, "loss": 1.4035, "step": 1162 }, { "epoch": 0.031013333333333334, "grad_norm": 0.63671875, "learning_rate": 9.465829145728645e-05, "loss": 1.0568, "step": 1163 }, { "epoch": 0.03104, "grad_norm": 0.61328125, "learning_rate": 9.46532663316583e-05, "loss": 1.4749, "step": 1164 }, { "epoch": 0.031066666666666666, "grad_norm": 0.73046875, "learning_rate": 9.464824120603016e-05, "loss": 1.4674, "step": 1165 }, { "epoch": 0.031093333333333334, "grad_norm": 0.60546875, "learning_rate": 9.464321608040202e-05, "loss": 1.3331, "step": 1166 }, { "epoch": 0.03112, "grad_norm": 0.69140625, "learning_rate": 9.463819095477388e-05, "loss": 1.2076, "step": 1167 }, { "epoch": 0.031146666666666666, "grad_norm": 0.7265625, "learning_rate": 9.463316582914573e-05, "loss": 1.5705, "step": 1168 }, { "epoch": 0.031173333333333334, "grad_norm": 0.8828125, "learning_rate": 9.462814070351759e-05, "loss": 1.2278, "step": 1169 }, { "epoch": 0.0312, "grad_norm": 0.62890625, "learning_rate": 9.462311557788945e-05, "loss": 1.1556, "step": 1170 }, { "epoch": 0.031226666666666666, "grad_norm": 0.73046875, "learning_rate": 9.461809045226132e-05, "loss": 1.1939, "step": 1171 }, { "epoch": 0.031253333333333334, "grad_norm": 0.5390625, "learning_rate": 9.461306532663317e-05, "loss": 1.6888, "step": 1172 }, { "epoch": 0.03128, "grad_norm": 0.68359375, "learning_rate": 9.460804020100503e-05, "loss": 0.9821, "step": 1173 }, { "epoch": 0.03130666666666666, "grad_norm": 0.796875, "learning_rate": 9.460301507537689e-05, "loss": 1.2715, "step": 1174 }, { "epoch": 0.03133333333333333, "grad_norm": 0.62109375, "learning_rate": 9.459798994974874e-05, "loss": 1.2389, "step": 1175 }, { "epoch": 0.03136, "grad_norm": 0.56640625, "learning_rate": 9.459296482412061e-05, "loss": 1.1313, "step": 1176 }, { "epoch": 0.03138666666666667, "grad_norm": 0.54296875, "learning_rate": 9.458793969849246e-05, "loss": 1.2502, "step": 1177 }, { "epoch": 0.031413333333333335, "grad_norm": 0.69921875, "learning_rate": 9.458291457286432e-05, "loss": 1.509, "step": 1178 }, { "epoch": 0.03144, "grad_norm": 0.77734375, "learning_rate": 9.457788944723619e-05, "loss": 1.4734, "step": 1179 }, { "epoch": 0.031466666666666664, "grad_norm": 0.58203125, "learning_rate": 9.457286432160805e-05, "loss": 1.5806, "step": 1180 }, { "epoch": 0.03149333333333333, "grad_norm": 0.5546875, "learning_rate": 9.45678391959799e-05, "loss": 1.3737, "step": 1181 }, { "epoch": 0.03152, "grad_norm": 0.7265625, "learning_rate": 9.456281407035177e-05, "loss": 1.1601, "step": 1182 }, { "epoch": 0.03154666666666667, "grad_norm": 0.486328125, "learning_rate": 9.455778894472362e-05, "loss": 1.1511, "step": 1183 }, { "epoch": 0.031573333333333335, "grad_norm": 0.53125, "learning_rate": 9.455276381909548e-05, "loss": 1.5996, "step": 1184 }, { "epoch": 0.0316, "grad_norm": 0.62109375, "learning_rate": 9.454773869346733e-05, "loss": 1.1955, "step": 1185 }, { "epoch": 0.031626666666666664, "grad_norm": 0.66796875, "learning_rate": 9.45427135678392e-05, "loss": 1.5112, "step": 1186 }, { "epoch": 0.03165333333333333, "grad_norm": 0.68359375, "learning_rate": 9.453768844221105e-05, "loss": 1.2905, "step": 1187 }, { "epoch": 0.03168, "grad_norm": 0.52734375, "learning_rate": 9.453266331658292e-05, "loss": 1.4811, "step": 1188 }, { "epoch": 0.03170666666666667, "grad_norm": 0.6640625, "learning_rate": 9.452763819095478e-05, "loss": 1.3585, "step": 1189 }, { "epoch": 0.031733333333333336, "grad_norm": 0.5703125, "learning_rate": 9.452261306532664e-05, "loss": 1.3648, "step": 1190 }, { "epoch": 0.03176, "grad_norm": 1.21875, "learning_rate": 9.451758793969849e-05, "loss": 1.7383, "step": 1191 }, { "epoch": 0.031786666666666664, "grad_norm": 0.6953125, "learning_rate": 9.451256281407037e-05, "loss": 1.2981, "step": 1192 }, { "epoch": 0.03181333333333333, "grad_norm": 0.7265625, "learning_rate": 9.450753768844221e-05, "loss": 1.1151, "step": 1193 }, { "epoch": 0.03184, "grad_norm": 0.55078125, "learning_rate": 9.450251256281408e-05, "loss": 1.3615, "step": 1194 }, { "epoch": 0.03186666666666667, "grad_norm": 0.67578125, "learning_rate": 9.449748743718594e-05, "loss": 1.2017, "step": 1195 }, { "epoch": 0.031893333333333336, "grad_norm": 0.609375, "learning_rate": 9.44924623115578e-05, "loss": 1.4375, "step": 1196 }, { "epoch": 0.03192, "grad_norm": 0.72265625, "learning_rate": 9.448743718592965e-05, "loss": 1.2938, "step": 1197 }, { "epoch": 0.031946666666666665, "grad_norm": 0.65625, "learning_rate": 9.448241206030152e-05, "loss": 1.45, "step": 1198 }, { "epoch": 0.03197333333333333, "grad_norm": 0.8203125, "learning_rate": 9.447738693467337e-05, "loss": 1.2462, "step": 1199 }, { "epoch": 0.032, "grad_norm": 0.76953125, "learning_rate": 9.447236180904523e-05, "loss": 1.0196, "step": 1200 }, { "epoch": 0.03202666666666667, "grad_norm": 0.47265625, "learning_rate": 9.446733668341708e-05, "loss": 1.4273, "step": 1201 }, { "epoch": 0.032053333333333336, "grad_norm": 0.63671875, "learning_rate": 9.446231155778896e-05, "loss": 1.4218, "step": 1202 }, { "epoch": 0.03208, "grad_norm": 0.75390625, "learning_rate": 9.445728643216081e-05, "loss": 1.4739, "step": 1203 }, { "epoch": 0.032106666666666665, "grad_norm": 0.7578125, "learning_rate": 9.445226130653267e-05, "loss": 1.1844, "step": 1204 }, { "epoch": 0.03213333333333333, "grad_norm": 0.625, "learning_rate": 9.444723618090453e-05, "loss": 1.1448, "step": 1205 }, { "epoch": 0.03216, "grad_norm": 0.56640625, "learning_rate": 9.444221105527638e-05, "loss": 1.2636, "step": 1206 }, { "epoch": 0.03218666666666667, "grad_norm": 0.59765625, "learning_rate": 9.443718592964824e-05, "loss": 1.3401, "step": 1207 }, { "epoch": 0.03221333333333333, "grad_norm": 0.53515625, "learning_rate": 9.44321608040201e-05, "loss": 1.3744, "step": 1208 }, { "epoch": 0.03224, "grad_norm": 0.490234375, "learning_rate": 9.442713567839197e-05, "loss": 1.371, "step": 1209 }, { "epoch": 0.032266666666666666, "grad_norm": 0.53125, "learning_rate": 9.442211055276381e-05, "loss": 1.2275, "step": 1210 }, { "epoch": 0.032293333333333334, "grad_norm": 0.640625, "learning_rate": 9.441708542713569e-05, "loss": 1.2929, "step": 1211 }, { "epoch": 0.03232, "grad_norm": 0.640625, "learning_rate": 9.441206030150754e-05, "loss": 1.0927, "step": 1212 }, { "epoch": 0.03234666666666667, "grad_norm": 0.6953125, "learning_rate": 9.44070351758794e-05, "loss": 1.3781, "step": 1213 }, { "epoch": 0.03237333333333333, "grad_norm": 0.64453125, "learning_rate": 9.440201005025126e-05, "loss": 1.4773, "step": 1214 }, { "epoch": 0.0324, "grad_norm": 0.5234375, "learning_rate": 9.439698492462312e-05, "loss": 1.1185, "step": 1215 }, { "epoch": 0.032426666666666666, "grad_norm": 0.65234375, "learning_rate": 9.439195979899497e-05, "loss": 1.2437, "step": 1216 }, { "epoch": 0.032453333333333334, "grad_norm": 0.466796875, "learning_rate": 9.438693467336683e-05, "loss": 1.4024, "step": 1217 }, { "epoch": 0.03248, "grad_norm": 0.49609375, "learning_rate": 9.43819095477387e-05, "loss": 1.5427, "step": 1218 }, { "epoch": 0.03250666666666667, "grad_norm": 0.62890625, "learning_rate": 9.437688442211056e-05, "loss": 1.2393, "step": 1219 }, { "epoch": 0.03253333333333333, "grad_norm": 0.5625, "learning_rate": 9.437185929648241e-05, "loss": 0.9689, "step": 1220 }, { "epoch": 0.03256, "grad_norm": 0.55078125, "learning_rate": 9.436683417085428e-05, "loss": 1.1201, "step": 1221 }, { "epoch": 0.03258666666666667, "grad_norm": 0.486328125, "learning_rate": 9.436180904522613e-05, "loss": 1.0449, "step": 1222 }, { "epoch": 0.032613333333333334, "grad_norm": 0.5234375, "learning_rate": 9.4356783919598e-05, "loss": 1.0191, "step": 1223 }, { "epoch": 0.03264, "grad_norm": 0.85546875, "learning_rate": 9.435175879396986e-05, "loss": 1.5232, "step": 1224 }, { "epoch": 0.03266666666666666, "grad_norm": 0.62890625, "learning_rate": 9.434673366834172e-05, "loss": 1.0193, "step": 1225 }, { "epoch": 0.03269333333333333, "grad_norm": 0.69921875, "learning_rate": 9.434170854271357e-05, "loss": 1.0782, "step": 1226 }, { "epoch": 0.03272, "grad_norm": 0.5859375, "learning_rate": 9.433668341708544e-05, "loss": 1.14, "step": 1227 }, { "epoch": 0.03274666666666667, "grad_norm": 0.55859375, "learning_rate": 9.433165829145729e-05, "loss": 1.0711, "step": 1228 }, { "epoch": 0.032773333333333335, "grad_norm": 0.78125, "learning_rate": 9.432663316582915e-05, "loss": 1.3539, "step": 1229 }, { "epoch": 0.0328, "grad_norm": 0.50390625, "learning_rate": 9.432160804020101e-05, "loss": 1.0442, "step": 1230 }, { "epoch": 0.032826666666666664, "grad_norm": 0.6171875, "learning_rate": 9.431658291457288e-05, "loss": 1.2274, "step": 1231 }, { "epoch": 0.03285333333333333, "grad_norm": 0.6484375, "learning_rate": 9.431155778894472e-05, "loss": 1.0744, "step": 1232 }, { "epoch": 0.03288, "grad_norm": 0.65625, "learning_rate": 9.430653266331659e-05, "loss": 1.1407, "step": 1233 }, { "epoch": 0.03290666666666667, "grad_norm": 0.671875, "learning_rate": 9.430150753768845e-05, "loss": 1.2774, "step": 1234 }, { "epoch": 0.032933333333333335, "grad_norm": 0.55078125, "learning_rate": 9.429648241206031e-05, "loss": 1.2286, "step": 1235 }, { "epoch": 0.03296, "grad_norm": 0.55859375, "learning_rate": 9.429145728643216e-05, "loss": 1.5189, "step": 1236 }, { "epoch": 0.032986666666666664, "grad_norm": 0.58203125, "learning_rate": 9.428643216080403e-05, "loss": 1.4267, "step": 1237 }, { "epoch": 0.03301333333333333, "grad_norm": 1.6484375, "learning_rate": 9.428140703517588e-05, "loss": 1.3566, "step": 1238 }, { "epoch": 0.03304, "grad_norm": 0.8359375, "learning_rate": 9.427638190954775e-05, "loss": 1.0951, "step": 1239 }, { "epoch": 0.03306666666666667, "grad_norm": 0.6171875, "learning_rate": 9.427135678391961e-05, "loss": 1.5302, "step": 1240 }, { "epoch": 0.033093333333333336, "grad_norm": 0.578125, "learning_rate": 9.426633165829146e-05, "loss": 1.2859, "step": 1241 }, { "epoch": 0.03312, "grad_norm": 0.75, "learning_rate": 9.426130653266332e-05, "loss": 1.3359, "step": 1242 }, { "epoch": 0.033146666666666665, "grad_norm": 0.5625, "learning_rate": 9.425628140703518e-05, "loss": 1.4631, "step": 1243 }, { "epoch": 0.03317333333333333, "grad_norm": 0.609375, "learning_rate": 9.425125628140704e-05, "loss": 1.3057, "step": 1244 }, { "epoch": 0.0332, "grad_norm": 0.53125, "learning_rate": 9.424623115577889e-05, "loss": 1.4022, "step": 1245 }, { "epoch": 0.03322666666666667, "grad_norm": 1.0390625, "learning_rate": 9.424120603015077e-05, "loss": 1.593, "step": 1246 }, { "epoch": 0.033253333333333336, "grad_norm": 0.490234375, "learning_rate": 9.423618090452261e-05, "loss": 1.0429, "step": 1247 }, { "epoch": 0.03328, "grad_norm": 1.140625, "learning_rate": 9.423115577889448e-05, "loss": 1.6389, "step": 1248 }, { "epoch": 0.033306666666666665, "grad_norm": 0.54296875, "learning_rate": 9.422613065326632e-05, "loss": 1.1214, "step": 1249 }, { "epoch": 0.03333333333333333, "grad_norm": 0.59765625, "learning_rate": 9.42211055276382e-05, "loss": 1.5766, "step": 1250 }, { "epoch": 0.03336, "grad_norm": 0.65625, "learning_rate": 9.421608040201005e-05, "loss": 1.4429, "step": 1251 }, { "epoch": 0.03338666666666667, "grad_norm": 0.65625, "learning_rate": 9.421105527638191e-05, "loss": 1.105, "step": 1252 }, { "epoch": 0.03341333333333334, "grad_norm": 0.734375, "learning_rate": 9.420603015075377e-05, "loss": 1.1526, "step": 1253 }, { "epoch": 0.03344, "grad_norm": 0.83984375, "learning_rate": 9.420100502512564e-05, "loss": 1.204, "step": 1254 }, { "epoch": 0.033466666666666665, "grad_norm": 0.486328125, "learning_rate": 9.419597989949748e-05, "loss": 0.9695, "step": 1255 }, { "epoch": 0.03349333333333333, "grad_norm": 0.515625, "learning_rate": 9.419095477386936e-05, "loss": 1.408, "step": 1256 }, { "epoch": 0.03352, "grad_norm": 0.84765625, "learning_rate": 9.418592964824121e-05, "loss": 1.3215, "step": 1257 }, { "epoch": 0.03354666666666667, "grad_norm": 0.6484375, "learning_rate": 9.418090452261307e-05, "loss": 1.3045, "step": 1258 }, { "epoch": 0.03357333333333333, "grad_norm": 0.6875, "learning_rate": 9.417587939698493e-05, "loss": 1.3053, "step": 1259 }, { "epoch": 0.0336, "grad_norm": 1.1484375, "learning_rate": 9.41708542713568e-05, "loss": 1.4194, "step": 1260 }, { "epoch": 0.033626666666666666, "grad_norm": 0.53515625, "learning_rate": 9.416582914572864e-05, "loss": 1.1975, "step": 1261 }, { "epoch": 0.033653333333333334, "grad_norm": 0.69140625, "learning_rate": 9.41608040201005e-05, "loss": 1.2871, "step": 1262 }, { "epoch": 0.03368, "grad_norm": 0.54296875, "learning_rate": 9.415577889447237e-05, "loss": 1.2877, "step": 1263 }, { "epoch": 0.03370666666666667, "grad_norm": 0.66015625, "learning_rate": 9.415075376884423e-05, "loss": 1.4795, "step": 1264 }, { "epoch": 0.03373333333333333, "grad_norm": 0.82421875, "learning_rate": 9.414572864321608e-05, "loss": 1.5434, "step": 1265 }, { "epoch": 0.03376, "grad_norm": 0.6171875, "learning_rate": 9.414070351758795e-05, "loss": 1.0766, "step": 1266 }, { "epoch": 0.033786666666666666, "grad_norm": 0.7421875, "learning_rate": 9.41356783919598e-05, "loss": 1.2655, "step": 1267 }, { "epoch": 0.033813333333333334, "grad_norm": 0.67578125, "learning_rate": 9.413065326633166e-05, "loss": 1.2803, "step": 1268 }, { "epoch": 0.03384, "grad_norm": 0.76171875, "learning_rate": 9.412562814070352e-05, "loss": 1.1875, "step": 1269 }, { "epoch": 0.03386666666666667, "grad_norm": 0.59375, "learning_rate": 9.412060301507539e-05, "loss": 1.2183, "step": 1270 }, { "epoch": 0.03389333333333333, "grad_norm": 0.6484375, "learning_rate": 9.411557788944724e-05, "loss": 1.264, "step": 1271 }, { "epoch": 0.03392, "grad_norm": 0.71484375, "learning_rate": 9.41105527638191e-05, "loss": 1.4855, "step": 1272 }, { "epoch": 0.03394666666666667, "grad_norm": 0.46484375, "learning_rate": 9.410552763819096e-05, "loss": 0.9756, "step": 1273 }, { "epoch": 0.033973333333333335, "grad_norm": 0.5703125, "learning_rate": 9.410050251256282e-05, "loss": 1.2388, "step": 1274 }, { "epoch": 0.034, "grad_norm": 0.65234375, "learning_rate": 9.409547738693468e-05, "loss": 1.4208, "step": 1275 }, { "epoch": 0.03402666666666666, "grad_norm": 1.3359375, "learning_rate": 9.409045226130653e-05, "loss": 1.3679, "step": 1276 }, { "epoch": 0.03405333333333333, "grad_norm": 0.765625, "learning_rate": 9.40854271356784e-05, "loss": 1.3985, "step": 1277 }, { "epoch": 0.03408, "grad_norm": 0.70703125, "learning_rate": 9.408040201005026e-05, "loss": 1.3178, "step": 1278 }, { "epoch": 0.03410666666666667, "grad_norm": 0.57421875, "learning_rate": 9.407537688442212e-05, "loss": 1.2805, "step": 1279 }, { "epoch": 0.034133333333333335, "grad_norm": 0.91015625, "learning_rate": 9.407035175879397e-05, "loss": 1.3305, "step": 1280 }, { "epoch": 0.03416, "grad_norm": 0.66015625, "learning_rate": 9.406532663316583e-05, "loss": 1.5874, "step": 1281 }, { "epoch": 0.034186666666666664, "grad_norm": 0.62109375, "learning_rate": 9.406030150753769e-05, "loss": 1.0927, "step": 1282 }, { "epoch": 0.03421333333333333, "grad_norm": 0.6484375, "learning_rate": 9.405527638190955e-05, "loss": 1.4192, "step": 1283 }, { "epoch": 0.03424, "grad_norm": 0.69921875, "learning_rate": 9.40502512562814e-05, "loss": 1.1334, "step": 1284 }, { "epoch": 0.03426666666666667, "grad_norm": 0.6796875, "learning_rate": 9.404522613065328e-05, "loss": 1.3773, "step": 1285 }, { "epoch": 0.034293333333333335, "grad_norm": 0.5703125, "learning_rate": 9.404020100502513e-05, "loss": 1.3941, "step": 1286 }, { "epoch": 0.03432, "grad_norm": 0.52734375, "learning_rate": 9.403517587939699e-05, "loss": 1.2672, "step": 1287 }, { "epoch": 0.034346666666666664, "grad_norm": 0.81640625, "learning_rate": 9.403015075376885e-05, "loss": 1.1411, "step": 1288 }, { "epoch": 0.03437333333333333, "grad_norm": 0.96484375, "learning_rate": 9.402512562814071e-05, "loss": 1.4068, "step": 1289 }, { "epoch": 0.0344, "grad_norm": 0.451171875, "learning_rate": 9.402010050251256e-05, "loss": 1.0415, "step": 1290 }, { "epoch": 0.03442666666666667, "grad_norm": 0.59765625, "learning_rate": 9.401507537688444e-05, "loss": 1.569, "step": 1291 }, { "epoch": 0.034453333333333336, "grad_norm": 0.44921875, "learning_rate": 9.401005025125628e-05, "loss": 1.34, "step": 1292 }, { "epoch": 0.03448, "grad_norm": 0.625, "learning_rate": 9.400502512562815e-05, "loss": 1.3017, "step": 1293 }, { "epoch": 0.034506666666666665, "grad_norm": 0.56640625, "learning_rate": 9.4e-05, "loss": 1.1906, "step": 1294 }, { "epoch": 0.03453333333333333, "grad_norm": 0.94921875, "learning_rate": 9.399497487437187e-05, "loss": 1.2516, "step": 1295 }, { "epoch": 0.03456, "grad_norm": 0.65625, "learning_rate": 9.398994974874372e-05, "loss": 1.1067, "step": 1296 }, { "epoch": 0.03458666666666667, "grad_norm": 0.546875, "learning_rate": 9.398492462311558e-05, "loss": 1.3807, "step": 1297 }, { "epoch": 0.034613333333333336, "grad_norm": 0.58203125, "learning_rate": 9.397989949748744e-05, "loss": 1.1653, "step": 1298 }, { "epoch": 0.03464, "grad_norm": 0.5234375, "learning_rate": 9.39748743718593e-05, "loss": 0.9642, "step": 1299 }, { "epoch": 0.034666666666666665, "grad_norm": 0.71484375, "learning_rate": 9.396984924623115e-05, "loss": 1.2723, "step": 1300 }, { "epoch": 0.03469333333333333, "grad_norm": 0.65625, "learning_rate": 9.396482412060303e-05, "loss": 1.6299, "step": 1301 }, { "epoch": 0.03472, "grad_norm": 0.51953125, "learning_rate": 9.395979899497488e-05, "loss": 1.1553, "step": 1302 }, { "epoch": 0.03474666666666667, "grad_norm": 0.640625, "learning_rate": 9.395477386934674e-05, "loss": 1.4098, "step": 1303 }, { "epoch": 0.03477333333333334, "grad_norm": 1.0, "learning_rate": 9.39497487437186e-05, "loss": 1.4941, "step": 1304 }, { "epoch": 0.0348, "grad_norm": 0.66796875, "learning_rate": 9.394472361809046e-05, "loss": 1.2778, "step": 1305 }, { "epoch": 0.034826666666666665, "grad_norm": 0.6328125, "learning_rate": 9.393969849246231e-05, "loss": 1.3871, "step": 1306 }, { "epoch": 0.03485333333333333, "grad_norm": 0.5078125, "learning_rate": 9.393467336683417e-05, "loss": 1.2442, "step": 1307 }, { "epoch": 0.03488, "grad_norm": 0.484375, "learning_rate": 9.392964824120604e-05, "loss": 1.0056, "step": 1308 }, { "epoch": 0.03490666666666667, "grad_norm": 0.5390625, "learning_rate": 9.39246231155779e-05, "loss": 1.1169, "step": 1309 }, { "epoch": 0.03493333333333333, "grad_norm": 0.58984375, "learning_rate": 9.391959798994975e-05, "loss": 1.2338, "step": 1310 }, { "epoch": 0.03496, "grad_norm": 0.546875, "learning_rate": 9.391457286432161e-05, "loss": 1.3558, "step": 1311 }, { "epoch": 0.034986666666666666, "grad_norm": 0.52734375, "learning_rate": 9.390954773869347e-05, "loss": 1.2328, "step": 1312 }, { "epoch": 0.035013333333333334, "grad_norm": 1.296875, "learning_rate": 9.390452261306533e-05, "loss": 1.6504, "step": 1313 }, { "epoch": 0.03504, "grad_norm": 0.5546875, "learning_rate": 9.38994974874372e-05, "loss": 1.0586, "step": 1314 }, { "epoch": 0.03506666666666667, "grad_norm": 0.5859375, "learning_rate": 9.389447236180904e-05, "loss": 1.3545, "step": 1315 }, { "epoch": 0.03509333333333333, "grad_norm": 0.6015625, "learning_rate": 9.38894472361809e-05, "loss": 0.904, "step": 1316 }, { "epoch": 0.03512, "grad_norm": 0.93359375, "learning_rate": 9.388442211055277e-05, "loss": 1.454, "step": 1317 }, { "epoch": 0.035146666666666666, "grad_norm": 0.57421875, "learning_rate": 9.387939698492463e-05, "loss": 1.2435, "step": 1318 }, { "epoch": 0.035173333333333334, "grad_norm": 0.99609375, "learning_rate": 9.387437185929648e-05, "loss": 1.0475, "step": 1319 }, { "epoch": 0.0352, "grad_norm": 0.77734375, "learning_rate": 9.386934673366835e-05, "loss": 1.416, "step": 1320 }, { "epoch": 0.03522666666666667, "grad_norm": 0.67578125, "learning_rate": 9.38643216080402e-05, "loss": 1.4815, "step": 1321 }, { "epoch": 0.03525333333333333, "grad_norm": 0.703125, "learning_rate": 9.385929648241206e-05, "loss": 1.4705, "step": 1322 }, { "epoch": 0.03528, "grad_norm": 0.609375, "learning_rate": 9.385427135678393e-05, "loss": 0.9173, "step": 1323 }, { "epoch": 0.03530666666666667, "grad_norm": 0.76953125, "learning_rate": 9.384924623115579e-05, "loss": 1.1458, "step": 1324 }, { "epoch": 0.035333333333333335, "grad_norm": 0.69921875, "learning_rate": 9.384422110552764e-05, "loss": 1.1813, "step": 1325 }, { "epoch": 0.03536, "grad_norm": 0.54296875, "learning_rate": 9.38391959798995e-05, "loss": 1.3147, "step": 1326 }, { "epoch": 0.035386666666666663, "grad_norm": 0.8359375, "learning_rate": 9.383417085427136e-05, "loss": 1.3161, "step": 1327 }, { "epoch": 0.03541333333333333, "grad_norm": 0.494140625, "learning_rate": 9.382914572864322e-05, "loss": 1.08, "step": 1328 }, { "epoch": 0.03544, "grad_norm": 0.6796875, "learning_rate": 9.382412060301507e-05, "loss": 1.0391, "step": 1329 }, { "epoch": 0.03546666666666667, "grad_norm": 0.7265625, "learning_rate": 9.381909547738695e-05, "loss": 1.1633, "step": 1330 }, { "epoch": 0.035493333333333335, "grad_norm": 0.68359375, "learning_rate": 9.38140703517588e-05, "loss": 1.0378, "step": 1331 }, { "epoch": 0.03552, "grad_norm": 1.03125, "learning_rate": 9.380904522613066e-05, "loss": 1.2197, "step": 1332 }, { "epoch": 0.035546666666666664, "grad_norm": 0.6796875, "learning_rate": 9.380402010050252e-05, "loss": 1.3207, "step": 1333 }, { "epoch": 0.03557333333333333, "grad_norm": 0.83203125, "learning_rate": 9.379899497487438e-05, "loss": 1.2465, "step": 1334 }, { "epoch": 0.0356, "grad_norm": 0.64453125, "learning_rate": 9.379396984924623e-05, "loss": 1.2923, "step": 1335 }, { "epoch": 0.03562666666666667, "grad_norm": 0.734375, "learning_rate": 9.37889447236181e-05, "loss": 1.2356, "step": 1336 }, { "epoch": 0.035653333333333335, "grad_norm": 0.61328125, "learning_rate": 9.378391959798995e-05, "loss": 1.3756, "step": 1337 }, { "epoch": 0.03568, "grad_norm": 0.6171875, "learning_rate": 9.377889447236182e-05, "loss": 1.4075, "step": 1338 }, { "epoch": 0.035706666666666664, "grad_norm": 0.75, "learning_rate": 9.377386934673368e-05, "loss": 1.2488, "step": 1339 }, { "epoch": 0.03573333333333333, "grad_norm": 0.734375, "learning_rate": 9.376884422110554e-05, "loss": 1.1007, "step": 1340 }, { "epoch": 0.03576, "grad_norm": 0.65234375, "learning_rate": 9.376381909547739e-05, "loss": 1.2221, "step": 1341 }, { "epoch": 0.03578666666666667, "grad_norm": 0.57421875, "learning_rate": 9.375879396984925e-05, "loss": 1.0882, "step": 1342 }, { "epoch": 0.035813333333333336, "grad_norm": 0.9609375, "learning_rate": 9.375376884422111e-05, "loss": 1.4056, "step": 1343 }, { "epoch": 0.03584, "grad_norm": 0.68359375, "learning_rate": 9.374874371859297e-05, "loss": 1.2512, "step": 1344 }, { "epoch": 0.035866666666666665, "grad_norm": 0.62890625, "learning_rate": 9.374371859296482e-05, "loss": 1.4806, "step": 1345 }, { "epoch": 0.03589333333333333, "grad_norm": 0.484375, "learning_rate": 9.373869346733668e-05, "loss": 1.41, "step": 1346 }, { "epoch": 0.03592, "grad_norm": 0.828125, "learning_rate": 9.373366834170855e-05, "loss": 1.3249, "step": 1347 }, { "epoch": 0.03594666666666667, "grad_norm": 0.5390625, "learning_rate": 9.372864321608041e-05, "loss": 1.1604, "step": 1348 }, { "epoch": 0.035973333333333336, "grad_norm": 0.60546875, "learning_rate": 9.372361809045227e-05, "loss": 1.3285, "step": 1349 }, { "epoch": 0.036, "grad_norm": 0.64453125, "learning_rate": 9.371859296482412e-05, "loss": 1.5298, "step": 1350 }, { "epoch": 0.036026666666666665, "grad_norm": 0.7578125, "learning_rate": 9.371356783919598e-05, "loss": 1.4279, "step": 1351 }, { "epoch": 0.03605333333333333, "grad_norm": 0.7265625, "learning_rate": 9.370854271356784e-05, "loss": 1.078, "step": 1352 }, { "epoch": 0.03608, "grad_norm": 0.498046875, "learning_rate": 9.37035175879397e-05, "loss": 1.293, "step": 1353 }, { "epoch": 0.03610666666666667, "grad_norm": 0.67578125, "learning_rate": 9.369849246231155e-05, "loss": 1.2421, "step": 1354 }, { "epoch": 0.03613333333333334, "grad_norm": 0.640625, "learning_rate": 9.369346733668343e-05, "loss": 1.7171, "step": 1355 }, { "epoch": 0.03616, "grad_norm": 0.609375, "learning_rate": 9.368844221105528e-05, "loss": 1.2003, "step": 1356 }, { "epoch": 0.036186666666666666, "grad_norm": 0.7109375, "learning_rate": 9.368341708542714e-05, "loss": 1.2034, "step": 1357 }, { "epoch": 0.036213333333333333, "grad_norm": 0.51171875, "learning_rate": 9.367839195979899e-05, "loss": 1.2388, "step": 1358 }, { "epoch": 0.03624, "grad_norm": 0.70703125, "learning_rate": 9.367336683417086e-05, "loss": 0.8474, "step": 1359 }, { "epoch": 0.03626666666666667, "grad_norm": 0.48046875, "learning_rate": 9.366834170854271e-05, "loss": 1.2063, "step": 1360 }, { "epoch": 0.03629333333333333, "grad_norm": 0.55859375, "learning_rate": 9.366331658291457e-05, "loss": 1.3401, "step": 1361 }, { "epoch": 0.03632, "grad_norm": 1.046875, "learning_rate": 9.365829145728644e-05, "loss": 1.1737, "step": 1362 }, { "epoch": 0.036346666666666666, "grad_norm": 0.7421875, "learning_rate": 9.36532663316583e-05, "loss": 0.8921, "step": 1363 }, { "epoch": 0.036373333333333334, "grad_norm": 0.53125, "learning_rate": 9.364824120603015e-05, "loss": 1.287, "step": 1364 }, { "epoch": 0.0364, "grad_norm": 0.61328125, "learning_rate": 9.364321608040202e-05, "loss": 1.1725, "step": 1365 }, { "epoch": 0.03642666666666667, "grad_norm": 0.765625, "learning_rate": 9.363819095477387e-05, "loss": 1.2477, "step": 1366 }, { "epoch": 0.03645333333333333, "grad_norm": 0.6171875, "learning_rate": 9.363316582914573e-05, "loss": 1.159, "step": 1367 }, { "epoch": 0.03648, "grad_norm": 1.3671875, "learning_rate": 9.36281407035176e-05, "loss": 1.2899, "step": 1368 }, { "epoch": 0.036506666666666666, "grad_norm": 1.03125, "learning_rate": 9.362311557788946e-05, "loss": 1.3102, "step": 1369 }, { "epoch": 0.036533333333333334, "grad_norm": 0.76171875, "learning_rate": 9.36180904522613e-05, "loss": 1.1693, "step": 1370 }, { "epoch": 0.03656, "grad_norm": 0.625, "learning_rate": 9.361306532663318e-05, "loss": 1.3739, "step": 1371 }, { "epoch": 0.03658666666666667, "grad_norm": 0.96875, "learning_rate": 9.360804020100503e-05, "loss": 1.5639, "step": 1372 }, { "epoch": 0.03661333333333333, "grad_norm": 0.59375, "learning_rate": 9.360301507537689e-05, "loss": 1.3888, "step": 1373 }, { "epoch": 0.03664, "grad_norm": 0.85546875, "learning_rate": 9.359798994974874e-05, "loss": 1.1134, "step": 1374 }, { "epoch": 0.03666666666666667, "grad_norm": 0.56640625, "learning_rate": 9.359296482412062e-05, "loss": 1.22, "step": 1375 }, { "epoch": 0.036693333333333335, "grad_norm": 0.6484375, "learning_rate": 9.358793969849246e-05, "loss": 1.1858, "step": 1376 }, { "epoch": 0.03672, "grad_norm": 0.9453125, "learning_rate": 9.358291457286433e-05, "loss": 1.2839, "step": 1377 }, { "epoch": 0.036746666666666664, "grad_norm": 0.76953125, "learning_rate": 9.357788944723619e-05, "loss": 1.3032, "step": 1378 }, { "epoch": 0.03677333333333333, "grad_norm": 0.73828125, "learning_rate": 9.357286432160805e-05, "loss": 1.3609, "step": 1379 }, { "epoch": 0.0368, "grad_norm": 0.69140625, "learning_rate": 9.35678391959799e-05, "loss": 1.1481, "step": 1380 }, { "epoch": 0.03682666666666667, "grad_norm": 0.5234375, "learning_rate": 9.356281407035176e-05, "loss": 1.3269, "step": 1381 }, { "epoch": 0.036853333333333335, "grad_norm": 0.68359375, "learning_rate": 9.355778894472362e-05, "loss": 1.4751, "step": 1382 }, { "epoch": 0.03688, "grad_norm": 0.65625, "learning_rate": 9.355276381909549e-05, "loss": 0.9656, "step": 1383 }, { "epoch": 0.036906666666666664, "grad_norm": 0.55859375, "learning_rate": 9.354773869346735e-05, "loss": 1.9165, "step": 1384 }, { "epoch": 0.03693333333333333, "grad_norm": 0.5078125, "learning_rate": 9.35427135678392e-05, "loss": 1.3351, "step": 1385 }, { "epoch": 0.03696, "grad_norm": 0.55859375, "learning_rate": 9.353768844221106e-05, "loss": 1.2644, "step": 1386 }, { "epoch": 0.03698666666666667, "grad_norm": 0.55078125, "learning_rate": 9.353266331658292e-05, "loss": 1.2179, "step": 1387 }, { "epoch": 0.037013333333333336, "grad_norm": 0.8828125, "learning_rate": 9.352763819095478e-05, "loss": 1.0915, "step": 1388 }, { "epoch": 0.03704, "grad_norm": 0.9453125, "learning_rate": 9.352261306532663e-05, "loss": 1.4372, "step": 1389 }, { "epoch": 0.037066666666666664, "grad_norm": 0.69921875, "learning_rate": 9.351758793969849e-05, "loss": 1.069, "step": 1390 }, { "epoch": 0.03709333333333333, "grad_norm": 0.62890625, "learning_rate": 9.351256281407035e-05, "loss": 1.3032, "step": 1391 }, { "epoch": 0.03712, "grad_norm": 0.50390625, "learning_rate": 9.350753768844222e-05, "loss": 1.2119, "step": 1392 }, { "epoch": 0.03714666666666667, "grad_norm": 0.80078125, "learning_rate": 9.350251256281406e-05, "loss": 1.4635, "step": 1393 }, { "epoch": 0.037173333333333336, "grad_norm": 0.5, "learning_rate": 9.349748743718594e-05, "loss": 1.3985, "step": 1394 }, { "epoch": 0.0372, "grad_norm": 0.5625, "learning_rate": 9.349246231155779e-05, "loss": 1.2317, "step": 1395 }, { "epoch": 0.037226666666666665, "grad_norm": 0.625, "learning_rate": 9.348743718592965e-05, "loss": 1.2731, "step": 1396 }, { "epoch": 0.03725333333333333, "grad_norm": 0.63671875, "learning_rate": 9.348241206030151e-05, "loss": 1.3801, "step": 1397 }, { "epoch": 0.03728, "grad_norm": 0.68359375, "learning_rate": 9.347738693467338e-05, "loss": 1.0931, "step": 1398 }, { "epoch": 0.03730666666666667, "grad_norm": 0.7109375, "learning_rate": 9.347236180904522e-05, "loss": 1.6252, "step": 1399 }, { "epoch": 0.037333333333333336, "grad_norm": 0.5390625, "learning_rate": 9.34673366834171e-05, "loss": 1.3671, "step": 1400 }, { "epoch": 0.03736, "grad_norm": 0.69921875, "learning_rate": 9.346231155778895e-05, "loss": 1.3376, "step": 1401 }, { "epoch": 0.037386666666666665, "grad_norm": 0.5859375, "learning_rate": 9.345728643216081e-05, "loss": 1.0903, "step": 1402 }, { "epoch": 0.03741333333333333, "grad_norm": 0.5078125, "learning_rate": 9.345226130653266e-05, "loss": 1.1727, "step": 1403 }, { "epoch": 0.03744, "grad_norm": 0.55859375, "learning_rate": 9.344723618090453e-05, "loss": 1.1353, "step": 1404 }, { "epoch": 0.03746666666666667, "grad_norm": 0.703125, "learning_rate": 9.344221105527638e-05, "loss": 1.351, "step": 1405 }, { "epoch": 0.03749333333333333, "grad_norm": 0.64453125, "learning_rate": 9.343718592964824e-05, "loss": 1.1666, "step": 1406 }, { "epoch": 0.03752, "grad_norm": 0.671875, "learning_rate": 9.34321608040201e-05, "loss": 1.4483, "step": 1407 }, { "epoch": 0.037546666666666666, "grad_norm": 0.61328125, "learning_rate": 9.342713567839197e-05, "loss": 1.3559, "step": 1408 }, { "epoch": 0.037573333333333334, "grad_norm": 0.625, "learning_rate": 9.342211055276382e-05, "loss": 0.8193, "step": 1409 }, { "epoch": 0.0376, "grad_norm": 0.5234375, "learning_rate": 9.341708542713569e-05, "loss": 1.1837, "step": 1410 }, { "epoch": 0.03762666666666667, "grad_norm": 0.69140625, "learning_rate": 9.341206030150754e-05, "loss": 1.1788, "step": 1411 }, { "epoch": 0.03765333333333333, "grad_norm": 0.62890625, "learning_rate": 9.34070351758794e-05, "loss": 1.3888, "step": 1412 }, { "epoch": 0.03768, "grad_norm": 0.59375, "learning_rate": 9.340201005025126e-05, "loss": 1.1345, "step": 1413 }, { "epoch": 0.037706666666666666, "grad_norm": 0.8046875, "learning_rate": 9.339698492462313e-05, "loss": 1.3487, "step": 1414 }, { "epoch": 0.037733333333333334, "grad_norm": 0.7109375, "learning_rate": 9.339195979899498e-05, "loss": 1.1818, "step": 1415 }, { "epoch": 0.03776, "grad_norm": 0.58203125, "learning_rate": 9.338693467336684e-05, "loss": 1.415, "step": 1416 }, { "epoch": 0.03778666666666667, "grad_norm": 0.65625, "learning_rate": 9.33819095477387e-05, "loss": 1.1619, "step": 1417 }, { "epoch": 0.03781333333333333, "grad_norm": 0.7109375, "learning_rate": 9.337688442211056e-05, "loss": 1.2698, "step": 1418 }, { "epoch": 0.03784, "grad_norm": 0.625, "learning_rate": 9.337185929648241e-05, "loss": 1.2739, "step": 1419 }, { "epoch": 0.037866666666666667, "grad_norm": 0.8125, "learning_rate": 9.336683417085427e-05, "loss": 1.24, "step": 1420 }, { "epoch": 0.037893333333333334, "grad_norm": 0.5390625, "learning_rate": 9.336180904522613e-05, "loss": 1.1412, "step": 1421 }, { "epoch": 0.03792, "grad_norm": 0.54296875, "learning_rate": 9.3356783919598e-05, "loss": 1.3409, "step": 1422 }, { "epoch": 0.03794666666666666, "grad_norm": 0.8046875, "learning_rate": 9.335175879396986e-05, "loss": 1.2141, "step": 1423 }, { "epoch": 0.03797333333333333, "grad_norm": 0.5, "learning_rate": 9.33467336683417e-05, "loss": 1.1197, "step": 1424 }, { "epoch": 0.038, "grad_norm": 0.470703125, "learning_rate": 9.334170854271357e-05, "loss": 1.1892, "step": 1425 }, { "epoch": 0.03802666666666667, "grad_norm": 0.64453125, "learning_rate": 9.333668341708543e-05, "loss": 1.1827, "step": 1426 }, { "epoch": 0.038053333333333335, "grad_norm": 1.1484375, "learning_rate": 9.333165829145729e-05, "loss": 1.6684, "step": 1427 }, { "epoch": 0.03808, "grad_norm": 0.55859375, "learning_rate": 9.332663316582914e-05, "loss": 1.3571, "step": 1428 }, { "epoch": 0.038106666666666664, "grad_norm": 1.2109375, "learning_rate": 9.332160804020102e-05, "loss": 1.3101, "step": 1429 }, { "epoch": 0.03813333333333333, "grad_norm": 0.431640625, "learning_rate": 9.331658291457287e-05, "loss": 1.6061, "step": 1430 }, { "epoch": 0.03816, "grad_norm": 0.62109375, "learning_rate": 9.331155778894473e-05, "loss": 1.4759, "step": 1431 }, { "epoch": 0.03818666666666667, "grad_norm": 0.71875, "learning_rate": 9.330653266331659e-05, "loss": 1.2741, "step": 1432 }, { "epoch": 0.038213333333333335, "grad_norm": 0.59765625, "learning_rate": 9.330150753768845e-05, "loss": 1.6399, "step": 1433 }, { "epoch": 0.03824, "grad_norm": 0.54296875, "learning_rate": 9.32964824120603e-05, "loss": 1.1588, "step": 1434 }, { "epoch": 0.038266666666666664, "grad_norm": 0.5703125, "learning_rate": 9.329145728643216e-05, "loss": 1.571, "step": 1435 }, { "epoch": 0.03829333333333333, "grad_norm": 0.68359375, "learning_rate": 9.328643216080402e-05, "loss": 1.3557, "step": 1436 }, { "epoch": 0.03832, "grad_norm": 0.69921875, "learning_rate": 9.328140703517589e-05, "loss": 1.2279, "step": 1437 }, { "epoch": 0.03834666666666667, "grad_norm": 0.75390625, "learning_rate": 9.327638190954773e-05, "loss": 1.3558, "step": 1438 }, { "epoch": 0.038373333333333336, "grad_norm": 0.75390625, "learning_rate": 9.327135678391961e-05, "loss": 1.2862, "step": 1439 }, { "epoch": 0.0384, "grad_norm": 0.5703125, "learning_rate": 9.326633165829146e-05, "loss": 1.1531, "step": 1440 }, { "epoch": 0.038426666666666665, "grad_norm": 0.65625, "learning_rate": 9.326130653266332e-05, "loss": 1.6308, "step": 1441 }, { "epoch": 0.03845333333333333, "grad_norm": 0.65234375, "learning_rate": 9.325628140703518e-05, "loss": 1.0639, "step": 1442 }, { "epoch": 0.03848, "grad_norm": 0.6640625, "learning_rate": 9.325125628140704e-05, "loss": 1.0832, "step": 1443 }, { "epoch": 0.03850666666666667, "grad_norm": 0.72265625, "learning_rate": 9.324623115577889e-05, "loss": 1.4358, "step": 1444 }, { "epoch": 0.038533333333333336, "grad_norm": 0.58203125, "learning_rate": 9.324120603015077e-05, "loss": 1.1349, "step": 1445 }, { "epoch": 0.03856, "grad_norm": 0.69921875, "learning_rate": 9.323618090452262e-05, "loss": 1.2704, "step": 1446 }, { "epoch": 0.038586666666666665, "grad_norm": 1.46875, "learning_rate": 9.323115577889448e-05, "loss": 1.393, "step": 1447 }, { "epoch": 0.03861333333333333, "grad_norm": 0.5625, "learning_rate": 9.322613065326634e-05, "loss": 1.1515, "step": 1448 }, { "epoch": 0.03864, "grad_norm": 0.640625, "learning_rate": 9.32211055276382e-05, "loss": 1.1713, "step": 1449 }, { "epoch": 0.03866666666666667, "grad_norm": 0.703125, "learning_rate": 9.321608040201005e-05, "loss": 1.5149, "step": 1450 }, { "epoch": 0.038693333333333337, "grad_norm": 0.58203125, "learning_rate": 9.321105527638191e-05, "loss": 1.0773, "step": 1451 }, { "epoch": 0.03872, "grad_norm": 0.6171875, "learning_rate": 9.320603015075378e-05, "loss": 1.1252, "step": 1452 }, { "epoch": 0.038746666666666665, "grad_norm": 0.8203125, "learning_rate": 9.320100502512564e-05, "loss": 1.3256, "step": 1453 }, { "epoch": 0.03877333333333333, "grad_norm": 0.51953125, "learning_rate": 9.319597989949749e-05, "loss": 1.3833, "step": 1454 }, { "epoch": 0.0388, "grad_norm": 0.7578125, "learning_rate": 9.319095477386935e-05, "loss": 1.4623, "step": 1455 }, { "epoch": 0.03882666666666667, "grad_norm": 0.62109375, "learning_rate": 9.318592964824121e-05, "loss": 1.4922, "step": 1456 }, { "epoch": 0.03885333333333333, "grad_norm": 0.75390625, "learning_rate": 9.318090452261307e-05, "loss": 1.3118, "step": 1457 }, { "epoch": 0.03888, "grad_norm": 1.0390625, "learning_rate": 9.317587939698493e-05, "loss": 1.5074, "step": 1458 }, { "epoch": 0.038906666666666666, "grad_norm": 0.609375, "learning_rate": 9.317085427135678e-05, "loss": 1.5334, "step": 1459 }, { "epoch": 0.038933333333333334, "grad_norm": 0.828125, "learning_rate": 9.316582914572864e-05, "loss": 1.3278, "step": 1460 }, { "epoch": 0.03896, "grad_norm": 0.7265625, "learning_rate": 9.316080402010051e-05, "loss": 1.1164, "step": 1461 }, { "epoch": 0.03898666666666667, "grad_norm": 0.88671875, "learning_rate": 9.315577889447237e-05, "loss": 1.13, "step": 1462 }, { "epoch": 0.03901333333333333, "grad_norm": 0.53515625, "learning_rate": 9.315075376884422e-05, "loss": 1.3735, "step": 1463 }, { "epoch": 0.03904, "grad_norm": 0.60546875, "learning_rate": 9.314572864321609e-05, "loss": 1.2853, "step": 1464 }, { "epoch": 0.039066666666666666, "grad_norm": 0.66015625, "learning_rate": 9.314070351758794e-05, "loss": 1.3218, "step": 1465 }, { "epoch": 0.039093333333333334, "grad_norm": 0.5234375, "learning_rate": 9.31356783919598e-05, "loss": 1.3606, "step": 1466 }, { "epoch": 0.03912, "grad_norm": 0.69140625, "learning_rate": 9.313065326633165e-05, "loss": 1.0914, "step": 1467 }, { "epoch": 0.03914666666666667, "grad_norm": 1.1015625, "learning_rate": 9.312562814070353e-05, "loss": 1.2524, "step": 1468 }, { "epoch": 0.03917333333333333, "grad_norm": 0.81640625, "learning_rate": 9.312060301507538e-05, "loss": 1.3974, "step": 1469 }, { "epoch": 0.0392, "grad_norm": 0.49609375, "learning_rate": 9.311557788944724e-05, "loss": 1.2093, "step": 1470 }, { "epoch": 0.03922666666666667, "grad_norm": 0.69140625, "learning_rate": 9.31105527638191e-05, "loss": 1.354, "step": 1471 }, { "epoch": 0.039253333333333335, "grad_norm": 0.62109375, "learning_rate": 9.310552763819096e-05, "loss": 1.0406, "step": 1472 }, { "epoch": 0.03928, "grad_norm": 0.64453125, "learning_rate": 9.310050251256281e-05, "loss": 1.2276, "step": 1473 }, { "epoch": 0.03930666666666666, "grad_norm": 0.796875, "learning_rate": 9.309547738693469e-05, "loss": 1.2999, "step": 1474 }, { "epoch": 0.03933333333333333, "grad_norm": 0.6015625, "learning_rate": 9.309045226130653e-05, "loss": 1.26, "step": 1475 }, { "epoch": 0.03936, "grad_norm": 0.82421875, "learning_rate": 9.30854271356784e-05, "loss": 1.0052, "step": 1476 }, { "epoch": 0.03938666666666667, "grad_norm": 0.6640625, "learning_rate": 9.308040201005026e-05, "loss": 1.671, "step": 1477 }, { "epoch": 0.039413333333333335, "grad_norm": 0.61328125, "learning_rate": 9.307537688442212e-05, "loss": 1.319, "step": 1478 }, { "epoch": 0.03944, "grad_norm": 0.62109375, "learning_rate": 9.307035175879397e-05, "loss": 1.1269, "step": 1479 }, { "epoch": 0.039466666666666664, "grad_norm": 0.6015625, "learning_rate": 9.306532663316585e-05, "loss": 1.1553, "step": 1480 }, { "epoch": 0.03949333333333333, "grad_norm": 0.46484375, "learning_rate": 9.30603015075377e-05, "loss": 1.2322, "step": 1481 }, { "epoch": 0.03952, "grad_norm": 0.64453125, "learning_rate": 9.305527638190956e-05, "loss": 1.2112, "step": 1482 }, { "epoch": 0.03954666666666667, "grad_norm": 0.77734375, "learning_rate": 9.30502512562814e-05, "loss": 1.213, "step": 1483 }, { "epoch": 0.039573333333333335, "grad_norm": 0.51171875, "learning_rate": 9.304522613065328e-05, "loss": 1.0753, "step": 1484 }, { "epoch": 0.0396, "grad_norm": 1.0625, "learning_rate": 9.304020100502513e-05, "loss": 1.3936, "step": 1485 }, { "epoch": 0.039626666666666664, "grad_norm": 0.578125, "learning_rate": 9.303517587939699e-05, "loss": 1.2419, "step": 1486 }, { "epoch": 0.03965333333333333, "grad_norm": 0.546875, "learning_rate": 9.303015075376885e-05, "loss": 1.3205, "step": 1487 }, { "epoch": 0.03968, "grad_norm": 0.62890625, "learning_rate": 9.302512562814071e-05, "loss": 1.3817, "step": 1488 }, { "epoch": 0.03970666666666667, "grad_norm": 0.72265625, "learning_rate": 9.302010050251256e-05, "loss": 1.3252, "step": 1489 }, { "epoch": 0.039733333333333336, "grad_norm": 0.7109375, "learning_rate": 9.301507537688442e-05, "loss": 1.4987, "step": 1490 }, { "epoch": 0.03976, "grad_norm": 0.5703125, "learning_rate": 9.301005025125629e-05, "loss": 1.2695, "step": 1491 }, { "epoch": 0.039786666666666665, "grad_norm": 0.6015625, "learning_rate": 9.300502512562815e-05, "loss": 1.2564, "step": 1492 }, { "epoch": 0.03981333333333333, "grad_norm": 0.60546875, "learning_rate": 9.300000000000001e-05, "loss": 1.3143, "step": 1493 }, { "epoch": 0.03984, "grad_norm": 0.49609375, "learning_rate": 9.299497487437186e-05, "loss": 0.9696, "step": 1494 }, { "epoch": 0.03986666666666667, "grad_norm": 0.609375, "learning_rate": 9.298994974874372e-05, "loss": 1.1169, "step": 1495 }, { "epoch": 0.039893333333333336, "grad_norm": 0.86328125, "learning_rate": 9.298492462311558e-05, "loss": 1.4599, "step": 1496 }, { "epoch": 0.03992, "grad_norm": 0.6875, "learning_rate": 9.297989949748745e-05, "loss": 1.2783, "step": 1497 }, { "epoch": 0.039946666666666665, "grad_norm": 0.8125, "learning_rate": 9.29748743718593e-05, "loss": 1.1065, "step": 1498 }, { "epoch": 0.03997333333333333, "grad_norm": 0.73046875, "learning_rate": 9.296984924623116e-05, "loss": 1.4668, "step": 1499 }, { "epoch": 0.04, "grad_norm": 0.69140625, "learning_rate": 9.296482412060302e-05, "loss": 1.1725, "step": 1500 }, { "epoch": 0.04002666666666667, "grad_norm": 0.51171875, "learning_rate": 9.295979899497488e-05, "loss": 1.2258, "step": 1501 }, { "epoch": 0.04005333333333334, "grad_norm": 0.62890625, "learning_rate": 9.295477386934673e-05, "loss": 1.382, "step": 1502 }, { "epoch": 0.04008, "grad_norm": 0.6015625, "learning_rate": 9.29497487437186e-05, "loss": 1.2586, "step": 1503 }, { "epoch": 0.040106666666666665, "grad_norm": 1.3203125, "learning_rate": 9.294472361809045e-05, "loss": 1.0382, "step": 1504 }, { "epoch": 0.04013333333333333, "grad_norm": 0.6015625, "learning_rate": 9.293969849246231e-05, "loss": 0.9383, "step": 1505 }, { "epoch": 0.04016, "grad_norm": 0.60546875, "learning_rate": 9.293467336683418e-05, "loss": 1.2659, "step": 1506 }, { "epoch": 0.04018666666666667, "grad_norm": 0.61328125, "learning_rate": 9.292964824120604e-05, "loss": 1.0896, "step": 1507 }, { "epoch": 0.04021333333333333, "grad_norm": 0.734375, "learning_rate": 9.292462311557789e-05, "loss": 1.3194, "step": 1508 }, { "epoch": 0.04024, "grad_norm": 1.5625, "learning_rate": 9.291959798994976e-05, "loss": 1.391, "step": 1509 }, { "epoch": 0.040266666666666666, "grad_norm": 0.67578125, "learning_rate": 9.291457286432161e-05, "loss": 1.0241, "step": 1510 }, { "epoch": 0.040293333333333334, "grad_norm": 0.6640625, "learning_rate": 9.290954773869347e-05, "loss": 1.1256, "step": 1511 }, { "epoch": 0.04032, "grad_norm": 0.61328125, "learning_rate": 9.290452261306532e-05, "loss": 1.4397, "step": 1512 }, { "epoch": 0.04034666666666667, "grad_norm": 0.57421875, "learning_rate": 9.28994974874372e-05, "loss": 1.3216, "step": 1513 }, { "epoch": 0.04037333333333333, "grad_norm": 0.578125, "learning_rate": 9.289447236180905e-05, "loss": 1.2201, "step": 1514 }, { "epoch": 0.0404, "grad_norm": 0.7265625, "learning_rate": 9.288944723618091e-05, "loss": 1.422, "step": 1515 }, { "epoch": 0.040426666666666666, "grad_norm": 0.5625, "learning_rate": 9.288442211055277e-05, "loss": 1.4754, "step": 1516 }, { "epoch": 0.040453333333333334, "grad_norm": 0.62890625, "learning_rate": 9.287939698492463e-05, "loss": 1.271, "step": 1517 }, { "epoch": 0.04048, "grad_norm": 0.62109375, "learning_rate": 9.287437185929648e-05, "loss": 1.1483, "step": 1518 }, { "epoch": 0.04050666666666667, "grad_norm": 1.1171875, "learning_rate": 9.286934673366836e-05, "loss": 1.6177, "step": 1519 }, { "epoch": 0.04053333333333333, "grad_norm": 0.734375, "learning_rate": 9.28643216080402e-05, "loss": 1.53, "step": 1520 }, { "epoch": 0.04056, "grad_norm": 0.64453125, "learning_rate": 9.285929648241207e-05, "loss": 1.2638, "step": 1521 }, { "epoch": 0.04058666666666667, "grad_norm": 0.54296875, "learning_rate": 9.285427135678393e-05, "loss": 1.1922, "step": 1522 }, { "epoch": 0.040613333333333335, "grad_norm": 0.72265625, "learning_rate": 9.284924623115579e-05, "loss": 1.1028, "step": 1523 }, { "epoch": 0.04064, "grad_norm": 0.4921875, "learning_rate": 9.284422110552764e-05, "loss": 1.3602, "step": 1524 }, { "epoch": 0.04066666666666666, "grad_norm": 0.55859375, "learning_rate": 9.28391959798995e-05, "loss": 1.1491, "step": 1525 }, { "epoch": 0.04069333333333333, "grad_norm": 0.59375, "learning_rate": 9.283417085427136e-05, "loss": 1.3086, "step": 1526 }, { "epoch": 0.04072, "grad_norm": 0.8046875, "learning_rate": 9.282914572864323e-05, "loss": 1.5553, "step": 1527 }, { "epoch": 0.04074666666666667, "grad_norm": 0.46875, "learning_rate": 9.282412060301507e-05, "loss": 1.129, "step": 1528 }, { "epoch": 0.040773333333333335, "grad_norm": 0.58203125, "learning_rate": 9.281909547738694e-05, "loss": 1.2387, "step": 1529 }, { "epoch": 0.0408, "grad_norm": 0.640625, "learning_rate": 9.28140703517588e-05, "loss": 1.3096, "step": 1530 }, { "epoch": 0.040826666666666664, "grad_norm": 0.466796875, "learning_rate": 9.280904522613066e-05, "loss": 1.2236, "step": 1531 }, { "epoch": 0.04085333333333333, "grad_norm": 0.69921875, "learning_rate": 9.280402010050252e-05, "loss": 1.2146, "step": 1532 }, { "epoch": 0.04088, "grad_norm": 0.435546875, "learning_rate": 9.279899497487437e-05, "loss": 1.2239, "step": 1533 }, { "epoch": 0.04090666666666667, "grad_norm": 0.9140625, "learning_rate": 9.279396984924623e-05, "loss": 1.626, "step": 1534 }, { "epoch": 0.040933333333333335, "grad_norm": 0.7421875, "learning_rate": 9.27889447236181e-05, "loss": 1.3598, "step": 1535 }, { "epoch": 0.04096, "grad_norm": 0.77734375, "learning_rate": 9.278391959798996e-05, "loss": 1.3927, "step": 1536 }, { "epoch": 0.040986666666666664, "grad_norm": 0.7421875, "learning_rate": 9.27788944723618e-05, "loss": 1.2255, "step": 1537 }, { "epoch": 0.04101333333333333, "grad_norm": 0.53515625, "learning_rate": 9.277386934673368e-05, "loss": 1.3203, "step": 1538 }, { "epoch": 0.04104, "grad_norm": 0.51953125, "learning_rate": 9.276884422110553e-05, "loss": 1.3663, "step": 1539 }, { "epoch": 0.04106666666666667, "grad_norm": 0.58203125, "learning_rate": 9.276381909547739e-05, "loss": 1.2263, "step": 1540 }, { "epoch": 0.041093333333333336, "grad_norm": 0.494140625, "learning_rate": 9.275879396984925e-05, "loss": 1.2979, "step": 1541 }, { "epoch": 0.04112, "grad_norm": 0.88671875, "learning_rate": 9.275376884422111e-05, "loss": 1.5815, "step": 1542 }, { "epoch": 0.041146666666666665, "grad_norm": 0.609375, "learning_rate": 9.274874371859296e-05, "loss": 1.3159, "step": 1543 }, { "epoch": 0.04117333333333333, "grad_norm": 0.55078125, "learning_rate": 9.274371859296483e-05, "loss": 1.0587, "step": 1544 }, { "epoch": 0.0412, "grad_norm": 0.57421875, "learning_rate": 9.273869346733669e-05, "loss": 1.4859, "step": 1545 }, { "epoch": 0.04122666666666667, "grad_norm": 0.77734375, "learning_rate": 9.273366834170855e-05, "loss": 1.1613, "step": 1546 }, { "epoch": 0.041253333333333336, "grad_norm": 0.53125, "learning_rate": 9.27286432160804e-05, "loss": 1.195, "step": 1547 }, { "epoch": 0.04128, "grad_norm": 1.046875, "learning_rate": 9.272361809045227e-05, "loss": 1.6496, "step": 1548 }, { "epoch": 0.041306666666666665, "grad_norm": 0.56640625, "learning_rate": 9.271859296482412e-05, "loss": 1.355, "step": 1549 }, { "epoch": 0.04133333333333333, "grad_norm": 0.515625, "learning_rate": 9.271356783919598e-05, "loss": 1.1493, "step": 1550 }, { "epoch": 0.04136, "grad_norm": 0.53515625, "learning_rate": 9.270854271356785e-05, "loss": 1.2511, "step": 1551 }, { "epoch": 0.04138666666666667, "grad_norm": 0.5859375, "learning_rate": 9.270351758793971e-05, "loss": 1.344, "step": 1552 }, { "epoch": 0.04141333333333334, "grad_norm": 0.55859375, "learning_rate": 9.269849246231156e-05, "loss": 0.9339, "step": 1553 }, { "epoch": 0.04144, "grad_norm": 0.609375, "learning_rate": 9.269346733668343e-05, "loss": 1.3241, "step": 1554 }, { "epoch": 0.041466666666666666, "grad_norm": 0.8046875, "learning_rate": 9.268844221105528e-05, "loss": 1.2365, "step": 1555 }, { "epoch": 0.04149333333333333, "grad_norm": 0.51953125, "learning_rate": 9.268341708542714e-05, "loss": 1.3824, "step": 1556 }, { "epoch": 0.04152, "grad_norm": 0.625, "learning_rate": 9.2678391959799e-05, "loss": 1.5027, "step": 1557 }, { "epoch": 0.04154666666666667, "grad_norm": 0.59375, "learning_rate": 9.267336683417087e-05, "loss": 1.3609, "step": 1558 }, { "epoch": 0.04157333333333333, "grad_norm": 0.81640625, "learning_rate": 9.266834170854272e-05, "loss": 1.383, "step": 1559 }, { "epoch": 0.0416, "grad_norm": 1.0625, "learning_rate": 9.266331658291458e-05, "loss": 1.4609, "step": 1560 }, { "epoch": 0.041626666666666666, "grad_norm": 0.5625, "learning_rate": 9.265829145728644e-05, "loss": 1.3523, "step": 1561 }, { "epoch": 0.041653333333333334, "grad_norm": 0.53125, "learning_rate": 9.26532663316583e-05, "loss": 1.1249, "step": 1562 }, { "epoch": 0.04168, "grad_norm": 0.79296875, "learning_rate": 9.264824120603015e-05, "loss": 1.4643, "step": 1563 }, { "epoch": 0.04170666666666667, "grad_norm": 0.8203125, "learning_rate": 9.264321608040201e-05, "loss": 1.37, "step": 1564 }, { "epoch": 0.04173333333333333, "grad_norm": 0.54296875, "learning_rate": 9.263819095477387e-05, "loss": 1.4293, "step": 1565 }, { "epoch": 0.04176, "grad_norm": 0.77734375, "learning_rate": 9.263316582914574e-05, "loss": 1.4025, "step": 1566 }, { "epoch": 0.041786666666666666, "grad_norm": 0.578125, "learning_rate": 9.26281407035176e-05, "loss": 1.2422, "step": 1567 }, { "epoch": 0.041813333333333334, "grad_norm": 0.5703125, "learning_rate": 9.262311557788945e-05, "loss": 1.0476, "step": 1568 }, { "epoch": 0.04184, "grad_norm": 0.59375, "learning_rate": 9.261809045226131e-05, "loss": 1.3166, "step": 1569 }, { "epoch": 0.04186666666666667, "grad_norm": 1.2421875, "learning_rate": 9.261306532663317e-05, "loss": 1.2732, "step": 1570 }, { "epoch": 0.04189333333333333, "grad_norm": 0.55859375, "learning_rate": 9.260804020100503e-05, "loss": 1.3102, "step": 1571 }, { "epoch": 0.04192, "grad_norm": 0.625, "learning_rate": 9.260301507537688e-05, "loss": 1.1283, "step": 1572 }, { "epoch": 0.04194666666666667, "grad_norm": 0.71875, "learning_rate": 9.259798994974876e-05, "loss": 1.2851, "step": 1573 }, { "epoch": 0.041973333333333335, "grad_norm": 0.92578125, "learning_rate": 9.25929648241206e-05, "loss": 1.3846, "step": 1574 }, { "epoch": 0.042, "grad_norm": 0.66796875, "learning_rate": 9.258793969849247e-05, "loss": 1.228, "step": 1575 }, { "epoch": 0.042026666666666664, "grad_norm": 0.68359375, "learning_rate": 9.258291457286432e-05, "loss": 1.0455, "step": 1576 }, { "epoch": 0.04205333333333333, "grad_norm": 0.65234375, "learning_rate": 9.257788944723619e-05, "loss": 1.345, "step": 1577 }, { "epoch": 0.04208, "grad_norm": 0.7265625, "learning_rate": 9.257286432160804e-05, "loss": 1.1483, "step": 1578 }, { "epoch": 0.04210666666666667, "grad_norm": 0.5390625, "learning_rate": 9.25678391959799e-05, "loss": 1.2535, "step": 1579 }, { "epoch": 0.042133333333333335, "grad_norm": 0.7734375, "learning_rate": 9.256281407035176e-05, "loss": 1.0907, "step": 1580 }, { "epoch": 0.04216, "grad_norm": 0.6484375, "learning_rate": 9.255778894472363e-05, "loss": 0.9853, "step": 1581 }, { "epoch": 0.042186666666666664, "grad_norm": 0.640625, "learning_rate": 9.255276381909547e-05, "loss": 1.1012, "step": 1582 }, { "epoch": 0.04221333333333333, "grad_norm": 0.58203125, "learning_rate": 9.254773869346735e-05, "loss": 1.0899, "step": 1583 }, { "epoch": 0.04224, "grad_norm": 0.65234375, "learning_rate": 9.25427135678392e-05, "loss": 1.2007, "step": 1584 }, { "epoch": 0.04226666666666667, "grad_norm": 0.53125, "learning_rate": 9.253768844221106e-05, "loss": 1.3044, "step": 1585 }, { "epoch": 0.042293333333333336, "grad_norm": 0.79296875, "learning_rate": 9.253266331658292e-05, "loss": 1.4745, "step": 1586 }, { "epoch": 0.04232, "grad_norm": 0.53125, "learning_rate": 9.252763819095478e-05, "loss": 0.9991, "step": 1587 }, { "epoch": 0.042346666666666664, "grad_norm": 0.84375, "learning_rate": 9.252261306532663e-05, "loss": 1.3153, "step": 1588 }, { "epoch": 0.04237333333333333, "grad_norm": 0.77734375, "learning_rate": 9.251758793969851e-05, "loss": 1.3573, "step": 1589 }, { "epoch": 0.0424, "grad_norm": 0.59375, "learning_rate": 9.251256281407036e-05, "loss": 1.1962, "step": 1590 }, { "epoch": 0.04242666666666667, "grad_norm": 0.5625, "learning_rate": 9.250753768844222e-05, "loss": 1.4922, "step": 1591 }, { "epoch": 0.042453333333333336, "grad_norm": 0.5, "learning_rate": 9.250251256281407e-05, "loss": 1.6976, "step": 1592 }, { "epoch": 0.04248, "grad_norm": 0.7890625, "learning_rate": 9.249748743718594e-05, "loss": 1.3636, "step": 1593 }, { "epoch": 0.042506666666666665, "grad_norm": 1.859375, "learning_rate": 9.249246231155779e-05, "loss": 1.1032, "step": 1594 }, { "epoch": 0.04253333333333333, "grad_norm": 0.5703125, "learning_rate": 9.248743718592965e-05, "loss": 1.3055, "step": 1595 }, { "epoch": 0.04256, "grad_norm": 0.62890625, "learning_rate": 9.248241206030152e-05, "loss": 1.326, "step": 1596 }, { "epoch": 0.04258666666666667, "grad_norm": 0.5859375, "learning_rate": 9.247738693467338e-05, "loss": 1.0436, "step": 1597 }, { "epoch": 0.042613333333333336, "grad_norm": 0.66796875, "learning_rate": 9.247236180904523e-05, "loss": 1.3191, "step": 1598 }, { "epoch": 0.04264, "grad_norm": 0.7109375, "learning_rate": 9.246733668341709e-05, "loss": 1.2304, "step": 1599 }, { "epoch": 0.042666666666666665, "grad_norm": 0.55078125, "learning_rate": 9.246231155778895e-05, "loss": 1.1177, "step": 1600 }, { "epoch": 0.04269333333333333, "grad_norm": 0.55078125, "learning_rate": 9.245728643216081e-05, "loss": 1.2412, "step": 1601 }, { "epoch": 0.04272, "grad_norm": 0.58203125, "learning_rate": 9.245226130653267e-05, "loss": 0.9882, "step": 1602 }, { "epoch": 0.04274666666666667, "grad_norm": 0.80859375, "learning_rate": 9.244723618090452e-05, "loss": 1.4894, "step": 1603 }, { "epoch": 0.04277333333333333, "grad_norm": 0.5625, "learning_rate": 9.244221105527638e-05, "loss": 1.0997, "step": 1604 }, { "epoch": 0.0428, "grad_norm": 0.54296875, "learning_rate": 9.243718592964823e-05, "loss": 1.0424, "step": 1605 }, { "epoch": 0.042826666666666666, "grad_norm": 0.7265625, "learning_rate": 9.243216080402011e-05, "loss": 1.4711, "step": 1606 }, { "epoch": 0.042853333333333334, "grad_norm": 0.70703125, "learning_rate": 9.242713567839196e-05, "loss": 1.1069, "step": 1607 }, { "epoch": 0.04288, "grad_norm": 0.56640625, "learning_rate": 9.242211055276382e-05, "loss": 1.2991, "step": 1608 }, { "epoch": 0.04290666666666667, "grad_norm": 0.55078125, "learning_rate": 9.241708542713568e-05, "loss": 1.3286, "step": 1609 }, { "epoch": 0.04293333333333333, "grad_norm": 0.7109375, "learning_rate": 9.241206030150754e-05, "loss": 1.1355, "step": 1610 }, { "epoch": 0.04296, "grad_norm": 0.5703125, "learning_rate": 9.240703517587939e-05, "loss": 1.0697, "step": 1611 }, { "epoch": 0.042986666666666666, "grad_norm": 0.71875, "learning_rate": 9.240201005025127e-05, "loss": 1.1407, "step": 1612 }, { "epoch": 0.043013333333333334, "grad_norm": 0.57421875, "learning_rate": 9.239698492462312e-05, "loss": 1.1353, "step": 1613 }, { "epoch": 0.04304, "grad_norm": 0.55859375, "learning_rate": 9.239195979899498e-05, "loss": 1.2475, "step": 1614 }, { "epoch": 0.04306666666666667, "grad_norm": 0.78515625, "learning_rate": 9.238693467336684e-05, "loss": 0.974, "step": 1615 }, { "epoch": 0.04309333333333333, "grad_norm": 0.51171875, "learning_rate": 9.23819095477387e-05, "loss": 1.3418, "step": 1616 }, { "epoch": 0.04312, "grad_norm": 0.498046875, "learning_rate": 9.237688442211055e-05, "loss": 1.1812, "step": 1617 }, { "epoch": 0.043146666666666667, "grad_norm": 0.60546875, "learning_rate": 9.237185929648243e-05, "loss": 1.222, "step": 1618 }, { "epoch": 0.043173333333333334, "grad_norm": 0.48828125, "learning_rate": 9.236683417085427e-05, "loss": 1.1273, "step": 1619 }, { "epoch": 0.0432, "grad_norm": 0.5390625, "learning_rate": 9.236180904522614e-05, "loss": 1.2407, "step": 1620 }, { "epoch": 0.04322666666666666, "grad_norm": 0.69140625, "learning_rate": 9.235678391959799e-05, "loss": 1.3288, "step": 1621 }, { "epoch": 0.04325333333333333, "grad_norm": 0.57421875, "learning_rate": 9.235175879396986e-05, "loss": 1.1492, "step": 1622 }, { "epoch": 0.04328, "grad_norm": 0.6640625, "learning_rate": 9.234673366834171e-05, "loss": 1.0625, "step": 1623 }, { "epoch": 0.04330666666666667, "grad_norm": 0.89453125, "learning_rate": 9.234170854271357e-05, "loss": 1.8398, "step": 1624 }, { "epoch": 0.043333333333333335, "grad_norm": 0.86328125, "learning_rate": 9.233668341708543e-05, "loss": 1.101, "step": 1625 }, { "epoch": 0.04336, "grad_norm": 0.69140625, "learning_rate": 9.23316582914573e-05, "loss": 1.3206, "step": 1626 }, { "epoch": 0.043386666666666664, "grad_norm": 0.71875, "learning_rate": 9.232663316582914e-05, "loss": 1.1589, "step": 1627 }, { "epoch": 0.04341333333333333, "grad_norm": 0.94921875, "learning_rate": 9.232160804020102e-05, "loss": 1.5458, "step": 1628 }, { "epoch": 0.04344, "grad_norm": 0.6953125, "learning_rate": 9.231658291457287e-05, "loss": 1.2594, "step": 1629 }, { "epoch": 0.04346666666666667, "grad_norm": 0.640625, "learning_rate": 9.231155778894473e-05, "loss": 1.0886, "step": 1630 }, { "epoch": 0.043493333333333335, "grad_norm": 0.578125, "learning_rate": 9.230653266331659e-05, "loss": 1.3482, "step": 1631 }, { "epoch": 0.04352, "grad_norm": 0.63671875, "learning_rate": 9.230150753768845e-05, "loss": 1.2479, "step": 1632 }, { "epoch": 0.043546666666666664, "grad_norm": 0.4609375, "learning_rate": 9.22964824120603e-05, "loss": 1.1476, "step": 1633 }, { "epoch": 0.04357333333333333, "grad_norm": 0.54296875, "learning_rate": 9.229145728643216e-05, "loss": 1.1348, "step": 1634 }, { "epoch": 0.0436, "grad_norm": 0.5078125, "learning_rate": 9.228643216080403e-05, "loss": 1.4425, "step": 1635 }, { "epoch": 0.04362666666666667, "grad_norm": 1.171875, "learning_rate": 9.228140703517588e-05, "loss": 1.3352, "step": 1636 }, { "epoch": 0.043653333333333336, "grad_norm": 0.6171875, "learning_rate": 9.227638190954774e-05, "loss": 1.1493, "step": 1637 }, { "epoch": 0.04368, "grad_norm": 0.59375, "learning_rate": 9.22713567839196e-05, "loss": 0.9956, "step": 1638 }, { "epoch": 0.043706666666666665, "grad_norm": 0.7578125, "learning_rate": 9.226633165829146e-05, "loss": 1.4525, "step": 1639 }, { "epoch": 0.04373333333333333, "grad_norm": 0.55078125, "learning_rate": 9.226130653266331e-05, "loss": 0.991, "step": 1640 }, { "epoch": 0.04376, "grad_norm": 0.546875, "learning_rate": 9.225628140703519e-05, "loss": 1.0724, "step": 1641 }, { "epoch": 0.04378666666666667, "grad_norm": 0.58984375, "learning_rate": 9.225125628140703e-05, "loss": 1.1119, "step": 1642 }, { "epoch": 0.043813333333333336, "grad_norm": 0.82421875, "learning_rate": 9.22462311557789e-05, "loss": 0.9427, "step": 1643 }, { "epoch": 0.04384, "grad_norm": 0.51171875, "learning_rate": 9.224120603015076e-05, "loss": 1.3933, "step": 1644 }, { "epoch": 0.043866666666666665, "grad_norm": 0.65625, "learning_rate": 9.223618090452262e-05, "loss": 0.8409, "step": 1645 }, { "epoch": 0.04389333333333333, "grad_norm": 0.625, "learning_rate": 9.223115577889447e-05, "loss": 1.0541, "step": 1646 }, { "epoch": 0.04392, "grad_norm": 0.71875, "learning_rate": 9.222613065326634e-05, "loss": 1.4511, "step": 1647 }, { "epoch": 0.04394666666666667, "grad_norm": 0.55078125, "learning_rate": 9.222110552763819e-05, "loss": 1.5128, "step": 1648 }, { "epoch": 0.043973333333333336, "grad_norm": 0.6640625, "learning_rate": 9.221608040201005e-05, "loss": 1.2458, "step": 1649 }, { "epoch": 0.044, "grad_norm": 0.5625, "learning_rate": 9.221105527638192e-05, "loss": 1.2324, "step": 1650 }, { "epoch": 0.044026666666666665, "grad_norm": 0.87890625, "learning_rate": 9.220603015075378e-05, "loss": 1.4901, "step": 1651 }, { "epoch": 0.04405333333333333, "grad_norm": 0.68359375, "learning_rate": 9.220100502512563e-05, "loss": 1.3765, "step": 1652 }, { "epoch": 0.04408, "grad_norm": 0.60546875, "learning_rate": 9.219597989949749e-05, "loss": 1.2876, "step": 1653 }, { "epoch": 0.04410666666666667, "grad_norm": 0.55078125, "learning_rate": 9.219095477386935e-05, "loss": 1.1479, "step": 1654 }, { "epoch": 0.04413333333333333, "grad_norm": 0.5390625, "learning_rate": 9.218592964824121e-05, "loss": 1.2016, "step": 1655 }, { "epoch": 0.04416, "grad_norm": 0.66015625, "learning_rate": 9.218090452261306e-05, "loss": 1.3928, "step": 1656 }, { "epoch": 0.044186666666666666, "grad_norm": 0.48828125, "learning_rate": 9.217587939698494e-05, "loss": 1.2632, "step": 1657 }, { "epoch": 0.044213333333333334, "grad_norm": 0.62890625, "learning_rate": 9.217085427135679e-05, "loss": 1.2893, "step": 1658 }, { "epoch": 0.04424, "grad_norm": 0.7734375, "learning_rate": 9.216582914572865e-05, "loss": 1.3843, "step": 1659 }, { "epoch": 0.04426666666666667, "grad_norm": 0.80078125, "learning_rate": 9.216080402010051e-05, "loss": 1.6829, "step": 1660 }, { "epoch": 0.04429333333333333, "grad_norm": 1.125, "learning_rate": 9.215577889447237e-05, "loss": 1.263, "step": 1661 }, { "epoch": 0.04432, "grad_norm": 0.58984375, "learning_rate": 9.215075376884422e-05, "loss": 1.2616, "step": 1662 }, { "epoch": 0.044346666666666666, "grad_norm": 0.73046875, "learning_rate": 9.21457286432161e-05, "loss": 1.1797, "step": 1663 }, { "epoch": 0.044373333333333334, "grad_norm": 0.52734375, "learning_rate": 9.214070351758794e-05, "loss": 1.4027, "step": 1664 }, { "epoch": 0.0444, "grad_norm": 0.62890625, "learning_rate": 9.21356783919598e-05, "loss": 1.2216, "step": 1665 }, { "epoch": 0.04442666666666667, "grad_norm": 0.7890625, "learning_rate": 9.213065326633167e-05, "loss": 1.5288, "step": 1666 }, { "epoch": 0.04445333333333333, "grad_norm": 0.78515625, "learning_rate": 9.212562814070353e-05, "loss": 1.4719, "step": 1667 }, { "epoch": 0.04448, "grad_norm": 0.59765625, "learning_rate": 9.212060301507538e-05, "loss": 1.279, "step": 1668 }, { "epoch": 0.04450666666666667, "grad_norm": 0.6484375, "learning_rate": 9.211557788944724e-05, "loss": 1.5805, "step": 1669 }, { "epoch": 0.044533333333333334, "grad_norm": 0.6796875, "learning_rate": 9.21105527638191e-05, "loss": 1.2478, "step": 1670 }, { "epoch": 0.04456, "grad_norm": 0.451171875, "learning_rate": 9.210552763819095e-05, "loss": 1.06, "step": 1671 }, { "epoch": 0.04458666666666666, "grad_norm": 0.57421875, "learning_rate": 9.210050251256281e-05, "loss": 1.3605, "step": 1672 }, { "epoch": 0.04461333333333333, "grad_norm": 0.78515625, "learning_rate": 9.209547738693468e-05, "loss": 1.1876, "step": 1673 }, { "epoch": 0.04464, "grad_norm": 1.2109375, "learning_rate": 9.209045226130654e-05, "loss": 1.4378, "step": 1674 }, { "epoch": 0.04466666666666667, "grad_norm": 0.66015625, "learning_rate": 9.208542713567839e-05, "loss": 1.2061, "step": 1675 }, { "epoch": 0.044693333333333335, "grad_norm": 0.515625, "learning_rate": 9.208040201005026e-05, "loss": 1.0516, "step": 1676 }, { "epoch": 0.04472, "grad_norm": 1.1171875, "learning_rate": 9.207537688442211e-05, "loss": 1.238, "step": 1677 }, { "epoch": 0.044746666666666664, "grad_norm": 0.6484375, "learning_rate": 9.207035175879397e-05, "loss": 1.1585, "step": 1678 }, { "epoch": 0.04477333333333333, "grad_norm": 0.515625, "learning_rate": 9.206532663316583e-05, "loss": 1.0936, "step": 1679 }, { "epoch": 0.0448, "grad_norm": 0.93359375, "learning_rate": 9.20603015075377e-05, "loss": 1.369, "step": 1680 }, { "epoch": 0.04482666666666667, "grad_norm": 0.7734375, "learning_rate": 9.205527638190954e-05, "loss": 1.2835, "step": 1681 }, { "epoch": 0.044853333333333335, "grad_norm": 2.25, "learning_rate": 9.205025125628142e-05, "loss": 1.3741, "step": 1682 }, { "epoch": 0.04488, "grad_norm": 0.58203125, "learning_rate": 9.204522613065327e-05, "loss": 1.4597, "step": 1683 }, { "epoch": 0.044906666666666664, "grad_norm": 0.58203125, "learning_rate": 9.204020100502513e-05, "loss": 1.0863, "step": 1684 }, { "epoch": 0.04493333333333333, "grad_norm": 0.70703125, "learning_rate": 9.203517587939698e-05, "loss": 1.0519, "step": 1685 }, { "epoch": 0.04496, "grad_norm": 0.439453125, "learning_rate": 9.203015075376885e-05, "loss": 1.1533, "step": 1686 }, { "epoch": 0.04498666666666667, "grad_norm": 0.578125, "learning_rate": 9.20251256281407e-05, "loss": 1.4326, "step": 1687 }, { "epoch": 0.045013333333333336, "grad_norm": 0.50390625, "learning_rate": 9.202010050251257e-05, "loss": 1.2765, "step": 1688 }, { "epoch": 0.04504, "grad_norm": 0.6875, "learning_rate": 9.201507537688443e-05, "loss": 1.392, "step": 1689 }, { "epoch": 0.045066666666666665, "grad_norm": 0.6015625, "learning_rate": 9.201005025125629e-05, "loss": 1.1646, "step": 1690 }, { "epoch": 0.04509333333333333, "grad_norm": 0.6171875, "learning_rate": 9.200502512562814e-05, "loss": 1.3715, "step": 1691 }, { "epoch": 0.04512, "grad_norm": 0.8046875, "learning_rate": 9.200000000000001e-05, "loss": 1.4545, "step": 1692 }, { "epoch": 0.04514666666666667, "grad_norm": 0.5625, "learning_rate": 9.199497487437186e-05, "loss": 1.1677, "step": 1693 }, { "epoch": 0.045173333333333336, "grad_norm": 0.546875, "learning_rate": 9.198994974874372e-05, "loss": 1.0047, "step": 1694 }, { "epoch": 0.0452, "grad_norm": 0.498046875, "learning_rate": 9.198492462311559e-05, "loss": 1.3817, "step": 1695 }, { "epoch": 0.045226666666666665, "grad_norm": 0.5234375, "learning_rate": 9.197989949748745e-05, "loss": 1.564, "step": 1696 }, { "epoch": 0.04525333333333333, "grad_norm": 0.578125, "learning_rate": 9.19748743718593e-05, "loss": 1.1683, "step": 1697 }, { "epoch": 0.04528, "grad_norm": 0.5859375, "learning_rate": 9.196984924623117e-05, "loss": 1.0243, "step": 1698 }, { "epoch": 0.04530666666666667, "grad_norm": 1.0078125, "learning_rate": 9.196482412060302e-05, "loss": 1.398, "step": 1699 }, { "epoch": 0.04533333333333334, "grad_norm": 0.68359375, "learning_rate": 9.195979899497488e-05, "loss": 1.321, "step": 1700 }, { "epoch": 0.04536, "grad_norm": 1.03125, "learning_rate": 9.195477386934673e-05, "loss": 1.1435, "step": 1701 }, { "epoch": 0.045386666666666665, "grad_norm": 0.7421875, "learning_rate": 9.19497487437186e-05, "loss": 1.3618, "step": 1702 }, { "epoch": 0.04541333333333333, "grad_norm": 0.5625, "learning_rate": 9.194472361809046e-05, "loss": 0.8389, "step": 1703 }, { "epoch": 0.04544, "grad_norm": 0.61328125, "learning_rate": 9.193969849246232e-05, "loss": 1.2406, "step": 1704 }, { "epoch": 0.04546666666666667, "grad_norm": 0.62109375, "learning_rate": 9.193467336683418e-05, "loss": 1.248, "step": 1705 }, { "epoch": 0.04549333333333333, "grad_norm": 0.625, "learning_rate": 9.192964824120603e-05, "loss": 1.2482, "step": 1706 }, { "epoch": 0.04552, "grad_norm": 0.54296875, "learning_rate": 9.192462311557789e-05, "loss": 1.0322, "step": 1707 }, { "epoch": 0.045546666666666666, "grad_norm": 0.68359375, "learning_rate": 9.191959798994975e-05, "loss": 1.1731, "step": 1708 }, { "epoch": 0.045573333333333334, "grad_norm": 0.67578125, "learning_rate": 9.191457286432161e-05, "loss": 1.2738, "step": 1709 }, { "epoch": 0.0456, "grad_norm": 0.609375, "learning_rate": 9.190954773869346e-05, "loss": 1.0393, "step": 1710 }, { "epoch": 0.04562666666666667, "grad_norm": 0.451171875, "learning_rate": 9.190452261306534e-05, "loss": 1.1919, "step": 1711 }, { "epoch": 0.04565333333333333, "grad_norm": 0.5546875, "learning_rate": 9.189949748743719e-05, "loss": 1.0095, "step": 1712 }, { "epoch": 0.04568, "grad_norm": 0.60546875, "learning_rate": 9.189447236180905e-05, "loss": 1.5088, "step": 1713 }, { "epoch": 0.045706666666666666, "grad_norm": 0.6171875, "learning_rate": 9.188944723618091e-05, "loss": 1.2962, "step": 1714 }, { "epoch": 0.045733333333333334, "grad_norm": 0.640625, "learning_rate": 9.188442211055277e-05, "loss": 1.4091, "step": 1715 }, { "epoch": 0.04576, "grad_norm": 1.1484375, "learning_rate": 9.187939698492462e-05, "loss": 1.3795, "step": 1716 }, { "epoch": 0.04578666666666667, "grad_norm": 0.59375, "learning_rate": 9.187437185929648e-05, "loss": 1.2981, "step": 1717 }, { "epoch": 0.04581333333333333, "grad_norm": 0.6953125, "learning_rate": 9.186934673366835e-05, "loss": 1.288, "step": 1718 }, { "epoch": 0.04584, "grad_norm": 0.58203125, "learning_rate": 9.186432160804021e-05, "loss": 1.2805, "step": 1719 }, { "epoch": 0.04586666666666667, "grad_norm": 0.59375, "learning_rate": 9.185929648241206e-05, "loss": 1.356, "step": 1720 }, { "epoch": 0.045893333333333335, "grad_norm": 0.70703125, "learning_rate": 9.185427135678393e-05, "loss": 1.0382, "step": 1721 }, { "epoch": 0.04592, "grad_norm": 1.1640625, "learning_rate": 9.184924623115578e-05, "loss": 1.6444, "step": 1722 }, { "epoch": 0.04594666666666666, "grad_norm": 2.265625, "learning_rate": 9.184422110552764e-05, "loss": 1.3015, "step": 1723 }, { "epoch": 0.04597333333333333, "grad_norm": 0.765625, "learning_rate": 9.18391959798995e-05, "loss": 1.1987, "step": 1724 }, { "epoch": 0.046, "grad_norm": 0.65625, "learning_rate": 9.183417085427137e-05, "loss": 0.9771, "step": 1725 }, { "epoch": 0.04602666666666667, "grad_norm": 0.48046875, "learning_rate": 9.182914572864321e-05, "loss": 1.2259, "step": 1726 }, { "epoch": 0.046053333333333335, "grad_norm": 0.58984375, "learning_rate": 9.182412060301509e-05, "loss": 1.3213, "step": 1727 }, { "epoch": 0.04608, "grad_norm": 0.83203125, "learning_rate": 9.181909547738694e-05, "loss": 1.2268, "step": 1728 }, { "epoch": 0.046106666666666664, "grad_norm": 0.68359375, "learning_rate": 9.18140703517588e-05, "loss": 1.1364, "step": 1729 }, { "epoch": 0.04613333333333333, "grad_norm": 0.451171875, "learning_rate": 9.180904522613065e-05, "loss": 1.1627, "step": 1730 }, { "epoch": 0.04616, "grad_norm": 0.88671875, "learning_rate": 9.180402010050252e-05, "loss": 1.1761, "step": 1731 }, { "epoch": 0.04618666666666667, "grad_norm": 0.6796875, "learning_rate": 9.179899497487437e-05, "loss": 1.3448, "step": 1732 }, { "epoch": 0.046213333333333335, "grad_norm": 0.640625, "learning_rate": 9.179396984924624e-05, "loss": 1.2681, "step": 1733 }, { "epoch": 0.04624, "grad_norm": 0.6796875, "learning_rate": 9.17889447236181e-05, "loss": 1.1242, "step": 1734 }, { "epoch": 0.046266666666666664, "grad_norm": 0.65234375, "learning_rate": 9.178391959798996e-05, "loss": 1.1725, "step": 1735 }, { "epoch": 0.04629333333333333, "grad_norm": 0.609375, "learning_rate": 9.177889447236181e-05, "loss": 1.3413, "step": 1736 }, { "epoch": 0.04632, "grad_norm": 0.5546875, "learning_rate": 9.177386934673367e-05, "loss": 1.5095, "step": 1737 }, { "epoch": 0.04634666666666667, "grad_norm": 0.75, "learning_rate": 9.176884422110553e-05, "loss": 1.1981, "step": 1738 }, { "epoch": 0.046373333333333336, "grad_norm": 0.96484375, "learning_rate": 9.17638190954774e-05, "loss": 1.2139, "step": 1739 }, { "epoch": 0.0464, "grad_norm": 0.6640625, "learning_rate": 9.175879396984926e-05, "loss": 1.3236, "step": 1740 }, { "epoch": 0.046426666666666665, "grad_norm": 0.5, "learning_rate": 9.17537688442211e-05, "loss": 1.1595, "step": 1741 }, { "epoch": 0.04645333333333333, "grad_norm": 0.59765625, "learning_rate": 9.174874371859297e-05, "loss": 1.2632, "step": 1742 }, { "epoch": 0.04648, "grad_norm": 0.55078125, "learning_rate": 9.174371859296483e-05, "loss": 1.2125, "step": 1743 }, { "epoch": 0.04650666666666667, "grad_norm": 1.0078125, "learning_rate": 9.173869346733669e-05, "loss": 1.4924, "step": 1744 }, { "epoch": 0.046533333333333336, "grad_norm": 0.78515625, "learning_rate": 9.173366834170854e-05, "loss": 1.2637, "step": 1745 }, { "epoch": 0.04656, "grad_norm": 0.71875, "learning_rate": 9.17286432160804e-05, "loss": 0.9893, "step": 1746 }, { "epoch": 0.046586666666666665, "grad_norm": 0.5546875, "learning_rate": 9.172361809045226e-05, "loss": 1.1868, "step": 1747 }, { "epoch": 0.04661333333333333, "grad_norm": 0.5625, "learning_rate": 9.171859296482412e-05, "loss": 1.2953, "step": 1748 }, { "epoch": 0.04664, "grad_norm": 0.6328125, "learning_rate": 9.171356783919597e-05, "loss": 1.299, "step": 1749 }, { "epoch": 0.04666666666666667, "grad_norm": 0.73046875, "learning_rate": 9.170854271356785e-05, "loss": 1.3465, "step": 1750 }, { "epoch": 0.04669333333333334, "grad_norm": 0.5546875, "learning_rate": 9.17035175879397e-05, "loss": 1.0768, "step": 1751 }, { "epoch": 0.04672, "grad_norm": 0.671875, "learning_rate": 9.169849246231156e-05, "loss": 1.245, "step": 1752 }, { "epoch": 0.046746666666666666, "grad_norm": 0.734375, "learning_rate": 9.169346733668342e-05, "loss": 1.4303, "step": 1753 }, { "epoch": 0.04677333333333333, "grad_norm": 0.66015625, "learning_rate": 9.168844221105528e-05, "loss": 1.1022, "step": 1754 }, { "epoch": 0.0468, "grad_norm": 0.6953125, "learning_rate": 9.168341708542713e-05, "loss": 1.6076, "step": 1755 }, { "epoch": 0.04682666666666667, "grad_norm": 0.765625, "learning_rate": 9.167839195979901e-05, "loss": 1.3979, "step": 1756 }, { "epoch": 0.04685333333333333, "grad_norm": 0.671875, "learning_rate": 9.167336683417086e-05, "loss": 1.588, "step": 1757 }, { "epoch": 0.04688, "grad_norm": 0.8046875, "learning_rate": 9.166834170854272e-05, "loss": 1.4085, "step": 1758 }, { "epoch": 0.046906666666666666, "grad_norm": 0.5703125, "learning_rate": 9.166331658291458e-05, "loss": 1.5563, "step": 1759 }, { "epoch": 0.046933333333333334, "grad_norm": 0.7265625, "learning_rate": 9.165829145728644e-05, "loss": 1.3997, "step": 1760 }, { "epoch": 0.04696, "grad_norm": 0.58203125, "learning_rate": 9.165326633165829e-05, "loss": 1.2179, "step": 1761 }, { "epoch": 0.04698666666666667, "grad_norm": 1.078125, "learning_rate": 9.164824120603015e-05, "loss": 1.2835, "step": 1762 }, { "epoch": 0.04701333333333333, "grad_norm": 0.6171875, "learning_rate": 9.164321608040201e-05, "loss": 1.1334, "step": 1763 }, { "epoch": 0.04704, "grad_norm": 0.5546875, "learning_rate": 9.163819095477388e-05, "loss": 1.2454, "step": 1764 }, { "epoch": 0.047066666666666666, "grad_norm": 0.578125, "learning_rate": 9.163316582914573e-05, "loss": 1.0243, "step": 1765 }, { "epoch": 0.047093333333333334, "grad_norm": 0.81640625, "learning_rate": 9.16281407035176e-05, "loss": 1.1084, "step": 1766 }, { "epoch": 0.04712, "grad_norm": 1.234375, "learning_rate": 9.162311557788945e-05, "loss": 1.436, "step": 1767 }, { "epoch": 0.04714666666666667, "grad_norm": 2.546875, "learning_rate": 9.161809045226131e-05, "loss": 1.2625, "step": 1768 }, { "epoch": 0.04717333333333333, "grad_norm": 0.60546875, "learning_rate": 9.161306532663317e-05, "loss": 1.5173, "step": 1769 }, { "epoch": 0.0472, "grad_norm": 0.6953125, "learning_rate": 9.160804020100504e-05, "loss": 1.3709, "step": 1770 }, { "epoch": 0.04722666666666667, "grad_norm": 0.9609375, "learning_rate": 9.160301507537688e-05, "loss": 1.3587, "step": 1771 }, { "epoch": 0.047253333333333335, "grad_norm": 0.466796875, "learning_rate": 9.159798994974875e-05, "loss": 1.1384, "step": 1772 }, { "epoch": 0.04728, "grad_norm": 0.55078125, "learning_rate": 9.159296482412061e-05, "loss": 1.3374, "step": 1773 }, { "epoch": 0.047306666666666664, "grad_norm": 0.55078125, "learning_rate": 9.158793969849247e-05, "loss": 1.3604, "step": 1774 }, { "epoch": 0.04733333333333333, "grad_norm": 0.59765625, "learning_rate": 9.158291457286433e-05, "loss": 1.1299, "step": 1775 }, { "epoch": 0.04736, "grad_norm": 0.482421875, "learning_rate": 9.157788944723618e-05, "loss": 1.2283, "step": 1776 }, { "epoch": 0.04738666666666667, "grad_norm": 0.57421875, "learning_rate": 9.157286432160804e-05, "loss": 1.166, "step": 1777 }, { "epoch": 0.047413333333333335, "grad_norm": 0.61328125, "learning_rate": 9.15678391959799e-05, "loss": 1.3191, "step": 1778 }, { "epoch": 0.04744, "grad_norm": 0.82421875, "learning_rate": 9.156281407035177e-05, "loss": 1.5307, "step": 1779 }, { "epoch": 0.047466666666666664, "grad_norm": 0.578125, "learning_rate": 9.155778894472362e-05, "loss": 1.3588, "step": 1780 }, { "epoch": 0.04749333333333333, "grad_norm": 0.66796875, "learning_rate": 9.155276381909548e-05, "loss": 1.1719, "step": 1781 }, { "epoch": 0.04752, "grad_norm": 0.50390625, "learning_rate": 9.154773869346734e-05, "loss": 1.298, "step": 1782 }, { "epoch": 0.04754666666666667, "grad_norm": 0.486328125, "learning_rate": 9.15427135678392e-05, "loss": 1.2084, "step": 1783 }, { "epoch": 0.047573333333333336, "grad_norm": 0.625, "learning_rate": 9.153768844221105e-05, "loss": 1.1827, "step": 1784 }, { "epoch": 0.0476, "grad_norm": 0.5625, "learning_rate": 9.153266331658293e-05, "loss": 1.5201, "step": 1785 }, { "epoch": 0.047626666666666664, "grad_norm": 0.48046875, "learning_rate": 9.152763819095477e-05, "loss": 1.2305, "step": 1786 }, { "epoch": 0.04765333333333333, "grad_norm": 0.6015625, "learning_rate": 9.152261306532664e-05, "loss": 1.0547, "step": 1787 }, { "epoch": 0.04768, "grad_norm": 0.5234375, "learning_rate": 9.15175879396985e-05, "loss": 1.1514, "step": 1788 }, { "epoch": 0.04770666666666667, "grad_norm": 0.80859375, "learning_rate": 9.151256281407036e-05, "loss": 1.3494, "step": 1789 }, { "epoch": 0.047733333333333336, "grad_norm": 0.82421875, "learning_rate": 9.150753768844221e-05, "loss": 1.5762, "step": 1790 }, { "epoch": 0.04776, "grad_norm": 0.76953125, "learning_rate": 9.150251256281408e-05, "loss": 1.3704, "step": 1791 }, { "epoch": 0.047786666666666665, "grad_norm": 0.55078125, "learning_rate": 9.149748743718593e-05, "loss": 1.4332, "step": 1792 }, { "epoch": 0.04781333333333333, "grad_norm": 0.6328125, "learning_rate": 9.14924623115578e-05, "loss": 0.9361, "step": 1793 }, { "epoch": 0.04784, "grad_norm": 0.53125, "learning_rate": 9.148743718592964e-05, "loss": 1.1605, "step": 1794 }, { "epoch": 0.04786666666666667, "grad_norm": 0.70703125, "learning_rate": 9.148241206030152e-05, "loss": 1.398, "step": 1795 }, { "epoch": 0.047893333333333336, "grad_norm": 0.80859375, "learning_rate": 9.147738693467337e-05, "loss": 1.6051, "step": 1796 }, { "epoch": 0.04792, "grad_norm": 0.5390625, "learning_rate": 9.147236180904523e-05, "loss": 1.3303, "step": 1797 }, { "epoch": 0.047946666666666665, "grad_norm": 0.58203125, "learning_rate": 9.146733668341709e-05, "loss": 1.4163, "step": 1798 }, { "epoch": 0.04797333333333333, "grad_norm": 0.53515625, "learning_rate": 9.146231155778895e-05, "loss": 1.1611, "step": 1799 }, { "epoch": 0.048, "grad_norm": 0.98046875, "learning_rate": 9.14572864321608e-05, "loss": 1.0846, "step": 1800 }, { "epoch": 0.04802666666666667, "grad_norm": 0.53125, "learning_rate": 9.145226130653268e-05, "loss": 1.2487, "step": 1801 }, { "epoch": 0.04805333333333334, "grad_norm": 0.76953125, "learning_rate": 9.144723618090453e-05, "loss": 1.2046, "step": 1802 }, { "epoch": 0.04808, "grad_norm": 0.59375, "learning_rate": 9.144221105527639e-05, "loss": 1.3965, "step": 1803 }, { "epoch": 0.048106666666666666, "grad_norm": 0.6484375, "learning_rate": 9.143718592964825e-05, "loss": 1.1497, "step": 1804 }, { "epoch": 0.048133333333333334, "grad_norm": 0.640625, "learning_rate": 9.143216080402011e-05, "loss": 1.1648, "step": 1805 }, { "epoch": 0.04816, "grad_norm": 0.5546875, "learning_rate": 9.142713567839196e-05, "loss": 1.4514, "step": 1806 }, { "epoch": 0.04818666666666667, "grad_norm": 0.6328125, "learning_rate": 9.142211055276382e-05, "loss": 1.2714, "step": 1807 }, { "epoch": 0.04821333333333333, "grad_norm": 0.6484375, "learning_rate": 9.141708542713568e-05, "loss": 1.4498, "step": 1808 }, { "epoch": 0.04824, "grad_norm": 0.6796875, "learning_rate": 9.141206030150755e-05, "loss": 1.2819, "step": 1809 }, { "epoch": 0.048266666666666666, "grad_norm": 0.5234375, "learning_rate": 9.14070351758794e-05, "loss": 1.29, "step": 1810 }, { "epoch": 0.048293333333333334, "grad_norm": 0.71484375, "learning_rate": 9.140201005025126e-05, "loss": 1.4831, "step": 1811 }, { "epoch": 0.04832, "grad_norm": 0.64453125, "learning_rate": 9.139698492462312e-05, "loss": 1.2656, "step": 1812 }, { "epoch": 0.04834666666666667, "grad_norm": 0.6640625, "learning_rate": 9.139195979899498e-05, "loss": 1.3632, "step": 1813 }, { "epoch": 0.04837333333333333, "grad_norm": 0.79296875, "learning_rate": 9.138693467336684e-05, "loss": 1.2228, "step": 1814 }, { "epoch": 0.0484, "grad_norm": 0.65625, "learning_rate": 9.138190954773869e-05, "loss": 1.3979, "step": 1815 }, { "epoch": 0.048426666666666666, "grad_norm": 0.734375, "learning_rate": 9.137688442211055e-05, "loss": 1.2198, "step": 1816 }, { "epoch": 0.048453333333333334, "grad_norm": 0.859375, "learning_rate": 9.137185929648242e-05, "loss": 1.4557, "step": 1817 }, { "epoch": 0.04848, "grad_norm": 0.48046875, "learning_rate": 9.136683417085428e-05, "loss": 1.471, "step": 1818 }, { "epoch": 0.04850666666666666, "grad_norm": 0.83203125, "learning_rate": 9.136180904522613e-05, "loss": 1.5029, "step": 1819 }, { "epoch": 0.04853333333333333, "grad_norm": 0.57421875, "learning_rate": 9.1356783919598e-05, "loss": 1.3386, "step": 1820 }, { "epoch": 0.04856, "grad_norm": 0.703125, "learning_rate": 9.135175879396985e-05, "loss": 1.4312, "step": 1821 }, { "epoch": 0.04858666666666667, "grad_norm": 0.75390625, "learning_rate": 9.134673366834171e-05, "loss": 1.3103, "step": 1822 }, { "epoch": 0.048613333333333335, "grad_norm": 0.57421875, "learning_rate": 9.134170854271357e-05, "loss": 1.1835, "step": 1823 }, { "epoch": 0.04864, "grad_norm": 0.484375, "learning_rate": 9.133668341708544e-05, "loss": 1.1162, "step": 1824 }, { "epoch": 0.048666666666666664, "grad_norm": 0.7421875, "learning_rate": 9.133165829145728e-05, "loss": 1.015, "step": 1825 }, { "epoch": 0.04869333333333333, "grad_norm": 0.6328125, "learning_rate": 9.132663316582915e-05, "loss": 1.3876, "step": 1826 }, { "epoch": 0.04872, "grad_norm": 0.5390625, "learning_rate": 9.132160804020101e-05, "loss": 1.3131, "step": 1827 }, { "epoch": 0.04874666666666667, "grad_norm": 0.74609375, "learning_rate": 9.131658291457287e-05, "loss": 1.0555, "step": 1828 }, { "epoch": 0.048773333333333335, "grad_norm": 0.609375, "learning_rate": 9.131155778894472e-05, "loss": 1.046, "step": 1829 }, { "epoch": 0.0488, "grad_norm": 0.9921875, "learning_rate": 9.13065326633166e-05, "loss": 1.6334, "step": 1830 }, { "epoch": 0.048826666666666664, "grad_norm": 0.66796875, "learning_rate": 9.130150753768844e-05, "loss": 1.3772, "step": 1831 }, { "epoch": 0.04885333333333333, "grad_norm": 0.57421875, "learning_rate": 9.12964824120603e-05, "loss": 1.3733, "step": 1832 }, { "epoch": 0.04888, "grad_norm": 0.63671875, "learning_rate": 9.129145728643217e-05, "loss": 1.6016, "step": 1833 }, { "epoch": 0.04890666666666667, "grad_norm": 0.494140625, "learning_rate": 9.128643216080403e-05, "loss": 1.1735, "step": 1834 }, { "epoch": 0.048933333333333336, "grad_norm": 0.51953125, "learning_rate": 9.128140703517588e-05, "loss": 0.8713, "step": 1835 }, { "epoch": 0.04896, "grad_norm": 0.5078125, "learning_rate": 9.127638190954775e-05, "loss": 1.0148, "step": 1836 }, { "epoch": 0.048986666666666664, "grad_norm": 0.7265625, "learning_rate": 9.12713567839196e-05, "loss": 1.2433, "step": 1837 }, { "epoch": 0.04901333333333333, "grad_norm": 0.484375, "learning_rate": 9.126633165829146e-05, "loss": 1.2625, "step": 1838 }, { "epoch": 0.04904, "grad_norm": 0.79296875, "learning_rate": 9.126130653266331e-05, "loss": 1.3359, "step": 1839 }, { "epoch": 0.04906666666666667, "grad_norm": 0.8125, "learning_rate": 9.125628140703519e-05, "loss": 1.2925, "step": 1840 }, { "epoch": 0.049093333333333336, "grad_norm": 0.625, "learning_rate": 9.125125628140704e-05, "loss": 1.1834, "step": 1841 }, { "epoch": 0.04912, "grad_norm": 0.625, "learning_rate": 9.12462311557789e-05, "loss": 1.1336, "step": 1842 }, { "epoch": 0.049146666666666665, "grad_norm": 0.578125, "learning_rate": 9.124120603015076e-05, "loss": 1.2082, "step": 1843 }, { "epoch": 0.04917333333333333, "grad_norm": 1.046875, "learning_rate": 9.123618090452262e-05, "loss": 1.5407, "step": 1844 }, { "epoch": 0.0492, "grad_norm": 0.6015625, "learning_rate": 9.123115577889447e-05, "loss": 1.0267, "step": 1845 }, { "epoch": 0.04922666666666667, "grad_norm": 1.234375, "learning_rate": 9.122613065326633e-05, "loss": 1.6347, "step": 1846 }, { "epoch": 0.049253333333333336, "grad_norm": 0.58984375, "learning_rate": 9.12211055276382e-05, "loss": 1.3165, "step": 1847 }, { "epoch": 0.04928, "grad_norm": 0.73828125, "learning_rate": 9.121608040201006e-05, "loss": 1.3684, "step": 1848 }, { "epoch": 0.049306666666666665, "grad_norm": 0.8359375, "learning_rate": 9.121105527638192e-05, "loss": 1.4079, "step": 1849 }, { "epoch": 0.04933333333333333, "grad_norm": 0.84375, "learning_rate": 9.120603015075377e-05, "loss": 1.3761, "step": 1850 }, { "epoch": 0.04936, "grad_norm": 0.78515625, "learning_rate": 9.120100502512563e-05, "loss": 1.3021, "step": 1851 }, { "epoch": 0.04938666666666667, "grad_norm": 0.71875, "learning_rate": 9.119597989949749e-05, "loss": 1.0786, "step": 1852 }, { "epoch": 0.04941333333333333, "grad_norm": 0.6015625, "learning_rate": 9.119095477386935e-05, "loss": 1.313, "step": 1853 }, { "epoch": 0.04944, "grad_norm": 0.474609375, "learning_rate": 9.11859296482412e-05, "loss": 1.3991, "step": 1854 }, { "epoch": 0.049466666666666666, "grad_norm": 0.68359375, "learning_rate": 9.118090452261306e-05, "loss": 1.3219, "step": 1855 }, { "epoch": 0.049493333333333334, "grad_norm": 0.55859375, "learning_rate": 9.117587939698493e-05, "loss": 1.1421, "step": 1856 }, { "epoch": 0.04952, "grad_norm": 0.7109375, "learning_rate": 9.117085427135679e-05, "loss": 1.6418, "step": 1857 }, { "epoch": 0.04954666666666667, "grad_norm": 0.61328125, "learning_rate": 9.116582914572864e-05, "loss": 1.4846, "step": 1858 }, { "epoch": 0.04957333333333333, "grad_norm": 0.65234375, "learning_rate": 9.116080402010051e-05, "loss": 0.9175, "step": 1859 }, { "epoch": 0.0496, "grad_norm": 0.71875, "learning_rate": 9.115577889447236e-05, "loss": 1.358, "step": 1860 }, { "epoch": 0.049626666666666666, "grad_norm": 0.486328125, "learning_rate": 9.115075376884422e-05, "loss": 1.1573, "step": 1861 }, { "epoch": 0.049653333333333334, "grad_norm": 0.57421875, "learning_rate": 9.114572864321609e-05, "loss": 1.3185, "step": 1862 }, { "epoch": 0.04968, "grad_norm": 0.50390625, "learning_rate": 9.114070351758795e-05, "loss": 1.2644, "step": 1863 }, { "epoch": 0.04970666666666667, "grad_norm": 0.5625, "learning_rate": 9.11356783919598e-05, "loss": 1.4153, "step": 1864 }, { "epoch": 0.04973333333333333, "grad_norm": 0.5234375, "learning_rate": 9.113065326633167e-05, "loss": 1.3459, "step": 1865 }, { "epoch": 0.04976, "grad_norm": 0.65234375, "learning_rate": 9.112562814070352e-05, "loss": 0.9262, "step": 1866 }, { "epoch": 0.04978666666666667, "grad_norm": 0.8125, "learning_rate": 9.112060301507538e-05, "loss": 1.2475, "step": 1867 }, { "epoch": 0.049813333333333334, "grad_norm": 0.5078125, "learning_rate": 9.111557788944724e-05, "loss": 1.2161, "step": 1868 }, { "epoch": 0.04984, "grad_norm": 0.77734375, "learning_rate": 9.11105527638191e-05, "loss": 1.1883, "step": 1869 }, { "epoch": 0.04986666666666666, "grad_norm": 0.7421875, "learning_rate": 9.110552763819095e-05, "loss": 1.2105, "step": 1870 }, { "epoch": 0.04989333333333333, "grad_norm": 0.57421875, "learning_rate": 9.110050251256282e-05, "loss": 1.0819, "step": 1871 }, { "epoch": 0.04992, "grad_norm": 0.6953125, "learning_rate": 9.109547738693468e-05, "loss": 1.1689, "step": 1872 }, { "epoch": 0.04994666666666667, "grad_norm": 0.65625, "learning_rate": 9.109045226130654e-05, "loss": 1.0882, "step": 1873 }, { "epoch": 0.049973333333333335, "grad_norm": 0.65625, "learning_rate": 9.108542713567839e-05, "loss": 1.1114, "step": 1874 }, { "epoch": 0.05, "grad_norm": 0.8828125, "learning_rate": 9.108040201005026e-05, "loss": 1.5586, "step": 1875 }, { "epoch": 0.050026666666666664, "grad_norm": 0.7734375, "learning_rate": 9.107537688442211e-05, "loss": 1.2779, "step": 1876 }, { "epoch": 0.05005333333333333, "grad_norm": 0.609375, "learning_rate": 9.107035175879398e-05, "loss": 1.1576, "step": 1877 }, { "epoch": 0.05008, "grad_norm": 0.515625, "learning_rate": 9.106532663316584e-05, "loss": 1.4357, "step": 1878 }, { "epoch": 0.05010666666666667, "grad_norm": 0.8046875, "learning_rate": 9.10603015075377e-05, "loss": 1.4598, "step": 1879 }, { "epoch": 0.050133333333333335, "grad_norm": 0.5390625, "learning_rate": 9.105527638190955e-05, "loss": 1.2588, "step": 1880 }, { "epoch": 0.05016, "grad_norm": 0.66015625, "learning_rate": 9.105025125628141e-05, "loss": 1.1969, "step": 1881 }, { "epoch": 0.050186666666666664, "grad_norm": 0.6796875, "learning_rate": 9.104522613065327e-05, "loss": 1.3209, "step": 1882 }, { "epoch": 0.05021333333333333, "grad_norm": 0.9296875, "learning_rate": 9.104020100502513e-05, "loss": 1.2161, "step": 1883 }, { "epoch": 0.05024, "grad_norm": 0.55859375, "learning_rate": 9.1035175879397e-05, "loss": 1.1401, "step": 1884 }, { "epoch": 0.05026666666666667, "grad_norm": 0.453125, "learning_rate": 9.103015075376884e-05, "loss": 1.1013, "step": 1885 }, { "epoch": 0.050293333333333336, "grad_norm": 0.62890625, "learning_rate": 9.10251256281407e-05, "loss": 1.1423, "step": 1886 }, { "epoch": 0.05032, "grad_norm": 0.6328125, "learning_rate": 9.102010050251257e-05, "loss": 1.3796, "step": 1887 }, { "epoch": 0.050346666666666665, "grad_norm": 0.671875, "learning_rate": 9.101507537688443e-05, "loss": 0.9632, "step": 1888 }, { "epoch": 0.05037333333333333, "grad_norm": 0.5859375, "learning_rate": 9.101005025125628e-05, "loss": 0.9733, "step": 1889 }, { "epoch": 0.0504, "grad_norm": 0.59765625, "learning_rate": 9.100502512562814e-05, "loss": 1.1467, "step": 1890 }, { "epoch": 0.05042666666666667, "grad_norm": 0.55859375, "learning_rate": 9.1e-05, "loss": 1.5655, "step": 1891 }, { "epoch": 0.050453333333333336, "grad_norm": 0.953125, "learning_rate": 9.099497487437186e-05, "loss": 1.2554, "step": 1892 }, { "epoch": 0.05048, "grad_norm": 0.7421875, "learning_rate": 9.098994974874371e-05, "loss": 1.0171, "step": 1893 }, { "epoch": 0.050506666666666665, "grad_norm": 0.67578125, "learning_rate": 9.098492462311559e-05, "loss": 1.4865, "step": 1894 }, { "epoch": 0.05053333333333333, "grad_norm": 0.7109375, "learning_rate": 9.097989949748744e-05, "loss": 1.2269, "step": 1895 }, { "epoch": 0.05056, "grad_norm": 0.55859375, "learning_rate": 9.09748743718593e-05, "loss": 1.325, "step": 1896 }, { "epoch": 0.05058666666666667, "grad_norm": 0.625, "learning_rate": 9.096984924623116e-05, "loss": 1.2724, "step": 1897 }, { "epoch": 0.05061333333333334, "grad_norm": 0.7265625, "learning_rate": 9.096482412060302e-05, "loss": 1.1798, "step": 1898 }, { "epoch": 0.05064, "grad_norm": 0.69140625, "learning_rate": 9.095979899497487e-05, "loss": 1.0684, "step": 1899 }, { "epoch": 0.050666666666666665, "grad_norm": 0.734375, "learning_rate": 9.095477386934675e-05, "loss": 1.2782, "step": 1900 }, { "epoch": 0.05069333333333333, "grad_norm": 0.52734375, "learning_rate": 9.09497487437186e-05, "loss": 1.3536, "step": 1901 }, { "epoch": 0.05072, "grad_norm": 0.52734375, "learning_rate": 9.094472361809046e-05, "loss": 1.2085, "step": 1902 }, { "epoch": 0.05074666666666667, "grad_norm": 0.64453125, "learning_rate": 9.09396984924623e-05, "loss": 1.2371, "step": 1903 }, { "epoch": 0.05077333333333333, "grad_norm": 0.55859375, "learning_rate": 9.093467336683418e-05, "loss": 1.0571, "step": 1904 }, { "epoch": 0.0508, "grad_norm": 0.71875, "learning_rate": 9.092964824120603e-05, "loss": 1.2953, "step": 1905 }, { "epoch": 0.050826666666666666, "grad_norm": 0.498046875, "learning_rate": 9.092462311557789e-05, "loss": 1.1937, "step": 1906 }, { "epoch": 0.050853333333333334, "grad_norm": 0.515625, "learning_rate": 9.091959798994975e-05, "loss": 1.3974, "step": 1907 }, { "epoch": 0.05088, "grad_norm": 0.98046875, "learning_rate": 9.091457286432162e-05, "loss": 1.2436, "step": 1908 }, { "epoch": 0.05090666666666667, "grad_norm": 0.62109375, "learning_rate": 9.090954773869347e-05, "loss": 1.1056, "step": 1909 }, { "epoch": 0.05093333333333333, "grad_norm": 0.52734375, "learning_rate": 9.090452261306534e-05, "loss": 1.4577, "step": 1910 }, { "epoch": 0.05096, "grad_norm": 0.7265625, "learning_rate": 9.089949748743719e-05, "loss": 1.0279, "step": 1911 }, { "epoch": 0.050986666666666666, "grad_norm": 0.5546875, "learning_rate": 9.089447236180905e-05, "loss": 0.9905, "step": 1912 }, { "epoch": 0.051013333333333334, "grad_norm": 0.7265625, "learning_rate": 9.088944723618091e-05, "loss": 1.6258, "step": 1913 }, { "epoch": 0.05104, "grad_norm": 0.5234375, "learning_rate": 9.088442211055278e-05, "loss": 1.3163, "step": 1914 }, { "epoch": 0.05106666666666667, "grad_norm": 0.54296875, "learning_rate": 9.087939698492462e-05, "loss": 1.0808, "step": 1915 }, { "epoch": 0.05109333333333333, "grad_norm": 0.62890625, "learning_rate": 9.087437185929649e-05, "loss": 1.1925, "step": 1916 }, { "epoch": 0.05112, "grad_norm": 0.60546875, "learning_rate": 9.086934673366835e-05, "loss": 1.8028, "step": 1917 }, { "epoch": 0.05114666666666667, "grad_norm": 0.61328125, "learning_rate": 9.086432160804021e-05, "loss": 1.3137, "step": 1918 }, { "epoch": 0.051173333333333335, "grad_norm": 0.546875, "learning_rate": 9.085929648241206e-05, "loss": 1.4426, "step": 1919 }, { "epoch": 0.0512, "grad_norm": 0.68359375, "learning_rate": 9.085427135678392e-05, "loss": 1.2174, "step": 1920 }, { "epoch": 0.05122666666666666, "grad_norm": 0.734375, "learning_rate": 9.084924623115578e-05, "loss": 1.4138, "step": 1921 }, { "epoch": 0.05125333333333333, "grad_norm": 0.515625, "learning_rate": 9.084422110552764e-05, "loss": 1.3181, "step": 1922 }, { "epoch": 0.05128, "grad_norm": 0.60546875, "learning_rate": 9.08391959798995e-05, "loss": 1.1287, "step": 1923 }, { "epoch": 0.05130666666666667, "grad_norm": 0.55078125, "learning_rate": 9.083417085427136e-05, "loss": 1.205, "step": 1924 }, { "epoch": 0.051333333333333335, "grad_norm": 0.46484375, "learning_rate": 9.082914572864322e-05, "loss": 1.0879, "step": 1925 }, { "epoch": 0.05136, "grad_norm": 0.51953125, "learning_rate": 9.082412060301508e-05, "loss": 1.4031, "step": 1926 }, { "epoch": 0.051386666666666664, "grad_norm": 0.9140625, "learning_rate": 9.081909547738694e-05, "loss": 1.3077, "step": 1927 }, { "epoch": 0.05141333333333333, "grad_norm": 0.59375, "learning_rate": 9.081407035175879e-05, "loss": 1.2762, "step": 1928 }, { "epoch": 0.05144, "grad_norm": 0.66796875, "learning_rate": 9.080904522613067e-05, "loss": 1.3211, "step": 1929 }, { "epoch": 0.05146666666666667, "grad_norm": 0.5546875, "learning_rate": 9.080402010050251e-05, "loss": 1.0406, "step": 1930 }, { "epoch": 0.051493333333333335, "grad_norm": 0.6015625, "learning_rate": 9.079899497487438e-05, "loss": 1.1878, "step": 1931 }, { "epoch": 0.05152, "grad_norm": 0.65625, "learning_rate": 9.079396984924624e-05, "loss": 1.0947, "step": 1932 }, { "epoch": 0.051546666666666664, "grad_norm": 0.8046875, "learning_rate": 9.07889447236181e-05, "loss": 1.2193, "step": 1933 }, { "epoch": 0.05157333333333333, "grad_norm": 0.69921875, "learning_rate": 9.078391959798995e-05, "loss": 1.4248, "step": 1934 }, { "epoch": 0.0516, "grad_norm": 0.71484375, "learning_rate": 9.077889447236181e-05, "loss": 1.3434, "step": 1935 }, { "epoch": 0.05162666666666667, "grad_norm": 0.88671875, "learning_rate": 9.077386934673367e-05, "loss": 1.2553, "step": 1936 }, { "epoch": 0.051653333333333336, "grad_norm": 0.8125, "learning_rate": 9.076884422110553e-05, "loss": 1.3985, "step": 1937 }, { "epoch": 0.05168, "grad_norm": 0.90625, "learning_rate": 9.076381909547738e-05, "loss": 1.5478, "step": 1938 }, { "epoch": 0.051706666666666665, "grad_norm": 0.78125, "learning_rate": 9.075879396984926e-05, "loss": 1.045, "step": 1939 }, { "epoch": 0.05173333333333333, "grad_norm": 0.59375, "learning_rate": 9.075376884422111e-05, "loss": 1.2772, "step": 1940 }, { "epoch": 0.05176, "grad_norm": 0.53515625, "learning_rate": 9.074874371859297e-05, "loss": 1.2966, "step": 1941 }, { "epoch": 0.05178666666666667, "grad_norm": 0.67578125, "learning_rate": 9.074371859296483e-05, "loss": 1.0026, "step": 1942 }, { "epoch": 0.051813333333333336, "grad_norm": 0.51953125, "learning_rate": 9.073869346733669e-05, "loss": 1.147, "step": 1943 }, { "epoch": 0.05184, "grad_norm": 0.66015625, "learning_rate": 9.073366834170854e-05, "loss": 1.1445, "step": 1944 }, { "epoch": 0.051866666666666665, "grad_norm": 0.5703125, "learning_rate": 9.072864321608042e-05, "loss": 1.1738, "step": 1945 }, { "epoch": 0.05189333333333333, "grad_norm": 0.8671875, "learning_rate": 9.072361809045227e-05, "loss": 1.1786, "step": 1946 }, { "epoch": 0.05192, "grad_norm": 0.78125, "learning_rate": 9.071859296482413e-05, "loss": 1.4484, "step": 1947 }, { "epoch": 0.05194666666666667, "grad_norm": 0.73046875, "learning_rate": 9.071356783919599e-05, "loss": 1.2885, "step": 1948 }, { "epoch": 0.05197333333333334, "grad_norm": 0.5546875, "learning_rate": 9.070854271356785e-05, "loss": 1.0726, "step": 1949 }, { "epoch": 0.052, "grad_norm": 1.21875, "learning_rate": 9.07035175879397e-05, "loss": 1.3295, "step": 1950 }, { "epoch": 0.052026666666666666, "grad_norm": 0.57421875, "learning_rate": 9.069849246231156e-05, "loss": 1.1282, "step": 1951 }, { "epoch": 0.05205333333333333, "grad_norm": 0.6796875, "learning_rate": 9.069346733668342e-05, "loss": 1.3598, "step": 1952 }, { "epoch": 0.05208, "grad_norm": 0.546875, "learning_rate": 9.068844221105529e-05, "loss": 1.3306, "step": 1953 }, { "epoch": 0.05210666666666667, "grad_norm": 0.6015625, "learning_rate": 9.068341708542713e-05, "loss": 1.493, "step": 1954 }, { "epoch": 0.05213333333333333, "grad_norm": 0.6171875, "learning_rate": 9.0678391959799e-05, "loss": 0.9338, "step": 1955 }, { "epoch": 0.05216, "grad_norm": 1.1015625, "learning_rate": 9.067336683417086e-05, "loss": 1.3056, "step": 1956 }, { "epoch": 0.052186666666666666, "grad_norm": 0.74609375, "learning_rate": 9.066834170854272e-05, "loss": 1.4965, "step": 1957 }, { "epoch": 0.052213333333333334, "grad_norm": 0.66796875, "learning_rate": 9.066331658291458e-05, "loss": 1.1762, "step": 1958 }, { "epoch": 0.05224, "grad_norm": 0.59375, "learning_rate": 9.065829145728643e-05, "loss": 1.0881, "step": 1959 }, { "epoch": 0.05226666666666667, "grad_norm": 0.58203125, "learning_rate": 9.06532663316583e-05, "loss": 1.1303, "step": 1960 }, { "epoch": 0.05229333333333333, "grad_norm": 0.5625, "learning_rate": 9.064824120603016e-05, "loss": 1.438, "step": 1961 }, { "epoch": 0.05232, "grad_norm": 0.58203125, "learning_rate": 9.064321608040202e-05, "loss": 1.2192, "step": 1962 }, { "epoch": 0.052346666666666666, "grad_norm": 0.86328125, "learning_rate": 9.063819095477387e-05, "loss": 1.0022, "step": 1963 }, { "epoch": 0.052373333333333334, "grad_norm": 0.6953125, "learning_rate": 9.063316582914573e-05, "loss": 1.4337, "step": 1964 }, { "epoch": 0.0524, "grad_norm": 0.65625, "learning_rate": 9.062814070351759e-05, "loss": 1.0866, "step": 1965 }, { "epoch": 0.05242666666666667, "grad_norm": 0.58984375, "learning_rate": 9.062311557788945e-05, "loss": 1.3467, "step": 1966 }, { "epoch": 0.05245333333333333, "grad_norm": 0.59765625, "learning_rate": 9.06180904522613e-05, "loss": 1.3888, "step": 1967 }, { "epoch": 0.05248, "grad_norm": 0.76953125, "learning_rate": 9.061306532663318e-05, "loss": 1.3574, "step": 1968 }, { "epoch": 0.05250666666666667, "grad_norm": 0.53515625, "learning_rate": 9.060804020100502e-05, "loss": 1.4646, "step": 1969 }, { "epoch": 0.052533333333333335, "grad_norm": 0.625, "learning_rate": 9.060301507537689e-05, "loss": 1.3554, "step": 1970 }, { "epoch": 0.05256, "grad_norm": 0.6015625, "learning_rate": 9.059798994974875e-05, "loss": 0.9409, "step": 1971 }, { "epoch": 0.052586666666666664, "grad_norm": 0.58984375, "learning_rate": 9.059296482412061e-05, "loss": 0.9803, "step": 1972 }, { "epoch": 0.05261333333333333, "grad_norm": 0.5546875, "learning_rate": 9.058793969849246e-05, "loss": 1.4716, "step": 1973 }, { "epoch": 0.05264, "grad_norm": 0.8203125, "learning_rate": 9.058291457286433e-05, "loss": 1.116, "step": 1974 }, { "epoch": 0.05266666666666667, "grad_norm": 0.4921875, "learning_rate": 9.057788944723618e-05, "loss": 1.0707, "step": 1975 }, { "epoch": 0.052693333333333335, "grad_norm": 0.65234375, "learning_rate": 9.057286432160805e-05, "loss": 1.1738, "step": 1976 }, { "epoch": 0.05272, "grad_norm": 0.86328125, "learning_rate": 9.056783919597991e-05, "loss": 1.5056, "step": 1977 }, { "epoch": 0.052746666666666664, "grad_norm": 0.466796875, "learning_rate": 9.056281407035177e-05, "loss": 1.1278, "step": 1978 }, { "epoch": 0.05277333333333333, "grad_norm": 1.1953125, "learning_rate": 9.055778894472362e-05, "loss": 1.4167, "step": 1979 }, { "epoch": 0.0528, "grad_norm": 0.5078125, "learning_rate": 9.055276381909548e-05, "loss": 1.3303, "step": 1980 }, { "epoch": 0.05282666666666667, "grad_norm": 0.462890625, "learning_rate": 9.054773869346734e-05, "loss": 1.5402, "step": 1981 }, { "epoch": 0.052853333333333335, "grad_norm": 0.921875, "learning_rate": 9.05427135678392e-05, "loss": 1.3983, "step": 1982 }, { "epoch": 0.05288, "grad_norm": 0.55078125, "learning_rate": 9.053768844221105e-05, "loss": 1.1059, "step": 1983 }, { "epoch": 0.052906666666666664, "grad_norm": 0.58984375, "learning_rate": 9.053266331658293e-05, "loss": 1.0932, "step": 1984 }, { "epoch": 0.05293333333333333, "grad_norm": 0.625, "learning_rate": 9.052763819095478e-05, "loss": 1.0129, "step": 1985 }, { "epoch": 0.05296, "grad_norm": 0.72265625, "learning_rate": 9.052261306532664e-05, "loss": 1.2267, "step": 1986 }, { "epoch": 0.05298666666666667, "grad_norm": 0.59375, "learning_rate": 9.05175879396985e-05, "loss": 0.8772, "step": 1987 }, { "epoch": 0.053013333333333336, "grad_norm": 0.73828125, "learning_rate": 9.051256281407036e-05, "loss": 1.1719, "step": 1988 }, { "epoch": 0.05304, "grad_norm": 0.484375, "learning_rate": 9.050753768844221e-05, "loss": 0.9672, "step": 1989 }, { "epoch": 0.053066666666666665, "grad_norm": 0.45703125, "learning_rate": 9.050251256281407e-05, "loss": 1.3613, "step": 1990 }, { "epoch": 0.05309333333333333, "grad_norm": 0.5625, "learning_rate": 9.049748743718594e-05, "loss": 1.2558, "step": 1991 }, { "epoch": 0.05312, "grad_norm": 0.384765625, "learning_rate": 9.04924623115578e-05, "loss": 1.1613, "step": 1992 }, { "epoch": 0.05314666666666667, "grad_norm": 0.474609375, "learning_rate": 9.048743718592966e-05, "loss": 1.2493, "step": 1993 }, { "epoch": 0.053173333333333336, "grad_norm": 0.546875, "learning_rate": 9.048241206030151e-05, "loss": 1.1874, "step": 1994 }, { "epoch": 0.0532, "grad_norm": 0.68359375, "learning_rate": 9.047738693467337e-05, "loss": 1.3631, "step": 1995 }, { "epoch": 0.053226666666666665, "grad_norm": 0.62890625, "learning_rate": 9.047236180904523e-05, "loss": 1.2499, "step": 1996 }, { "epoch": 0.05325333333333333, "grad_norm": 0.90625, "learning_rate": 9.04673366834171e-05, "loss": 1.3457, "step": 1997 }, { "epoch": 0.05328, "grad_norm": 0.93359375, "learning_rate": 9.046231155778894e-05, "loss": 1.2079, "step": 1998 }, { "epoch": 0.05330666666666667, "grad_norm": 0.68359375, "learning_rate": 9.04572864321608e-05, "loss": 1.3376, "step": 1999 }, { "epoch": 0.05333333333333334, "grad_norm": 0.474609375, "learning_rate": 9.045226130653267e-05, "loss": 1.1556, "step": 2000 }, { "epoch": 0.05336, "grad_norm": 0.490234375, "learning_rate": 9.044723618090453e-05, "loss": 1.1204, "step": 2001 }, { "epoch": 0.053386666666666666, "grad_norm": 0.6171875, "learning_rate": 9.044221105527638e-05, "loss": 1.1041, "step": 2002 }, { "epoch": 0.053413333333333333, "grad_norm": 0.64453125, "learning_rate": 9.043718592964825e-05, "loss": 1.5472, "step": 2003 }, { "epoch": 0.05344, "grad_norm": 1.0390625, "learning_rate": 9.04321608040201e-05, "loss": 1.2081, "step": 2004 }, { "epoch": 0.05346666666666667, "grad_norm": 0.490234375, "learning_rate": 9.042713567839196e-05, "loss": 1.1256, "step": 2005 }, { "epoch": 0.05349333333333333, "grad_norm": 0.6015625, "learning_rate": 9.042211055276383e-05, "loss": 1.0537, "step": 2006 }, { "epoch": 0.05352, "grad_norm": 0.6171875, "learning_rate": 9.041708542713569e-05, "loss": 1.0704, "step": 2007 }, { "epoch": 0.053546666666666666, "grad_norm": 0.50390625, "learning_rate": 9.041206030150754e-05, "loss": 1.2272, "step": 2008 }, { "epoch": 0.053573333333333334, "grad_norm": 0.63671875, "learning_rate": 9.040703517587941e-05, "loss": 1.1155, "step": 2009 }, { "epoch": 0.0536, "grad_norm": 0.66015625, "learning_rate": 9.040201005025126e-05, "loss": 1.0931, "step": 2010 }, { "epoch": 0.05362666666666667, "grad_norm": 0.5546875, "learning_rate": 9.039698492462312e-05, "loss": 1.2361, "step": 2011 }, { "epoch": 0.05365333333333333, "grad_norm": 0.7265625, "learning_rate": 9.039195979899497e-05, "loss": 1.0506, "step": 2012 }, { "epoch": 0.05368, "grad_norm": 0.75, "learning_rate": 9.038693467336685e-05, "loss": 1.1325, "step": 2013 }, { "epoch": 0.053706666666666666, "grad_norm": 0.828125, "learning_rate": 9.03819095477387e-05, "loss": 1.4322, "step": 2014 }, { "epoch": 0.053733333333333334, "grad_norm": 0.7109375, "learning_rate": 9.037688442211056e-05, "loss": 1.2651, "step": 2015 }, { "epoch": 0.05376, "grad_norm": 0.62109375, "learning_rate": 9.037185929648242e-05, "loss": 1.1887, "step": 2016 }, { "epoch": 0.05378666666666667, "grad_norm": 0.60546875, "learning_rate": 9.036683417085428e-05, "loss": 1.2746, "step": 2017 }, { "epoch": 0.05381333333333333, "grad_norm": 0.62109375, "learning_rate": 9.036180904522613e-05, "loss": 1.3249, "step": 2018 }, { "epoch": 0.05384, "grad_norm": 0.62109375, "learning_rate": 9.0356783919598e-05, "loss": 1.1738, "step": 2019 }, { "epoch": 0.05386666666666667, "grad_norm": 0.5703125, "learning_rate": 9.035175879396985e-05, "loss": 1.3767, "step": 2020 }, { "epoch": 0.053893333333333335, "grad_norm": 0.9765625, "learning_rate": 9.034673366834172e-05, "loss": 1.3312, "step": 2021 }, { "epoch": 0.05392, "grad_norm": 0.68359375, "learning_rate": 9.034170854271358e-05, "loss": 1.4186, "step": 2022 }, { "epoch": 0.053946666666666664, "grad_norm": 0.6796875, "learning_rate": 9.033668341708544e-05, "loss": 1.1565, "step": 2023 }, { "epoch": 0.05397333333333333, "grad_norm": 0.8671875, "learning_rate": 9.033165829145729e-05, "loss": 1.2138, "step": 2024 }, { "epoch": 0.054, "grad_norm": 0.703125, "learning_rate": 9.032663316582915e-05, "loss": 1.447, "step": 2025 }, { "epoch": 0.05402666666666667, "grad_norm": 0.55859375, "learning_rate": 9.032160804020101e-05, "loss": 1.1835, "step": 2026 }, { "epoch": 0.054053333333333335, "grad_norm": 0.6484375, "learning_rate": 9.031658291457287e-05, "loss": 1.5216, "step": 2027 }, { "epoch": 0.05408, "grad_norm": 0.45703125, "learning_rate": 9.031155778894472e-05, "loss": 1.0857, "step": 2028 }, { "epoch": 0.054106666666666664, "grad_norm": 0.73828125, "learning_rate": 9.030653266331658e-05, "loss": 1.2663, "step": 2029 }, { "epoch": 0.05413333333333333, "grad_norm": 0.61328125, "learning_rate": 9.030150753768845e-05, "loss": 1.2875, "step": 2030 }, { "epoch": 0.05416, "grad_norm": 0.53125, "learning_rate": 9.02964824120603e-05, "loss": 1.1642, "step": 2031 }, { "epoch": 0.05418666666666667, "grad_norm": 0.59765625, "learning_rate": 9.029145728643217e-05, "loss": 1.2846, "step": 2032 }, { "epoch": 0.054213333333333336, "grad_norm": 0.92578125, "learning_rate": 9.028643216080402e-05, "loss": 1.4297, "step": 2033 }, { "epoch": 0.05424, "grad_norm": 0.796875, "learning_rate": 9.028140703517588e-05, "loss": 1.6234, "step": 2034 }, { "epoch": 0.054266666666666664, "grad_norm": 0.86328125, "learning_rate": 9.027638190954774e-05, "loss": 1.4009, "step": 2035 }, { "epoch": 0.05429333333333333, "grad_norm": 0.546875, "learning_rate": 9.02713567839196e-05, "loss": 1.2111, "step": 2036 }, { "epoch": 0.05432, "grad_norm": 0.67578125, "learning_rate": 9.026633165829145e-05, "loss": 1.3758, "step": 2037 }, { "epoch": 0.05434666666666667, "grad_norm": 1.09375, "learning_rate": 9.026130653266333e-05, "loss": 1.6257, "step": 2038 }, { "epoch": 0.054373333333333336, "grad_norm": 0.58203125, "learning_rate": 9.025628140703518e-05, "loss": 1.639, "step": 2039 }, { "epoch": 0.0544, "grad_norm": 0.81640625, "learning_rate": 9.025125628140704e-05, "loss": 1.3284, "step": 2040 }, { "epoch": 0.054426666666666665, "grad_norm": 0.765625, "learning_rate": 9.02462311557789e-05, "loss": 1.3808, "step": 2041 }, { "epoch": 0.05445333333333333, "grad_norm": 0.90234375, "learning_rate": 9.024120603015076e-05, "loss": 1.4754, "step": 2042 }, { "epoch": 0.05448, "grad_norm": 0.60546875, "learning_rate": 9.023618090452261e-05, "loss": 1.0697, "step": 2043 }, { "epoch": 0.05450666666666667, "grad_norm": 0.5390625, "learning_rate": 9.023115577889447e-05, "loss": 1.3254, "step": 2044 }, { "epoch": 0.054533333333333336, "grad_norm": 0.703125, "learning_rate": 9.022613065326634e-05, "loss": 1.177, "step": 2045 }, { "epoch": 0.05456, "grad_norm": 0.58203125, "learning_rate": 9.02211055276382e-05, "loss": 1.1028, "step": 2046 }, { "epoch": 0.054586666666666665, "grad_norm": 0.671875, "learning_rate": 9.021608040201005e-05, "loss": 1.6421, "step": 2047 }, { "epoch": 0.05461333333333333, "grad_norm": 0.61328125, "learning_rate": 9.021105527638192e-05, "loss": 1.1842, "step": 2048 }, { "epoch": 0.05464, "grad_norm": 0.60546875, "learning_rate": 9.020603015075377e-05, "loss": 1.3785, "step": 2049 }, { "epoch": 0.05466666666666667, "grad_norm": 0.6171875, "learning_rate": 9.020100502512563e-05, "loss": 1.117, "step": 2050 }, { "epoch": 0.05469333333333333, "grad_norm": 0.546875, "learning_rate": 9.01959798994975e-05, "loss": 1.2291, "step": 2051 }, { "epoch": 0.05472, "grad_norm": 0.9609375, "learning_rate": 9.019095477386936e-05, "loss": 1.17, "step": 2052 }, { "epoch": 0.054746666666666666, "grad_norm": 0.490234375, "learning_rate": 9.01859296482412e-05, "loss": 1.1867, "step": 2053 }, { "epoch": 0.054773333333333334, "grad_norm": 0.58984375, "learning_rate": 9.018090452261308e-05, "loss": 1.288, "step": 2054 }, { "epoch": 0.0548, "grad_norm": 0.80078125, "learning_rate": 9.017587939698493e-05, "loss": 1.2556, "step": 2055 }, { "epoch": 0.05482666666666667, "grad_norm": 0.640625, "learning_rate": 9.017085427135679e-05, "loss": 1.4602, "step": 2056 }, { "epoch": 0.05485333333333333, "grad_norm": 0.515625, "learning_rate": 9.016582914572865e-05, "loss": 1.2658, "step": 2057 }, { "epoch": 0.05488, "grad_norm": 0.76171875, "learning_rate": 9.016080402010052e-05, "loss": 1.8183, "step": 2058 }, { "epoch": 0.054906666666666666, "grad_norm": 0.796875, "learning_rate": 9.015577889447236e-05, "loss": 1.2547, "step": 2059 }, { "epoch": 0.054933333333333334, "grad_norm": 0.50390625, "learning_rate": 9.015075376884423e-05, "loss": 1.1099, "step": 2060 }, { "epoch": 0.05496, "grad_norm": 0.734375, "learning_rate": 9.014572864321609e-05, "loss": 1.2717, "step": 2061 }, { "epoch": 0.05498666666666667, "grad_norm": 0.408203125, "learning_rate": 9.014070351758795e-05, "loss": 1.13, "step": 2062 }, { "epoch": 0.05501333333333333, "grad_norm": 0.625, "learning_rate": 9.01356783919598e-05, "loss": 1.0373, "step": 2063 }, { "epoch": 0.05504, "grad_norm": 0.43359375, "learning_rate": 9.013065326633166e-05, "loss": 0.9308, "step": 2064 }, { "epoch": 0.05506666666666667, "grad_norm": 0.87890625, "learning_rate": 9.012562814070352e-05, "loss": 1.2109, "step": 2065 }, { "epoch": 0.055093333333333334, "grad_norm": 0.625, "learning_rate": 9.012060301507537e-05, "loss": 1.1603, "step": 2066 }, { "epoch": 0.05512, "grad_norm": 0.57421875, "learning_rate": 9.011557788944725e-05, "loss": 1.0232, "step": 2067 }, { "epoch": 0.05514666666666666, "grad_norm": 0.58984375, "learning_rate": 9.01105527638191e-05, "loss": 1.0147, "step": 2068 }, { "epoch": 0.05517333333333333, "grad_norm": 0.66796875, "learning_rate": 9.010552763819096e-05, "loss": 1.087, "step": 2069 }, { "epoch": 0.0552, "grad_norm": 0.62109375, "learning_rate": 9.010050251256282e-05, "loss": 1.4792, "step": 2070 }, { "epoch": 0.05522666666666667, "grad_norm": 0.7578125, "learning_rate": 9.009547738693468e-05, "loss": 1.2384, "step": 2071 }, { "epoch": 0.055253333333333335, "grad_norm": 0.61328125, "learning_rate": 9.009045226130653e-05, "loss": 1.3284, "step": 2072 }, { "epoch": 0.05528, "grad_norm": 0.68359375, "learning_rate": 9.008542713567839e-05, "loss": 1.2068, "step": 2073 }, { "epoch": 0.055306666666666664, "grad_norm": 0.5859375, "learning_rate": 9.008040201005025e-05, "loss": 1.5379, "step": 2074 }, { "epoch": 0.05533333333333333, "grad_norm": 0.73828125, "learning_rate": 9.007537688442212e-05, "loss": 0.9752, "step": 2075 }, { "epoch": 0.05536, "grad_norm": 0.474609375, "learning_rate": 9.007035175879396e-05, "loss": 1.2308, "step": 2076 }, { "epoch": 0.05538666666666667, "grad_norm": 0.61328125, "learning_rate": 9.006532663316584e-05, "loss": 1.2852, "step": 2077 }, { "epoch": 0.055413333333333335, "grad_norm": 0.470703125, "learning_rate": 9.006030150753769e-05, "loss": 0.7812, "step": 2078 }, { "epoch": 0.05544, "grad_norm": 0.4765625, "learning_rate": 9.005527638190955e-05, "loss": 1.3373, "step": 2079 }, { "epoch": 0.055466666666666664, "grad_norm": 0.58203125, "learning_rate": 9.005025125628141e-05, "loss": 1.4025, "step": 2080 }, { "epoch": 0.05549333333333333, "grad_norm": 0.62890625, "learning_rate": 9.004522613065327e-05, "loss": 1.2397, "step": 2081 }, { "epoch": 0.05552, "grad_norm": 0.6796875, "learning_rate": 9.004020100502512e-05, "loss": 1.3739, "step": 2082 }, { "epoch": 0.05554666666666667, "grad_norm": 0.64453125, "learning_rate": 9.0035175879397e-05, "loss": 1.4832, "step": 2083 }, { "epoch": 0.055573333333333336, "grad_norm": 0.7890625, "learning_rate": 9.003015075376885e-05, "loss": 1.1537, "step": 2084 }, { "epoch": 0.0556, "grad_norm": 0.625, "learning_rate": 9.002512562814071e-05, "loss": 0.9987, "step": 2085 }, { "epoch": 0.055626666666666665, "grad_norm": 0.75390625, "learning_rate": 9.002010050251257e-05, "loss": 1.3593, "step": 2086 }, { "epoch": 0.05565333333333333, "grad_norm": 0.61328125, "learning_rate": 9.001507537688443e-05, "loss": 1.2191, "step": 2087 }, { "epoch": 0.05568, "grad_norm": 0.78125, "learning_rate": 9.001005025125628e-05, "loss": 1.0773, "step": 2088 }, { "epoch": 0.05570666666666667, "grad_norm": 0.50390625, "learning_rate": 9.000502512562814e-05, "loss": 1.3905, "step": 2089 }, { "epoch": 0.055733333333333336, "grad_norm": 0.73828125, "learning_rate": 9e-05, "loss": 1.1869, "step": 2090 }, { "epoch": 0.05576, "grad_norm": 0.59375, "learning_rate": 8.999497487437187e-05, "loss": 1.2354, "step": 2091 }, { "epoch": 0.055786666666666665, "grad_norm": 0.6328125, "learning_rate": 8.998994974874372e-05, "loss": 1.2175, "step": 2092 }, { "epoch": 0.05581333333333333, "grad_norm": 0.77734375, "learning_rate": 8.998492462311559e-05, "loss": 1.4533, "step": 2093 }, { "epoch": 0.05584, "grad_norm": 0.640625, "learning_rate": 8.997989949748744e-05, "loss": 1.2554, "step": 2094 }, { "epoch": 0.05586666666666667, "grad_norm": 0.5703125, "learning_rate": 8.99748743718593e-05, "loss": 1.2055, "step": 2095 }, { "epoch": 0.05589333333333334, "grad_norm": 0.74609375, "learning_rate": 8.996984924623116e-05, "loss": 1.0921, "step": 2096 }, { "epoch": 0.05592, "grad_norm": 0.484375, "learning_rate": 8.996482412060301e-05, "loss": 1.3943, "step": 2097 }, { "epoch": 0.055946666666666665, "grad_norm": 1.578125, "learning_rate": 8.995979899497487e-05, "loss": 1.1731, "step": 2098 }, { "epoch": 0.05597333333333333, "grad_norm": 0.58203125, "learning_rate": 8.995477386934674e-05, "loss": 1.0103, "step": 2099 }, { "epoch": 0.056, "grad_norm": 0.6875, "learning_rate": 8.99497487437186e-05, "loss": 1.3242, "step": 2100 }, { "epoch": 0.05602666666666667, "grad_norm": 0.71484375, "learning_rate": 8.994472361809045e-05, "loss": 1.5016, "step": 2101 }, { "epoch": 0.05605333333333333, "grad_norm": 0.6328125, "learning_rate": 8.993969849246232e-05, "loss": 1.2507, "step": 2102 }, { "epoch": 0.05608, "grad_norm": 0.498046875, "learning_rate": 8.993467336683417e-05, "loss": 1.2202, "step": 2103 }, { "epoch": 0.056106666666666666, "grad_norm": 0.58203125, "learning_rate": 8.992964824120603e-05, "loss": 1.6195, "step": 2104 }, { "epoch": 0.056133333333333334, "grad_norm": 0.79296875, "learning_rate": 8.992462311557788e-05, "loss": 1.3754, "step": 2105 }, { "epoch": 0.05616, "grad_norm": 0.451171875, "learning_rate": 8.991959798994976e-05, "loss": 1.0918, "step": 2106 }, { "epoch": 0.05618666666666667, "grad_norm": 0.51953125, "learning_rate": 8.99145728643216e-05, "loss": 1.1033, "step": 2107 }, { "epoch": 0.05621333333333333, "grad_norm": 0.4765625, "learning_rate": 8.990954773869347e-05, "loss": 1.0905, "step": 2108 }, { "epoch": 0.05624, "grad_norm": 0.6875, "learning_rate": 8.990452261306533e-05, "loss": 1.3723, "step": 2109 }, { "epoch": 0.056266666666666666, "grad_norm": 0.64453125, "learning_rate": 8.989949748743719e-05, "loss": 1.4167, "step": 2110 }, { "epoch": 0.056293333333333334, "grad_norm": 0.765625, "learning_rate": 8.989447236180904e-05, "loss": 1.4455, "step": 2111 }, { "epoch": 0.05632, "grad_norm": 0.953125, "learning_rate": 8.988944723618092e-05, "loss": 1.6131, "step": 2112 }, { "epoch": 0.05634666666666667, "grad_norm": 0.984375, "learning_rate": 8.988442211055276e-05, "loss": 1.3211, "step": 2113 }, { "epoch": 0.05637333333333333, "grad_norm": 0.6796875, "learning_rate": 8.987939698492463e-05, "loss": 1.2885, "step": 2114 }, { "epoch": 0.0564, "grad_norm": 1.328125, "learning_rate": 8.987437185929649e-05, "loss": 1.1452, "step": 2115 }, { "epoch": 0.05642666666666667, "grad_norm": 0.546875, "learning_rate": 8.986934673366835e-05, "loss": 1.281, "step": 2116 }, { "epoch": 0.056453333333333335, "grad_norm": 0.74609375, "learning_rate": 8.98643216080402e-05, "loss": 1.1341, "step": 2117 }, { "epoch": 0.05648, "grad_norm": 0.62890625, "learning_rate": 8.985929648241207e-05, "loss": 1.1335, "step": 2118 }, { "epoch": 0.05650666666666666, "grad_norm": 0.83203125, "learning_rate": 8.985427135678392e-05, "loss": 1.0497, "step": 2119 }, { "epoch": 0.05653333333333333, "grad_norm": 0.5390625, "learning_rate": 8.984924623115579e-05, "loss": 1.4157, "step": 2120 }, { "epoch": 0.05656, "grad_norm": 0.578125, "learning_rate": 8.984422110552763e-05, "loss": 1.4643, "step": 2121 }, { "epoch": 0.05658666666666667, "grad_norm": 0.6875, "learning_rate": 8.983919597989951e-05, "loss": 1.4461, "step": 2122 }, { "epoch": 0.056613333333333335, "grad_norm": 0.5546875, "learning_rate": 8.983417085427136e-05, "loss": 1.1953, "step": 2123 }, { "epoch": 0.05664, "grad_norm": 0.69140625, "learning_rate": 8.982914572864322e-05, "loss": 1.3563, "step": 2124 }, { "epoch": 0.056666666666666664, "grad_norm": 0.6171875, "learning_rate": 8.982412060301508e-05, "loss": 1.1573, "step": 2125 }, { "epoch": 0.05669333333333333, "grad_norm": 0.59375, "learning_rate": 8.981909547738694e-05, "loss": 1.3125, "step": 2126 }, { "epoch": 0.05672, "grad_norm": 0.65625, "learning_rate": 8.981407035175879e-05, "loss": 1.2786, "step": 2127 }, { "epoch": 0.05674666666666667, "grad_norm": 0.91015625, "learning_rate": 8.980904522613067e-05, "loss": 1.3441, "step": 2128 }, { "epoch": 0.056773333333333335, "grad_norm": 0.546875, "learning_rate": 8.980402010050252e-05, "loss": 0.9747, "step": 2129 }, { "epoch": 0.0568, "grad_norm": 0.99609375, "learning_rate": 8.979899497487438e-05, "loss": 1.0592, "step": 2130 }, { "epoch": 0.056826666666666664, "grad_norm": 0.62109375, "learning_rate": 8.979396984924624e-05, "loss": 1.118, "step": 2131 }, { "epoch": 0.05685333333333333, "grad_norm": 0.7421875, "learning_rate": 8.978894472361809e-05, "loss": 1.5345, "step": 2132 }, { "epoch": 0.05688, "grad_norm": 0.56640625, "learning_rate": 8.978391959798995e-05, "loss": 1.2896, "step": 2133 }, { "epoch": 0.05690666666666667, "grad_norm": 0.62890625, "learning_rate": 8.977889447236181e-05, "loss": 1.3409, "step": 2134 }, { "epoch": 0.056933333333333336, "grad_norm": 0.734375, "learning_rate": 8.977386934673368e-05, "loss": 0.9674, "step": 2135 }, { "epoch": 0.05696, "grad_norm": 0.50390625, "learning_rate": 8.976884422110552e-05, "loss": 1.2471, "step": 2136 }, { "epoch": 0.056986666666666665, "grad_norm": 0.51953125, "learning_rate": 8.976381909547739e-05, "loss": 1.0815, "step": 2137 }, { "epoch": 0.05701333333333333, "grad_norm": 0.6015625, "learning_rate": 8.975879396984925e-05, "loss": 1.3946, "step": 2138 }, { "epoch": 0.05704, "grad_norm": 0.5703125, "learning_rate": 8.975376884422111e-05, "loss": 1.4481, "step": 2139 }, { "epoch": 0.05706666666666667, "grad_norm": 0.609375, "learning_rate": 8.974874371859296e-05, "loss": 1.4138, "step": 2140 }, { "epoch": 0.057093333333333336, "grad_norm": 0.73828125, "learning_rate": 8.974371859296483e-05, "loss": 1.1935, "step": 2141 }, { "epoch": 0.05712, "grad_norm": 0.84375, "learning_rate": 8.973869346733668e-05, "loss": 1.0741, "step": 2142 }, { "epoch": 0.057146666666666665, "grad_norm": 0.73828125, "learning_rate": 8.973366834170854e-05, "loss": 1.7835, "step": 2143 }, { "epoch": 0.05717333333333333, "grad_norm": 0.65625, "learning_rate": 8.97286432160804e-05, "loss": 1.2839, "step": 2144 }, { "epoch": 0.0572, "grad_norm": 0.52734375, "learning_rate": 8.972361809045227e-05, "loss": 1.1495, "step": 2145 }, { "epoch": 0.05722666666666667, "grad_norm": 0.73828125, "learning_rate": 8.971859296482412e-05, "loss": 1.2092, "step": 2146 }, { "epoch": 0.05725333333333334, "grad_norm": 0.51953125, "learning_rate": 8.971356783919599e-05, "loss": 1.2549, "step": 2147 }, { "epoch": 0.05728, "grad_norm": 0.65234375, "learning_rate": 8.970854271356784e-05, "loss": 1.1935, "step": 2148 }, { "epoch": 0.057306666666666665, "grad_norm": 0.50390625, "learning_rate": 8.97035175879397e-05, "loss": 1.0721, "step": 2149 }, { "epoch": 0.05733333333333333, "grad_norm": 0.6171875, "learning_rate": 8.969849246231157e-05, "loss": 1.3029, "step": 2150 }, { "epoch": 0.05736, "grad_norm": 1.0234375, "learning_rate": 8.969346733668343e-05, "loss": 1.1779, "step": 2151 }, { "epoch": 0.05738666666666667, "grad_norm": 1.046875, "learning_rate": 8.968844221105528e-05, "loss": 1.3918, "step": 2152 }, { "epoch": 0.05741333333333333, "grad_norm": 0.58984375, "learning_rate": 8.968341708542714e-05, "loss": 1.0406, "step": 2153 }, { "epoch": 0.05744, "grad_norm": 0.6015625, "learning_rate": 8.9678391959799e-05, "loss": 1.4449, "step": 2154 }, { "epoch": 0.057466666666666666, "grad_norm": 0.55078125, "learning_rate": 8.967336683417086e-05, "loss": 1.2642, "step": 2155 }, { "epoch": 0.057493333333333334, "grad_norm": 0.67578125, "learning_rate": 8.966834170854271e-05, "loss": 1.1913, "step": 2156 }, { "epoch": 0.05752, "grad_norm": 0.72265625, "learning_rate": 8.966331658291459e-05, "loss": 1.217, "step": 2157 }, { "epoch": 0.05754666666666667, "grad_norm": 0.474609375, "learning_rate": 8.965829145728643e-05, "loss": 1.1885, "step": 2158 }, { "epoch": 0.05757333333333333, "grad_norm": 1.1875, "learning_rate": 8.96532663316583e-05, "loss": 1.2551, "step": 2159 }, { "epoch": 0.0576, "grad_norm": 0.55078125, "learning_rate": 8.964824120603016e-05, "loss": 1.0178, "step": 2160 }, { "epoch": 0.057626666666666666, "grad_norm": 0.65234375, "learning_rate": 8.964321608040202e-05, "loss": 1.3512, "step": 2161 }, { "epoch": 0.057653333333333334, "grad_norm": 0.51953125, "learning_rate": 8.963819095477387e-05, "loss": 1.1381, "step": 2162 }, { "epoch": 0.05768, "grad_norm": 1.3203125, "learning_rate": 8.963316582914573e-05, "loss": 1.4033, "step": 2163 }, { "epoch": 0.05770666666666667, "grad_norm": 0.47265625, "learning_rate": 8.962814070351759e-05, "loss": 1.1173, "step": 2164 }, { "epoch": 0.05773333333333333, "grad_norm": 0.52734375, "learning_rate": 8.962311557788945e-05, "loss": 1.28, "step": 2165 }, { "epoch": 0.05776, "grad_norm": 0.92578125, "learning_rate": 8.961809045226132e-05, "loss": 1.2543, "step": 2166 }, { "epoch": 0.05778666666666667, "grad_norm": 0.6953125, "learning_rate": 8.961306532663317e-05, "loss": 1.1544, "step": 2167 }, { "epoch": 0.057813333333333335, "grad_norm": 0.625, "learning_rate": 8.960804020100503e-05, "loss": 1.4788, "step": 2168 }, { "epoch": 0.05784, "grad_norm": 0.48046875, "learning_rate": 8.960301507537689e-05, "loss": 1.3681, "step": 2169 }, { "epoch": 0.057866666666666663, "grad_norm": 1.421875, "learning_rate": 8.959798994974875e-05, "loss": 1.313, "step": 2170 }, { "epoch": 0.05789333333333333, "grad_norm": 0.62890625, "learning_rate": 8.95929648241206e-05, "loss": 1.576, "step": 2171 }, { "epoch": 0.05792, "grad_norm": 0.8046875, "learning_rate": 8.958793969849246e-05, "loss": 1.5078, "step": 2172 }, { "epoch": 0.05794666666666667, "grad_norm": 0.5546875, "learning_rate": 8.958291457286432e-05, "loss": 1.1498, "step": 2173 }, { "epoch": 0.057973333333333335, "grad_norm": 0.66015625, "learning_rate": 8.957788944723619e-05, "loss": 1.3177, "step": 2174 }, { "epoch": 0.058, "grad_norm": 0.55078125, "learning_rate": 8.957286432160803e-05, "loss": 1.2542, "step": 2175 }, { "epoch": 0.058026666666666664, "grad_norm": 0.5390625, "learning_rate": 8.956783919597991e-05, "loss": 1.3647, "step": 2176 }, { "epoch": 0.05805333333333333, "grad_norm": 0.59375, "learning_rate": 8.956281407035176e-05, "loss": 1.3263, "step": 2177 }, { "epoch": 0.05808, "grad_norm": 0.76953125, "learning_rate": 8.955778894472362e-05, "loss": 1.1988, "step": 2178 }, { "epoch": 0.05810666666666667, "grad_norm": 0.51171875, "learning_rate": 8.955276381909548e-05, "loss": 1.0277, "step": 2179 }, { "epoch": 0.058133333333333335, "grad_norm": 0.48828125, "learning_rate": 8.954773869346734e-05, "loss": 1.425, "step": 2180 }, { "epoch": 0.05816, "grad_norm": 0.73046875, "learning_rate": 8.95427135678392e-05, "loss": 1.1573, "step": 2181 }, { "epoch": 0.058186666666666664, "grad_norm": 0.546875, "learning_rate": 8.953768844221107e-05, "loss": 1.3798, "step": 2182 }, { "epoch": 0.05821333333333333, "grad_norm": 0.62890625, "learning_rate": 8.953266331658292e-05, "loss": 1.4875, "step": 2183 }, { "epoch": 0.05824, "grad_norm": 0.703125, "learning_rate": 8.952763819095478e-05, "loss": 1.1497, "step": 2184 }, { "epoch": 0.05826666666666667, "grad_norm": 0.59765625, "learning_rate": 8.952261306532663e-05, "loss": 1.3338, "step": 2185 }, { "epoch": 0.058293333333333336, "grad_norm": 0.55078125, "learning_rate": 8.95175879396985e-05, "loss": 1.0198, "step": 2186 }, { "epoch": 0.05832, "grad_norm": 0.5546875, "learning_rate": 8.951256281407035e-05, "loss": 1.0286, "step": 2187 }, { "epoch": 0.058346666666666665, "grad_norm": 0.92578125, "learning_rate": 8.950753768844221e-05, "loss": 1.4241, "step": 2188 }, { "epoch": 0.05837333333333333, "grad_norm": 0.66015625, "learning_rate": 8.950251256281408e-05, "loss": 1.3661, "step": 2189 }, { "epoch": 0.0584, "grad_norm": 0.6484375, "learning_rate": 8.949748743718594e-05, "loss": 1.2367, "step": 2190 }, { "epoch": 0.05842666666666667, "grad_norm": 0.6171875, "learning_rate": 8.949246231155779e-05, "loss": 1.504, "step": 2191 }, { "epoch": 0.058453333333333336, "grad_norm": 0.6171875, "learning_rate": 8.948743718592966e-05, "loss": 1.2742, "step": 2192 }, { "epoch": 0.05848, "grad_norm": 0.66796875, "learning_rate": 8.948241206030151e-05, "loss": 1.3558, "step": 2193 }, { "epoch": 0.058506666666666665, "grad_norm": 0.609375, "learning_rate": 8.947738693467337e-05, "loss": 1.0494, "step": 2194 }, { "epoch": 0.05853333333333333, "grad_norm": 0.578125, "learning_rate": 8.947236180904523e-05, "loss": 1.393, "step": 2195 }, { "epoch": 0.05856, "grad_norm": 0.703125, "learning_rate": 8.94673366834171e-05, "loss": 1.4117, "step": 2196 }, { "epoch": 0.05858666666666667, "grad_norm": 0.51171875, "learning_rate": 8.946231155778895e-05, "loss": 1.3894, "step": 2197 }, { "epoch": 0.05861333333333334, "grad_norm": 0.546875, "learning_rate": 8.945728643216081e-05, "loss": 1.3693, "step": 2198 }, { "epoch": 0.05864, "grad_norm": 0.921875, "learning_rate": 8.945226130653267e-05, "loss": 1.3386, "step": 2199 }, { "epoch": 0.058666666666666666, "grad_norm": 0.6640625, "learning_rate": 8.944723618090453e-05, "loss": 1.2001, "step": 2200 }, { "epoch": 0.05869333333333333, "grad_norm": 0.60546875, "learning_rate": 8.944221105527638e-05, "loss": 1.087, "step": 2201 }, { "epoch": 0.05872, "grad_norm": 0.625, "learning_rate": 8.943718592964824e-05, "loss": 1.6563, "step": 2202 }, { "epoch": 0.05874666666666667, "grad_norm": 0.5703125, "learning_rate": 8.94321608040201e-05, "loss": 1.0353, "step": 2203 }, { "epoch": 0.05877333333333333, "grad_norm": 0.57421875, "learning_rate": 8.942713567839197e-05, "loss": 1.2264, "step": 2204 }, { "epoch": 0.0588, "grad_norm": 0.47265625, "learning_rate": 8.942211055276383e-05, "loss": 1.3949, "step": 2205 }, { "epoch": 0.058826666666666666, "grad_norm": 0.48046875, "learning_rate": 8.941708542713568e-05, "loss": 1.3508, "step": 2206 }, { "epoch": 0.058853333333333334, "grad_norm": 0.70703125, "learning_rate": 8.941206030150754e-05, "loss": 1.321, "step": 2207 }, { "epoch": 0.05888, "grad_norm": 0.6015625, "learning_rate": 8.94070351758794e-05, "loss": 1.3006, "step": 2208 }, { "epoch": 0.05890666666666667, "grad_norm": 0.546875, "learning_rate": 8.940201005025126e-05, "loss": 1.1724, "step": 2209 }, { "epoch": 0.05893333333333333, "grad_norm": 0.85546875, "learning_rate": 8.939698492462311e-05, "loss": 1.6199, "step": 2210 }, { "epoch": 0.05896, "grad_norm": 0.59765625, "learning_rate": 8.939195979899499e-05, "loss": 1.3837, "step": 2211 }, { "epoch": 0.058986666666666666, "grad_norm": 0.80859375, "learning_rate": 8.938693467336684e-05, "loss": 1.2536, "step": 2212 }, { "epoch": 0.059013333333333334, "grad_norm": 0.67578125, "learning_rate": 8.93819095477387e-05, "loss": 1.327, "step": 2213 }, { "epoch": 0.05904, "grad_norm": 0.51171875, "learning_rate": 8.937688442211055e-05, "loss": 1.3545, "step": 2214 }, { "epoch": 0.05906666666666667, "grad_norm": 0.59765625, "learning_rate": 8.937185929648242e-05, "loss": 1.4581, "step": 2215 }, { "epoch": 0.05909333333333333, "grad_norm": 0.62890625, "learning_rate": 8.936683417085427e-05, "loss": 1.2384, "step": 2216 }, { "epoch": 0.05912, "grad_norm": 0.482421875, "learning_rate": 8.936180904522613e-05, "loss": 1.507, "step": 2217 }, { "epoch": 0.05914666666666667, "grad_norm": 0.63671875, "learning_rate": 8.9356783919598e-05, "loss": 1.2877, "step": 2218 }, { "epoch": 0.059173333333333335, "grad_norm": 0.59765625, "learning_rate": 8.935175879396986e-05, "loss": 1.2779, "step": 2219 }, { "epoch": 0.0592, "grad_norm": 1.03125, "learning_rate": 8.93467336683417e-05, "loss": 1.1781, "step": 2220 }, { "epoch": 0.059226666666666664, "grad_norm": 0.56640625, "learning_rate": 8.934170854271358e-05, "loss": 1.1942, "step": 2221 }, { "epoch": 0.05925333333333333, "grad_norm": 0.69140625, "learning_rate": 8.933668341708543e-05, "loss": 1.339, "step": 2222 }, { "epoch": 0.05928, "grad_norm": 0.7890625, "learning_rate": 8.933165829145729e-05, "loss": 1.1567, "step": 2223 }, { "epoch": 0.05930666666666667, "grad_norm": 0.80078125, "learning_rate": 8.932663316582915e-05, "loss": 1.3488, "step": 2224 }, { "epoch": 0.059333333333333335, "grad_norm": 0.5078125, "learning_rate": 8.932160804020101e-05, "loss": 1.1803, "step": 2225 }, { "epoch": 0.05936, "grad_norm": 0.56640625, "learning_rate": 8.931658291457286e-05, "loss": 1.3223, "step": 2226 }, { "epoch": 0.059386666666666664, "grad_norm": 0.58984375, "learning_rate": 8.931155778894474e-05, "loss": 1.3303, "step": 2227 }, { "epoch": 0.05941333333333333, "grad_norm": 0.6953125, "learning_rate": 8.930653266331659e-05, "loss": 1.1744, "step": 2228 }, { "epoch": 0.05944, "grad_norm": 0.671875, "learning_rate": 8.930150753768845e-05, "loss": 1.2779, "step": 2229 }, { "epoch": 0.05946666666666667, "grad_norm": 0.765625, "learning_rate": 8.92964824120603e-05, "loss": 1.1952, "step": 2230 }, { "epoch": 0.059493333333333336, "grad_norm": 0.546875, "learning_rate": 8.929145728643217e-05, "loss": 1.1877, "step": 2231 }, { "epoch": 0.05952, "grad_norm": 0.78515625, "learning_rate": 8.928643216080402e-05, "loss": 1.3526, "step": 2232 }, { "epoch": 0.059546666666666664, "grad_norm": 0.5859375, "learning_rate": 8.928140703517588e-05, "loss": 1.4376, "step": 2233 }, { "epoch": 0.05957333333333333, "grad_norm": 1.03125, "learning_rate": 8.927638190954775e-05, "loss": 1.0263, "step": 2234 }, { "epoch": 0.0596, "grad_norm": 0.61328125, "learning_rate": 8.927135678391961e-05, "loss": 1.3144, "step": 2235 }, { "epoch": 0.05962666666666667, "grad_norm": 0.7109375, "learning_rate": 8.926633165829146e-05, "loss": 1.2322, "step": 2236 }, { "epoch": 0.059653333333333336, "grad_norm": 0.59765625, "learning_rate": 8.926130653266332e-05, "loss": 1.2429, "step": 2237 }, { "epoch": 0.05968, "grad_norm": 0.47265625, "learning_rate": 8.925628140703518e-05, "loss": 1.3787, "step": 2238 }, { "epoch": 0.059706666666666665, "grad_norm": 0.494140625, "learning_rate": 8.925125628140704e-05, "loss": 1.0873, "step": 2239 }, { "epoch": 0.05973333333333333, "grad_norm": 0.5625, "learning_rate": 8.92462311557789e-05, "loss": 1.3917, "step": 2240 }, { "epoch": 0.05976, "grad_norm": 0.5546875, "learning_rate": 8.924120603015075e-05, "loss": 1.1661, "step": 2241 }, { "epoch": 0.05978666666666667, "grad_norm": 0.59375, "learning_rate": 8.923618090452261e-05, "loss": 1.5229, "step": 2242 }, { "epoch": 0.059813333333333336, "grad_norm": 0.546875, "learning_rate": 8.923115577889448e-05, "loss": 1.5093, "step": 2243 }, { "epoch": 0.05984, "grad_norm": 0.88671875, "learning_rate": 8.922613065326634e-05, "loss": 1.3299, "step": 2244 }, { "epoch": 0.059866666666666665, "grad_norm": 0.52734375, "learning_rate": 8.922110552763819e-05, "loss": 1.1068, "step": 2245 }, { "epoch": 0.05989333333333333, "grad_norm": 0.5390625, "learning_rate": 8.921608040201005e-05, "loss": 1.1991, "step": 2246 }, { "epoch": 0.05992, "grad_norm": 1.078125, "learning_rate": 8.921105527638191e-05, "loss": 1.3126, "step": 2247 }, { "epoch": 0.05994666666666667, "grad_norm": 0.7421875, "learning_rate": 8.920603015075377e-05, "loss": 1.2785, "step": 2248 }, { "epoch": 0.05997333333333333, "grad_norm": 0.67578125, "learning_rate": 8.920100502512562e-05, "loss": 1.3446, "step": 2249 }, { "epoch": 0.06, "grad_norm": 0.45703125, "learning_rate": 8.91959798994975e-05, "loss": 1.1526, "step": 2250 }, { "epoch": 0.060026666666666666, "grad_norm": 0.6796875, "learning_rate": 8.919095477386935e-05, "loss": 1.1102, "step": 2251 }, { "epoch": 0.060053333333333334, "grad_norm": 0.9453125, "learning_rate": 8.918592964824121e-05, "loss": 1.2637, "step": 2252 }, { "epoch": 0.06008, "grad_norm": 0.76953125, "learning_rate": 8.918090452261307e-05, "loss": 1.1854, "step": 2253 }, { "epoch": 0.06010666666666667, "grad_norm": 0.64453125, "learning_rate": 8.917587939698493e-05, "loss": 1.2912, "step": 2254 }, { "epoch": 0.06013333333333333, "grad_norm": 0.75, "learning_rate": 8.917085427135678e-05, "loss": 1.35, "step": 2255 }, { "epoch": 0.06016, "grad_norm": 0.57421875, "learning_rate": 8.916582914572866e-05, "loss": 1.5321, "step": 2256 }, { "epoch": 0.060186666666666666, "grad_norm": 0.95703125, "learning_rate": 8.91608040201005e-05, "loss": 1.379, "step": 2257 }, { "epoch": 0.060213333333333334, "grad_norm": 0.62109375, "learning_rate": 8.915577889447237e-05, "loss": 1.2528, "step": 2258 }, { "epoch": 0.06024, "grad_norm": 0.59765625, "learning_rate": 8.915075376884423e-05, "loss": 1.3343, "step": 2259 }, { "epoch": 0.06026666666666667, "grad_norm": 0.76953125, "learning_rate": 8.914572864321609e-05, "loss": 1.2279, "step": 2260 }, { "epoch": 0.06029333333333333, "grad_norm": 0.60546875, "learning_rate": 8.914070351758794e-05, "loss": 1.6205, "step": 2261 }, { "epoch": 0.06032, "grad_norm": 0.59765625, "learning_rate": 8.91356783919598e-05, "loss": 1.3678, "step": 2262 }, { "epoch": 0.060346666666666667, "grad_norm": 0.640625, "learning_rate": 8.913065326633166e-05, "loss": 1.4038, "step": 2263 }, { "epoch": 0.060373333333333334, "grad_norm": 0.50390625, "learning_rate": 8.912562814070353e-05, "loss": 1.2437, "step": 2264 }, { "epoch": 0.0604, "grad_norm": 0.48828125, "learning_rate": 8.912060301507537e-05, "loss": 1.1173, "step": 2265 }, { "epoch": 0.06042666666666666, "grad_norm": 0.70703125, "learning_rate": 8.911557788944725e-05, "loss": 1.3661, "step": 2266 }, { "epoch": 0.06045333333333333, "grad_norm": 0.6015625, "learning_rate": 8.91105527638191e-05, "loss": 1.3063, "step": 2267 }, { "epoch": 0.06048, "grad_norm": 0.6640625, "learning_rate": 8.910552763819096e-05, "loss": 1.2943, "step": 2268 }, { "epoch": 0.06050666666666667, "grad_norm": 0.5859375, "learning_rate": 8.910050251256282e-05, "loss": 1.1551, "step": 2269 }, { "epoch": 0.060533333333333335, "grad_norm": 0.78515625, "learning_rate": 8.909547738693468e-05, "loss": 1.2192, "step": 2270 }, { "epoch": 0.06056, "grad_norm": 0.625, "learning_rate": 8.909045226130653e-05, "loss": 1.2436, "step": 2271 }, { "epoch": 0.060586666666666664, "grad_norm": 0.65625, "learning_rate": 8.90854271356784e-05, "loss": 1.5083, "step": 2272 }, { "epoch": 0.06061333333333333, "grad_norm": 0.5390625, "learning_rate": 8.908040201005026e-05, "loss": 1.1433, "step": 2273 }, { "epoch": 0.06064, "grad_norm": 0.53125, "learning_rate": 8.907537688442212e-05, "loss": 1.1959, "step": 2274 }, { "epoch": 0.06066666666666667, "grad_norm": 0.51953125, "learning_rate": 8.907035175879398e-05, "loss": 1.1303, "step": 2275 }, { "epoch": 0.060693333333333335, "grad_norm": 0.7734375, "learning_rate": 8.906532663316583e-05, "loss": 1.3061, "step": 2276 }, { "epoch": 0.06072, "grad_norm": 0.59375, "learning_rate": 8.906030150753769e-05, "loss": 1.1652, "step": 2277 }, { "epoch": 0.060746666666666664, "grad_norm": 0.71484375, "learning_rate": 8.905527638190955e-05, "loss": 1.3617, "step": 2278 }, { "epoch": 0.06077333333333333, "grad_norm": 0.484375, "learning_rate": 8.905025125628142e-05, "loss": 1.3909, "step": 2279 }, { "epoch": 0.0608, "grad_norm": 0.55078125, "learning_rate": 8.904522613065326e-05, "loss": 1.2156, "step": 2280 }, { "epoch": 0.06082666666666667, "grad_norm": 0.7734375, "learning_rate": 8.904020100502513e-05, "loss": 1.2848, "step": 2281 }, { "epoch": 0.060853333333333336, "grad_norm": 0.6796875, "learning_rate": 8.903517587939699e-05, "loss": 1.239, "step": 2282 }, { "epoch": 0.06088, "grad_norm": 0.52734375, "learning_rate": 8.903015075376885e-05, "loss": 1.185, "step": 2283 }, { "epoch": 0.060906666666666665, "grad_norm": 0.7421875, "learning_rate": 8.90251256281407e-05, "loss": 1.3189, "step": 2284 }, { "epoch": 0.06093333333333333, "grad_norm": 0.62890625, "learning_rate": 8.902010050251257e-05, "loss": 1.1728, "step": 2285 }, { "epoch": 0.06096, "grad_norm": 0.64453125, "learning_rate": 8.901507537688442e-05, "loss": 1.2428, "step": 2286 }, { "epoch": 0.06098666666666667, "grad_norm": 0.74609375, "learning_rate": 8.901005025125628e-05, "loss": 1.0963, "step": 2287 }, { "epoch": 0.061013333333333336, "grad_norm": 0.578125, "learning_rate": 8.900502512562815e-05, "loss": 0.9658, "step": 2288 }, { "epoch": 0.06104, "grad_norm": 0.49609375, "learning_rate": 8.900000000000001e-05, "loss": 1.0326, "step": 2289 }, { "epoch": 0.061066666666666665, "grad_norm": 0.53515625, "learning_rate": 8.899497487437186e-05, "loss": 1.1696, "step": 2290 }, { "epoch": 0.06109333333333333, "grad_norm": 0.515625, "learning_rate": 8.898994974874373e-05, "loss": 1.1697, "step": 2291 }, { "epoch": 0.06112, "grad_norm": 0.8046875, "learning_rate": 8.898492462311558e-05, "loss": 1.6262, "step": 2292 }, { "epoch": 0.06114666666666667, "grad_norm": 0.67578125, "learning_rate": 8.897989949748744e-05, "loss": 1.0732, "step": 2293 }, { "epoch": 0.061173333333333337, "grad_norm": 0.52734375, "learning_rate": 8.897487437185929e-05, "loss": 1.4308, "step": 2294 }, { "epoch": 0.0612, "grad_norm": 0.63671875, "learning_rate": 8.896984924623117e-05, "loss": 1.1307, "step": 2295 }, { "epoch": 0.061226666666666665, "grad_norm": 0.5703125, "learning_rate": 8.896482412060302e-05, "loss": 1.0628, "step": 2296 }, { "epoch": 0.06125333333333333, "grad_norm": 0.8828125, "learning_rate": 8.895979899497488e-05, "loss": 1.1441, "step": 2297 }, { "epoch": 0.06128, "grad_norm": 0.59765625, "learning_rate": 8.895477386934674e-05, "loss": 1.2992, "step": 2298 }, { "epoch": 0.06130666666666667, "grad_norm": 0.4765625, "learning_rate": 8.89497487437186e-05, "loss": 1.1747, "step": 2299 }, { "epoch": 0.06133333333333333, "grad_norm": 0.54296875, "learning_rate": 8.894472361809045e-05, "loss": 1.4865, "step": 2300 }, { "epoch": 0.06136, "grad_norm": 0.6328125, "learning_rate": 8.893969849246233e-05, "loss": 1.2597, "step": 2301 }, { "epoch": 0.061386666666666666, "grad_norm": 0.4921875, "learning_rate": 8.893467336683417e-05, "loss": 1.2726, "step": 2302 }, { "epoch": 0.061413333333333334, "grad_norm": 0.4921875, "learning_rate": 8.892964824120604e-05, "loss": 1.2931, "step": 2303 }, { "epoch": 0.06144, "grad_norm": 0.7109375, "learning_rate": 8.89246231155779e-05, "loss": 1.3306, "step": 2304 }, { "epoch": 0.06146666666666667, "grad_norm": 0.71484375, "learning_rate": 8.891959798994976e-05, "loss": 1.2675, "step": 2305 }, { "epoch": 0.06149333333333333, "grad_norm": 0.6015625, "learning_rate": 8.891457286432161e-05, "loss": 1.1424, "step": 2306 }, { "epoch": 0.06152, "grad_norm": 0.48046875, "learning_rate": 8.890954773869347e-05, "loss": 1.2732, "step": 2307 }, { "epoch": 0.061546666666666666, "grad_norm": 0.94921875, "learning_rate": 8.890452261306533e-05, "loss": 1.2263, "step": 2308 }, { "epoch": 0.061573333333333334, "grad_norm": 0.5, "learning_rate": 8.88994974874372e-05, "loss": 1.2106, "step": 2309 }, { "epoch": 0.0616, "grad_norm": 0.66015625, "learning_rate": 8.889447236180904e-05, "loss": 1.2245, "step": 2310 }, { "epoch": 0.06162666666666667, "grad_norm": 0.4609375, "learning_rate": 8.88894472361809e-05, "loss": 1.211, "step": 2311 }, { "epoch": 0.06165333333333333, "grad_norm": 0.875, "learning_rate": 8.888442211055277e-05, "loss": 1.4794, "step": 2312 }, { "epoch": 0.06168, "grad_norm": 0.85546875, "learning_rate": 8.887939698492463e-05, "loss": 1.3246, "step": 2313 }, { "epoch": 0.06170666666666667, "grad_norm": 0.5546875, "learning_rate": 8.887437185929649e-05, "loss": 1.272, "step": 2314 }, { "epoch": 0.061733333333333335, "grad_norm": 0.73828125, "learning_rate": 8.886934673366834e-05, "loss": 1.3879, "step": 2315 }, { "epoch": 0.06176, "grad_norm": 0.6640625, "learning_rate": 8.88643216080402e-05, "loss": 1.2838, "step": 2316 }, { "epoch": 0.06178666666666666, "grad_norm": 0.51171875, "learning_rate": 8.885929648241206e-05, "loss": 1.3394, "step": 2317 }, { "epoch": 0.06181333333333333, "grad_norm": 0.55078125, "learning_rate": 8.885427135678393e-05, "loss": 1.238, "step": 2318 }, { "epoch": 0.06184, "grad_norm": 1.15625, "learning_rate": 8.884924623115577e-05, "loss": 1.1044, "step": 2319 }, { "epoch": 0.06186666666666667, "grad_norm": 1.3515625, "learning_rate": 8.884422110552765e-05, "loss": 1.7409, "step": 2320 }, { "epoch": 0.061893333333333335, "grad_norm": 0.57421875, "learning_rate": 8.88391959798995e-05, "loss": 1.2724, "step": 2321 }, { "epoch": 0.06192, "grad_norm": 0.53515625, "learning_rate": 8.883417085427136e-05, "loss": 1.0766, "step": 2322 }, { "epoch": 0.061946666666666664, "grad_norm": 0.80859375, "learning_rate": 8.882914572864321e-05, "loss": 1.164, "step": 2323 }, { "epoch": 0.06197333333333333, "grad_norm": 0.57421875, "learning_rate": 8.882412060301508e-05, "loss": 1.2055, "step": 2324 }, { "epoch": 0.062, "grad_norm": 0.7265625, "learning_rate": 8.881909547738693e-05, "loss": 1.1952, "step": 2325 }, { "epoch": 0.06202666666666667, "grad_norm": 3.875, "learning_rate": 8.88140703517588e-05, "loss": 1.1492, "step": 2326 }, { "epoch": 0.062053333333333335, "grad_norm": 0.51171875, "learning_rate": 8.880904522613066e-05, "loss": 1.5728, "step": 2327 }, { "epoch": 0.06208, "grad_norm": 0.59375, "learning_rate": 8.880402010050252e-05, "loss": 1.1818, "step": 2328 }, { "epoch": 0.062106666666666664, "grad_norm": 0.8828125, "learning_rate": 8.879899497487437e-05, "loss": 1.2343, "step": 2329 }, { "epoch": 0.06213333333333333, "grad_norm": 0.4765625, "learning_rate": 8.879396984924624e-05, "loss": 1.396, "step": 2330 }, { "epoch": 0.06216, "grad_norm": 0.51171875, "learning_rate": 8.878894472361809e-05, "loss": 1.2821, "step": 2331 }, { "epoch": 0.06218666666666667, "grad_norm": 0.73828125, "learning_rate": 8.878391959798995e-05, "loss": 1.2837, "step": 2332 }, { "epoch": 0.062213333333333336, "grad_norm": 0.6171875, "learning_rate": 8.877889447236182e-05, "loss": 1.1553, "step": 2333 }, { "epoch": 0.06224, "grad_norm": 1.796875, "learning_rate": 8.877386934673368e-05, "loss": 1.3939, "step": 2334 }, { "epoch": 0.062266666666666665, "grad_norm": 0.5546875, "learning_rate": 8.876884422110553e-05, "loss": 1.162, "step": 2335 }, { "epoch": 0.06229333333333333, "grad_norm": 0.765625, "learning_rate": 8.87638190954774e-05, "loss": 1.3371, "step": 2336 }, { "epoch": 0.06232, "grad_norm": 0.5703125, "learning_rate": 8.875879396984925e-05, "loss": 1.1794, "step": 2337 }, { "epoch": 0.06234666666666667, "grad_norm": 0.490234375, "learning_rate": 8.875376884422111e-05, "loss": 1.3813, "step": 2338 }, { "epoch": 0.062373333333333336, "grad_norm": 0.66015625, "learning_rate": 8.874874371859296e-05, "loss": 1.4051, "step": 2339 }, { "epoch": 0.0624, "grad_norm": 0.515625, "learning_rate": 8.874371859296484e-05, "loss": 1.1924, "step": 2340 }, { "epoch": 0.062426666666666665, "grad_norm": 0.78515625, "learning_rate": 8.873869346733669e-05, "loss": 1.3732, "step": 2341 }, { "epoch": 0.06245333333333333, "grad_norm": 0.59765625, "learning_rate": 8.873366834170855e-05, "loss": 1.2496, "step": 2342 }, { "epoch": 0.06248, "grad_norm": 0.72265625, "learning_rate": 8.872864321608041e-05, "loss": 1.5039, "step": 2343 }, { "epoch": 0.06250666666666667, "grad_norm": 0.6328125, "learning_rate": 8.872361809045227e-05, "loss": 1.3315, "step": 2344 }, { "epoch": 0.06253333333333333, "grad_norm": 0.546875, "learning_rate": 8.871859296482412e-05, "loss": 1.373, "step": 2345 }, { "epoch": 0.06256, "grad_norm": 0.494140625, "learning_rate": 8.871356783919598e-05, "loss": 1.3753, "step": 2346 }, { "epoch": 0.06258666666666667, "grad_norm": 0.59765625, "learning_rate": 8.870854271356784e-05, "loss": 1.463, "step": 2347 }, { "epoch": 0.06261333333333333, "grad_norm": 0.546875, "learning_rate": 8.87035175879397e-05, "loss": 1.3365, "step": 2348 }, { "epoch": 0.06264, "grad_norm": 0.578125, "learning_rate": 8.869849246231157e-05, "loss": 1.1902, "step": 2349 }, { "epoch": 0.06266666666666666, "grad_norm": 0.58984375, "learning_rate": 8.869346733668342e-05, "loss": 1.2261, "step": 2350 }, { "epoch": 0.06269333333333334, "grad_norm": 1.0, "learning_rate": 8.868844221105528e-05, "loss": 1.3699, "step": 2351 }, { "epoch": 0.06272, "grad_norm": 0.52734375, "learning_rate": 8.868341708542714e-05, "loss": 1.2001, "step": 2352 }, { "epoch": 0.06274666666666667, "grad_norm": 0.6171875, "learning_rate": 8.8678391959799e-05, "loss": 0.902, "step": 2353 }, { "epoch": 0.06277333333333333, "grad_norm": 0.494140625, "learning_rate": 8.867336683417085e-05, "loss": 1.214, "step": 2354 }, { "epoch": 0.0628, "grad_norm": 0.5703125, "learning_rate": 8.866834170854271e-05, "loss": 1.4058, "step": 2355 }, { "epoch": 0.06282666666666667, "grad_norm": 0.5625, "learning_rate": 8.866331658291458e-05, "loss": 1.1026, "step": 2356 }, { "epoch": 0.06285333333333333, "grad_norm": 0.734375, "learning_rate": 8.865829145728644e-05, "loss": 1.0316, "step": 2357 }, { "epoch": 0.06288, "grad_norm": 0.59375, "learning_rate": 8.865326633165829e-05, "loss": 1.2013, "step": 2358 }, { "epoch": 0.06290666666666667, "grad_norm": 0.82421875, "learning_rate": 8.864824120603016e-05, "loss": 1.0969, "step": 2359 }, { "epoch": 0.06293333333333333, "grad_norm": 0.7109375, "learning_rate": 8.864321608040201e-05, "loss": 1.115, "step": 2360 }, { "epoch": 0.06296, "grad_norm": 0.578125, "learning_rate": 8.863819095477387e-05, "loss": 1.1005, "step": 2361 }, { "epoch": 0.06298666666666666, "grad_norm": 0.478515625, "learning_rate": 8.863316582914573e-05, "loss": 1.4297, "step": 2362 }, { "epoch": 0.06301333333333334, "grad_norm": 0.640625, "learning_rate": 8.86281407035176e-05, "loss": 0.811, "step": 2363 }, { "epoch": 0.06304, "grad_norm": 0.53125, "learning_rate": 8.862311557788944e-05, "loss": 1.4101, "step": 2364 }, { "epoch": 0.06306666666666666, "grad_norm": 0.9296875, "learning_rate": 8.861809045226132e-05, "loss": 1.2688, "step": 2365 }, { "epoch": 0.06309333333333333, "grad_norm": 0.609375, "learning_rate": 8.861306532663317e-05, "loss": 1.2107, "step": 2366 }, { "epoch": 0.06312, "grad_norm": 0.6015625, "learning_rate": 8.860804020100503e-05, "loss": 1.4415, "step": 2367 }, { "epoch": 0.06314666666666667, "grad_norm": 0.66015625, "learning_rate": 8.860301507537689e-05, "loss": 1.1682, "step": 2368 }, { "epoch": 0.06317333333333333, "grad_norm": 0.73828125, "learning_rate": 8.859798994974875e-05, "loss": 1.1221, "step": 2369 }, { "epoch": 0.0632, "grad_norm": 0.6015625, "learning_rate": 8.85929648241206e-05, "loss": 1.2289, "step": 2370 }, { "epoch": 0.06322666666666667, "grad_norm": 0.734375, "learning_rate": 8.858793969849246e-05, "loss": 1.2619, "step": 2371 }, { "epoch": 0.06325333333333333, "grad_norm": 0.8203125, "learning_rate": 8.858291457286433e-05, "loss": 1.2234, "step": 2372 }, { "epoch": 0.06328, "grad_norm": 0.6484375, "learning_rate": 8.857788944723619e-05, "loss": 1.2348, "step": 2373 }, { "epoch": 0.06330666666666666, "grad_norm": 0.62109375, "learning_rate": 8.857286432160804e-05, "loss": 1.4555, "step": 2374 }, { "epoch": 0.06333333333333334, "grad_norm": 0.78125, "learning_rate": 8.856783919597991e-05, "loss": 1.2898, "step": 2375 }, { "epoch": 0.06336, "grad_norm": 0.7265625, "learning_rate": 8.856281407035176e-05, "loss": 1.4486, "step": 2376 }, { "epoch": 0.06338666666666666, "grad_norm": 0.51953125, "learning_rate": 8.855778894472362e-05, "loss": 1.1062, "step": 2377 }, { "epoch": 0.06341333333333334, "grad_norm": 0.5703125, "learning_rate": 8.855276381909549e-05, "loss": 1.0134, "step": 2378 }, { "epoch": 0.06344, "grad_norm": 0.515625, "learning_rate": 8.854773869346735e-05, "loss": 1.3139, "step": 2379 }, { "epoch": 0.06346666666666667, "grad_norm": 0.76953125, "learning_rate": 8.85427135678392e-05, "loss": 1.2314, "step": 2380 }, { "epoch": 0.06349333333333333, "grad_norm": 0.7109375, "learning_rate": 8.853768844221106e-05, "loss": 1.3141, "step": 2381 }, { "epoch": 0.06352, "grad_norm": 0.5859375, "learning_rate": 8.853266331658292e-05, "loss": 1.3586, "step": 2382 }, { "epoch": 0.06354666666666667, "grad_norm": 0.5625, "learning_rate": 8.852763819095478e-05, "loss": 1.2062, "step": 2383 }, { "epoch": 0.06357333333333333, "grad_norm": 0.60546875, "learning_rate": 8.852261306532664e-05, "loss": 1.4676, "step": 2384 }, { "epoch": 0.0636, "grad_norm": 0.64453125, "learning_rate": 8.851758793969849e-05, "loss": 1.3997, "step": 2385 }, { "epoch": 0.06362666666666666, "grad_norm": 0.6015625, "learning_rate": 8.851256281407035e-05, "loss": 1.5248, "step": 2386 }, { "epoch": 0.06365333333333334, "grad_norm": 0.91015625, "learning_rate": 8.850753768844222e-05, "loss": 1.3753, "step": 2387 }, { "epoch": 0.06368, "grad_norm": 0.5390625, "learning_rate": 8.850251256281408e-05, "loss": 1.1719, "step": 2388 }, { "epoch": 0.06370666666666666, "grad_norm": 0.5078125, "learning_rate": 8.849748743718593e-05, "loss": 1.1847, "step": 2389 }, { "epoch": 0.06373333333333334, "grad_norm": 0.7734375, "learning_rate": 8.849246231155779e-05, "loss": 1.1712, "step": 2390 }, { "epoch": 0.06376, "grad_norm": 0.55859375, "learning_rate": 8.848743718592965e-05, "loss": 1.3523, "step": 2391 }, { "epoch": 0.06378666666666667, "grad_norm": 0.6328125, "learning_rate": 8.848241206030151e-05, "loss": 0.8963, "step": 2392 }, { "epoch": 0.06381333333333333, "grad_norm": 0.7734375, "learning_rate": 8.847738693467336e-05, "loss": 1.0212, "step": 2393 }, { "epoch": 0.06384, "grad_norm": 1.046875, "learning_rate": 8.847236180904524e-05, "loss": 1.4128, "step": 2394 }, { "epoch": 0.06386666666666667, "grad_norm": 0.498046875, "learning_rate": 8.846733668341709e-05, "loss": 1.3041, "step": 2395 }, { "epoch": 0.06389333333333333, "grad_norm": 0.52734375, "learning_rate": 8.846231155778895e-05, "loss": 1.2739, "step": 2396 }, { "epoch": 0.06392, "grad_norm": 0.609375, "learning_rate": 8.845728643216081e-05, "loss": 1.3449, "step": 2397 }, { "epoch": 0.06394666666666667, "grad_norm": 0.56640625, "learning_rate": 8.845226130653267e-05, "loss": 1.5806, "step": 2398 }, { "epoch": 0.06397333333333333, "grad_norm": 0.51953125, "learning_rate": 8.844723618090452e-05, "loss": 1.0189, "step": 2399 }, { "epoch": 0.064, "grad_norm": 0.765625, "learning_rate": 8.84422110552764e-05, "loss": 1.2525, "step": 2400 }, { "epoch": 0.06402666666666666, "grad_norm": 0.5859375, "learning_rate": 8.843718592964824e-05, "loss": 0.958, "step": 2401 }, { "epoch": 0.06405333333333334, "grad_norm": 0.62890625, "learning_rate": 8.84321608040201e-05, "loss": 1.1025, "step": 2402 }, { "epoch": 0.06408, "grad_norm": 0.5625, "learning_rate": 8.842713567839196e-05, "loss": 1.3328, "step": 2403 }, { "epoch": 0.06410666666666667, "grad_norm": 0.84375, "learning_rate": 8.842211055276383e-05, "loss": 1.2751, "step": 2404 }, { "epoch": 0.06413333333333333, "grad_norm": 1.28125, "learning_rate": 8.841708542713568e-05, "loss": 1.2505, "step": 2405 }, { "epoch": 0.06416, "grad_norm": 0.5859375, "learning_rate": 8.841206030150754e-05, "loss": 1.3756, "step": 2406 }, { "epoch": 0.06418666666666667, "grad_norm": 0.71875, "learning_rate": 8.84070351758794e-05, "loss": 1.4138, "step": 2407 }, { "epoch": 0.06421333333333333, "grad_norm": 0.53515625, "learning_rate": 8.840201005025127e-05, "loss": 1.1302, "step": 2408 }, { "epoch": 0.06424, "grad_norm": 0.5078125, "learning_rate": 8.839698492462311e-05, "loss": 1.0991, "step": 2409 }, { "epoch": 0.06426666666666667, "grad_norm": 0.5703125, "learning_rate": 8.839195979899499e-05, "loss": 1.2859, "step": 2410 }, { "epoch": 0.06429333333333333, "grad_norm": 0.7265625, "learning_rate": 8.838693467336684e-05, "loss": 1.2389, "step": 2411 }, { "epoch": 0.06432, "grad_norm": 0.97265625, "learning_rate": 8.83819095477387e-05, "loss": 1.1132, "step": 2412 }, { "epoch": 0.06434666666666666, "grad_norm": 0.466796875, "learning_rate": 8.837688442211056e-05, "loss": 1.3217, "step": 2413 }, { "epoch": 0.06437333333333334, "grad_norm": 0.609375, "learning_rate": 8.837185929648242e-05, "loss": 1.1709, "step": 2414 }, { "epoch": 0.0644, "grad_norm": 0.5234375, "learning_rate": 8.836683417085427e-05, "loss": 1.5038, "step": 2415 }, { "epoch": 0.06442666666666666, "grad_norm": 0.52734375, "learning_rate": 8.836180904522613e-05, "loss": 1.4268, "step": 2416 }, { "epoch": 0.06445333333333333, "grad_norm": 0.6796875, "learning_rate": 8.8356783919598e-05, "loss": 1.0828, "step": 2417 }, { "epoch": 0.06448, "grad_norm": 1.2265625, "learning_rate": 8.835175879396986e-05, "loss": 1.428, "step": 2418 }, { "epoch": 0.06450666666666667, "grad_norm": 0.88671875, "learning_rate": 8.834673366834171e-05, "loss": 1.2236, "step": 2419 }, { "epoch": 0.06453333333333333, "grad_norm": 0.63671875, "learning_rate": 8.834170854271357e-05, "loss": 1.057, "step": 2420 }, { "epoch": 0.06456, "grad_norm": 0.75, "learning_rate": 8.833668341708543e-05, "loss": 1.2775, "step": 2421 }, { "epoch": 0.06458666666666667, "grad_norm": 0.57421875, "learning_rate": 8.833165829145729e-05, "loss": 1.0309, "step": 2422 }, { "epoch": 0.06461333333333333, "grad_norm": 0.6953125, "learning_rate": 8.832663316582916e-05, "loss": 1.7272, "step": 2423 }, { "epoch": 0.06464, "grad_norm": 1.125, "learning_rate": 8.8321608040201e-05, "loss": 1.2897, "step": 2424 }, { "epoch": 0.06466666666666666, "grad_norm": 0.66796875, "learning_rate": 8.831658291457287e-05, "loss": 1.281, "step": 2425 }, { "epoch": 0.06469333333333334, "grad_norm": 1.1484375, "learning_rate": 8.831155778894473e-05, "loss": 1.2524, "step": 2426 }, { "epoch": 0.06472, "grad_norm": 0.88671875, "learning_rate": 8.830653266331659e-05, "loss": 1.3205, "step": 2427 }, { "epoch": 0.06474666666666666, "grad_norm": 0.7578125, "learning_rate": 8.830150753768844e-05, "loss": 1.3547, "step": 2428 }, { "epoch": 0.06477333333333334, "grad_norm": 0.71484375, "learning_rate": 8.829648241206031e-05, "loss": 1.3354, "step": 2429 }, { "epoch": 0.0648, "grad_norm": 1.1875, "learning_rate": 8.829145728643216e-05, "loss": 1.0803, "step": 2430 }, { "epoch": 0.06482666666666667, "grad_norm": 0.89453125, "learning_rate": 8.828643216080402e-05, "loss": 1.8138, "step": 2431 }, { "epoch": 0.06485333333333333, "grad_norm": 0.609375, "learning_rate": 8.828140703517587e-05, "loss": 0.9975, "step": 2432 }, { "epoch": 0.06488, "grad_norm": 0.51953125, "learning_rate": 8.827638190954775e-05, "loss": 1.3301, "step": 2433 }, { "epoch": 0.06490666666666667, "grad_norm": 0.69140625, "learning_rate": 8.82713567839196e-05, "loss": 1.0582, "step": 2434 }, { "epoch": 0.06493333333333333, "grad_norm": 0.7109375, "learning_rate": 8.826633165829146e-05, "loss": 1.1334, "step": 2435 }, { "epoch": 0.06496, "grad_norm": 0.62109375, "learning_rate": 8.826130653266332e-05, "loss": 0.9961, "step": 2436 }, { "epoch": 0.06498666666666666, "grad_norm": 0.83984375, "learning_rate": 8.825628140703518e-05, "loss": 1.4752, "step": 2437 }, { "epoch": 0.06501333333333334, "grad_norm": 0.91015625, "learning_rate": 8.825125628140703e-05, "loss": 1.3545, "step": 2438 }, { "epoch": 0.06504, "grad_norm": 0.578125, "learning_rate": 8.824623115577891e-05, "loss": 1.2813, "step": 2439 }, { "epoch": 0.06506666666666666, "grad_norm": 0.640625, "learning_rate": 8.824120603015076e-05, "loss": 1.2859, "step": 2440 }, { "epoch": 0.06509333333333334, "grad_norm": 0.5859375, "learning_rate": 8.823618090452262e-05, "loss": 1.2109, "step": 2441 }, { "epoch": 0.06512, "grad_norm": 0.58203125, "learning_rate": 8.823115577889448e-05, "loss": 1.2188, "step": 2442 }, { "epoch": 0.06514666666666667, "grad_norm": 0.640625, "learning_rate": 8.822613065326634e-05, "loss": 1.3275, "step": 2443 }, { "epoch": 0.06517333333333333, "grad_norm": 0.69140625, "learning_rate": 8.822110552763819e-05, "loss": 1.4033, "step": 2444 }, { "epoch": 0.0652, "grad_norm": 0.5625, "learning_rate": 8.821608040201007e-05, "loss": 1.1378, "step": 2445 }, { "epoch": 0.06522666666666667, "grad_norm": 0.578125, "learning_rate": 8.821105527638191e-05, "loss": 1.1845, "step": 2446 }, { "epoch": 0.06525333333333333, "grad_norm": 0.54296875, "learning_rate": 8.820603015075378e-05, "loss": 1.3232, "step": 2447 }, { "epoch": 0.06528, "grad_norm": 0.62109375, "learning_rate": 8.820100502512562e-05, "loss": 1.4337, "step": 2448 }, { "epoch": 0.06530666666666667, "grad_norm": 0.63671875, "learning_rate": 8.81959798994975e-05, "loss": 1.2063, "step": 2449 }, { "epoch": 0.06533333333333333, "grad_norm": 0.6796875, "learning_rate": 8.819095477386935e-05, "loss": 1.2295, "step": 2450 }, { "epoch": 0.06536, "grad_norm": 0.58984375, "learning_rate": 8.818592964824121e-05, "loss": 1.3347, "step": 2451 }, { "epoch": 0.06538666666666666, "grad_norm": 0.61328125, "learning_rate": 8.818090452261307e-05, "loss": 1.4075, "step": 2452 }, { "epoch": 0.06541333333333334, "grad_norm": 0.734375, "learning_rate": 8.817587939698493e-05, "loss": 1.465, "step": 2453 }, { "epoch": 0.06544, "grad_norm": 0.5859375, "learning_rate": 8.817085427135678e-05, "loss": 1.3529, "step": 2454 }, { "epoch": 0.06546666666666667, "grad_norm": 0.7109375, "learning_rate": 8.816582914572865e-05, "loss": 1.2571, "step": 2455 }, { "epoch": 0.06549333333333333, "grad_norm": 0.58984375, "learning_rate": 8.816080402010051e-05, "loss": 1.3994, "step": 2456 }, { "epoch": 0.06552, "grad_norm": 0.494140625, "learning_rate": 8.815577889447237e-05, "loss": 1.1001, "step": 2457 }, { "epoch": 0.06554666666666667, "grad_norm": 0.6953125, "learning_rate": 8.815075376884423e-05, "loss": 1.2941, "step": 2458 }, { "epoch": 0.06557333333333333, "grad_norm": 1.125, "learning_rate": 8.814572864321608e-05, "loss": 1.5199, "step": 2459 }, { "epoch": 0.0656, "grad_norm": 0.6328125, "learning_rate": 8.814070351758794e-05, "loss": 1.4303, "step": 2460 }, { "epoch": 0.06562666666666667, "grad_norm": 0.5625, "learning_rate": 8.81356783919598e-05, "loss": 1.199, "step": 2461 }, { "epoch": 0.06565333333333333, "grad_norm": 0.66796875, "learning_rate": 8.813065326633167e-05, "loss": 1.4382, "step": 2462 }, { "epoch": 0.06568, "grad_norm": 0.57421875, "learning_rate": 8.812562814070351e-05, "loss": 0.8688, "step": 2463 }, { "epoch": 0.06570666666666666, "grad_norm": 0.490234375, "learning_rate": 8.812060301507538e-05, "loss": 1.0121, "step": 2464 }, { "epoch": 0.06573333333333334, "grad_norm": 0.609375, "learning_rate": 8.811557788944724e-05, "loss": 1.3328, "step": 2465 }, { "epoch": 0.06576, "grad_norm": 0.59765625, "learning_rate": 8.81105527638191e-05, "loss": 1.4473, "step": 2466 }, { "epoch": 0.06578666666666666, "grad_norm": 0.57421875, "learning_rate": 8.810552763819095e-05, "loss": 1.3897, "step": 2467 }, { "epoch": 0.06581333333333333, "grad_norm": 0.51953125, "learning_rate": 8.810050251256282e-05, "loss": 1.2045, "step": 2468 }, { "epoch": 0.06584, "grad_norm": 0.7734375, "learning_rate": 8.809547738693467e-05, "loss": 1.5764, "step": 2469 }, { "epoch": 0.06586666666666667, "grad_norm": 1.3046875, "learning_rate": 8.809045226130654e-05, "loss": 1.1155, "step": 2470 }, { "epoch": 0.06589333333333333, "grad_norm": 0.65234375, "learning_rate": 8.80854271356784e-05, "loss": 1.3066, "step": 2471 }, { "epoch": 0.06592, "grad_norm": 0.796875, "learning_rate": 8.808040201005026e-05, "loss": 1.391, "step": 2472 }, { "epoch": 0.06594666666666667, "grad_norm": 0.796875, "learning_rate": 8.807537688442211e-05, "loss": 1.3687, "step": 2473 }, { "epoch": 0.06597333333333333, "grad_norm": 0.6796875, "learning_rate": 8.807035175879398e-05, "loss": 1.1917, "step": 2474 }, { "epoch": 0.066, "grad_norm": 0.61328125, "learning_rate": 8.806532663316583e-05, "loss": 1.0682, "step": 2475 }, { "epoch": 0.06602666666666666, "grad_norm": 0.55078125, "learning_rate": 8.80603015075377e-05, "loss": 1.0063, "step": 2476 }, { "epoch": 0.06605333333333334, "grad_norm": 0.50390625, "learning_rate": 8.805527638190956e-05, "loss": 1.1207, "step": 2477 }, { "epoch": 0.06608, "grad_norm": 0.6484375, "learning_rate": 8.805025125628142e-05, "loss": 1.3191, "step": 2478 }, { "epoch": 0.06610666666666666, "grad_norm": 0.69140625, "learning_rate": 8.804522613065327e-05, "loss": 1.2231, "step": 2479 }, { "epoch": 0.06613333333333334, "grad_norm": 0.6953125, "learning_rate": 8.804020100502513e-05, "loss": 1.3126, "step": 2480 }, { "epoch": 0.06616, "grad_norm": 0.4609375, "learning_rate": 8.803517587939699e-05, "loss": 1.4867, "step": 2481 }, { "epoch": 0.06618666666666667, "grad_norm": 0.5703125, "learning_rate": 8.803015075376885e-05, "loss": 1.0946, "step": 2482 }, { "epoch": 0.06621333333333333, "grad_norm": 0.640625, "learning_rate": 8.80251256281407e-05, "loss": 1.5224, "step": 2483 }, { "epoch": 0.06624, "grad_norm": 0.6953125, "learning_rate": 8.802010050251258e-05, "loss": 1.3528, "step": 2484 }, { "epoch": 0.06626666666666667, "grad_norm": 0.60546875, "learning_rate": 8.801507537688443e-05, "loss": 1.4526, "step": 2485 }, { "epoch": 0.06629333333333333, "grad_norm": 0.51171875, "learning_rate": 8.801005025125629e-05, "loss": 1.1133, "step": 2486 }, { "epoch": 0.06632, "grad_norm": 0.56640625, "learning_rate": 8.800502512562815e-05, "loss": 1.3953, "step": 2487 }, { "epoch": 0.06634666666666666, "grad_norm": 0.76953125, "learning_rate": 8.800000000000001e-05, "loss": 1.1494, "step": 2488 }, { "epoch": 0.06637333333333334, "grad_norm": 0.5703125, "learning_rate": 8.799497487437186e-05, "loss": 0.9842, "step": 2489 }, { "epoch": 0.0664, "grad_norm": 0.66796875, "learning_rate": 8.798994974874372e-05, "loss": 1.0786, "step": 2490 }, { "epoch": 0.06642666666666666, "grad_norm": 0.53515625, "learning_rate": 8.798492462311558e-05, "loss": 1.2204, "step": 2491 }, { "epoch": 0.06645333333333334, "grad_norm": 0.63671875, "learning_rate": 8.797989949748745e-05, "loss": 1.188, "step": 2492 }, { "epoch": 0.06648, "grad_norm": 0.546875, "learning_rate": 8.797487437185931e-05, "loss": 1.1705, "step": 2493 }, { "epoch": 0.06650666666666667, "grad_norm": 0.609375, "learning_rate": 8.796984924623116e-05, "loss": 1.6911, "step": 2494 }, { "epoch": 0.06653333333333333, "grad_norm": 0.62890625, "learning_rate": 8.796482412060302e-05, "loss": 1.3162, "step": 2495 }, { "epoch": 0.06656, "grad_norm": 0.76171875, "learning_rate": 8.795979899497487e-05, "loss": 0.9491, "step": 2496 }, { "epoch": 0.06658666666666667, "grad_norm": 0.640625, "learning_rate": 8.795477386934674e-05, "loss": 1.402, "step": 2497 }, { "epoch": 0.06661333333333333, "grad_norm": 0.5625, "learning_rate": 8.794974874371859e-05, "loss": 1.0986, "step": 2498 }, { "epoch": 0.06664, "grad_norm": 0.66796875, "learning_rate": 8.794472361809045e-05, "loss": 1.1696, "step": 2499 }, { "epoch": 0.06666666666666667, "grad_norm": 0.57421875, "learning_rate": 8.793969849246232e-05, "loss": 1.4788, "step": 2500 }, { "epoch": 0.06669333333333333, "grad_norm": 0.57421875, "learning_rate": 8.793467336683418e-05, "loss": 1.2614, "step": 2501 }, { "epoch": 0.06672, "grad_norm": 1.203125, "learning_rate": 8.792964824120603e-05, "loss": 1.588, "step": 2502 }, { "epoch": 0.06674666666666666, "grad_norm": 0.5234375, "learning_rate": 8.79246231155779e-05, "loss": 1.3846, "step": 2503 }, { "epoch": 0.06677333333333334, "grad_norm": 0.61328125, "learning_rate": 8.791959798994975e-05, "loss": 1.079, "step": 2504 }, { "epoch": 0.0668, "grad_norm": 0.78515625, "learning_rate": 8.791457286432161e-05, "loss": 1.505, "step": 2505 }, { "epoch": 0.06682666666666667, "grad_norm": 0.58984375, "learning_rate": 8.790954773869347e-05, "loss": 0.8086, "step": 2506 }, { "epoch": 0.06685333333333333, "grad_norm": 0.490234375, "learning_rate": 8.790452261306534e-05, "loss": 1.2991, "step": 2507 }, { "epoch": 0.06688, "grad_norm": 0.7109375, "learning_rate": 8.789949748743718e-05, "loss": 1.0955, "step": 2508 }, { "epoch": 0.06690666666666667, "grad_norm": 0.71484375, "learning_rate": 8.789447236180906e-05, "loss": 1.2068, "step": 2509 }, { "epoch": 0.06693333333333333, "grad_norm": 0.625, "learning_rate": 8.788944723618091e-05, "loss": 1.5175, "step": 2510 }, { "epoch": 0.06696, "grad_norm": 0.99609375, "learning_rate": 8.788442211055277e-05, "loss": 1.0857, "step": 2511 }, { "epoch": 0.06698666666666667, "grad_norm": 0.57421875, "learning_rate": 8.787939698492462e-05, "loss": 1.334, "step": 2512 }, { "epoch": 0.06701333333333333, "grad_norm": 0.53515625, "learning_rate": 8.78743718592965e-05, "loss": 1.203, "step": 2513 }, { "epoch": 0.06704, "grad_norm": 0.609375, "learning_rate": 8.786934673366834e-05, "loss": 1.22, "step": 2514 }, { "epoch": 0.06706666666666666, "grad_norm": 0.8671875, "learning_rate": 8.78643216080402e-05, "loss": 1.337, "step": 2515 }, { "epoch": 0.06709333333333334, "grad_norm": 0.5859375, "learning_rate": 8.785929648241207e-05, "loss": 1.1426, "step": 2516 }, { "epoch": 0.06712, "grad_norm": 0.58203125, "learning_rate": 8.785427135678393e-05, "loss": 1.4841, "step": 2517 }, { "epoch": 0.06714666666666666, "grad_norm": 0.58984375, "learning_rate": 8.784924623115578e-05, "loss": 1.2777, "step": 2518 }, { "epoch": 0.06717333333333333, "grad_norm": 0.90625, "learning_rate": 8.784422110552765e-05, "loss": 1.2196, "step": 2519 }, { "epoch": 0.0672, "grad_norm": 0.55859375, "learning_rate": 8.78391959798995e-05, "loss": 1.1099, "step": 2520 }, { "epoch": 0.06722666666666667, "grad_norm": 0.578125, "learning_rate": 8.783417085427136e-05, "loss": 1.1419, "step": 2521 }, { "epoch": 0.06725333333333333, "grad_norm": 0.55078125, "learning_rate": 8.782914572864323e-05, "loss": 1.0019, "step": 2522 }, { "epoch": 0.06728, "grad_norm": 0.734375, "learning_rate": 8.782412060301509e-05, "loss": 1.3672, "step": 2523 }, { "epoch": 0.06730666666666667, "grad_norm": 0.64453125, "learning_rate": 8.781909547738694e-05, "loss": 1.0572, "step": 2524 }, { "epoch": 0.06733333333333333, "grad_norm": 1.0, "learning_rate": 8.78140703517588e-05, "loss": 1.2156, "step": 2525 }, { "epoch": 0.06736, "grad_norm": 0.62109375, "learning_rate": 8.780904522613066e-05, "loss": 1.1219, "step": 2526 }, { "epoch": 0.06738666666666666, "grad_norm": 0.58203125, "learning_rate": 8.780402010050251e-05, "loss": 1.4676, "step": 2527 }, { "epoch": 0.06741333333333334, "grad_norm": 0.69921875, "learning_rate": 8.779899497487437e-05, "loss": 1.1539, "step": 2528 }, { "epoch": 0.06744, "grad_norm": 0.875, "learning_rate": 8.779396984924623e-05, "loss": 1.3003, "step": 2529 }, { "epoch": 0.06746666666666666, "grad_norm": 0.55859375, "learning_rate": 8.77889447236181e-05, "loss": 1.5187, "step": 2530 }, { "epoch": 0.06749333333333334, "grad_norm": 0.4921875, "learning_rate": 8.778391959798994e-05, "loss": 1.1233, "step": 2531 }, { "epoch": 0.06752, "grad_norm": 0.75390625, "learning_rate": 8.777889447236182e-05, "loss": 1.115, "step": 2532 }, { "epoch": 0.06754666666666667, "grad_norm": 0.75390625, "learning_rate": 8.777386934673367e-05, "loss": 1.4717, "step": 2533 }, { "epoch": 0.06757333333333333, "grad_norm": 0.462890625, "learning_rate": 8.776884422110553e-05, "loss": 1.0951, "step": 2534 }, { "epoch": 0.0676, "grad_norm": 0.73828125, "learning_rate": 8.776381909547739e-05, "loss": 1.0074, "step": 2535 }, { "epoch": 0.06762666666666667, "grad_norm": 0.6796875, "learning_rate": 8.775879396984925e-05, "loss": 1.2488, "step": 2536 }, { "epoch": 0.06765333333333333, "grad_norm": 0.8359375, "learning_rate": 8.77537688442211e-05, "loss": 1.392, "step": 2537 }, { "epoch": 0.06768, "grad_norm": 0.58203125, "learning_rate": 8.774874371859298e-05, "loss": 1.5714, "step": 2538 }, { "epoch": 0.06770666666666666, "grad_norm": 0.671875, "learning_rate": 8.774371859296483e-05, "loss": 1.3458, "step": 2539 }, { "epoch": 0.06773333333333334, "grad_norm": 0.474609375, "learning_rate": 8.773869346733669e-05, "loss": 1.3717, "step": 2540 }, { "epoch": 0.06776, "grad_norm": 0.6796875, "learning_rate": 8.773366834170854e-05, "loss": 1.3388, "step": 2541 }, { "epoch": 0.06778666666666666, "grad_norm": 0.9921875, "learning_rate": 8.772864321608041e-05, "loss": 1.2511, "step": 2542 }, { "epoch": 0.06781333333333334, "grad_norm": 0.54296875, "learning_rate": 8.772361809045226e-05, "loss": 1.147, "step": 2543 }, { "epoch": 0.06784, "grad_norm": 0.51171875, "learning_rate": 8.771859296482412e-05, "loss": 0.9352, "step": 2544 }, { "epoch": 0.06786666666666667, "grad_norm": 0.57421875, "learning_rate": 8.771356783919598e-05, "loss": 1.3116, "step": 2545 }, { "epoch": 0.06789333333333333, "grad_norm": 0.515625, "learning_rate": 8.770854271356785e-05, "loss": 1.0634, "step": 2546 }, { "epoch": 0.06792, "grad_norm": 0.7265625, "learning_rate": 8.77035175879397e-05, "loss": 1.2796, "step": 2547 }, { "epoch": 0.06794666666666667, "grad_norm": 0.5859375, "learning_rate": 8.769849246231157e-05, "loss": 1.3439, "step": 2548 }, { "epoch": 0.06797333333333333, "grad_norm": 0.66015625, "learning_rate": 8.769346733668342e-05, "loss": 1.3301, "step": 2549 }, { "epoch": 0.068, "grad_norm": 0.46875, "learning_rate": 8.768844221105528e-05, "loss": 1.2073, "step": 2550 }, { "epoch": 0.06802666666666667, "grad_norm": 0.6015625, "learning_rate": 8.768341708542714e-05, "loss": 1.2459, "step": 2551 }, { "epoch": 0.06805333333333333, "grad_norm": 0.75390625, "learning_rate": 8.7678391959799e-05, "loss": 1.2547, "step": 2552 }, { "epoch": 0.06808, "grad_norm": 0.62109375, "learning_rate": 8.767336683417085e-05, "loss": 1.1372, "step": 2553 }, { "epoch": 0.06810666666666666, "grad_norm": 0.66796875, "learning_rate": 8.766834170854273e-05, "loss": 0.9993, "step": 2554 }, { "epoch": 0.06813333333333334, "grad_norm": 0.578125, "learning_rate": 8.766331658291458e-05, "loss": 1.3522, "step": 2555 }, { "epoch": 0.06816, "grad_norm": 0.51953125, "learning_rate": 8.765829145728644e-05, "loss": 1.0805, "step": 2556 }, { "epoch": 0.06818666666666667, "grad_norm": 0.60546875, "learning_rate": 8.765326633165829e-05, "loss": 1.1067, "step": 2557 }, { "epoch": 0.06821333333333333, "grad_norm": 0.5703125, "learning_rate": 8.764824120603016e-05, "loss": 1.297, "step": 2558 }, { "epoch": 0.06824, "grad_norm": 0.703125, "learning_rate": 8.764321608040201e-05, "loss": 1.3348, "step": 2559 }, { "epoch": 0.06826666666666667, "grad_norm": 0.59375, "learning_rate": 8.763819095477387e-05, "loss": 1.3152, "step": 2560 }, { "epoch": 0.06829333333333333, "grad_norm": 0.65234375, "learning_rate": 8.763316582914574e-05, "loss": 1.2915, "step": 2561 }, { "epoch": 0.06832, "grad_norm": 0.58984375, "learning_rate": 8.762814070351758e-05, "loss": 1.4431, "step": 2562 }, { "epoch": 0.06834666666666667, "grad_norm": 0.8828125, "learning_rate": 8.762311557788945e-05, "loss": 1.4572, "step": 2563 }, { "epoch": 0.06837333333333333, "grad_norm": 0.54296875, "learning_rate": 8.761809045226131e-05, "loss": 1.3436, "step": 2564 }, { "epoch": 0.0684, "grad_norm": 0.51171875, "learning_rate": 8.761306532663317e-05, "loss": 1.3109, "step": 2565 }, { "epoch": 0.06842666666666666, "grad_norm": 0.5078125, "learning_rate": 8.760804020100502e-05, "loss": 0.9895, "step": 2566 }, { "epoch": 0.06845333333333334, "grad_norm": 0.578125, "learning_rate": 8.76030150753769e-05, "loss": 1.295, "step": 2567 }, { "epoch": 0.06848, "grad_norm": 0.53125, "learning_rate": 8.759798994974874e-05, "loss": 1.1258, "step": 2568 }, { "epoch": 0.06850666666666666, "grad_norm": 0.5625, "learning_rate": 8.75929648241206e-05, "loss": 1.1628, "step": 2569 }, { "epoch": 0.06853333333333333, "grad_norm": 0.52734375, "learning_rate": 8.758793969849247e-05, "loss": 1.2536, "step": 2570 }, { "epoch": 0.06856, "grad_norm": 0.6171875, "learning_rate": 8.758291457286433e-05, "loss": 1.2948, "step": 2571 }, { "epoch": 0.06858666666666667, "grad_norm": 1.3359375, "learning_rate": 8.757788944723618e-05, "loss": 1.329, "step": 2572 }, { "epoch": 0.06861333333333333, "grad_norm": 0.71484375, "learning_rate": 8.757286432160804e-05, "loss": 1.0495, "step": 2573 }, { "epoch": 0.06864, "grad_norm": 0.56640625, "learning_rate": 8.75678391959799e-05, "loss": 1.1682, "step": 2574 }, { "epoch": 0.06866666666666667, "grad_norm": 0.62890625, "learning_rate": 8.756281407035176e-05, "loss": 1.4879, "step": 2575 }, { "epoch": 0.06869333333333333, "grad_norm": 0.59765625, "learning_rate": 8.755778894472361e-05, "loss": 1.4482, "step": 2576 }, { "epoch": 0.06872, "grad_norm": 0.81640625, "learning_rate": 8.755276381909549e-05, "loss": 1.1756, "step": 2577 }, { "epoch": 0.06874666666666666, "grad_norm": 0.59765625, "learning_rate": 8.754773869346734e-05, "loss": 1.4514, "step": 2578 }, { "epoch": 0.06877333333333334, "grad_norm": 0.5546875, "learning_rate": 8.75427135678392e-05, "loss": 1.1986, "step": 2579 }, { "epoch": 0.0688, "grad_norm": 0.53515625, "learning_rate": 8.753768844221106e-05, "loss": 1.1742, "step": 2580 }, { "epoch": 0.06882666666666666, "grad_norm": 0.84375, "learning_rate": 8.753266331658292e-05, "loss": 1.5383, "step": 2581 }, { "epoch": 0.06885333333333334, "grad_norm": 0.470703125, "learning_rate": 8.752763819095477e-05, "loss": 1.1925, "step": 2582 }, { "epoch": 0.06888, "grad_norm": 0.56640625, "learning_rate": 8.752261306532665e-05, "loss": 1.6121, "step": 2583 }, { "epoch": 0.06890666666666667, "grad_norm": 0.80859375, "learning_rate": 8.75175879396985e-05, "loss": 1.2062, "step": 2584 }, { "epoch": 0.06893333333333333, "grad_norm": 0.59375, "learning_rate": 8.751256281407036e-05, "loss": 1.145, "step": 2585 }, { "epoch": 0.06896, "grad_norm": 0.94921875, "learning_rate": 8.750753768844222e-05, "loss": 1.2472, "step": 2586 }, { "epoch": 0.06898666666666667, "grad_norm": 0.416015625, "learning_rate": 8.750251256281408e-05, "loss": 1.0147, "step": 2587 }, { "epoch": 0.06901333333333333, "grad_norm": 0.5703125, "learning_rate": 8.749748743718593e-05, "loss": 1.2453, "step": 2588 }, { "epoch": 0.06904, "grad_norm": 0.5078125, "learning_rate": 8.749246231155779e-05, "loss": 1.106, "step": 2589 }, { "epoch": 0.06906666666666667, "grad_norm": 0.53515625, "learning_rate": 8.748743718592965e-05, "loss": 1.0198, "step": 2590 }, { "epoch": 0.06909333333333334, "grad_norm": 0.546875, "learning_rate": 8.748241206030152e-05, "loss": 1.3708, "step": 2591 }, { "epoch": 0.06912, "grad_norm": 0.73828125, "learning_rate": 8.747738693467336e-05, "loss": 1.4341, "step": 2592 }, { "epoch": 0.06914666666666666, "grad_norm": 0.515625, "learning_rate": 8.747236180904523e-05, "loss": 1.2153, "step": 2593 }, { "epoch": 0.06917333333333334, "grad_norm": 0.7578125, "learning_rate": 8.746733668341709e-05, "loss": 1.374, "step": 2594 }, { "epoch": 0.0692, "grad_norm": 0.6796875, "learning_rate": 8.746231155778895e-05, "loss": 1.3897, "step": 2595 }, { "epoch": 0.06922666666666667, "grad_norm": 0.59375, "learning_rate": 8.745728643216081e-05, "loss": 1.3269, "step": 2596 }, { "epoch": 0.06925333333333333, "grad_norm": 0.77734375, "learning_rate": 8.745226130653266e-05, "loss": 1.3474, "step": 2597 }, { "epoch": 0.06928, "grad_norm": 0.5703125, "learning_rate": 8.744723618090452e-05, "loss": 1.361, "step": 2598 }, { "epoch": 0.06930666666666667, "grad_norm": 0.60546875, "learning_rate": 8.744221105527639e-05, "loss": 1.0991, "step": 2599 }, { "epoch": 0.06933333333333333, "grad_norm": 0.61328125, "learning_rate": 8.743718592964825e-05, "loss": 1.336, "step": 2600 }, { "epoch": 0.06936, "grad_norm": 0.9140625, "learning_rate": 8.74321608040201e-05, "loss": 1.3053, "step": 2601 }, { "epoch": 0.06938666666666667, "grad_norm": 0.58203125, "learning_rate": 8.742713567839197e-05, "loss": 1.4821, "step": 2602 }, { "epoch": 0.06941333333333333, "grad_norm": 0.75, "learning_rate": 8.742211055276382e-05, "loss": 1.1356, "step": 2603 }, { "epoch": 0.06944, "grad_norm": 0.65234375, "learning_rate": 8.741708542713568e-05, "loss": 1.1026, "step": 2604 }, { "epoch": 0.06946666666666666, "grad_norm": 0.53515625, "learning_rate": 8.741206030150753e-05, "loss": 1.0777, "step": 2605 }, { "epoch": 0.06949333333333334, "grad_norm": 0.76171875, "learning_rate": 8.74070351758794e-05, "loss": 1.3402, "step": 2606 }, { "epoch": 0.06952, "grad_norm": 0.62890625, "learning_rate": 8.740201005025125e-05, "loss": 1.2219, "step": 2607 }, { "epoch": 0.06954666666666667, "grad_norm": 0.86328125, "learning_rate": 8.739698492462312e-05, "loss": 1.2014, "step": 2608 }, { "epoch": 0.06957333333333333, "grad_norm": 0.58984375, "learning_rate": 8.739195979899498e-05, "loss": 1.2553, "step": 2609 }, { "epoch": 0.0696, "grad_norm": 0.6875, "learning_rate": 8.738693467336684e-05, "loss": 1.0858, "step": 2610 }, { "epoch": 0.06962666666666667, "grad_norm": 0.69921875, "learning_rate": 8.738190954773869e-05, "loss": 1.3557, "step": 2611 }, { "epoch": 0.06965333333333333, "grad_norm": 0.66796875, "learning_rate": 8.737688442211056e-05, "loss": 1.0749, "step": 2612 }, { "epoch": 0.06968, "grad_norm": 0.54296875, "learning_rate": 8.737185929648241e-05, "loss": 1.4426, "step": 2613 }, { "epoch": 0.06970666666666667, "grad_norm": 0.64453125, "learning_rate": 8.736683417085428e-05, "loss": 1.189, "step": 2614 }, { "epoch": 0.06973333333333333, "grad_norm": 1.03125, "learning_rate": 8.736180904522614e-05, "loss": 1.6062, "step": 2615 }, { "epoch": 0.06976, "grad_norm": 0.56640625, "learning_rate": 8.7356783919598e-05, "loss": 1.0868, "step": 2616 }, { "epoch": 0.06978666666666666, "grad_norm": 0.72265625, "learning_rate": 8.735175879396985e-05, "loss": 1.1265, "step": 2617 }, { "epoch": 0.06981333333333334, "grad_norm": 1.0078125, "learning_rate": 8.734673366834172e-05, "loss": 1.0703, "step": 2618 }, { "epoch": 0.06984, "grad_norm": 0.546875, "learning_rate": 8.734170854271357e-05, "loss": 1.1882, "step": 2619 }, { "epoch": 0.06986666666666666, "grad_norm": 0.5546875, "learning_rate": 8.733668341708543e-05, "loss": 1.2689, "step": 2620 }, { "epoch": 0.06989333333333334, "grad_norm": 0.828125, "learning_rate": 8.733165829145728e-05, "loss": 1.1977, "step": 2621 }, { "epoch": 0.06992, "grad_norm": 0.7109375, "learning_rate": 8.732663316582916e-05, "loss": 1.2597, "step": 2622 }, { "epoch": 0.06994666666666667, "grad_norm": 0.6328125, "learning_rate": 8.7321608040201e-05, "loss": 1.2352, "step": 2623 }, { "epoch": 0.06997333333333333, "grad_norm": 1.0703125, "learning_rate": 8.731658291457287e-05, "loss": 1.5014, "step": 2624 }, { "epoch": 0.07, "grad_norm": 0.6875, "learning_rate": 8.731155778894473e-05, "loss": 1.3757, "step": 2625 }, { "epoch": 0.07002666666666667, "grad_norm": 0.7734375, "learning_rate": 8.730653266331659e-05, "loss": 1.4605, "step": 2626 }, { "epoch": 0.07005333333333333, "grad_norm": 0.50390625, "learning_rate": 8.730150753768844e-05, "loss": 1.2564, "step": 2627 }, { "epoch": 0.07008, "grad_norm": 0.48046875, "learning_rate": 8.72964824120603e-05, "loss": 1.2749, "step": 2628 }, { "epoch": 0.07010666666666666, "grad_norm": 0.58203125, "learning_rate": 8.729145728643217e-05, "loss": 1.024, "step": 2629 }, { "epoch": 0.07013333333333334, "grad_norm": 0.734375, "learning_rate": 8.728643216080403e-05, "loss": 1.2136, "step": 2630 }, { "epoch": 0.07016, "grad_norm": 0.58203125, "learning_rate": 8.728140703517589e-05, "loss": 1.2911, "step": 2631 }, { "epoch": 0.07018666666666666, "grad_norm": 0.67578125, "learning_rate": 8.727638190954774e-05, "loss": 1.1286, "step": 2632 }, { "epoch": 0.07021333333333334, "grad_norm": 0.6953125, "learning_rate": 8.72713567839196e-05, "loss": 1.0929, "step": 2633 }, { "epoch": 0.07024, "grad_norm": 0.84375, "learning_rate": 8.726633165829146e-05, "loss": 1.2, "step": 2634 }, { "epoch": 0.07026666666666667, "grad_norm": 0.60546875, "learning_rate": 8.726130653266332e-05, "loss": 0.9144, "step": 2635 }, { "epoch": 0.07029333333333333, "grad_norm": 0.68359375, "learning_rate": 8.725628140703517e-05, "loss": 1.1108, "step": 2636 }, { "epoch": 0.07032, "grad_norm": 0.6640625, "learning_rate": 8.725125628140703e-05, "loss": 1.1086, "step": 2637 }, { "epoch": 0.07034666666666667, "grad_norm": 0.5859375, "learning_rate": 8.72462311557789e-05, "loss": 1.4302, "step": 2638 }, { "epoch": 0.07037333333333333, "grad_norm": 0.75390625, "learning_rate": 8.724120603015076e-05, "loss": 1.223, "step": 2639 }, { "epoch": 0.0704, "grad_norm": 0.64453125, "learning_rate": 8.723618090452261e-05, "loss": 1.1317, "step": 2640 }, { "epoch": 0.07042666666666667, "grad_norm": 0.89453125, "learning_rate": 8.723115577889448e-05, "loss": 1.2358, "step": 2641 }, { "epoch": 0.07045333333333334, "grad_norm": 0.48828125, "learning_rate": 8.722613065326633e-05, "loss": 0.9927, "step": 2642 }, { "epoch": 0.07048, "grad_norm": 0.69140625, "learning_rate": 8.722110552763819e-05, "loss": 1.217, "step": 2643 }, { "epoch": 0.07050666666666666, "grad_norm": 0.65625, "learning_rate": 8.721608040201005e-05, "loss": 1.418, "step": 2644 }, { "epoch": 0.07053333333333334, "grad_norm": 0.5703125, "learning_rate": 8.721105527638192e-05, "loss": 0.9957, "step": 2645 }, { "epoch": 0.07056, "grad_norm": 0.474609375, "learning_rate": 8.720603015075377e-05, "loss": 1.3143, "step": 2646 }, { "epoch": 0.07058666666666667, "grad_norm": 0.58203125, "learning_rate": 8.720100502512564e-05, "loss": 1.0595, "step": 2647 }, { "epoch": 0.07061333333333333, "grad_norm": 0.85546875, "learning_rate": 8.719597989949749e-05, "loss": 1.2879, "step": 2648 }, { "epoch": 0.07064, "grad_norm": 0.5546875, "learning_rate": 8.719095477386935e-05, "loss": 1.2101, "step": 2649 }, { "epoch": 0.07066666666666667, "grad_norm": 2.109375, "learning_rate": 8.71859296482412e-05, "loss": 1.2523, "step": 2650 }, { "epoch": 0.07069333333333333, "grad_norm": 0.55078125, "learning_rate": 8.718090452261308e-05, "loss": 1.3237, "step": 2651 }, { "epoch": 0.07072, "grad_norm": 0.75, "learning_rate": 8.717587939698492e-05, "loss": 1.3462, "step": 2652 }, { "epoch": 0.07074666666666667, "grad_norm": 0.6796875, "learning_rate": 8.717085427135679e-05, "loss": 1.3299, "step": 2653 }, { "epoch": 0.07077333333333333, "grad_norm": 0.5546875, "learning_rate": 8.716582914572865e-05, "loss": 1.2396, "step": 2654 }, { "epoch": 0.0708, "grad_norm": 0.70703125, "learning_rate": 8.716080402010051e-05, "loss": 1.4262, "step": 2655 }, { "epoch": 0.07082666666666666, "grad_norm": 0.65234375, "learning_rate": 8.715577889447236e-05, "loss": 1.2473, "step": 2656 }, { "epoch": 0.07085333333333334, "grad_norm": 0.5625, "learning_rate": 8.715075376884423e-05, "loss": 1.3497, "step": 2657 }, { "epoch": 0.07088, "grad_norm": 0.78515625, "learning_rate": 8.714572864321608e-05, "loss": 1.5538, "step": 2658 }, { "epoch": 0.07090666666666667, "grad_norm": 0.74609375, "learning_rate": 8.714070351758794e-05, "loss": 1.3187, "step": 2659 }, { "epoch": 0.07093333333333333, "grad_norm": 1.109375, "learning_rate": 8.713567839195981e-05, "loss": 1.5785, "step": 2660 }, { "epoch": 0.07096, "grad_norm": 0.6640625, "learning_rate": 8.713065326633167e-05, "loss": 1.2078, "step": 2661 }, { "epoch": 0.07098666666666667, "grad_norm": 0.4765625, "learning_rate": 8.712562814070352e-05, "loss": 1.2516, "step": 2662 }, { "epoch": 0.07101333333333333, "grad_norm": 0.4921875, "learning_rate": 8.712060301507538e-05, "loss": 1.3549, "step": 2663 }, { "epoch": 0.07104, "grad_norm": 0.56640625, "learning_rate": 8.711557788944724e-05, "loss": 1.4105, "step": 2664 }, { "epoch": 0.07106666666666667, "grad_norm": 0.546875, "learning_rate": 8.71105527638191e-05, "loss": 1.3814, "step": 2665 }, { "epoch": 0.07109333333333333, "grad_norm": 0.65625, "learning_rate": 8.710552763819095e-05, "loss": 1.2642, "step": 2666 }, { "epoch": 0.07112, "grad_norm": 1.0390625, "learning_rate": 8.710050251256281e-05, "loss": 1.4121, "step": 2667 }, { "epoch": 0.07114666666666666, "grad_norm": 0.56640625, "learning_rate": 8.709547738693468e-05, "loss": 1.3138, "step": 2668 }, { "epoch": 0.07117333333333334, "grad_norm": 0.6796875, "learning_rate": 8.709045226130654e-05, "loss": 1.2445, "step": 2669 }, { "epoch": 0.0712, "grad_norm": 0.7109375, "learning_rate": 8.70854271356784e-05, "loss": 1.5145, "step": 2670 }, { "epoch": 0.07122666666666666, "grad_norm": 0.57421875, "learning_rate": 8.708040201005025e-05, "loss": 1.1005, "step": 2671 }, { "epoch": 0.07125333333333334, "grad_norm": 0.9375, "learning_rate": 8.707537688442211e-05, "loss": 1.2337, "step": 2672 }, { "epoch": 0.07128, "grad_norm": 0.71875, "learning_rate": 8.707035175879397e-05, "loss": 1.0627, "step": 2673 }, { "epoch": 0.07130666666666667, "grad_norm": 0.8125, "learning_rate": 8.706532663316583e-05, "loss": 1.4504, "step": 2674 }, { "epoch": 0.07133333333333333, "grad_norm": 0.55078125, "learning_rate": 8.706030150753768e-05, "loss": 0.8873, "step": 2675 }, { "epoch": 0.07136, "grad_norm": 0.63671875, "learning_rate": 8.705527638190956e-05, "loss": 1.0916, "step": 2676 }, { "epoch": 0.07138666666666667, "grad_norm": 0.53125, "learning_rate": 8.705025125628141e-05, "loss": 1.4076, "step": 2677 }, { "epoch": 0.07141333333333333, "grad_norm": 0.50390625, "learning_rate": 8.704522613065327e-05, "loss": 1.5157, "step": 2678 }, { "epoch": 0.07144, "grad_norm": 0.70703125, "learning_rate": 8.704020100502513e-05, "loss": 1.3864, "step": 2679 }, { "epoch": 0.07146666666666666, "grad_norm": 0.51953125, "learning_rate": 8.7035175879397e-05, "loss": 0.9374, "step": 2680 }, { "epoch": 0.07149333333333334, "grad_norm": 0.7890625, "learning_rate": 8.703015075376884e-05, "loss": 1.5024, "step": 2681 }, { "epoch": 0.07152, "grad_norm": 0.51171875, "learning_rate": 8.70251256281407e-05, "loss": 1.0325, "step": 2682 }, { "epoch": 0.07154666666666666, "grad_norm": 0.6015625, "learning_rate": 8.702010050251257e-05, "loss": 1.1662, "step": 2683 }, { "epoch": 0.07157333333333334, "grad_norm": 0.7109375, "learning_rate": 8.701507537688443e-05, "loss": 1.4013, "step": 2684 }, { "epoch": 0.0716, "grad_norm": 0.796875, "learning_rate": 8.701005025125628e-05, "loss": 1.1554, "step": 2685 }, { "epoch": 0.07162666666666667, "grad_norm": 0.71875, "learning_rate": 8.700502512562815e-05, "loss": 1.3844, "step": 2686 }, { "epoch": 0.07165333333333333, "grad_norm": 0.55859375, "learning_rate": 8.7e-05, "loss": 1.3135, "step": 2687 }, { "epoch": 0.07168, "grad_norm": 0.69140625, "learning_rate": 8.699497487437186e-05, "loss": 1.0327, "step": 2688 }, { "epoch": 0.07170666666666667, "grad_norm": 0.6953125, "learning_rate": 8.698994974874372e-05, "loss": 1.4603, "step": 2689 }, { "epoch": 0.07173333333333333, "grad_norm": 0.53125, "learning_rate": 8.698492462311559e-05, "loss": 0.9863, "step": 2690 }, { "epoch": 0.07176, "grad_norm": 0.6796875, "learning_rate": 8.697989949748744e-05, "loss": 1.0447, "step": 2691 }, { "epoch": 0.07178666666666667, "grad_norm": 0.796875, "learning_rate": 8.697487437185931e-05, "loss": 1.4029, "step": 2692 }, { "epoch": 0.07181333333333334, "grad_norm": 0.55859375, "learning_rate": 8.696984924623116e-05, "loss": 1.0909, "step": 2693 }, { "epoch": 0.07184, "grad_norm": 0.5078125, "learning_rate": 8.696482412060302e-05, "loss": 1.2352, "step": 2694 }, { "epoch": 0.07186666666666666, "grad_norm": 0.69140625, "learning_rate": 8.695979899497488e-05, "loss": 1.1166, "step": 2695 }, { "epoch": 0.07189333333333334, "grad_norm": 0.77734375, "learning_rate": 8.695477386934675e-05, "loss": 1.2545, "step": 2696 }, { "epoch": 0.07192, "grad_norm": 0.474609375, "learning_rate": 8.69497487437186e-05, "loss": 1.2059, "step": 2697 }, { "epoch": 0.07194666666666667, "grad_norm": 0.5390625, "learning_rate": 8.694472361809046e-05, "loss": 1.3466, "step": 2698 }, { "epoch": 0.07197333333333333, "grad_norm": 0.5703125, "learning_rate": 8.693969849246232e-05, "loss": 1.513, "step": 2699 }, { "epoch": 0.072, "grad_norm": 0.53515625, "learning_rate": 8.693467336683418e-05, "loss": 1.3695, "step": 2700 }, { "epoch": 0.07202666666666667, "grad_norm": 0.4609375, "learning_rate": 8.692964824120603e-05, "loss": 1.0789, "step": 2701 }, { "epoch": 0.07205333333333333, "grad_norm": 0.8984375, "learning_rate": 8.692462311557789e-05, "loss": 1.0844, "step": 2702 }, { "epoch": 0.07208, "grad_norm": 0.78515625, "learning_rate": 8.691959798994975e-05, "loss": 1.2926, "step": 2703 }, { "epoch": 0.07210666666666667, "grad_norm": 0.66796875, "learning_rate": 8.691457286432161e-05, "loss": 1.1448, "step": 2704 }, { "epoch": 0.07213333333333333, "grad_norm": 0.828125, "learning_rate": 8.690954773869348e-05, "loss": 1.1457, "step": 2705 }, { "epoch": 0.07216, "grad_norm": 0.5625, "learning_rate": 8.690452261306532e-05, "loss": 1.3346, "step": 2706 }, { "epoch": 0.07218666666666666, "grad_norm": 0.5703125, "learning_rate": 8.689949748743719e-05, "loss": 1.1017, "step": 2707 }, { "epoch": 0.07221333333333334, "grad_norm": 0.498046875, "learning_rate": 8.689447236180905e-05, "loss": 0.97, "step": 2708 }, { "epoch": 0.07224, "grad_norm": 0.69921875, "learning_rate": 8.688944723618091e-05, "loss": 1.1695, "step": 2709 }, { "epoch": 0.07226666666666667, "grad_norm": 0.734375, "learning_rate": 8.688442211055276e-05, "loss": 1.2228, "step": 2710 }, { "epoch": 0.07229333333333333, "grad_norm": 0.6328125, "learning_rate": 8.687939698492464e-05, "loss": 1.2295, "step": 2711 }, { "epoch": 0.07232, "grad_norm": 0.50390625, "learning_rate": 8.687437185929648e-05, "loss": 1.1916, "step": 2712 }, { "epoch": 0.07234666666666667, "grad_norm": 0.8046875, "learning_rate": 8.686934673366835e-05, "loss": 1.7073, "step": 2713 }, { "epoch": 0.07237333333333333, "grad_norm": 0.5703125, "learning_rate": 8.68643216080402e-05, "loss": 1.4282, "step": 2714 }, { "epoch": 0.0724, "grad_norm": 0.61328125, "learning_rate": 8.685929648241207e-05, "loss": 1.0906, "step": 2715 }, { "epoch": 0.07242666666666667, "grad_norm": 0.5078125, "learning_rate": 8.685427135678392e-05, "loss": 1.1132, "step": 2716 }, { "epoch": 0.07245333333333333, "grad_norm": 0.5546875, "learning_rate": 8.684924623115578e-05, "loss": 1.2054, "step": 2717 }, { "epoch": 0.07248, "grad_norm": 0.56640625, "learning_rate": 8.684422110552764e-05, "loss": 1.2237, "step": 2718 }, { "epoch": 0.07250666666666666, "grad_norm": 1.0390625, "learning_rate": 8.68391959798995e-05, "loss": 1.4544, "step": 2719 }, { "epoch": 0.07253333333333334, "grad_norm": 0.73046875, "learning_rate": 8.683417085427135e-05, "loss": 1.2189, "step": 2720 }, { "epoch": 0.07256, "grad_norm": 0.5859375, "learning_rate": 8.682914572864323e-05, "loss": 1.3377, "step": 2721 }, { "epoch": 0.07258666666666666, "grad_norm": 0.53125, "learning_rate": 8.682412060301508e-05, "loss": 1.35, "step": 2722 }, { "epoch": 0.07261333333333334, "grad_norm": 0.74609375, "learning_rate": 8.681909547738694e-05, "loss": 1.2364, "step": 2723 }, { "epoch": 0.07264, "grad_norm": 0.53125, "learning_rate": 8.68140703517588e-05, "loss": 1.1548, "step": 2724 }, { "epoch": 0.07266666666666667, "grad_norm": 0.66796875, "learning_rate": 8.680904522613066e-05, "loss": 1.1821, "step": 2725 }, { "epoch": 0.07269333333333333, "grad_norm": 0.77734375, "learning_rate": 8.680402010050251e-05, "loss": 1.0797, "step": 2726 }, { "epoch": 0.07272, "grad_norm": 0.5703125, "learning_rate": 8.679899497487439e-05, "loss": 1.0069, "step": 2727 }, { "epoch": 0.07274666666666667, "grad_norm": 0.5234375, "learning_rate": 8.679396984924624e-05, "loss": 0.9771, "step": 2728 }, { "epoch": 0.07277333333333333, "grad_norm": 0.70703125, "learning_rate": 8.67889447236181e-05, "loss": 1.0781, "step": 2729 }, { "epoch": 0.0728, "grad_norm": 0.515625, "learning_rate": 8.678391959798995e-05, "loss": 1.1265, "step": 2730 }, { "epoch": 0.07282666666666666, "grad_norm": 0.765625, "learning_rate": 8.677889447236182e-05, "loss": 1.2218, "step": 2731 }, { "epoch": 0.07285333333333334, "grad_norm": 0.58203125, "learning_rate": 8.677386934673367e-05, "loss": 1.0592, "step": 2732 }, { "epoch": 0.07288, "grad_norm": 0.83203125, "learning_rate": 8.676884422110553e-05, "loss": 1.5384, "step": 2733 }, { "epoch": 0.07290666666666666, "grad_norm": 0.61328125, "learning_rate": 8.67638190954774e-05, "loss": 1.2537, "step": 2734 }, { "epoch": 0.07293333333333334, "grad_norm": 1.0078125, "learning_rate": 8.675879396984926e-05, "loss": 1.0115, "step": 2735 }, { "epoch": 0.07296, "grad_norm": 0.5859375, "learning_rate": 8.67537688442211e-05, "loss": 1.1384, "step": 2736 }, { "epoch": 0.07298666666666667, "grad_norm": 0.53125, "learning_rate": 8.674874371859297e-05, "loss": 1.3878, "step": 2737 }, { "epoch": 0.07301333333333333, "grad_norm": 0.498046875, "learning_rate": 8.674371859296483e-05, "loss": 1.2708, "step": 2738 }, { "epoch": 0.07304, "grad_norm": 0.52734375, "learning_rate": 8.673869346733669e-05, "loss": 1.0383, "step": 2739 }, { "epoch": 0.07306666666666667, "grad_norm": 0.625, "learning_rate": 8.673366834170855e-05, "loss": 1.0912, "step": 2740 }, { "epoch": 0.07309333333333333, "grad_norm": 0.6171875, "learning_rate": 8.67286432160804e-05, "loss": 1.1535, "step": 2741 }, { "epoch": 0.07312, "grad_norm": 1.015625, "learning_rate": 8.672361809045226e-05, "loss": 1.5021, "step": 2742 }, { "epoch": 0.07314666666666667, "grad_norm": 0.73046875, "learning_rate": 8.671859296482413e-05, "loss": 1.3235, "step": 2743 }, { "epoch": 0.07317333333333334, "grad_norm": 0.5390625, "learning_rate": 8.671356783919599e-05, "loss": 1.188, "step": 2744 }, { "epoch": 0.0732, "grad_norm": 0.58203125, "learning_rate": 8.670854271356784e-05, "loss": 1.454, "step": 2745 }, { "epoch": 0.07322666666666666, "grad_norm": 0.67578125, "learning_rate": 8.67035175879397e-05, "loss": 1.2259, "step": 2746 }, { "epoch": 0.07325333333333334, "grad_norm": 0.474609375, "learning_rate": 8.669849246231156e-05, "loss": 1.0301, "step": 2747 }, { "epoch": 0.07328, "grad_norm": 0.55859375, "learning_rate": 8.669346733668342e-05, "loss": 1.3419, "step": 2748 }, { "epoch": 0.07330666666666667, "grad_norm": 0.51953125, "learning_rate": 8.668844221105527e-05, "loss": 1.1576, "step": 2749 }, { "epoch": 0.07333333333333333, "grad_norm": 0.76953125, "learning_rate": 8.668341708542715e-05, "loss": 1.1319, "step": 2750 }, { "epoch": 0.07336, "grad_norm": 0.50390625, "learning_rate": 8.6678391959799e-05, "loss": 1.2022, "step": 2751 }, { "epoch": 0.07338666666666667, "grad_norm": 0.7421875, "learning_rate": 8.667336683417086e-05, "loss": 1.1117, "step": 2752 }, { "epoch": 0.07341333333333333, "grad_norm": 0.66015625, "learning_rate": 8.666834170854272e-05, "loss": 1.1824, "step": 2753 }, { "epoch": 0.07344, "grad_norm": 0.5703125, "learning_rate": 8.666331658291458e-05, "loss": 1.2978, "step": 2754 }, { "epoch": 0.07346666666666667, "grad_norm": 0.64453125, "learning_rate": 8.665829145728643e-05, "loss": 1.2039, "step": 2755 }, { "epoch": 0.07349333333333333, "grad_norm": 0.8671875, "learning_rate": 8.66532663316583e-05, "loss": 1.6147, "step": 2756 }, { "epoch": 0.07352, "grad_norm": 0.47265625, "learning_rate": 8.664824120603015e-05, "loss": 1.1236, "step": 2757 }, { "epoch": 0.07354666666666666, "grad_norm": 0.466796875, "learning_rate": 8.664321608040202e-05, "loss": 1.3711, "step": 2758 }, { "epoch": 0.07357333333333334, "grad_norm": 0.447265625, "learning_rate": 8.663819095477388e-05, "loss": 1.0494, "step": 2759 }, { "epoch": 0.0736, "grad_norm": 0.5703125, "learning_rate": 8.663316582914574e-05, "loss": 0.9293, "step": 2760 }, { "epoch": 0.07362666666666667, "grad_norm": 0.62890625, "learning_rate": 8.662814070351759e-05, "loss": 1.3313, "step": 2761 }, { "epoch": 0.07365333333333333, "grad_norm": 0.58984375, "learning_rate": 8.662311557788945e-05, "loss": 1.3714, "step": 2762 }, { "epoch": 0.07368, "grad_norm": 0.63671875, "learning_rate": 8.661809045226131e-05, "loss": 1.335, "step": 2763 }, { "epoch": 0.07370666666666667, "grad_norm": 0.5078125, "learning_rate": 8.661306532663317e-05, "loss": 1.2869, "step": 2764 }, { "epoch": 0.07373333333333333, "grad_norm": 0.90625, "learning_rate": 8.660804020100502e-05, "loss": 1.2022, "step": 2765 }, { "epoch": 0.07376, "grad_norm": 0.71484375, "learning_rate": 8.66030150753769e-05, "loss": 1.1603, "step": 2766 }, { "epoch": 0.07378666666666667, "grad_norm": 1.15625, "learning_rate": 8.659798994974875e-05, "loss": 1.3183, "step": 2767 }, { "epoch": 0.07381333333333333, "grad_norm": 0.55859375, "learning_rate": 8.659296482412061e-05, "loss": 1.1003, "step": 2768 }, { "epoch": 0.07384, "grad_norm": 0.58203125, "learning_rate": 8.658793969849247e-05, "loss": 1.2111, "step": 2769 }, { "epoch": 0.07386666666666666, "grad_norm": 0.5078125, "learning_rate": 8.658291457286433e-05, "loss": 1.104, "step": 2770 }, { "epoch": 0.07389333333333334, "grad_norm": 0.51171875, "learning_rate": 8.657788944723618e-05, "loss": 0.8776, "step": 2771 }, { "epoch": 0.07392, "grad_norm": 0.8515625, "learning_rate": 8.657286432160804e-05, "loss": 1.4587, "step": 2772 }, { "epoch": 0.07394666666666666, "grad_norm": 0.64453125, "learning_rate": 8.65678391959799e-05, "loss": 1.3732, "step": 2773 }, { "epoch": 0.07397333333333334, "grad_norm": 0.73828125, "learning_rate": 8.656281407035177e-05, "loss": 0.9912, "step": 2774 }, { "epoch": 0.074, "grad_norm": 0.68359375, "learning_rate": 8.655778894472362e-05, "loss": 1.3298, "step": 2775 }, { "epoch": 0.07402666666666667, "grad_norm": 0.59375, "learning_rate": 8.655276381909548e-05, "loss": 1.296, "step": 2776 }, { "epoch": 0.07405333333333333, "grad_norm": 0.67578125, "learning_rate": 8.654773869346734e-05, "loss": 1.3159, "step": 2777 }, { "epoch": 0.07408, "grad_norm": 0.62890625, "learning_rate": 8.65427135678392e-05, "loss": 1.0383, "step": 2778 }, { "epoch": 0.07410666666666667, "grad_norm": 0.65625, "learning_rate": 8.653768844221106e-05, "loss": 1.1035, "step": 2779 }, { "epoch": 0.07413333333333333, "grad_norm": 0.53515625, "learning_rate": 8.653266331658291e-05, "loss": 1.3816, "step": 2780 }, { "epoch": 0.07416, "grad_norm": 0.5078125, "learning_rate": 8.652763819095477e-05, "loss": 1.406, "step": 2781 }, { "epoch": 0.07418666666666666, "grad_norm": 0.7578125, "learning_rate": 8.652261306532664e-05, "loss": 1.2323, "step": 2782 }, { "epoch": 0.07421333333333334, "grad_norm": 0.578125, "learning_rate": 8.65175879396985e-05, "loss": 1.1369, "step": 2783 }, { "epoch": 0.07424, "grad_norm": 0.53125, "learning_rate": 8.651256281407035e-05, "loss": 1.4165, "step": 2784 }, { "epoch": 0.07426666666666666, "grad_norm": 0.5703125, "learning_rate": 8.650753768844222e-05, "loss": 0.7917, "step": 2785 }, { "epoch": 0.07429333333333334, "grad_norm": 0.59765625, "learning_rate": 8.650251256281407e-05, "loss": 1.6309, "step": 2786 }, { "epoch": 0.07432, "grad_norm": 0.53515625, "learning_rate": 8.649748743718593e-05, "loss": 1.122, "step": 2787 }, { "epoch": 0.07434666666666667, "grad_norm": 0.67578125, "learning_rate": 8.64924623115578e-05, "loss": 1.4266, "step": 2788 }, { "epoch": 0.07437333333333333, "grad_norm": 0.81640625, "learning_rate": 8.648743718592966e-05, "loss": 1.539, "step": 2789 }, { "epoch": 0.0744, "grad_norm": 0.62109375, "learning_rate": 8.64824120603015e-05, "loss": 1.2987, "step": 2790 }, { "epoch": 0.07442666666666667, "grad_norm": 0.59765625, "learning_rate": 8.647738693467337e-05, "loss": 1.3376, "step": 2791 }, { "epoch": 0.07445333333333333, "grad_norm": 0.984375, "learning_rate": 8.647236180904523e-05, "loss": 1.2063, "step": 2792 }, { "epoch": 0.07448, "grad_norm": 0.546875, "learning_rate": 8.646733668341709e-05, "loss": 0.9297, "step": 2793 }, { "epoch": 0.07450666666666667, "grad_norm": 0.6875, "learning_rate": 8.646231155778894e-05, "loss": 0.9848, "step": 2794 }, { "epoch": 0.07453333333333333, "grad_norm": 0.515625, "learning_rate": 8.645728643216082e-05, "loss": 1.2128, "step": 2795 }, { "epoch": 0.07456, "grad_norm": 0.5625, "learning_rate": 8.645226130653266e-05, "loss": 1.1642, "step": 2796 }, { "epoch": 0.07458666666666666, "grad_norm": 0.5703125, "learning_rate": 8.644723618090453e-05, "loss": 1.4105, "step": 2797 }, { "epoch": 0.07461333333333334, "grad_norm": 0.609375, "learning_rate": 8.644221105527639e-05, "loss": 1.2023, "step": 2798 }, { "epoch": 0.07464, "grad_norm": 0.85546875, "learning_rate": 8.643718592964825e-05, "loss": 1.0791, "step": 2799 }, { "epoch": 0.07466666666666667, "grad_norm": 0.625, "learning_rate": 8.64321608040201e-05, "loss": 1.2116, "step": 2800 }, { "epoch": 0.07469333333333333, "grad_norm": 0.6875, "learning_rate": 8.642713567839197e-05, "loss": 1.2217, "step": 2801 }, { "epoch": 0.07472, "grad_norm": 0.5625, "learning_rate": 8.642211055276382e-05, "loss": 1.2434, "step": 2802 }, { "epoch": 0.07474666666666667, "grad_norm": 0.60546875, "learning_rate": 8.641708542713568e-05, "loss": 1.1372, "step": 2803 }, { "epoch": 0.07477333333333333, "grad_norm": 0.66796875, "learning_rate": 8.641206030150755e-05, "loss": 1.3518, "step": 2804 }, { "epoch": 0.0748, "grad_norm": 0.5859375, "learning_rate": 8.640703517587941e-05, "loss": 1.2547, "step": 2805 }, { "epoch": 0.07482666666666667, "grad_norm": 4.1875, "learning_rate": 8.640201005025126e-05, "loss": 1.21, "step": 2806 }, { "epoch": 0.07485333333333333, "grad_norm": 0.6796875, "learning_rate": 8.639698492462312e-05, "loss": 1.4796, "step": 2807 }, { "epoch": 0.07488, "grad_norm": 0.58203125, "learning_rate": 8.639195979899498e-05, "loss": 1.1545, "step": 2808 }, { "epoch": 0.07490666666666666, "grad_norm": 0.466796875, "learning_rate": 8.638693467336684e-05, "loss": 1.2919, "step": 2809 }, { "epoch": 0.07493333333333334, "grad_norm": 0.6015625, "learning_rate": 8.638190954773869e-05, "loss": 1.2504, "step": 2810 }, { "epoch": 0.07496, "grad_norm": 0.49609375, "learning_rate": 8.637688442211055e-05, "loss": 1.5818, "step": 2811 }, { "epoch": 0.07498666666666666, "grad_norm": 0.451171875, "learning_rate": 8.637185929648242e-05, "loss": 1.0689, "step": 2812 }, { "epoch": 0.07501333333333333, "grad_norm": 1.0625, "learning_rate": 8.636683417085428e-05, "loss": 1.4771, "step": 2813 }, { "epoch": 0.07504, "grad_norm": 0.46875, "learning_rate": 8.636180904522614e-05, "loss": 1.4015, "step": 2814 }, { "epoch": 0.07506666666666667, "grad_norm": 0.61328125, "learning_rate": 8.635678391959799e-05, "loss": 1.0999, "step": 2815 }, { "epoch": 0.07509333333333333, "grad_norm": 0.52734375, "learning_rate": 8.635175879396985e-05, "loss": 1.4917, "step": 2816 }, { "epoch": 0.07512, "grad_norm": 0.515625, "learning_rate": 8.634673366834171e-05, "loss": 1.0358, "step": 2817 }, { "epoch": 0.07514666666666667, "grad_norm": 0.54296875, "learning_rate": 8.634170854271357e-05, "loss": 1.0583, "step": 2818 }, { "epoch": 0.07517333333333333, "grad_norm": 0.8359375, "learning_rate": 8.633668341708542e-05, "loss": 1.2942, "step": 2819 }, { "epoch": 0.0752, "grad_norm": 0.69921875, "learning_rate": 8.63316582914573e-05, "loss": 1.1452, "step": 2820 }, { "epoch": 0.07522666666666666, "grad_norm": 0.66015625, "learning_rate": 8.632663316582915e-05, "loss": 1.4545, "step": 2821 }, { "epoch": 0.07525333333333334, "grad_norm": 0.69921875, "learning_rate": 8.632160804020101e-05, "loss": 1.2844, "step": 2822 }, { "epoch": 0.07528, "grad_norm": 0.58203125, "learning_rate": 8.631658291457286e-05, "loss": 1.2499, "step": 2823 }, { "epoch": 0.07530666666666666, "grad_norm": 0.64453125, "learning_rate": 8.631155778894473e-05, "loss": 1.2504, "step": 2824 }, { "epoch": 0.07533333333333334, "grad_norm": 0.54296875, "learning_rate": 8.630653266331658e-05, "loss": 1.2541, "step": 2825 }, { "epoch": 0.07536, "grad_norm": 0.5703125, "learning_rate": 8.630150753768844e-05, "loss": 1.0608, "step": 2826 }, { "epoch": 0.07538666666666667, "grad_norm": 0.828125, "learning_rate": 8.62964824120603e-05, "loss": 1.2775, "step": 2827 }, { "epoch": 0.07541333333333333, "grad_norm": 0.56640625, "learning_rate": 8.629145728643217e-05, "loss": 1.5336, "step": 2828 }, { "epoch": 0.07544, "grad_norm": 0.9453125, "learning_rate": 8.628643216080402e-05, "loss": 1.2687, "step": 2829 }, { "epoch": 0.07546666666666667, "grad_norm": 0.890625, "learning_rate": 8.628140703517589e-05, "loss": 1.1242, "step": 2830 }, { "epoch": 0.07549333333333333, "grad_norm": 0.47265625, "learning_rate": 8.627638190954774e-05, "loss": 1.1252, "step": 2831 }, { "epoch": 0.07552, "grad_norm": 0.78125, "learning_rate": 8.62713567839196e-05, "loss": 1.2835, "step": 2832 }, { "epoch": 0.07554666666666666, "grad_norm": 0.466796875, "learning_rate": 8.626633165829146e-05, "loss": 1.4173, "step": 2833 }, { "epoch": 0.07557333333333334, "grad_norm": 0.5703125, "learning_rate": 8.626130653266333e-05, "loss": 1.2864, "step": 2834 }, { "epoch": 0.0756, "grad_norm": 0.58203125, "learning_rate": 8.625628140703518e-05, "loss": 1.3815, "step": 2835 }, { "epoch": 0.07562666666666666, "grad_norm": 0.66796875, "learning_rate": 8.625125628140705e-05, "loss": 1.6089, "step": 2836 }, { "epoch": 0.07565333333333334, "grad_norm": 0.6484375, "learning_rate": 8.62462311557789e-05, "loss": 1.148, "step": 2837 }, { "epoch": 0.07568, "grad_norm": 0.6796875, "learning_rate": 8.624120603015076e-05, "loss": 1.302, "step": 2838 }, { "epoch": 0.07570666666666667, "grad_norm": 0.6953125, "learning_rate": 8.623618090452261e-05, "loss": 1.3089, "step": 2839 }, { "epoch": 0.07573333333333333, "grad_norm": 0.67578125, "learning_rate": 8.623115577889449e-05, "loss": 1.3486, "step": 2840 }, { "epoch": 0.07576, "grad_norm": 0.6953125, "learning_rate": 8.622613065326633e-05, "loss": 1.0979, "step": 2841 }, { "epoch": 0.07578666666666667, "grad_norm": 0.66015625, "learning_rate": 8.62211055276382e-05, "loss": 1.1465, "step": 2842 }, { "epoch": 0.07581333333333333, "grad_norm": 0.62890625, "learning_rate": 8.621608040201006e-05, "loss": 0.9612, "step": 2843 }, { "epoch": 0.07584, "grad_norm": 0.71875, "learning_rate": 8.621105527638192e-05, "loss": 1.2546, "step": 2844 }, { "epoch": 0.07586666666666667, "grad_norm": 0.79296875, "learning_rate": 8.620603015075377e-05, "loss": 1.2839, "step": 2845 }, { "epoch": 0.07589333333333333, "grad_norm": 0.8359375, "learning_rate": 8.620100502512563e-05, "loss": 1.4698, "step": 2846 }, { "epoch": 0.07592, "grad_norm": 0.78125, "learning_rate": 8.619597989949749e-05, "loss": 1.1276, "step": 2847 }, { "epoch": 0.07594666666666666, "grad_norm": 0.6640625, "learning_rate": 8.619095477386935e-05, "loss": 1.1017, "step": 2848 }, { "epoch": 0.07597333333333334, "grad_norm": 0.5078125, "learning_rate": 8.618592964824122e-05, "loss": 1.286, "step": 2849 }, { "epoch": 0.076, "grad_norm": 0.9921875, "learning_rate": 8.618090452261306e-05, "loss": 1.4385, "step": 2850 }, { "epoch": 0.07602666666666667, "grad_norm": 0.466796875, "learning_rate": 8.617587939698493e-05, "loss": 1.3032, "step": 2851 }, { "epoch": 0.07605333333333333, "grad_norm": 0.6640625, "learning_rate": 8.617085427135679e-05, "loss": 1.3812, "step": 2852 }, { "epoch": 0.07608, "grad_norm": 0.478515625, "learning_rate": 8.616582914572865e-05, "loss": 1.5297, "step": 2853 }, { "epoch": 0.07610666666666667, "grad_norm": 0.56640625, "learning_rate": 8.61608040201005e-05, "loss": 1.4425, "step": 2854 }, { "epoch": 0.07613333333333333, "grad_norm": 0.56640625, "learning_rate": 8.615577889447236e-05, "loss": 1.4699, "step": 2855 }, { "epoch": 0.07616, "grad_norm": 0.60546875, "learning_rate": 8.615075376884422e-05, "loss": 1.4461, "step": 2856 }, { "epoch": 0.07618666666666667, "grad_norm": 0.90625, "learning_rate": 8.614572864321609e-05, "loss": 1.3233, "step": 2857 }, { "epoch": 0.07621333333333333, "grad_norm": 0.625, "learning_rate": 8.614070351758793e-05, "loss": 1.1365, "step": 2858 }, { "epoch": 0.07624, "grad_norm": 0.6328125, "learning_rate": 8.613567839195981e-05, "loss": 1.3432, "step": 2859 }, { "epoch": 0.07626666666666666, "grad_norm": 0.6875, "learning_rate": 8.613065326633166e-05, "loss": 1.1799, "step": 2860 }, { "epoch": 0.07629333333333334, "grad_norm": 0.8828125, "learning_rate": 8.612562814070352e-05, "loss": 1.3459, "step": 2861 }, { "epoch": 0.07632, "grad_norm": 0.66015625, "learning_rate": 8.612060301507538e-05, "loss": 1.2823, "step": 2862 }, { "epoch": 0.07634666666666666, "grad_norm": 0.734375, "learning_rate": 8.611557788944724e-05, "loss": 1.191, "step": 2863 }, { "epoch": 0.07637333333333333, "grad_norm": 0.6171875, "learning_rate": 8.611055276381909e-05, "loss": 1.344, "step": 2864 }, { "epoch": 0.0764, "grad_norm": 0.53515625, "learning_rate": 8.610552763819097e-05, "loss": 1.4023, "step": 2865 }, { "epoch": 0.07642666666666667, "grad_norm": 0.60546875, "learning_rate": 8.610050251256282e-05, "loss": 1.4182, "step": 2866 }, { "epoch": 0.07645333333333333, "grad_norm": 0.640625, "learning_rate": 8.609547738693468e-05, "loss": 1.2128, "step": 2867 }, { "epoch": 0.07648, "grad_norm": 0.6328125, "learning_rate": 8.609045226130654e-05, "loss": 1.7804, "step": 2868 }, { "epoch": 0.07650666666666667, "grad_norm": 0.61328125, "learning_rate": 8.60854271356784e-05, "loss": 1.1166, "step": 2869 }, { "epoch": 0.07653333333333333, "grad_norm": 0.73828125, "learning_rate": 8.608040201005025e-05, "loss": 1.2217, "step": 2870 }, { "epoch": 0.07656, "grad_norm": 1.03125, "learning_rate": 8.607537688442211e-05, "loss": 1.2306, "step": 2871 }, { "epoch": 0.07658666666666666, "grad_norm": 0.58984375, "learning_rate": 8.607035175879398e-05, "loss": 1.3342, "step": 2872 }, { "epoch": 0.07661333333333334, "grad_norm": 0.68359375, "learning_rate": 8.606532663316584e-05, "loss": 1.2038, "step": 2873 }, { "epoch": 0.07664, "grad_norm": 0.470703125, "learning_rate": 8.606030150753769e-05, "loss": 1.1451, "step": 2874 }, { "epoch": 0.07666666666666666, "grad_norm": 0.765625, "learning_rate": 8.605527638190956e-05, "loss": 1.4714, "step": 2875 }, { "epoch": 0.07669333333333334, "grad_norm": 0.7578125, "learning_rate": 8.605025125628141e-05, "loss": 1.3001, "step": 2876 }, { "epoch": 0.07672, "grad_norm": 0.6015625, "learning_rate": 8.604522613065327e-05, "loss": 1.4823, "step": 2877 }, { "epoch": 0.07674666666666667, "grad_norm": 0.5078125, "learning_rate": 8.604020100502513e-05, "loss": 1.1883, "step": 2878 }, { "epoch": 0.07677333333333333, "grad_norm": 0.68359375, "learning_rate": 8.6035175879397e-05, "loss": 1.5092, "step": 2879 }, { "epoch": 0.0768, "grad_norm": 0.64453125, "learning_rate": 8.603015075376884e-05, "loss": 1.5568, "step": 2880 }, { "epoch": 0.07682666666666667, "grad_norm": 0.443359375, "learning_rate": 8.60251256281407e-05, "loss": 1.2594, "step": 2881 }, { "epoch": 0.07685333333333333, "grad_norm": 0.62109375, "learning_rate": 8.602010050251257e-05, "loss": 1.1015, "step": 2882 }, { "epoch": 0.07688, "grad_norm": 0.51953125, "learning_rate": 8.601507537688443e-05, "loss": 1.2465, "step": 2883 }, { "epoch": 0.07690666666666666, "grad_norm": 0.5546875, "learning_rate": 8.601005025125628e-05, "loss": 1.3546, "step": 2884 }, { "epoch": 0.07693333333333334, "grad_norm": 0.5546875, "learning_rate": 8.600502512562814e-05, "loss": 1.2158, "step": 2885 }, { "epoch": 0.07696, "grad_norm": 0.55859375, "learning_rate": 8.6e-05, "loss": 1.246, "step": 2886 }, { "epoch": 0.07698666666666666, "grad_norm": 0.474609375, "learning_rate": 8.599497487437187e-05, "loss": 1.4236, "step": 2887 }, { "epoch": 0.07701333333333334, "grad_norm": 0.6015625, "learning_rate": 8.598994974874373e-05, "loss": 1.4363, "step": 2888 }, { "epoch": 0.07704, "grad_norm": 0.49609375, "learning_rate": 8.598492462311558e-05, "loss": 1.0734, "step": 2889 }, { "epoch": 0.07706666666666667, "grad_norm": 0.6640625, "learning_rate": 8.597989949748744e-05, "loss": 1.347, "step": 2890 }, { "epoch": 0.07709333333333333, "grad_norm": 0.65625, "learning_rate": 8.59748743718593e-05, "loss": 1.189, "step": 2891 }, { "epoch": 0.07712, "grad_norm": 0.63671875, "learning_rate": 8.596984924623116e-05, "loss": 1.3901, "step": 2892 }, { "epoch": 0.07714666666666667, "grad_norm": 0.75, "learning_rate": 8.596482412060301e-05, "loss": 1.145, "step": 2893 }, { "epoch": 0.07717333333333333, "grad_norm": 0.734375, "learning_rate": 8.595979899497489e-05, "loss": 1.3111, "step": 2894 }, { "epoch": 0.0772, "grad_norm": 0.8046875, "learning_rate": 8.595477386934673e-05, "loss": 1.3139, "step": 2895 }, { "epoch": 0.07722666666666667, "grad_norm": 0.76171875, "learning_rate": 8.59497487437186e-05, "loss": 1.1739, "step": 2896 }, { "epoch": 0.07725333333333333, "grad_norm": 0.58203125, "learning_rate": 8.594472361809046e-05, "loss": 1.2833, "step": 2897 }, { "epoch": 0.07728, "grad_norm": 0.65234375, "learning_rate": 8.593969849246232e-05, "loss": 0.9251, "step": 2898 }, { "epoch": 0.07730666666666666, "grad_norm": 0.5859375, "learning_rate": 8.593467336683417e-05, "loss": 1.4512, "step": 2899 }, { "epoch": 0.07733333333333334, "grad_norm": 0.5, "learning_rate": 8.592964824120603e-05, "loss": 1.3463, "step": 2900 }, { "epoch": 0.07736, "grad_norm": 0.7578125, "learning_rate": 8.592462311557789e-05, "loss": 1.4393, "step": 2901 }, { "epoch": 0.07738666666666667, "grad_norm": 0.484375, "learning_rate": 8.591959798994976e-05, "loss": 1.2078, "step": 2902 }, { "epoch": 0.07741333333333333, "grad_norm": 0.66015625, "learning_rate": 8.59145728643216e-05, "loss": 1.029, "step": 2903 }, { "epoch": 0.07744, "grad_norm": 0.68359375, "learning_rate": 8.590954773869348e-05, "loss": 1.2085, "step": 2904 }, { "epoch": 0.07746666666666667, "grad_norm": 0.58203125, "learning_rate": 8.590452261306533e-05, "loss": 1.1241, "step": 2905 }, { "epoch": 0.07749333333333333, "grad_norm": 0.66015625, "learning_rate": 8.589949748743719e-05, "loss": 1.3441, "step": 2906 }, { "epoch": 0.07752, "grad_norm": 0.6875, "learning_rate": 8.589447236180905e-05, "loss": 1.3326, "step": 2907 }, { "epoch": 0.07754666666666667, "grad_norm": 0.54296875, "learning_rate": 8.588944723618091e-05, "loss": 1.0996, "step": 2908 }, { "epoch": 0.07757333333333333, "grad_norm": 0.546875, "learning_rate": 8.588442211055276e-05, "loss": 1.4764, "step": 2909 }, { "epoch": 0.0776, "grad_norm": 0.6953125, "learning_rate": 8.587939698492464e-05, "loss": 1.5752, "step": 2910 }, { "epoch": 0.07762666666666666, "grad_norm": 0.63671875, "learning_rate": 8.587437185929649e-05, "loss": 1.1463, "step": 2911 }, { "epoch": 0.07765333333333334, "grad_norm": 0.51171875, "learning_rate": 8.586934673366835e-05, "loss": 1.3081, "step": 2912 }, { "epoch": 0.07768, "grad_norm": 0.486328125, "learning_rate": 8.586432160804021e-05, "loss": 1.0927, "step": 2913 }, { "epoch": 0.07770666666666666, "grad_norm": 0.78515625, "learning_rate": 8.585929648241207e-05, "loss": 1.2576, "step": 2914 }, { "epoch": 0.07773333333333333, "grad_norm": 0.52734375, "learning_rate": 8.585427135678392e-05, "loss": 1.3529, "step": 2915 }, { "epoch": 0.07776, "grad_norm": 0.5390625, "learning_rate": 8.584924623115578e-05, "loss": 1.2257, "step": 2916 }, { "epoch": 0.07778666666666667, "grad_norm": 0.6171875, "learning_rate": 8.584422110552765e-05, "loss": 1.2732, "step": 2917 }, { "epoch": 0.07781333333333333, "grad_norm": 0.69921875, "learning_rate": 8.583919597989951e-05, "loss": 1.2947, "step": 2918 }, { "epoch": 0.07784, "grad_norm": 0.80859375, "learning_rate": 8.583417085427136e-05, "loss": 1.4963, "step": 2919 }, { "epoch": 0.07786666666666667, "grad_norm": 0.4921875, "learning_rate": 8.582914572864322e-05, "loss": 1.1048, "step": 2920 }, { "epoch": 0.07789333333333333, "grad_norm": 0.5546875, "learning_rate": 8.582412060301508e-05, "loss": 1.1881, "step": 2921 }, { "epoch": 0.07792, "grad_norm": 0.56640625, "learning_rate": 8.581909547738693e-05, "loss": 1.3689, "step": 2922 }, { "epoch": 0.07794666666666666, "grad_norm": 0.5078125, "learning_rate": 8.58140703517588e-05, "loss": 1.2136, "step": 2923 }, { "epoch": 0.07797333333333334, "grad_norm": 0.6171875, "learning_rate": 8.580904522613065e-05, "loss": 1.2716, "step": 2924 }, { "epoch": 0.078, "grad_norm": 0.53515625, "learning_rate": 8.580402010050251e-05, "loss": 1.5277, "step": 2925 }, { "epoch": 0.07802666666666666, "grad_norm": 0.61328125, "learning_rate": 8.579899497487438e-05, "loss": 1.4876, "step": 2926 }, { "epoch": 0.07805333333333334, "grad_norm": 0.66796875, "learning_rate": 8.579396984924624e-05, "loss": 1.3208, "step": 2927 }, { "epoch": 0.07808, "grad_norm": 0.53125, "learning_rate": 8.578894472361809e-05, "loss": 1.285, "step": 2928 }, { "epoch": 0.07810666666666667, "grad_norm": 0.828125, "learning_rate": 8.578391959798996e-05, "loss": 1.253, "step": 2929 }, { "epoch": 0.07813333333333333, "grad_norm": 0.57421875, "learning_rate": 8.577889447236181e-05, "loss": 1.2563, "step": 2930 }, { "epoch": 0.07816, "grad_norm": 0.65625, "learning_rate": 8.577386934673367e-05, "loss": 1.3405, "step": 2931 }, { "epoch": 0.07818666666666667, "grad_norm": 0.56640625, "learning_rate": 8.576884422110552e-05, "loss": 1.1873, "step": 2932 }, { "epoch": 0.07821333333333333, "grad_norm": 0.60546875, "learning_rate": 8.57638190954774e-05, "loss": 1.3498, "step": 2933 }, { "epoch": 0.07824, "grad_norm": 0.5546875, "learning_rate": 8.575879396984925e-05, "loss": 1.3076, "step": 2934 }, { "epoch": 0.07826666666666666, "grad_norm": 0.62890625, "learning_rate": 8.575376884422111e-05, "loss": 1.3226, "step": 2935 }, { "epoch": 0.07829333333333334, "grad_norm": 0.59375, "learning_rate": 8.574874371859297e-05, "loss": 1.5391, "step": 2936 }, { "epoch": 0.07832, "grad_norm": 0.5625, "learning_rate": 8.574371859296483e-05, "loss": 1.3778, "step": 2937 }, { "epoch": 0.07834666666666666, "grad_norm": 0.57421875, "learning_rate": 8.573869346733668e-05, "loss": 1.5919, "step": 2938 }, { "epoch": 0.07837333333333334, "grad_norm": 0.71484375, "learning_rate": 8.573366834170856e-05, "loss": 1.3072, "step": 2939 }, { "epoch": 0.0784, "grad_norm": 0.55078125, "learning_rate": 8.57286432160804e-05, "loss": 1.1328, "step": 2940 }, { "epoch": 0.07842666666666667, "grad_norm": 0.7265625, "learning_rate": 8.572361809045227e-05, "loss": 1.0945, "step": 2941 }, { "epoch": 0.07845333333333333, "grad_norm": 0.62109375, "learning_rate": 8.571859296482413e-05, "loss": 1.1104, "step": 2942 }, { "epoch": 0.07848, "grad_norm": 0.5859375, "learning_rate": 8.571356783919599e-05, "loss": 1.1981, "step": 2943 }, { "epoch": 0.07850666666666667, "grad_norm": 0.6484375, "learning_rate": 8.570854271356784e-05, "loss": 1.2652, "step": 2944 }, { "epoch": 0.07853333333333333, "grad_norm": 0.7578125, "learning_rate": 8.570351758793971e-05, "loss": 1.0679, "step": 2945 }, { "epoch": 0.07856, "grad_norm": 0.671875, "learning_rate": 8.569849246231156e-05, "loss": 1.1095, "step": 2946 }, { "epoch": 0.07858666666666667, "grad_norm": 0.53515625, "learning_rate": 8.569346733668342e-05, "loss": 1.1815, "step": 2947 }, { "epoch": 0.07861333333333333, "grad_norm": 0.796875, "learning_rate": 8.568844221105527e-05, "loss": 1.292, "step": 2948 }, { "epoch": 0.07864, "grad_norm": 0.59375, "learning_rate": 8.568341708542715e-05, "loss": 1.2679, "step": 2949 }, { "epoch": 0.07866666666666666, "grad_norm": 0.5859375, "learning_rate": 8.5678391959799e-05, "loss": 1.0368, "step": 2950 }, { "epoch": 0.07869333333333334, "grad_norm": 0.65234375, "learning_rate": 8.567336683417086e-05, "loss": 1.3213, "step": 2951 }, { "epoch": 0.07872, "grad_norm": 0.77734375, "learning_rate": 8.566834170854272e-05, "loss": 1.1828, "step": 2952 }, { "epoch": 0.07874666666666667, "grad_norm": 0.72265625, "learning_rate": 8.566331658291458e-05, "loss": 1.3659, "step": 2953 }, { "epoch": 0.07877333333333333, "grad_norm": 0.54296875, "learning_rate": 8.565829145728643e-05, "loss": 1.22, "step": 2954 }, { "epoch": 0.0788, "grad_norm": 0.55078125, "learning_rate": 8.56532663316583e-05, "loss": 1.0938, "step": 2955 }, { "epoch": 0.07882666666666667, "grad_norm": 0.5625, "learning_rate": 8.564824120603016e-05, "loss": 1.1046, "step": 2956 }, { "epoch": 0.07885333333333333, "grad_norm": 0.546875, "learning_rate": 8.5643216080402e-05, "loss": 1.2636, "step": 2957 }, { "epoch": 0.07888, "grad_norm": 0.578125, "learning_rate": 8.563819095477388e-05, "loss": 1.3351, "step": 2958 }, { "epoch": 0.07890666666666667, "grad_norm": 0.451171875, "learning_rate": 8.563316582914573e-05, "loss": 1.1981, "step": 2959 }, { "epoch": 0.07893333333333333, "grad_norm": 0.52734375, "learning_rate": 8.562814070351759e-05, "loss": 1.098, "step": 2960 }, { "epoch": 0.07896, "grad_norm": 0.6796875, "learning_rate": 8.562311557788945e-05, "loss": 1.3097, "step": 2961 }, { "epoch": 0.07898666666666666, "grad_norm": 0.7421875, "learning_rate": 8.561809045226131e-05, "loss": 1.1977, "step": 2962 }, { "epoch": 0.07901333333333334, "grad_norm": 0.71875, "learning_rate": 8.561306532663316e-05, "loss": 1.2534, "step": 2963 }, { "epoch": 0.07904, "grad_norm": 0.578125, "learning_rate": 8.560804020100503e-05, "loss": 1.3243, "step": 2964 }, { "epoch": 0.07906666666666666, "grad_norm": 0.6484375, "learning_rate": 8.560301507537689e-05, "loss": 1.1188, "step": 2965 }, { "epoch": 0.07909333333333333, "grad_norm": 0.59765625, "learning_rate": 8.559798994974875e-05, "loss": 1.4639, "step": 2966 }, { "epoch": 0.07912, "grad_norm": 0.9453125, "learning_rate": 8.55929648241206e-05, "loss": 1.1477, "step": 2967 }, { "epoch": 0.07914666666666667, "grad_norm": 0.5703125, "learning_rate": 8.558793969849247e-05, "loss": 1.0807, "step": 2968 }, { "epoch": 0.07917333333333333, "grad_norm": 0.625, "learning_rate": 8.558291457286432e-05, "loss": 0.9954, "step": 2969 }, { "epoch": 0.0792, "grad_norm": 0.66796875, "learning_rate": 8.557788944723618e-05, "loss": 1.4842, "step": 2970 }, { "epoch": 0.07922666666666667, "grad_norm": 0.6953125, "learning_rate": 8.557286432160805e-05, "loss": 1.1593, "step": 2971 }, { "epoch": 0.07925333333333333, "grad_norm": 0.7265625, "learning_rate": 8.556783919597991e-05, "loss": 1.4202, "step": 2972 }, { "epoch": 0.07928, "grad_norm": 1.046875, "learning_rate": 8.556281407035176e-05, "loss": 1.2381, "step": 2973 }, { "epoch": 0.07930666666666666, "grad_norm": 0.6171875, "learning_rate": 8.555778894472363e-05, "loss": 0.8874, "step": 2974 }, { "epoch": 0.07933333333333334, "grad_norm": 0.71484375, "learning_rate": 8.555276381909548e-05, "loss": 1.3549, "step": 2975 }, { "epoch": 0.07936, "grad_norm": 2.703125, "learning_rate": 8.554773869346734e-05, "loss": 1.1773, "step": 2976 }, { "epoch": 0.07938666666666666, "grad_norm": 0.7890625, "learning_rate": 8.55427135678392e-05, "loss": 1.0975, "step": 2977 }, { "epoch": 0.07941333333333334, "grad_norm": 0.9765625, "learning_rate": 8.553768844221107e-05, "loss": 1.421, "step": 2978 }, { "epoch": 0.07944, "grad_norm": 0.62890625, "learning_rate": 8.553266331658292e-05, "loss": 1.2431, "step": 2979 }, { "epoch": 0.07946666666666667, "grad_norm": 0.5546875, "learning_rate": 8.552763819095478e-05, "loss": 1.4337, "step": 2980 }, { "epoch": 0.07949333333333333, "grad_norm": 0.51953125, "learning_rate": 8.552261306532664e-05, "loss": 1.4339, "step": 2981 }, { "epoch": 0.07952, "grad_norm": 0.90625, "learning_rate": 8.55175879396985e-05, "loss": 0.9677, "step": 2982 }, { "epoch": 0.07954666666666667, "grad_norm": 0.75, "learning_rate": 8.551256281407035e-05, "loss": 1.4297, "step": 2983 }, { "epoch": 0.07957333333333333, "grad_norm": 0.90625, "learning_rate": 8.550753768844223e-05, "loss": 1.3003, "step": 2984 }, { "epoch": 0.0796, "grad_norm": 0.76171875, "learning_rate": 8.550251256281407e-05, "loss": 1.1742, "step": 2985 }, { "epoch": 0.07962666666666667, "grad_norm": 0.5625, "learning_rate": 8.549748743718594e-05, "loss": 1.2024, "step": 2986 }, { "epoch": 0.07965333333333334, "grad_norm": 0.7890625, "learning_rate": 8.54924623115578e-05, "loss": 1.6262, "step": 2987 }, { "epoch": 0.07968, "grad_norm": 0.83203125, "learning_rate": 8.548743718592965e-05, "loss": 1.2776, "step": 2988 }, { "epoch": 0.07970666666666666, "grad_norm": 0.62890625, "learning_rate": 8.548241206030151e-05, "loss": 1.2945, "step": 2989 }, { "epoch": 0.07973333333333334, "grad_norm": 0.6796875, "learning_rate": 8.547738693467337e-05, "loss": 1.0777, "step": 2990 }, { "epoch": 0.07976, "grad_norm": 0.7109375, "learning_rate": 8.547236180904523e-05, "loss": 1.3559, "step": 2991 }, { "epoch": 0.07978666666666667, "grad_norm": 0.5, "learning_rate": 8.546733668341708e-05, "loss": 1.3977, "step": 2992 }, { "epoch": 0.07981333333333333, "grad_norm": 0.59375, "learning_rate": 8.546231155778894e-05, "loss": 1.2435, "step": 2993 }, { "epoch": 0.07984, "grad_norm": 0.65625, "learning_rate": 8.54572864321608e-05, "loss": 1.2035, "step": 2994 }, { "epoch": 0.07986666666666667, "grad_norm": 0.55859375, "learning_rate": 8.545226130653267e-05, "loss": 1.1935, "step": 2995 }, { "epoch": 0.07989333333333333, "grad_norm": 0.58984375, "learning_rate": 8.544723618090452e-05, "loss": 1.6272, "step": 2996 }, { "epoch": 0.07992, "grad_norm": 0.61328125, "learning_rate": 8.544221105527639e-05, "loss": 1.2871, "step": 2997 }, { "epoch": 0.07994666666666667, "grad_norm": 0.6484375, "learning_rate": 8.543718592964824e-05, "loss": 1.238, "step": 2998 }, { "epoch": 0.07997333333333333, "grad_norm": 0.73046875, "learning_rate": 8.54321608040201e-05, "loss": 1.3124, "step": 2999 }, { "epoch": 0.08, "grad_norm": 0.80078125, "learning_rate": 8.542713567839196e-05, "loss": 1.3823, "step": 3000 } ], "logging_steps": 1, "max_steps": 20000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3.17323580953387e+17, "train_batch_size": 2, "trial_name": null, "trial_params": null }