rp-embed-max / log.txt
sarwin's picture
max
e5c2bef verified
{'loss': 0.3883, 'grad_norm': 21.324216842651367, 'learning_rate': 3e-06, 'epoch': 0.02}
{'loss': 0.2685, 'grad_norm': 7.115039825439453, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.02}
{'loss': 0.2349, 'grad_norm': 22.00225067138672, 'learning_rate': 5e-06, 'epoch': 0.03}
{'loss': 0.1685, 'grad_norm': 8.233646392822266, 'learning_rate': 6e-06, 'epoch': 0.03}
{'loss': 0.1409, 'grad_norm': 1.1980726718902588, 'learning_rate': 7e-06, 'epoch': 0.04}
{'loss': 0.1262, 'grad_norm': 2.665900707244873, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.04}
{'loss': 0.1195, 'grad_norm': 12.662271499633789, 'learning_rate': 9e-06, 'epoch': 0.05}
{'loss': 0.1044, 'grad_norm': 20.355819702148438, 'learning_rate': 1e-05, 'epoch': 0.05}
{'loss': 0.0989, 'grad_norm': 9.962722778320312, 'learning_rate': 1.1000000000000001e-05, 'epoch': 0.06}
{'loss': 0.0787, 'grad_norm': 2.361100912094116, 'learning_rate': 1.2e-05, 'epoch': 0.07}
{'loss': 0.0895, 'grad_norm': 0.5440080165863037, 'learning_rate': 1.3000000000000001e-05, 'epoch': 0.07}
{'loss': 0.0708, 'grad_norm': 22.654308319091797, 'learning_rate': 1.4e-05, 'epoch': 0.08}
{'loss': 0.0834, 'grad_norm': 1.5862770080566406, 'learning_rate': 1.5000000000000002e-05, 'epoch': 0.08}
{'loss': 0.0634, 'grad_norm': 2.121326446533203, 'learning_rate': 1.6000000000000003e-05, 'epoch': 0.09}
{'loss': 0.0643, 'grad_norm': 1.7471628189086914, 'learning_rate': 1.7e-05, 'epoch': 0.09}
{'loss': 0.0567, 'grad_norm': 1.2325271368026733, 'learning_rate': 1.8e-05, 'epoch': 0.1}
{'loss': 0.0646, 'grad_norm': 16.829893112182617, 'learning_rate': 1.9e-05, 'epoch': 0.1}
{'loss': 0.0607, 'grad_norm': 1.4897233247756958, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.0564, 'grad_norm': 1.4202508926391602, 'learning_rate': 1.997760508812398e-05, 'epoch': 0.11}
{'loss': 0.068, 'grad_norm': 0.0861266702413559, 'learning_rate': 1.995521017624796e-05, 'epoch': 0.12}
{'loss': 0.0536, 'grad_norm': 0.28206154704093933, 'learning_rate': 1.9932815264371937e-05, 'epoch': 0.13}
{'loss': 0.0594, 'grad_norm': 8.399012565612793, 'learning_rate': 1.9910420352495915e-05, 'epoch': 0.13}
{'loss': 0.057, 'grad_norm': 14.871772766113281, 'learning_rate': 1.9888025440619893e-05, 'epoch': 0.14}
{'loss': 0.0555, 'grad_norm': 0.14331811666488647, 'learning_rate': 1.9865630528743872e-05, 'epoch': 0.14}
{'loss': 0.0485, 'grad_norm': 18.870864868164062, 'learning_rate': 1.984323561686785e-05, 'epoch': 0.15}
{'loss': 0.0528, 'grad_norm': 1.9486477375030518, 'learning_rate': 1.982084070499183e-05, 'epoch': 0.15}
{'loss': 0.0478, 'grad_norm': 4.394039630889893, 'learning_rate': 1.9798445793115807e-05, 'epoch': 0.16}
{'loss': 0.0586, 'grad_norm': 0.8561568856239319, 'learning_rate': 1.9776050881239782e-05, 'epoch': 0.16}
{'loss': 0.0539, 'grad_norm': 1.0208560228347778, 'learning_rate': 1.9753655969363764e-05, 'epoch': 0.17}
{'loss': 0.0432, 'grad_norm': 4.224825859069824, 'learning_rate': 1.9731261057487742e-05, 'epoch': 0.18}
{'loss': 0.0542, 'grad_norm': 1.7423515319824219, 'learning_rate': 1.9708866145611717e-05, 'epoch': 0.18}
{'loss': 0.0536, 'grad_norm': 0.3042142689228058, 'learning_rate': 1.96864712337357e-05, 'epoch': 0.19}
{'loss': 0.0492, 'grad_norm': 2.4977452754974365, 'learning_rate': 1.9664076321859677e-05, 'epoch': 0.19}
{'loss': 0.0427, 'grad_norm': 3.3112635612487793, 'learning_rate': 1.9641681409983652e-05, 'epoch': 0.2}
{'loss': 0.0489, 'grad_norm': 0.42069825530052185, 'learning_rate': 1.9619286498107634e-05, 'epoch': 0.2}
{'loss': 0.0502, 'grad_norm': 0.1265694946050644, 'learning_rate': 1.959689158623161e-05, 'epoch': 0.21}
{'loss': 0.0432, 'grad_norm': 0.2148071676492691, 'learning_rate': 1.9574496674355587e-05, 'epoch': 0.21}
{'loss': 0.0459, 'grad_norm': 3.6947178840637207, 'learning_rate': 1.955210176247957e-05, 'epoch': 0.22}
{'loss': 0.0376, 'grad_norm': 4.6488776206970215, 'learning_rate': 1.9529706850603544e-05, 'epoch': 0.22}
{'loss': 0.0489, 'grad_norm': 1.4403197765350342, 'learning_rate': 1.9507311938727522e-05, 'epoch': 0.23}
{'loss': 0.0515, 'grad_norm': 4.117632865905762, 'learning_rate': 1.94849170268515e-05, 'epoch': 0.24}
{'loss': 0.0429, 'grad_norm': 0.196114644408226, 'learning_rate': 1.946252211497548e-05, 'epoch': 0.24}
{'loss': 0.0417, 'grad_norm': 0.06215653941035271, 'learning_rate': 1.9440127203099457e-05, 'epoch': 0.25}
{'loss': 0.0478, 'grad_norm': 0.19152769446372986, 'learning_rate': 1.9417732291223435e-05, 'epoch': 0.25}
{'loss': 0.0359, 'grad_norm': 0.24261559545993805, 'learning_rate': 1.9395337379347414e-05, 'epoch': 0.26}
{'loss': 0.0452, 'grad_norm': 0.7501357793807983, 'learning_rate': 1.9372942467471392e-05, 'epoch': 0.26}
{'loss': 0.0443, 'grad_norm': 2.0564398765563965, 'learning_rate': 1.935054755559537e-05, 'epoch': 0.27}
{'loss': 0.0409, 'grad_norm': 0.031283892691135406, 'learning_rate': 1.932815264371935e-05, 'epoch': 0.27}
{'loss': 0.0421, 'grad_norm': 0.15692433714866638, 'learning_rate': 1.9305757731843327e-05, 'epoch': 0.28}
{'loss': 0.0393, 'grad_norm': 14.9638090133667, 'learning_rate': 1.9283362819967305e-05, 'epoch': 0.28}
{'loss': 0.0409, 'grad_norm': 0.08281882852315903, 'learning_rate': 1.9260967908091284e-05, 'epoch': 0.29}
{'loss': 0.032, 'grad_norm': 0.3644435405731201, 'learning_rate': 1.9238572996215262e-05, 'epoch': 0.3}
{'loss': 0.0468, 'grad_norm': 0.13462503254413605, 'learning_rate': 1.9216178084339237e-05, 'epoch': 0.3}
{'loss': 0.0285, 'grad_norm': 0.3230873942375183, 'learning_rate': 1.919378317246322e-05, 'epoch': 0.31}
{'loss': 0.0311, 'grad_norm': 20.536762237548828, 'learning_rate': 1.9171388260587197e-05, 'epoch': 0.31}
{'loss': 0.0304, 'grad_norm': 1.3668054342269897, 'learning_rate': 1.9148993348711172e-05, 'epoch': 0.32}
{'loss': 0.0349, 'grad_norm': 15.044346809387207, 'learning_rate': 1.9126598436835154e-05, 'epoch': 0.32}
{'loss': 0.0352, 'grad_norm': 21.638084411621094, 'learning_rate': 1.9104203524959132e-05, 'epoch': 0.33}
{'loss': 0.0367, 'grad_norm': 0.060597069561481476, 'learning_rate': 1.9081808613083107e-05, 'epoch': 0.33}
{'loss': 0.0385, 'grad_norm': 1.7127445936203003, 'learning_rate': 1.905941370120709e-05, 'epoch': 0.34}
{'loss': 0.0325, 'grad_norm': 0.011513516306877136, 'learning_rate': 1.9037018789331064e-05, 'epoch': 0.34}
{'loss': 0.0302, 'grad_norm': 0.3838317394256592, 'learning_rate': 1.9014623877455042e-05, 'epoch': 0.35}
{'loss': 0.0393, 'grad_norm': 0.766505777835846, 'learning_rate': 1.8992228965579024e-05, 'epoch': 0.36}
{'loss': 0.032, 'grad_norm': 0.01746511273086071, 'learning_rate': 1.8969834053703e-05, 'epoch': 0.36}
{'loss': 0.0263, 'grad_norm': 5.542301654815674, 'learning_rate': 1.8947439141826977e-05, 'epoch': 0.37}
{'loss': 0.0343, 'grad_norm': 0.06212176755070686, 'learning_rate': 1.8925044229950956e-05, 'epoch': 0.37}
{'loss': 0.0349, 'grad_norm': 7.203415870666504, 'learning_rate': 1.8902649318074934e-05, 'epoch': 0.38}
{'loss': 0.0282, 'grad_norm': 0.04690209776163101, 'learning_rate': 1.8880254406198912e-05, 'epoch': 0.38}
{'loss': 0.034, 'grad_norm': 0.10681267082691193, 'learning_rate': 1.885785949432289e-05, 'epoch': 0.39}
{'loss': 0.0376, 'grad_norm': 0.5834813117980957, 'learning_rate': 1.883546458244687e-05, 'epoch': 0.39}
{'loss': 0.0265, 'grad_norm': 1.8356763124465942, 'learning_rate': 1.8813069670570847e-05, 'epoch': 0.4}
{'loss': 0.0267, 'grad_norm': 1.5589691400527954, 'learning_rate': 1.8790674758694826e-05, 'epoch': 0.41}
{'loss': 0.0241, 'grad_norm': 0.20994938910007477, 'learning_rate': 1.8768279846818804e-05, 'epoch': 0.41}
{'loss': 0.033, 'grad_norm': 1.8584221601486206, 'learning_rate': 1.8745884934942783e-05, 'epoch': 0.42}
{'loss': 0.0323, 'grad_norm': 1.917885661125183, 'learning_rate': 1.872349002306676e-05, 'epoch': 0.42}
{'loss': 0.0278, 'grad_norm': 6.673130989074707, 'learning_rate': 1.870109511119074e-05, 'epoch': 0.43}
{'loss': 0.025, 'grad_norm': 0.09119334816932678, 'learning_rate': 1.8678700199314718e-05, 'epoch': 0.43}
{'loss': 0.0363, 'grad_norm': 0.1400763988494873, 'learning_rate': 1.8656305287438696e-05, 'epoch': 0.44}
{'loss': 0.0312, 'grad_norm': 0.1186104416847229, 'learning_rate': 1.8633910375562674e-05, 'epoch': 0.44}
{'loss': 0.0307, 'grad_norm': 0.7495352625846863, 'learning_rate': 1.8611515463686653e-05, 'epoch': 0.45}
{'loss': 0.0305, 'grad_norm': 1.1061906814575195, 'learning_rate': 1.858912055181063e-05, 'epoch': 0.45}
{'loss': 0.028, 'grad_norm': 1.001441240310669, 'learning_rate': 1.856672563993461e-05, 'epoch': 0.46}
{'loss': 0.0279, 'grad_norm': 6.4315948486328125, 'learning_rate': 1.8544330728058588e-05, 'epoch': 0.47}
{'loss': 0.0265, 'grad_norm': 0.16143333911895752, 'learning_rate': 1.8521935816182566e-05, 'epoch': 0.47}
{'loss': 0.0262, 'grad_norm': 0.020146619528532028, 'learning_rate': 1.8499540904306544e-05, 'epoch': 0.48}
{'loss': 0.0308, 'grad_norm': 1.1892863512039185, 'learning_rate': 1.847714599243052e-05, 'epoch': 0.48}
{'loss': 0.0282, 'grad_norm': 0.5584899187088013, 'learning_rate': 1.84547510805545e-05, 'epoch': 0.49}
{'loss': 0.0243, 'grad_norm': 0.2598753869533539, 'learning_rate': 1.843235616867848e-05, 'epoch': 0.49}
{'loss': 0.0236, 'grad_norm': 2.231210947036743, 'learning_rate': 1.8409961256802454e-05, 'epoch': 0.5}
{'loss': 0.02, 'grad_norm': 0.025564778596162796, 'learning_rate': 1.8387566344926436e-05, 'epoch': 0.5}
{'loss': 0.0254, 'grad_norm': 12.388060569763184, 'learning_rate': 1.836517143305041e-05, 'epoch': 0.51}
{'loss': 0.0275, 'grad_norm': 0.014444425702095032, 'learning_rate': 1.834277652117439e-05, 'epoch': 0.51}
{'loss': 0.0309, 'grad_norm': 16.885656356811523, 'learning_rate': 1.832038160929837e-05, 'epoch': 0.52}
{'loss': 0.031, 'grad_norm': 13.603434562683105, 'learning_rate': 1.8297986697422346e-05, 'epoch': 0.53}
{'loss': 0.0271, 'grad_norm': 0.5440975427627563, 'learning_rate': 1.8275591785546325e-05, 'epoch': 0.53}
{'loss': 0.0218, 'grad_norm': 0.480385959148407, 'learning_rate': 1.8253196873670306e-05, 'epoch': 0.54}
{'loss': 0.0249, 'grad_norm': 0.11402398347854614, 'learning_rate': 1.823080196179428e-05, 'epoch': 0.54}
{'loss': 0.0285, 'grad_norm': 0.020077334716916084, 'learning_rate': 1.820840704991826e-05, 'epoch': 0.55}
{'loss': 0.03, 'grad_norm': 8.4814453125, 'learning_rate': 1.8186012138042238e-05, 'epoch': 0.55}
{'loss': 0.0284, 'grad_norm': 0.8492074012756348, 'learning_rate': 1.8163617226166216e-05, 'epoch': 0.56}
{'loss': 0.0258, 'grad_norm': 0.10311955213546753, 'learning_rate': 1.8141222314290195e-05, 'epoch': 0.56}
{'loss': 0.0228, 'grad_norm': 0.04972610995173454, 'learning_rate': 1.8118827402414173e-05, 'epoch': 0.57}
{'loss': 0.0305, 'grad_norm': 2.9211368560791016, 'learning_rate': 1.809643249053815e-05, 'epoch': 0.57}
{'loss': 0.0234, 'grad_norm': 0.11432399600744247, 'learning_rate': 1.807403757866213e-05, 'epoch': 0.58}
{'loss': 0.0209, 'grad_norm': 0.15198394656181335, 'learning_rate': 1.8051642666786108e-05, 'epoch': 0.59}
{'loss': 0.0341, 'grad_norm': 4.720141410827637, 'learning_rate': 1.8029247754910086e-05, 'epoch': 0.59}
{'loss': 0.0269, 'grad_norm': 0.02421008236706257, 'learning_rate': 1.8006852843034065e-05, 'epoch': 0.6}
{'loss': 0.0267, 'grad_norm': 0.49286821484565735, 'learning_rate': 1.798445793115804e-05, 'epoch': 0.6}
{'loss': 0.0245, 'grad_norm': 0.0072012050077319145, 'learning_rate': 1.796206301928202e-05, 'epoch': 0.61}
{'loss': 0.0263, 'grad_norm': 0.17817166447639465, 'learning_rate': 1.7939668107406e-05, 'epoch': 0.61}
{'loss': 0.0195, 'grad_norm': 0.024026205763220787, 'learning_rate': 1.7917273195529975e-05, 'epoch': 0.62}
{'loss': 0.0209, 'grad_norm': 0.21048341691493988, 'learning_rate': 1.7894878283653957e-05, 'epoch': 0.62}
{'loss': 0.0313, 'grad_norm': 0.32045114040374756, 'learning_rate': 1.7872483371777935e-05, 'epoch': 0.63}
{'loss': 0.0247, 'grad_norm': 0.17071415483951569, 'learning_rate': 1.785008845990191e-05, 'epoch': 0.64}
{'loss': 0.0285, 'grad_norm': 0.03091379813849926, 'learning_rate': 1.782769354802589e-05, 'epoch': 0.64}
{'loss': 0.0301, 'grad_norm': 0.007939248345792294, 'learning_rate': 1.7805298636149867e-05, 'epoch': 0.65}
{'loss': 0.0227, 'grad_norm': 0.4531534016132355, 'learning_rate': 1.7782903724273845e-05, 'epoch': 0.65}
{'loss': 0.0235, 'grad_norm': 0.06630811095237732, 'learning_rate': 1.7760508812397827e-05, 'epoch': 0.66}
{'loss': 0.0272, 'grad_norm': 0.40065327286720276, 'learning_rate': 1.77381139005218e-05, 'epoch': 0.66}
{'loss': 0.025, 'grad_norm': 2.7814598083496094, 'learning_rate': 1.771571898864578e-05, 'epoch': 0.67}
{'loss': 0.0276, 'grad_norm': 2.402163028717041, 'learning_rate': 1.769332407676976e-05, 'epoch': 0.67}
{'loss': 0.0289, 'grad_norm': 0.03239729255437851, 'learning_rate': 1.7670929164893737e-05, 'epoch': 0.68}
{'loss': 0.0232, 'grad_norm': 0.6327053904533386, 'learning_rate': 1.7648534253017715e-05, 'epoch': 0.68}
{'loss': 0.0258, 'grad_norm': 0.08029168099164963, 'learning_rate': 1.7626139341141693e-05, 'epoch': 0.69}
{'loss': 0.0254, 'grad_norm': 0.1738702803850174, 'learning_rate': 1.7603744429265672e-05, 'epoch': 0.7}
{'loss': 0.0205, 'grad_norm': 0.06688190996646881, 'learning_rate': 1.758134951738965e-05, 'epoch': 0.7}
{'loss': 0.0216, 'grad_norm': 0.21624340116977692, 'learning_rate': 1.755895460551363e-05, 'epoch': 0.71}
{'loss': 0.0304, 'grad_norm': 0.15297529101371765, 'learning_rate': 1.7536559693637607e-05, 'epoch': 0.71}
{'loss': 0.0234, 'grad_norm': 0.019339820370078087, 'learning_rate': 1.7514164781761585e-05, 'epoch': 0.72}
{'loss': 0.0233, 'grad_norm': 0.25130143761634827, 'learning_rate': 1.7491769869885563e-05, 'epoch': 0.72}
{'loss': 0.0239, 'grad_norm': 0.06551504135131836, 'learning_rate': 1.7469374958009542e-05, 'epoch': 0.73}
{'loss': 0.0166, 'grad_norm': 6.077746391296387, 'learning_rate': 1.744698004613352e-05, 'epoch': 0.73}
{'loss': 0.0211, 'grad_norm': 0.019542552530765533, 'learning_rate': 1.74245851342575e-05, 'epoch': 0.74}
{'loss': 0.0212, 'grad_norm': 0.01987328752875328, 'learning_rate': 1.7402190222381477e-05, 'epoch': 0.74}
{'loss': 0.0247, 'grad_norm': 0.9539387226104736, 'learning_rate': 1.7379795310505455e-05, 'epoch': 0.75}
{'loss': 0.023, 'grad_norm': 1.40300452709198, 'learning_rate': 1.7357400398629434e-05, 'epoch': 0.76}
{'loss': 0.0261, 'grad_norm': 0.1152738556265831, 'learning_rate': 1.7335005486753412e-05, 'epoch': 0.76}
{'loss': 0.0204, 'grad_norm': 0.1181008443236351, 'learning_rate': 1.731261057487739e-05, 'epoch': 0.77}
{'loss': 0.026, 'grad_norm': 0.36036548018455505, 'learning_rate': 1.729021566300137e-05, 'epoch': 0.77}
{'loss': 0.0299, 'grad_norm': 0.021303873509168625, 'learning_rate': 1.7267820751125347e-05, 'epoch': 0.78}
{'loss': 0.0183, 'grad_norm': 1.2206119298934937, 'learning_rate': 1.7245425839249322e-05, 'epoch': 0.78}
{'loss': 0.0228, 'grad_norm': 1.1102793216705322, 'learning_rate': 1.7223030927373304e-05, 'epoch': 0.79}
{'loss': 0.0181, 'grad_norm': 1.511096477508545, 'learning_rate': 1.7200636015497282e-05, 'epoch': 0.79}
{'loss': 0.0237, 'grad_norm': 0.43338674306869507, 'learning_rate': 1.7178241103621257e-05, 'epoch': 0.8}
{'loss': 0.0237, 'grad_norm': 0.20501121878623962, 'learning_rate': 1.715584619174524e-05, 'epoch': 0.8}
{'loss': 0.0158, 'grad_norm': 0.09320724755525589, 'learning_rate': 1.7133451279869217e-05, 'epoch': 0.81}
{'loss': 0.0222, 'grad_norm': 0.43307095766067505, 'learning_rate': 1.7111056367993192e-05, 'epoch': 0.82}
{'loss': 0.0196, 'grad_norm': 0.9130146503448486, 'learning_rate': 1.7088661456117174e-05, 'epoch': 0.82}
{'loss': 0.0242, 'grad_norm': 4.501875400543213, 'learning_rate': 1.706626654424115e-05, 'epoch': 0.83}
{'loss': 0.0218, 'grad_norm': 0.041434165090322495, 'learning_rate': 1.7043871632365127e-05, 'epoch': 0.83}
{'loss': 0.0201, 'grad_norm': 18.74702262878418, 'learning_rate': 1.702147672048911e-05, 'epoch': 0.84}
{'loss': 0.026, 'grad_norm': 0.03762982413172722, 'learning_rate': 1.6999081808613084e-05, 'epoch': 0.84}
{'loss': 0.0232, 'grad_norm': 0.12932895123958588, 'learning_rate': 1.6976686896737062e-05, 'epoch': 0.85}
{'loss': 0.0254, 'grad_norm': 0.8021348118782043, 'learning_rate': 1.695429198486104e-05, 'epoch': 0.85}
{'loss': 0.0218, 'grad_norm': 0.1913072168827057, 'learning_rate': 1.693189707298502e-05, 'epoch': 0.86}
{'loss': 0.0219, 'grad_norm': 0.00855530146509409, 'learning_rate': 1.6909502161108997e-05, 'epoch': 0.87}
{'loss': 0.0255, 'grad_norm': 0.9369354844093323, 'learning_rate': 1.6887107249232976e-05, 'epoch': 0.87}
{'loss': 0.0201, 'grad_norm': 0.0015777107328176498, 'learning_rate': 1.6864712337356954e-05, 'epoch': 0.88}
{'loss': 0.0301, 'grad_norm': 3.1490933895111084, 'learning_rate': 1.6842317425480932e-05, 'epoch': 0.88}
{'loss': 0.0275, 'grad_norm': 0.02967211790382862, 'learning_rate': 1.681992251360491e-05, 'epoch': 0.89}
{'loss': 0.018, 'grad_norm': 0.013429056853055954, 'learning_rate': 1.679752760172889e-05, 'epoch': 0.89}
{'loss': 0.028, 'grad_norm': 0.269550621509552, 'learning_rate': 1.6775132689852867e-05, 'epoch': 0.9}
{'loss': 0.0223, 'grad_norm': 0.30404672026634216, 'learning_rate': 1.6752737777976846e-05, 'epoch': 0.9}
{'loss': 0.0201, 'grad_norm': 0.013556144200265408, 'learning_rate': 1.6730342866100824e-05, 'epoch': 0.91}
{'loss': 0.0299, 'grad_norm': 0.046162448823451996, 'learning_rate': 1.6707947954224802e-05, 'epoch': 0.91}
{'loss': 0.0251, 'grad_norm': 0.020988399162888527, 'learning_rate': 1.6685553042348777e-05, 'epoch': 0.92}
{'loss': 0.0203, 'grad_norm': 0.07533540576696396, 'learning_rate': 1.666315813047276e-05, 'epoch': 0.93}
{'loss': 0.0209, 'grad_norm': 0.7397226691246033, 'learning_rate': 1.6640763218596737e-05, 'epoch': 0.93}
{'loss': 0.0236, 'grad_norm': 0.01838051900267601, 'learning_rate': 1.6618368306720712e-05, 'epoch': 0.94}
{'loss': 0.0191, 'grad_norm': 0.03700494021177292, 'learning_rate': 1.6595973394844694e-05, 'epoch': 0.94}
{'loss': 0.0168, 'grad_norm': 0.07713836431503296, 'learning_rate': 1.657357848296867e-05, 'epoch': 0.95}
{'loss': 0.017, 'grad_norm': 3.437300682067871, 'learning_rate': 1.6551183571092647e-05, 'epoch': 0.95}
{'loss': 0.0201, 'grad_norm': 0.06772757321596146, 'learning_rate': 1.652878865921663e-05, 'epoch': 0.96}
{'loss': 0.0171, 'grad_norm': 0.8847533464431763, 'learning_rate': 1.6506393747340604e-05, 'epoch': 0.96}
{'loss': 0.0217, 'grad_norm': 0.0963427796959877, 'learning_rate': 1.6483998835464583e-05, 'epoch': 0.97}
{'loss': 0.0208, 'grad_norm': 0.45162704586982727, 'learning_rate': 1.6461603923588564e-05, 'epoch': 0.97}
{'loss': 0.0157, 'grad_norm': 0.1655539721250534, 'learning_rate': 1.643920901171254e-05, 'epoch': 0.98}
{'loss': 0.0218, 'grad_norm': 0.010928811505436897, 'learning_rate': 1.6416814099836518e-05, 'epoch': 0.99}
{'loss': 0.021, 'grad_norm': 6.908138751983643, 'learning_rate': 1.6394419187960496e-05, 'epoch': 0.99}
{'loss': 0.0159, 'grad_norm': 2.0493404865264893, 'learning_rate': 1.6372024276084474e-05, 'epoch': 1.0}
{'loss': 0.0189, 'grad_norm': 0.10856210440397263, 'learning_rate': 1.6349629364208453e-05, 'epoch': 1.0}
{'loss': 0.0182, 'grad_norm': 2.7368407249450684, 'learning_rate': 1.632723445233243e-05, 'epoch': 1.01}
{'loss': 0.0206, 'grad_norm': 0.09092140942811966, 'learning_rate': 1.630483954045641e-05, 'epoch': 1.01}
{'loss': 0.0179, 'grad_norm': 0.01954420655965805, 'learning_rate': 1.6282444628580388e-05, 'epoch': 1.02}
{'loss': 0.0168, 'grad_norm': 0.043369174003601074, 'learning_rate': 1.6260049716704366e-05, 'epoch': 1.02}
{'loss': 0.019, 'grad_norm': 0.01492550503462553, 'learning_rate': 1.6237654804828344e-05, 'epoch': 1.03}
{'loss': 0.0173, 'grad_norm': 0.0102744922041893, 'learning_rate': 1.6215259892952323e-05, 'epoch': 1.03}
{'loss': 0.0172, 'grad_norm': 0.7786262631416321, 'learning_rate': 1.61928649810763e-05, 'epoch': 1.04}
{'loss': 0.0187, 'grad_norm': 0.033732105046510696, 'learning_rate': 1.617047006920028e-05, 'epoch': 1.05}
{'loss': 0.0199, 'grad_norm': 0.01999427191913128, 'learning_rate': 1.6148075157324258e-05, 'epoch': 1.05}
{'loss': 0.0202, 'grad_norm': 0.0032311684917658567, 'learning_rate': 1.6125680245448236e-05, 'epoch': 1.06}
{'loss': 0.0198, 'grad_norm': 0.09005136042833328, 'learning_rate': 1.6103285333572214e-05, 'epoch': 1.06}
{'loss': 0.0157, 'grad_norm': 0.48562514781951904, 'learning_rate': 1.6080890421696193e-05, 'epoch': 1.07}
{'loss': 0.0178, 'grad_norm': 0.021473940461874008, 'learning_rate': 1.605849550982017e-05, 'epoch': 1.07}
{'loss': 0.0147, 'grad_norm': 7.715484142303467, 'learning_rate': 1.603610059794415e-05, 'epoch': 1.08}
{'loss': 0.0152, 'grad_norm': 0.1648186594247818, 'learning_rate': 1.6013705686068124e-05, 'epoch': 1.08}
{'loss': 0.0152, 'grad_norm': 0.0015509655931964517, 'learning_rate': 1.5991310774192106e-05, 'epoch': 1.09}
{'loss': 0.0126, 'grad_norm': 0.23705679178237915, 'learning_rate': 1.5968915862316085e-05, 'epoch': 1.1}
{'loss': 0.0115, 'grad_norm': 0.019256843253970146, 'learning_rate': 1.594652095044006e-05, 'epoch': 1.1}
{'loss': 0.0122, 'grad_norm': 0.5769898295402527, 'learning_rate': 1.592412603856404e-05, 'epoch': 1.11}
{'loss': 0.0097, 'grad_norm': 0.03456917405128479, 'learning_rate': 1.590173112668802e-05, 'epoch': 1.11}
{'loss': 0.0149, 'grad_norm': 0.671821117401123, 'learning_rate': 1.5879336214811995e-05, 'epoch': 1.12}
{'loss': 0.0151, 'grad_norm': 0.004286791197955608, 'learning_rate': 1.5856941302935976e-05, 'epoch': 1.12}
{'loss': 0.0134, 'grad_norm': 0.13815534114837646, 'learning_rate': 1.583454639105995e-05, 'epoch': 1.13}
{'loss': 0.0157, 'grad_norm': 0.042440492659807205, 'learning_rate': 1.581215147918393e-05, 'epoch': 1.13}
{'loss': 0.0141, 'grad_norm': 0.003109186887741089, 'learning_rate': 1.5789756567307908e-05, 'epoch': 1.14}
{'loss': 0.0139, 'grad_norm': 4.196854591369629, 'learning_rate': 1.5767361655431886e-05, 'epoch': 1.14}
{'loss': 0.0149, 'grad_norm': 0.36187997460365295, 'learning_rate': 1.5744966743555865e-05, 'epoch': 1.15}
{'loss': 0.0103, 'grad_norm': 0.08171387016773224, 'learning_rate': 1.5722571831679843e-05, 'epoch': 1.16}
{'loss': 0.0138, 'grad_norm': 0.18907544016838074, 'learning_rate': 1.570017691980382e-05, 'epoch': 1.16}
{'loss': 0.0116, 'grad_norm': 0.01975160650908947, 'learning_rate': 1.56777820079278e-05, 'epoch': 1.17}
{'loss': 0.0146, 'grad_norm': 0.16162721812725067, 'learning_rate': 1.5655387096051778e-05, 'epoch': 1.17}
{'loss': 0.0168, 'grad_norm': 14.283798217773438, 'learning_rate': 1.5632992184175756e-05, 'epoch': 1.18}
{'loss': 0.0166, 'grad_norm': 0.984356164932251, 'learning_rate': 1.5610597272299735e-05, 'epoch': 1.18}
{'loss': 0.0136, 'grad_norm': 0.4644564688205719, 'learning_rate': 1.5588202360423713e-05, 'epoch': 1.19}
{'loss': 0.0103, 'grad_norm': 0.1780320703983307, 'learning_rate': 1.556580744854769e-05, 'epoch': 1.19}
{'loss': 0.0128, 'grad_norm': 0.12859980762004852, 'learning_rate': 1.554341253667167e-05, 'epoch': 1.2}
{'loss': 0.0112, 'grad_norm': 0.45004957914352417, 'learning_rate': 1.5521017624795648e-05, 'epoch': 1.2}
{'loss': 0.0103, 'grad_norm': 0.6201251745223999, 'learning_rate': 1.5498622712919627e-05, 'epoch': 1.21}
{'loss': 0.0133, 'grad_norm': 1.4645249843597412, 'learning_rate': 1.5476227801043605e-05, 'epoch': 1.22}
{'loss': 0.0118, 'grad_norm': 1.33707594871521, 'learning_rate': 1.545383288916758e-05, 'epoch': 1.22}
{'loss': 0.009, 'grad_norm': 0.0075813643634319305, 'learning_rate': 1.543143797729156e-05, 'epoch': 1.23}
{'loss': 0.0151, 'grad_norm': 0.06382226198911667, 'learning_rate': 1.540904306541554e-05, 'epoch': 1.23}
{'loss': 0.0146, 'grad_norm': 0.06127556413412094, 'learning_rate': 1.5386648153539515e-05, 'epoch': 1.24}
{'loss': 0.0143, 'grad_norm': 0.05294317007064819, 'learning_rate': 1.5364253241663497e-05, 'epoch': 1.24}
{'loss': 0.01, 'grad_norm': 0.031760863959789276, 'learning_rate': 1.5341858329787475e-05, 'epoch': 1.25}
{'loss': 0.0147, 'grad_norm': 0.22437328100204468, 'learning_rate': 1.531946341791145e-05, 'epoch': 1.25}
{'loss': 0.011, 'grad_norm': 1.463218092918396, 'learning_rate': 1.5297068506035432e-05, 'epoch': 1.26}
{'loss': 0.0121, 'grad_norm': 0.025357956066727638, 'learning_rate': 1.5274673594159407e-05, 'epoch': 1.26}
{'loss': 0.0117, 'grad_norm': 0.004972013644874096, 'learning_rate': 1.5252278682283385e-05, 'epoch': 1.27}
{'loss': 0.0151, 'grad_norm': 0.14370237290859222, 'learning_rate': 1.5229883770407365e-05, 'epoch': 1.28}
{'loss': 0.0143, 'grad_norm': 1.6805877685546875, 'learning_rate': 1.5207488858531343e-05, 'epoch': 1.28}
{'loss': 0.0163, 'grad_norm': 0.11494574695825577, 'learning_rate': 1.518509394665532e-05, 'epoch': 1.29}
{'loss': 0.0135, 'grad_norm': 0.03341173008084297, 'learning_rate': 1.51626990347793e-05, 'epoch': 1.29}
{'loss': 0.0118, 'grad_norm': 0.026476634666323662, 'learning_rate': 1.5140304122903279e-05, 'epoch': 1.3}
{'loss': 0.0129, 'grad_norm': 0.020570116117596626, 'learning_rate': 1.5117909211027255e-05, 'epoch': 1.3}
{'loss': 0.0062, 'grad_norm': 0.36162054538726807, 'learning_rate': 1.5095514299151235e-05, 'epoch': 1.31}
{'loss': 0.0127, 'grad_norm': 0.013678218238055706, 'learning_rate': 1.5073119387275212e-05, 'epoch': 1.31}
{'loss': 0.014, 'grad_norm': 2.711167335510254, 'learning_rate': 1.505072447539919e-05, 'epoch': 1.32}
{'loss': 0.0131, 'grad_norm': 0.3496088981628418, 'learning_rate': 1.502832956352317e-05, 'epoch': 1.33}
{'loss': 0.0162, 'grad_norm': 0.018671611323952675, 'learning_rate': 1.5005934651647147e-05, 'epoch': 1.33}
{'loss': 0.0107, 'grad_norm': 0.001666502095758915, 'learning_rate': 1.4983539739771125e-05, 'epoch': 1.34}
{'loss': 0.0125, 'grad_norm': 4.59019136428833, 'learning_rate': 1.4961144827895104e-05, 'epoch': 1.34}
{'loss': 0.0136, 'grad_norm': 0.2412848323583603, 'learning_rate': 1.4938749916019082e-05, 'epoch': 1.35}
{'loss': 0.0112, 'grad_norm': 0.02962004393339157, 'learning_rate': 1.4916355004143059e-05, 'epoch': 1.35}
{'loss': 0.0126, 'grad_norm': 0.36205366253852844, 'learning_rate': 1.4893960092267039e-05, 'epoch': 1.36}
{'loss': 0.0079, 'grad_norm': 0.031118787825107574, 'learning_rate': 1.4871565180391017e-05, 'epoch': 1.36}
{'loss': 0.0104, 'grad_norm': 0.16951577365398407, 'learning_rate': 1.4849170268514994e-05, 'epoch': 1.37}
{'loss': 0.0137, 'grad_norm': 0.26067009568214417, 'learning_rate': 1.4826775356638974e-05, 'epoch': 1.37}
{'loss': 0.0075, 'grad_norm': 0.04934118688106537, 'learning_rate': 1.4804380444762952e-05, 'epoch': 1.38}
{'loss': 0.0108, 'grad_norm': 0.009564828127622604, 'learning_rate': 1.4781985532886929e-05, 'epoch': 1.39}
{'loss': 0.0087, 'grad_norm': 0.10579288750886917, 'learning_rate': 1.4759590621010909e-05, 'epoch': 1.39}
{'loss': 0.0138, 'grad_norm': 0.31085848808288574, 'learning_rate': 1.4737195709134885e-05, 'epoch': 1.4}
{'loss': 0.0056, 'grad_norm': 0.10199588537216187, 'learning_rate': 1.4714800797258864e-05, 'epoch': 1.4}
{'loss': 0.0067, 'grad_norm': 0.2795519232749939, 'learning_rate': 1.4692405885382844e-05, 'epoch': 1.41}
{'loss': 0.0103, 'grad_norm': 0.023119742050766945, 'learning_rate': 1.467001097350682e-05, 'epoch': 1.41}
{'loss': 0.0102, 'grad_norm': 0.08798133581876755, 'learning_rate': 1.4647616061630799e-05, 'epoch': 1.42}
{'loss': 0.0119, 'grad_norm': 0.0012799632968381047, 'learning_rate': 1.4625221149754776e-05, 'epoch': 1.42}
{'loss': 0.0094, 'grad_norm': 0.01972614973783493, 'learning_rate': 1.4602826237878756e-05, 'epoch': 1.43}
{'loss': 0.0075, 'grad_norm': 0.005090704187750816, 'learning_rate': 1.4580431326002732e-05, 'epoch': 1.43}
{'loss': 0.0146, 'grad_norm': 0.2999782860279083, 'learning_rate': 1.455803641412671e-05, 'epoch': 1.44}
{'loss': 0.0103, 'grad_norm': 0.00834854319691658, 'learning_rate': 1.453564150225069e-05, 'epoch': 1.45}
{'loss': 0.0123, 'grad_norm': 0.007013251073658466, 'learning_rate': 1.4513246590374667e-05, 'epoch': 1.45}
{'loss': 0.0107, 'grad_norm': 0.11994576454162598, 'learning_rate': 1.4490851678498646e-05, 'epoch': 1.46}
{'loss': 0.0071, 'grad_norm': 0.012767240405082703, 'learning_rate': 1.4468456766622626e-05, 'epoch': 1.46}
{'loss': 0.0087, 'grad_norm': 0.4222990870475769, 'learning_rate': 1.4446061854746602e-05, 'epoch': 1.47}
{'loss': 0.0072, 'grad_norm': 0.6226161122322083, 'learning_rate': 1.442366694287058e-05, 'epoch': 1.47}
{'loss': 0.0094, 'grad_norm': 0.23288856446743011, 'learning_rate': 1.4401272030994559e-05, 'epoch': 1.48}
{'loss': 0.0083, 'grad_norm': 0.026115866377949715, 'learning_rate': 1.4378877119118537e-05, 'epoch': 1.48}
{'loss': 0.0104, 'grad_norm': 0.0783042460680008, 'learning_rate': 1.4356482207242514e-05, 'epoch': 1.49}
{'loss': 0.0076, 'grad_norm': 0.5086662769317627, 'learning_rate': 1.4334087295366494e-05, 'epoch': 1.49}
{'loss': 0.006, 'grad_norm': 0.63682621717453, 'learning_rate': 1.4311692383490472e-05, 'epoch': 1.5}
{'loss': 0.0085, 'grad_norm': 0.05100702494382858, 'learning_rate': 1.4289297471614449e-05, 'epoch': 1.51}
{'loss': 0.0061, 'grad_norm': 0.741942286491394, 'learning_rate': 1.4266902559738429e-05, 'epoch': 1.51}
{'loss': 0.0106, 'grad_norm': 0.002769783604890108, 'learning_rate': 1.4244507647862407e-05, 'epoch': 1.52}
{'loss': 0.0088, 'grad_norm': 0.028197582811117172, 'learning_rate': 1.4222112735986384e-05, 'epoch': 1.52}
{'loss': 0.0111, 'grad_norm': 0.02364266850054264, 'learning_rate': 1.4199717824110364e-05, 'epoch': 1.53}
{'loss': 0.0094, 'grad_norm': 0.16233578324317932, 'learning_rate': 1.4177322912234341e-05, 'epoch': 1.53}
{'loss': 0.0079, 'grad_norm': 0.05021541193127632, 'learning_rate': 1.415492800035832e-05, 'epoch': 1.54}
{'loss': 0.0095, 'grad_norm': 0.00331246224232018, 'learning_rate': 1.41325330884823e-05, 'epoch': 1.54}
{'loss': 0.0098, 'grad_norm': 0.07592795044183731, 'learning_rate': 1.4110138176606276e-05, 'epoch': 1.55}
{'loss': 0.0139, 'grad_norm': 0.09074956923723221, 'learning_rate': 1.4087743264730254e-05, 'epoch': 1.56}
{'loss': 0.0085, 'grad_norm': 0.10638327151536942, 'learning_rate': 1.4065348352854233e-05, 'epoch': 1.56}
{'loss': 0.0094, 'grad_norm': 0.02220524474978447, 'learning_rate': 1.4042953440978211e-05, 'epoch': 1.57}
{'loss': 0.0088, 'grad_norm': 0.045808251947164536, 'learning_rate': 1.4020558529102188e-05, 'epoch': 1.57}
{'loss': 0.0092, 'grad_norm': 0.15339775383472443, 'learning_rate': 1.3998163617226168e-05, 'epoch': 1.58}
{'loss': 0.0071, 'grad_norm': 0.009142019785940647, 'learning_rate': 1.3975768705350146e-05, 'epoch': 1.58}
{'loss': 0.0101, 'grad_norm': 0.15891438722610474, 'learning_rate': 1.3953373793474123e-05, 'epoch': 1.59}
{'loss': 0.011, 'grad_norm': 0.010278990492224693, 'learning_rate': 1.3930978881598103e-05, 'epoch': 1.59}
{'loss': 0.0097, 'grad_norm': 0.18057747185230255, 'learning_rate': 1.3908583969722081e-05, 'epoch': 1.6}
{'loss': 0.0071, 'grad_norm': 0.7384783625602722, 'learning_rate': 1.3886189057846058e-05, 'epoch': 1.6}
{'loss': 0.0114, 'grad_norm': 0.0011770115233957767, 'learning_rate': 1.3863794145970038e-05, 'epoch': 1.61}
{'loss': 0.0087, 'grad_norm': 0.033389296382665634, 'learning_rate': 1.3841399234094014e-05, 'epoch': 1.62}
{'loss': 0.0075, 'grad_norm': 0.06636679172515869, 'learning_rate': 1.3819004322217993e-05, 'epoch': 1.62}
{'loss': 0.0039, 'grad_norm': 0.018852446228265762, 'learning_rate': 1.3796609410341973e-05, 'epoch': 1.63}
{'loss': 0.0091, 'grad_norm': 0.3978893458843231, 'learning_rate': 1.377421449846595e-05, 'epoch': 1.63}
{'loss': 0.0117, 'grad_norm': 0.044826582074165344, 'learning_rate': 1.3751819586589928e-05, 'epoch': 1.64}
{'loss': 0.01, 'grad_norm': 0.0314922071993351, 'learning_rate': 1.3729424674713908e-05, 'epoch': 1.64}
{'loss': 0.0099, 'grad_norm': 0.008845321834087372, 'learning_rate': 1.3707029762837885e-05, 'epoch': 1.65}
{'loss': 0.0069, 'grad_norm': 0.012995203956961632, 'learning_rate': 1.3684634850961863e-05, 'epoch': 1.65}
{'loss': 0.0084, 'grad_norm': 0.2505897283554077, 'learning_rate': 1.3662239939085841e-05, 'epoch': 1.66}
{'loss': 0.0118, 'grad_norm': 0.576478898525238, 'learning_rate': 1.363984502720982e-05, 'epoch': 1.66}
{'loss': 0.0078, 'grad_norm': 0.03707367181777954, 'learning_rate': 1.3617450115333796e-05, 'epoch': 1.67}
{'loss': 0.0067, 'grad_norm': 0.013740709982812405, 'learning_rate': 1.3595055203457776e-05, 'epoch': 1.68}
{'loss': 0.0133, 'grad_norm': 0.032045792788267136, 'learning_rate': 1.3572660291581755e-05, 'epoch': 1.68}
{'loss': 0.0079, 'grad_norm': 0.011074294336140156, 'learning_rate': 1.3550265379705731e-05, 'epoch': 1.69}
{'loss': 0.0092, 'grad_norm': 15.06441879272461, 'learning_rate': 1.3527870467829711e-05, 'epoch': 1.69}
{'loss': 0.0069, 'grad_norm': 0.02328888699412346, 'learning_rate': 1.3505475555953688e-05, 'epoch': 1.7}
{'loss': 0.008, 'grad_norm': 0.09563597291707993, 'learning_rate': 1.3483080644077666e-05, 'epoch': 1.7}
{'loss': 0.0124, 'grad_norm': 0.18408024311065674, 'learning_rate': 1.3460685732201646e-05, 'epoch': 1.71}
{'loss': 0.0112, 'grad_norm': 5.72014856338501, 'learning_rate': 1.3438290820325623e-05, 'epoch': 1.71}
{'loss': 0.0074, 'grad_norm': 0.38538190722465515, 'learning_rate': 1.3415895908449601e-05, 'epoch': 1.72}
{'loss': 0.0091, 'grad_norm': 0.000642662460450083, 'learning_rate': 1.3393500996573578e-05, 'epoch': 1.72}
{'loss': 0.0088, 'grad_norm': 0.038307420909404755, 'learning_rate': 1.3371106084697558e-05, 'epoch': 1.73}
{'loss': 0.0061, 'grad_norm': 0.043493278324604034, 'learning_rate': 1.3348711172821536e-05, 'epoch': 1.74}
{'loss': 0.0089, 'grad_norm': 0.17391881346702576, 'learning_rate': 1.3326316260945513e-05, 'epoch': 1.74}
{'loss': 0.0082, 'grad_norm': 0.056078795343637466, 'learning_rate': 1.3303921349069493e-05, 'epoch': 1.75}
{'loss': 0.0103, 'grad_norm': 13.198871612548828, 'learning_rate': 1.328152643719347e-05, 'epoch': 1.75}
{'loss': 0.0094, 'grad_norm': 0.026877380907535553, 'learning_rate': 1.3259131525317448e-05, 'epoch': 1.76}
{'loss': 0.0073, 'grad_norm': 0.08020322024822235, 'learning_rate': 1.3236736613441428e-05, 'epoch': 1.76}
{'loss': 0.0116, 'grad_norm': 0.13889168202877045, 'learning_rate': 1.3214341701565405e-05, 'epoch': 1.77}
{'loss': 0.0112, 'grad_norm': 0.10164140164852142, 'learning_rate': 1.3191946789689383e-05, 'epoch': 1.77}
{'loss': 0.0057, 'grad_norm': 0.04719488322734833, 'learning_rate': 1.3169551877813362e-05, 'epoch': 1.78}
{'loss': 0.0075, 'grad_norm': 0.004808616824448109, 'learning_rate': 1.314715696593734e-05, 'epoch': 1.79}
{'loss': 0.0062, 'grad_norm': 4.645363807678223, 'learning_rate': 1.3124762054061317e-05, 'epoch': 1.79}
{'loss': 0.0046, 'grad_norm': 0.0703832358121872, 'learning_rate': 1.3102367142185297e-05, 'epoch': 1.8}
{'loss': 0.0091, 'grad_norm': 0.7329868078231812, 'learning_rate': 1.3079972230309275e-05, 'epoch': 1.8}
{'loss': 0.0066, 'grad_norm': 0.050435516983270645, 'learning_rate': 1.3057577318433252e-05, 'epoch': 1.81}
{'loss': 0.0051, 'grad_norm': 0.06814319640398026, 'learning_rate': 1.3035182406557232e-05, 'epoch': 1.81}
{'loss': 0.0066, 'grad_norm': 0.1799684762954712, 'learning_rate': 1.301278749468121e-05, 'epoch': 1.82}
{'loss': 0.0093, 'grad_norm': 0.26140815019607544, 'learning_rate': 1.2990392582805187e-05, 'epoch': 1.82}
{'loss': 0.0079, 'grad_norm': 0.015023380517959595, 'learning_rate': 1.2967997670929167e-05, 'epoch': 1.83}
{'loss': 0.0067, 'grad_norm': 0.018291285261511803, 'learning_rate': 1.2945602759053143e-05, 'epoch': 1.83}
{'loss': 0.007, 'grad_norm': 0.07480958849191666, 'learning_rate': 1.2923207847177122e-05, 'epoch': 1.84}
{'loss': 0.0133, 'grad_norm': 0.08360631763935089, 'learning_rate': 1.2900812935301102e-05, 'epoch': 1.85}
{'loss': 0.0071, 'grad_norm': 0.7749391198158264, 'learning_rate': 1.2878418023425078e-05, 'epoch': 1.85}
{'loss': 0.0091, 'grad_norm': 0.2316342443227768, 'learning_rate': 1.2856023111549057e-05, 'epoch': 1.86}
{'loss': 0.0067, 'grad_norm': 1.2949588298797607, 'learning_rate': 1.2833628199673037e-05, 'epoch': 1.86}
{'loss': 0.0091, 'grad_norm': 0.02135908231139183, 'learning_rate': 1.2811233287797014e-05, 'epoch': 1.87}
{'loss': 0.0103, 'grad_norm': 3.2552008628845215, 'learning_rate': 1.2788838375920992e-05, 'epoch': 1.87}
{'loss': 0.0058, 'grad_norm': 0.002404365921393037, 'learning_rate': 1.276644346404497e-05, 'epoch': 1.88}
{'loss': 0.0116, 'grad_norm': 0.021590234711766243, 'learning_rate': 1.2744048552168949e-05, 'epoch': 1.88}
{'loss': 0.0089, 'grad_norm': 0.0267606470733881, 'learning_rate': 1.2721653640292925e-05, 'epoch': 1.89}
{'loss': 0.0137, 'grad_norm': 0.08189389854669571, 'learning_rate': 1.2699258728416905e-05, 'epoch': 1.89}
{'loss': 0.0065, 'grad_norm': 0.009326275438070297, 'learning_rate': 1.2676863816540884e-05, 'epoch': 1.9}
{'loss': 0.0098, 'grad_norm': 0.0413086861371994, 'learning_rate': 1.265446890466486e-05, 'epoch': 1.91}
{'loss': 0.0083, 'grad_norm': 0.04068596288561821, 'learning_rate': 1.263207399278884e-05, 'epoch': 1.91}
{'loss': 0.0115, 'grad_norm': 0.011158055625855923, 'learning_rate': 1.2609679080912817e-05, 'epoch': 1.92}
{'loss': 0.0083, 'grad_norm': 3.782308578491211, 'learning_rate': 1.2587284169036795e-05, 'epoch': 1.92}
{'loss': 0.0084, 'grad_norm': 0.10942483693361282, 'learning_rate': 1.2564889257160775e-05, 'epoch': 1.93}
{'loss': 0.0091, 'grad_norm': 0.7013315558433533, 'learning_rate': 1.2542494345284752e-05, 'epoch': 1.93}
{'loss': 0.0092, 'grad_norm': 0.018937768414616585, 'learning_rate': 1.252009943340873e-05, 'epoch': 1.94}
{'loss': 0.0054, 'grad_norm': 1.5005667209625244, 'learning_rate': 1.249770452153271e-05, 'epoch': 1.94}
{'loss': 0.0049, 'grad_norm': 0.23089168965816498, 'learning_rate': 1.2475309609656687e-05, 'epoch': 1.95}
{'loss': 0.0072, 'grad_norm': 0.008295576088130474, 'learning_rate': 1.2452914697780665e-05, 'epoch': 1.95}
{'loss': 0.0052, 'grad_norm': 0.010741750709712505, 'learning_rate': 1.2430519785904644e-05, 'epoch': 1.96}
{'loss': 0.0063, 'grad_norm': 0.22365953028202057, 'learning_rate': 1.2408124874028622e-05, 'epoch': 1.97}
{'loss': 0.0107, 'grad_norm': 0.034852419048547745, 'learning_rate': 1.2385729962152599e-05, 'epoch': 1.97}
{'loss': 0.0061, 'grad_norm': 0.06765995174646378, 'learning_rate': 1.2363335050276579e-05, 'epoch': 1.98}
{'loss': 0.0059, 'grad_norm': 0.016805749386548996, 'learning_rate': 1.2340940138400557e-05, 'epoch': 1.98}
{'loss': 0.0067, 'grad_norm': 0.5831074118614197, 'learning_rate': 1.2318545226524534e-05, 'epoch': 1.99}
{'loss': 0.0078, 'grad_norm': 0.030119124799966812, 'learning_rate': 1.2296150314648514e-05, 'epoch': 1.99}
{'loss': 0.007, 'grad_norm': 0.20938828587532043, 'learning_rate': 1.2273755402772492e-05, 'epoch': 2.0}
{'loss': 0.0065, 'grad_norm': 0.009562190622091293, 'learning_rate': 1.2251360490896469e-05, 'epoch': 2.0}
{'loss': 0.0073, 'grad_norm': 0.094178207218647, 'learning_rate': 1.2228965579020447e-05, 'epoch': 2.01}
{'loss': 0.01, 'grad_norm': 0.009488407522439957, 'learning_rate': 1.2206570667144426e-05, 'epoch': 2.02}
{'loss': 0.0072, 'grad_norm': 0.012404072098433971, 'learning_rate': 1.2184175755268404e-05, 'epoch': 2.02}
{'loss': 0.0055, 'grad_norm': 0.03794926032423973, 'learning_rate': 1.216178084339238e-05, 'epoch': 2.03}
{'loss': 0.0087, 'grad_norm': 0.11889325082302094, 'learning_rate': 1.213938593151636e-05, 'epoch': 2.03}
{'loss': 0.0077, 'grad_norm': 0.17840054631233215, 'learning_rate': 1.2116991019640339e-05, 'epoch': 2.04}
{'loss': 0.0067, 'grad_norm': 0.007003217935562134, 'learning_rate': 1.2094596107764316e-05, 'epoch': 2.04}
{'loss': 0.008, 'grad_norm': 0.015604425221681595, 'learning_rate': 1.2072201195888296e-05, 'epoch': 2.05}
{'loss': 0.0074, 'grad_norm': 0.027836063876748085, 'learning_rate': 1.2049806284012272e-05, 'epoch': 2.05}
{'loss': 0.0072, 'grad_norm': 11.219870567321777, 'learning_rate': 1.202741137213625e-05, 'epoch': 2.06}
{'loss': 0.0045, 'grad_norm': 0.5155676603317261, 'learning_rate': 1.200501646026023e-05, 'epoch': 2.06}
{'loss': 0.0082, 'grad_norm': 0.0011188465869054198, 'learning_rate': 1.1982621548384207e-05, 'epoch': 2.07}
{'loss': 0.0042, 'grad_norm': 1.8003283739089966, 'learning_rate': 1.1960226636508186e-05, 'epoch': 2.08}
{'loss': 0.0076, 'grad_norm': 3.2485342025756836, 'learning_rate': 1.1937831724632166e-05, 'epoch': 2.08}
{'loss': 0.0058, 'grad_norm': 0.016679977998137474, 'learning_rate': 1.1915436812756143e-05, 'epoch': 2.09}
{'loss': 0.005, 'grad_norm': 0.0760900229215622, 'learning_rate': 1.1893041900880121e-05, 'epoch': 2.09}
{'loss': 0.0047, 'grad_norm': 0.1045154482126236, 'learning_rate': 1.18706469890041e-05, 'epoch': 2.1}
{'loss': 0.0045, 'grad_norm': 0.13673138618469238, 'learning_rate': 1.1848252077128078e-05, 'epoch': 2.1}
{'loss': 0.0043, 'grad_norm': 0.003820559475570917, 'learning_rate': 1.1825857165252054e-05, 'epoch': 2.11}
{'loss': 0.0049, 'grad_norm': 0.01683652587234974, 'learning_rate': 1.1803462253376034e-05, 'epoch': 2.11}
{'loss': 0.0058, 'grad_norm': 0.01756940223276615, 'learning_rate': 1.1781067341500013e-05, 'epoch': 2.12}
{'loss': 0.0081, 'grad_norm': 0.2571689188480377, 'learning_rate': 1.175867242962399e-05, 'epoch': 2.12}
{'loss': 0.0057, 'grad_norm': 0.00470293452963233, 'learning_rate': 1.173627751774797e-05, 'epoch': 2.13}
{'loss': 0.0047, 'grad_norm': 0.15966971218585968, 'learning_rate': 1.1713882605871946e-05, 'epoch': 2.14}
{'loss': 0.0073, 'grad_norm': 10.850295066833496, 'learning_rate': 1.1691487693995924e-05, 'epoch': 2.14}
{'loss': 0.0056, 'grad_norm': 0.02545018680393696, 'learning_rate': 1.1669092782119904e-05, 'epoch': 2.15}
{'loss': 0.006, 'grad_norm': 0.4927498400211334, 'learning_rate': 1.1646697870243881e-05, 'epoch': 2.15}
{'loss': 0.0061, 'grad_norm': 0.044341787695884705, 'learning_rate': 1.162430295836786e-05, 'epoch': 2.16}
{'loss': 0.0042, 'grad_norm': 0.005484799854457378, 'learning_rate': 1.160190804649184e-05, 'epoch': 2.16}
{'loss': 0.0057, 'grad_norm': 0.011644992977380753, 'learning_rate': 1.1579513134615816e-05, 'epoch': 2.17}
{'loss': 0.0055, 'grad_norm': 0.478604257106781, 'learning_rate': 1.1557118222739794e-05, 'epoch': 2.17}
{'loss': 0.0053, 'grad_norm': 0.013355757109820843, 'learning_rate': 1.1534723310863773e-05, 'epoch': 2.18}
{'loss': 0.0085, 'grad_norm': 0.021052315831184387, 'learning_rate': 1.1512328398987751e-05, 'epoch': 2.18}
{'loss': 0.005, 'grad_norm': 1.1859304904937744, 'learning_rate': 1.1489933487111728e-05, 'epoch': 2.19}
{'loss': 0.0055, 'grad_norm': 0.007172802928835154, 'learning_rate': 1.1467538575235708e-05, 'epoch': 2.2}
{'loss': 0.0032, 'grad_norm': 0.0038706334307789803, 'learning_rate': 1.1445143663359686e-05, 'epoch': 2.2}
{'loss': 0.0054, 'grad_norm': 1.872606635093689, 'learning_rate': 1.1422748751483663e-05, 'epoch': 2.21}
{'loss': 0.0037, 'grad_norm': 1.8617807626724243, 'learning_rate': 1.1400353839607643e-05, 'epoch': 2.21}
{'loss': 0.0046, 'grad_norm': 0.05619359761476517, 'learning_rate': 1.1377958927731621e-05, 'epoch': 2.22}
{'loss': 0.0029, 'grad_norm': 0.15391820669174194, 'learning_rate': 1.1355564015855598e-05, 'epoch': 2.22}
{'loss': 0.0043, 'grad_norm': 0.010528339073061943, 'learning_rate': 1.1333169103979578e-05, 'epoch': 2.23}
{'loss': 0.0063, 'grad_norm': 0.4744260907173157, 'learning_rate': 1.1310774192103555e-05, 'epoch': 2.23}
{'loss': 0.0064, 'grad_norm': 0.00845412164926529, 'learning_rate': 1.1288379280227533e-05, 'epoch': 2.24}
{'loss': 0.0046, 'grad_norm': 0.06398043781518936, 'learning_rate': 1.1265984368351513e-05, 'epoch': 2.25}
{'loss': 0.0061, 'grad_norm': 0.3351975381374359, 'learning_rate': 1.124358945647549e-05, 'epoch': 2.25}
{'loss': 0.0034, 'grad_norm': 0.025763623416423798, 'learning_rate': 1.1221194544599468e-05, 'epoch': 2.26}
{'loss': 0.0046, 'grad_norm': 0.0274388175457716, 'learning_rate': 1.1198799632723446e-05, 'epoch': 2.26}
{'loss': 0.0059, 'grad_norm': 0.033901914954185486, 'learning_rate': 1.1176404720847425e-05, 'epoch': 2.27}
{'loss': 0.0044, 'grad_norm': 0.03207828849554062, 'learning_rate': 1.1154009808971401e-05, 'epoch': 2.27}
{'loss': 0.0054, 'grad_norm': 0.13523073494434357, 'learning_rate': 1.1131614897095381e-05, 'epoch': 2.28}
{'loss': 0.0049, 'grad_norm': 0.05645907297730446, 'learning_rate': 1.110921998521936e-05, 'epoch': 2.28}
{'loss': 0.0096, 'grad_norm': 0.726065456867218, 'learning_rate': 1.1086825073343336e-05, 'epoch': 2.29}
{'loss': 0.0045, 'grad_norm': 0.026955202221870422, 'learning_rate': 1.1064430161467316e-05, 'epoch': 2.29}
{'loss': 0.0057, 'grad_norm': 0.09468597918748856, 'learning_rate': 1.1042035249591295e-05, 'epoch': 2.3}
{'loss': 0.0032, 'grad_norm': 0.4908299744129181, 'learning_rate': 1.1019640337715271e-05, 'epoch': 2.31}
{'loss': 0.0031, 'grad_norm': 0.010838231071829796, 'learning_rate': 1.099724542583925e-05, 'epoch': 2.31}
{'loss': 0.0043, 'grad_norm': 0.15813188254833221, 'learning_rate': 1.0974850513963228e-05, 'epoch': 2.32}
{'loss': 0.0068, 'grad_norm': 0.04824952781200409, 'learning_rate': 1.0952455602087207e-05, 'epoch': 2.32}
{'loss': 0.0048, 'grad_norm': 0.12718328833580017, 'learning_rate': 1.0930060690211183e-05, 'epoch': 2.33}
{'loss': 0.0042, 'grad_norm': 0.006453562993556261, 'learning_rate': 1.0907665778335163e-05, 'epoch': 2.33}
{'loss': 0.0068, 'grad_norm': 0.034881096333265305, 'learning_rate': 1.0885270866459142e-05, 'epoch': 2.34}
{'loss': 0.0041, 'grad_norm': 0.026440760120749474, 'learning_rate': 1.0862875954583118e-05, 'epoch': 2.34}
{'loss': 0.0042, 'grad_norm': 0.10058464854955673, 'learning_rate': 1.0840481042707098e-05, 'epoch': 2.35}
{'loss': 0.0051, 'grad_norm': 0.3769572377204895, 'learning_rate': 1.0818086130831077e-05, 'epoch': 2.35}
{'loss': 0.0049, 'grad_norm': 0.10529354214668274, 'learning_rate': 1.0795691218955053e-05, 'epoch': 2.36}
{'loss': 0.0019, 'grad_norm': 0.2557080388069153, 'learning_rate': 1.0773296307079033e-05, 'epoch': 2.37}
{'loss': 0.0039, 'grad_norm': 0.19080431759357452, 'learning_rate': 1.075090139520301e-05, 'epoch': 2.37}
{'loss': 0.0068, 'grad_norm': 0.009274226613342762, 'learning_rate': 1.0728506483326988e-05, 'epoch': 2.38}
{'loss': 0.0033, 'grad_norm': 0.15061549842357635, 'learning_rate': 1.0706111571450968e-05, 'epoch': 2.38}
{'loss': 0.0048, 'grad_norm': 0.32283729314804077, 'learning_rate': 1.0683716659574945e-05, 'epoch': 2.39}
{'loss': 0.0052, 'grad_norm': 0.008730829693377018, 'learning_rate': 1.0661321747698923e-05, 'epoch': 2.39}
{'loss': 0.0063, 'grad_norm': 0.09698653966188431, 'learning_rate': 1.0638926835822902e-05, 'epoch': 2.4}
{'loss': 0.003, 'grad_norm': 0.09314418584108353, 'learning_rate': 1.061653192394688e-05, 'epoch': 2.4}
{'loss': 0.0036, 'grad_norm': 0.0379941388964653, 'learning_rate': 1.0594137012070857e-05, 'epoch': 2.41}
{'loss': 0.004, 'grad_norm': 0.03921454772353172, 'learning_rate': 1.0571742100194837e-05, 'epoch': 2.41}
{'loss': 0.006, 'grad_norm': 0.0010623994749039412, 'learning_rate': 1.0549347188318815e-05, 'epoch': 2.42}
{'loss': 0.0048, 'grad_norm': 0.005394686013460159, 'learning_rate': 1.0526952276442792e-05, 'epoch': 2.43}
{'loss': 0.0037, 'grad_norm': 0.03824278712272644, 'learning_rate': 1.0504557364566772e-05, 'epoch': 2.43}
{'loss': 0.0034, 'grad_norm': 0.09540271013975143, 'learning_rate': 1.048216245269075e-05, 'epoch': 2.44}
{'loss': 0.0049, 'grad_norm': 0.014622088521718979, 'learning_rate': 1.0459767540814727e-05, 'epoch': 2.44}
{'loss': 0.0036, 'grad_norm': 0.02506762184202671, 'learning_rate': 1.0437372628938707e-05, 'epoch': 2.45}
{'loss': 0.0046, 'grad_norm': 12.032191276550293, 'learning_rate': 1.0414977717062684e-05, 'epoch': 2.45}
{'loss': 0.0039, 'grad_norm': 2.5377721786499023, 'learning_rate': 1.0392582805186662e-05, 'epoch': 2.46}
{'loss': 0.0021, 'grad_norm': 0.07715722173452377, 'learning_rate': 1.0370187893310642e-05, 'epoch': 2.46}
{'loss': 0.0035, 'grad_norm': 0.41538187861442566, 'learning_rate': 1.0347792981434619e-05, 'epoch': 2.47}
{'loss': 0.0034, 'grad_norm': 0.5246536135673523, 'learning_rate': 1.0325398069558597e-05, 'epoch': 2.48}
{'loss': 0.003, 'grad_norm': 0.0022522832732647657, 'learning_rate': 1.0303003157682577e-05, 'epoch': 2.48}
{'loss': 0.0032, 'grad_norm': 0.011422159150242805, 'learning_rate': 1.0280608245806554e-05, 'epoch': 2.49}
{'loss': 0.005, 'grad_norm': 0.011885729618370533, 'learning_rate': 1.025821333393053e-05, 'epoch': 2.49}
{'loss': 0.0025, 'grad_norm': 0.06374814361333847, 'learning_rate': 1.023581842205451e-05, 'epoch': 2.5}
{'loss': 0.0036, 'grad_norm': 0.0674147829413414, 'learning_rate': 1.0213423510178489e-05, 'epoch': 2.5}
{'loss': 0.0021, 'grad_norm': 0.5586390495300293, 'learning_rate': 1.0191028598302465e-05, 'epoch': 2.51}
{'loss': 0.0025, 'grad_norm': 1.1011099815368652, 'learning_rate': 1.0168633686426445e-05, 'epoch': 2.51}
{'loss': 0.0036, 'grad_norm': 0.12449350208044052, 'learning_rate': 1.0146238774550424e-05, 'epoch': 2.52}
{'loss': 0.0033, 'grad_norm': 0.001172301941551268, 'learning_rate': 1.01238438626744e-05, 'epoch': 2.52}
{'loss': 0.0049, 'grad_norm': 0.029910240322351456, 'learning_rate': 1.010144895079838e-05, 'epoch': 2.53}
{'loss': 0.0044, 'grad_norm': 0.08513263612985611, 'learning_rate': 1.0079054038922357e-05, 'epoch': 2.54}
{'loss': 0.0029, 'grad_norm': 0.024861743673682213, 'learning_rate': 1.0056659127046336e-05, 'epoch': 2.54}
{'loss': 0.0028, 'grad_norm': 0.08090971410274506, 'learning_rate': 1.0034264215170316e-05, 'epoch': 2.55}
{'loss': 0.0091, 'grad_norm': 0.6751871109008789, 'learning_rate': 1.0011869303294292e-05, 'epoch': 2.55}
{'loss': 0.004, 'grad_norm': 0.01412627287209034, 'learning_rate': 9.98947439141827e-06, 'epoch': 2.56}
{'loss': 0.0036, 'grad_norm': 0.06726730614900589, 'learning_rate': 9.967079479542249e-06, 'epoch': 2.56}
{'loss': 0.0029, 'grad_norm': 0.5515012145042419, 'learning_rate': 9.944684567666227e-06, 'epoch': 2.57}
{'loss': 0.0035, 'grad_norm': 0.0035773934796452522, 'learning_rate': 9.922289655790206e-06, 'epoch': 2.57}
{'loss': 0.0038, 'grad_norm': 0.05018525943160057, 'learning_rate': 9.899894743914184e-06, 'epoch': 2.58}
{'loss': 0.0028, 'grad_norm': 0.007242262363433838, 'learning_rate': 9.877499832038162e-06, 'epoch': 2.58}
{'loss': 0.0041, 'grad_norm': 0.09467479586601257, 'learning_rate': 9.855104920162139e-06, 'epoch': 2.59}
{'loss': 0.0037, 'grad_norm': 0.05528566986322403, 'learning_rate': 9.832710008286119e-06, 'epoch': 2.6}
{'loss': 0.0031, 'grad_norm': 0.0195195060223341, 'learning_rate': 9.810315096410097e-06, 'epoch': 2.6}
{'loss': 0.0036, 'grad_norm': 0.020678259432315826, 'learning_rate': 9.787920184534074e-06, 'epoch': 2.61}
{'loss': 0.0052, 'grad_norm': 0.20698687434196472, 'learning_rate': 9.765525272658052e-06, 'epoch': 2.61}
{'loss': 0.0031, 'grad_norm': 0.06637762486934662, 'learning_rate': 9.74313036078203e-06, 'epoch': 2.62}
{'loss': 0.0023, 'grad_norm': 0.036431193351745605, 'learning_rate': 9.720735448906009e-06, 'epoch': 2.62}
{'loss': 0.0043, 'grad_norm': 0.07816935330629349, 'learning_rate': 9.698340537029987e-06, 'epoch': 2.63}
{'loss': 0.0027, 'grad_norm': 0.0019028312526643276, 'learning_rate': 9.675945625153966e-06, 'epoch': 2.63}
{'loss': 0.0048, 'grad_norm': 0.011531976982951164, 'learning_rate': 9.653550713277944e-06, 'epoch': 2.64}
{'loss': 0.0046, 'grad_norm': 0.07196860760450363, 'learning_rate': 9.631155801401923e-06, 'epoch': 2.64}
{'loss': 0.0038, 'grad_norm': 0.08175013959407806, 'learning_rate': 9.608760889525901e-06, 'epoch': 2.65}
{'loss': 0.0033, 'grad_norm': 0.001142855384387076, 'learning_rate': 9.58636597764988e-06, 'epoch': 2.66}
{'loss': 0.003, 'grad_norm': 0.06008300185203552, 'learning_rate': 9.563971065773858e-06, 'epoch': 2.66}
{'loss': 0.0057, 'grad_norm': 0.08218628168106079, 'learning_rate': 9.541576153897834e-06, 'epoch': 2.67}
{'loss': 0.0044, 'grad_norm': 0.059504490345716476, 'learning_rate': 9.519181242021813e-06, 'epoch': 2.67}
{'loss': 0.0058, 'grad_norm': 0.06249801069498062, 'learning_rate': 9.496786330145793e-06, 'epoch': 2.68}
{'loss': 0.003, 'grad_norm': 0.03842584043741226, 'learning_rate': 9.47439141826977e-06, 'epoch': 2.68}
{'loss': 0.0042, 'grad_norm': 0.05032949522137642, 'learning_rate': 9.451996506393748e-06, 'epoch': 2.69}
{'loss': 0.0045, 'grad_norm': 0.051786765456199646, 'learning_rate': 9.429601594517726e-06, 'epoch': 2.69}
{'loss': 0.0031, 'grad_norm': 0.11977092176675797, 'learning_rate': 9.407206682641704e-06, 'epoch': 2.7}
{'loss': 0.0021, 'grad_norm': 0.004711544141173363, 'learning_rate': 9.384811770765683e-06, 'epoch': 2.71}
{'loss': 0.0043, 'grad_norm': 0.4886787235736847, 'learning_rate': 9.362416858889661e-06, 'epoch': 2.71}
{'loss': 0.0058, 'grad_norm': 0.018584702163934708, 'learning_rate': 9.34002194701364e-06, 'epoch': 2.72}
{'loss': 0.0041, 'grad_norm': 0.03693871572613716, 'learning_rate': 9.317627035137618e-06, 'epoch': 2.72}
{'loss': 0.0038, 'grad_norm': 0.004750245716422796, 'learning_rate': 9.295232123261596e-06, 'epoch': 2.73}
{'loss': 0.0019, 'grad_norm': 1.913931131362915, 'learning_rate': 9.272837211385573e-06, 'epoch': 2.73}
{'loss': 0.0029, 'grad_norm': 0.017329825088381767, 'learning_rate': 9.250442299509553e-06, 'epoch': 2.74}
{'loss': 0.003, 'grad_norm': 0.02129119075834751, 'learning_rate': 9.228047387633531e-06, 'epoch': 2.74}
{'loss': 0.0038, 'grad_norm': 0.028891241177916527, 'learning_rate': 9.205652475757508e-06, 'epoch': 2.75}
{'loss': 0.004, 'grad_norm': 0.009224362671375275, 'learning_rate': 9.183257563881486e-06, 'epoch': 2.75}
{'loss': 0.0049, 'grad_norm': 0.03435930609703064, 'learning_rate': 9.160862652005466e-06, 'epoch': 2.76}
{'loss': 0.0039, 'grad_norm': 0.01626667007803917, 'learning_rate': 9.138467740129443e-06, 'epoch': 2.77}
{'loss': 0.005, 'grad_norm': 1.1218552589416504, 'learning_rate': 9.116072828253421e-06, 'epoch': 2.77}
{'loss': 0.0046, 'grad_norm': 0.030987482517957687, 'learning_rate': 9.0936779163774e-06, 'epoch': 2.78}
{'loss': 0.0025, 'grad_norm': 0.09153684228658676, 'learning_rate': 9.071283004501378e-06, 'epoch': 2.78}
{'loss': 0.0044, 'grad_norm': 0.0023125149309635162, 'learning_rate': 9.048888092625356e-06, 'epoch': 2.79}
{'loss': 0.0023, 'grad_norm': 0.004464196972548962, 'learning_rate': 9.026493180749335e-06, 'epoch': 2.79}
{'loss': 0.0038, 'grad_norm': 0.033567965030670166, 'learning_rate': 9.004098268873313e-06, 'epoch': 2.8}
{'loss': 0.0032, 'grad_norm': 0.05314967781305313, 'learning_rate': 8.981703356997291e-06, 'epoch': 2.8}
{'loss': 0.0021, 'grad_norm': 0.019064532592892647, 'learning_rate': 8.959308445121268e-06, 'epoch': 2.81}
{'loss': 0.0023, 'grad_norm': 0.006131445057690144, 'learning_rate': 8.936913533245248e-06, 'epoch': 2.81}
{'loss': 0.0042, 'grad_norm': 0.20496051013469696, 'learning_rate': 8.914518621369226e-06, 'epoch': 2.82}
{'loss': 0.0042, 'grad_norm': 0.03717898949980736, 'learning_rate': 8.892123709493203e-06, 'epoch': 2.83}
{'loss': 0.0053, 'grad_norm': 0.04788793995976448, 'learning_rate': 8.869728797617181e-06, 'epoch': 2.83}
{'loss': 0.0021, 'grad_norm': 4.119758605957031, 'learning_rate': 8.847333885741161e-06, 'epoch': 2.84}
{'loss': 0.0033, 'grad_norm': 0.24966038763523102, 'learning_rate': 8.824938973865138e-06, 'epoch': 2.84}
{'loss': 0.0047, 'grad_norm': 11.138167381286621, 'learning_rate': 8.802544061989116e-06, 'epoch': 2.85}
{'loss': 0.0048, 'grad_norm': 0.02488502860069275, 'learning_rate': 8.780149150113095e-06, 'epoch': 2.85}
{'loss': 0.0022, 'grad_norm': 0.0015538616571575403, 'learning_rate': 8.757754238237073e-06, 'epoch': 2.86}
{'loss': 0.0036, 'grad_norm': 0.011559401638805866, 'learning_rate': 8.735359326361051e-06, 'epoch': 2.86}
{'loss': 0.0034, 'grad_norm': 0.41917547583580017, 'learning_rate': 8.71296441448503e-06, 'epoch': 2.87}
{'loss': 0.0029, 'grad_norm': 0.09700381010770798, 'learning_rate': 8.690569502609008e-06, 'epoch': 2.87}
{'loss': 0.0038, 'grad_norm': 0.10457664728164673, 'learning_rate': 8.668174590732987e-06, 'epoch': 2.88}
{'loss': 0.0067, 'grad_norm': 0.009366615675389767, 'learning_rate': 8.645779678856965e-06, 'epoch': 2.89}
{'loss': 0.003, 'grad_norm': 0.0037414308171719313, 'learning_rate': 8.623384766980942e-06, 'epoch': 2.89}
{'loss': 0.0049, 'grad_norm': 0.09502315521240234, 'learning_rate': 8.600989855104922e-06, 'epoch': 2.9}
{'loss': 0.0027, 'grad_norm': 0.390895813703537, 'learning_rate': 8.5785949432289e-06, 'epoch': 2.9}
{'loss': 0.004, 'grad_norm': 0.06665816903114319, 'learning_rate': 8.556200031352877e-06, 'epoch': 2.91}
{'loss': 0.0042, 'grad_norm': 0.012638445943593979, 'learning_rate': 8.533805119476855e-06, 'epoch': 2.91}
{'loss': 0.0042, 'grad_norm': 0.26541146636009216, 'learning_rate': 8.511410207600835e-06, 'epoch': 2.92}
{'loss': 0.0038, 'grad_norm': 0.0727955549955368, 'learning_rate': 8.489015295724812e-06, 'epoch': 2.92}
{'loss': 0.0029, 'grad_norm': 0.10278739035129547, 'learning_rate': 8.46662038384879e-06, 'epoch': 2.93}
{'loss': 0.0039, 'grad_norm': 0.02014051005244255, 'learning_rate': 8.444225471972768e-06, 'epoch': 2.94}
{'loss': 0.0039, 'grad_norm': 0.03868388757109642, 'learning_rate': 8.421830560096747e-06, 'epoch': 2.94}
{'loss': 0.002, 'grad_norm': 0.007972314022481441, 'learning_rate': 8.399435648220725e-06, 'epoch': 2.95}
{'loss': 0.0022, 'grad_norm': 0.004831973928958178, 'learning_rate': 8.377040736344703e-06, 'epoch': 2.95}
{'loss': 0.002, 'grad_norm': 0.04136960953474045, 'learning_rate': 8.354645824468682e-06, 'epoch': 2.96}
{'loss': 0.003, 'grad_norm': 0.05827214568853378, 'learning_rate': 8.33225091259266e-06, 'epoch': 2.96}
{'loss': 0.0019, 'grad_norm': 0.42127054929733276, 'learning_rate': 8.309856000716637e-06, 'epoch': 2.97}
{'loss': 0.0044, 'grad_norm': 0.3449774384498596, 'learning_rate': 8.287461088840615e-06, 'epoch': 2.97}
{'loss': 0.0028, 'grad_norm': 0.07684598118066788, 'learning_rate': 8.265066176964595e-06, 'epoch': 2.98}
{'loss': 0.0031, 'grad_norm': 0.010578151792287827, 'learning_rate': 8.242671265088572e-06, 'epoch': 2.98}
{'loss': 0.0025, 'grad_norm': 0.14775557816028595, 'learning_rate': 8.22027635321255e-06, 'epoch': 2.99}
{'loss': 0.0021, 'grad_norm': 0.16460050642490387, 'learning_rate': 8.197881441336529e-06, 'epoch': 3.0}
{'loss': 0.0025, 'grad_norm': 0.0014739581383764744, 'learning_rate': 8.175486529460507e-06, 'epoch': 3.0}
{'loss': 0.0038, 'grad_norm': 0.01254010945558548, 'learning_rate': 8.153091617584485e-06, 'epoch': 3.01}
{'loss': 0.0045, 'grad_norm': 0.09135819971561432, 'learning_rate': 8.130696705708464e-06, 'epoch': 3.01}
{'loss': 0.002, 'grad_norm': 0.002453828463330865, 'learning_rate': 8.108301793832442e-06, 'epoch': 3.02}
{'loss': 0.0035, 'grad_norm': 0.007750564254820347, 'learning_rate': 8.08590688195642e-06, 'epoch': 3.02}
{'loss': 0.0046, 'grad_norm': 1.2276639938354492, 'learning_rate': 8.063511970080399e-06, 'epoch': 3.03}
{'loss': 0.0033, 'grad_norm': 0.0030335187911987305, 'learning_rate': 8.041117058204377e-06, 'epoch': 3.03}
{'loss': 0.002, 'grad_norm': 0.38589444756507874, 'learning_rate': 8.018722146328355e-06, 'epoch': 3.04}
{'loss': 0.0036, 'grad_norm': 0.022893747314810753, 'learning_rate': 7.996327234452334e-06, 'epoch': 3.04}
{'loss': 0.0025, 'grad_norm': 0.003235406940802932, 'learning_rate': 7.97393232257631e-06, 'epoch': 3.05}
{'loss': 0.0039, 'grad_norm': 0.05985206738114357, 'learning_rate': 7.95153741070029e-06, 'epoch': 3.06}
{'loss': 0.0029, 'grad_norm': 0.14925901591777802, 'learning_rate': 7.929142498824269e-06, 'epoch': 3.06}
{'loss': 0.004, 'grad_norm': 0.026889082044363022, 'learning_rate': 7.906747586948245e-06, 'epoch': 3.07}
{'loss': 0.0023, 'grad_norm': 0.057593248784542084, 'learning_rate': 7.884352675072224e-06, 'epoch': 3.07}
{'loss': 0.0019, 'grad_norm': 0.20720885694026947, 'learning_rate': 7.861957763196204e-06, 'epoch': 3.08}
{'loss': 0.0019, 'grad_norm': 0.002138580894097686, 'learning_rate': 7.83956285132018e-06, 'epoch': 3.08}
{'loss': 0.0027, 'grad_norm': 0.013360394164919853, 'learning_rate': 7.817167939444159e-06, 'epoch': 3.09}
{'loss': 0.0014, 'grad_norm': 0.12524360418319702, 'learning_rate': 7.794773027568137e-06, 'epoch': 3.09}
{'loss': 0.0019, 'grad_norm': 0.04898557439446449, 'learning_rate': 7.772378115692116e-06, 'epoch': 3.1}
{'loss': 0.0018, 'grad_norm': 0.007251457776874304, 'learning_rate': 7.749983203816094e-06, 'epoch': 3.1}
{'loss': 0.0016, 'grad_norm': 0.005014033988118172, 'learning_rate': 7.72758829194007e-06, 'epoch': 3.11}
{'loss': 0.0017, 'grad_norm': 0.008448738604784012, 'learning_rate': 7.70519338006405e-06, 'epoch': 3.12}
{'loss': 0.0049, 'grad_norm': 0.03684404864907265, 'learning_rate': 7.682798468188029e-06, 'epoch': 3.12}
{'loss': 0.0022, 'grad_norm': 0.0004430219705682248, 'learning_rate': 7.660403556312006e-06, 'epoch': 3.13}
{'loss': 0.0023, 'grad_norm': 0.01342267170548439, 'learning_rate': 7.638008644435984e-06, 'epoch': 3.13}
{'loss': 0.0016, 'grad_norm': 0.27969247102737427, 'learning_rate': 7.615613732559963e-06, 'epoch': 3.14}
{'loss': 0.002, 'grad_norm': 0.37727439403533936, 'learning_rate': 7.593218820683941e-06, 'epoch': 3.14}
{'loss': 0.0025, 'grad_norm': 0.2768697142601013, 'learning_rate': 7.570823908807919e-06, 'epoch': 3.15}
{'loss': 0.0012, 'grad_norm': 0.12135498970746994, 'learning_rate': 7.548428996931898e-06, 'epoch': 3.15}
{'loss': 0.0021, 'grad_norm': 0.05090919882059097, 'learning_rate': 7.526034085055876e-06, 'epoch': 3.16}
{'loss': 0.0017, 'grad_norm': 0.14085857570171356, 'learning_rate': 7.503639173179854e-06, 'epoch': 3.17}
{'loss': 0.0019, 'grad_norm': 0.3364329934120178, 'learning_rate': 7.481244261303832e-06, 'epoch': 3.17}
{'loss': 0.0019, 'grad_norm': 0.024304231628775597, 'learning_rate': 7.45884934942781e-06, 'epoch': 3.18}
{'loss': 0.0042, 'grad_norm': 0.12154655903577805, 'learning_rate': 7.436454437551789e-06, 'epoch': 3.18}
{'loss': 0.0027, 'grad_norm': 0.020685842260718346, 'learning_rate': 7.4140595256757675e-06, 'epoch': 3.19}
{'loss': 0.0011, 'grad_norm': 0.024026449769735336, 'learning_rate': 7.391664613799745e-06, 'epoch': 3.19}
{'loss': 0.002, 'grad_norm': 0.07294344902038574, 'learning_rate': 7.369269701923723e-06, 'epoch': 3.2}
{'loss': 0.0021, 'grad_norm': 0.0950188934803009, 'learning_rate': 7.3468747900477025e-06, 'epoch': 3.2}
{'loss': 0.0015, 'grad_norm': 0.004987840075045824, 'learning_rate': 7.32447987817168e-06, 'epoch': 3.21}
{'loss': 0.0017, 'grad_norm': 0.0009321196121163666, 'learning_rate': 7.302084966295658e-06, 'epoch': 3.21}
{'loss': 0.002, 'grad_norm': 0.8103981614112854, 'learning_rate': 7.279690054419637e-06, 'epoch': 3.22}
{'loss': 0.0012, 'grad_norm': 0.08477653563022614, 'learning_rate': 7.257295142543614e-06, 'epoch': 3.23}
{'loss': 0.0017, 'grad_norm': 0.14473630487918854, 'learning_rate': 7.234900230667593e-06, 'epoch': 3.23}
{'loss': 0.0029, 'grad_norm': 0.1038050651550293, 'learning_rate': 7.212505318791572e-06, 'epoch': 3.24}
{'loss': 0.0019, 'grad_norm': 0.004471446853131056, 'learning_rate': 7.190110406915549e-06, 'epoch': 3.24}
{'loss': 0.0017, 'grad_norm': 0.08369725197553635, 'learning_rate': 7.167715495039528e-06, 'epoch': 3.25}
{'loss': 0.0019, 'grad_norm': 0.07285201549530029, 'learning_rate': 7.145320583163505e-06, 'epoch': 3.25}
{'loss': 0.0012, 'grad_norm': 0.007139412686228752, 'learning_rate': 7.122925671287484e-06, 'epoch': 3.26}
{'loss': 0.0024, 'grad_norm': 0.026335667818784714, 'learning_rate': 7.100530759411463e-06, 'epoch': 3.26}
{'loss': 0.0017, 'grad_norm': 0.4776710569858551, 'learning_rate': 7.07813584753544e-06, 'epoch': 3.27}
{'loss': 0.0022, 'grad_norm': 0.025377823039889336, 'learning_rate': 7.0557409356594185e-06, 'epoch': 3.27}
{'loss': 0.002, 'grad_norm': 0.15673436224460602, 'learning_rate': 7.033346023783397e-06, 'epoch': 3.28}
{'loss': 0.0028, 'grad_norm': 0.10128195583820343, 'learning_rate': 7.010951111907374e-06, 'epoch': 3.29}
{'loss': 0.0036, 'grad_norm': 0.007779085077345371, 'learning_rate': 6.988556200031354e-06, 'epoch': 3.29}
{'loss': 0.0015, 'grad_norm': 0.07349961996078491, 'learning_rate': 6.966161288155332e-06, 'epoch': 3.3}
{'loss': 0.0024, 'grad_norm': 0.002100712852552533, 'learning_rate': 6.9437663762793094e-06, 'epoch': 3.3}
{'loss': 0.0015, 'grad_norm': 0.2998717725276947, 'learning_rate': 6.921371464403288e-06, 'epoch': 3.31}
{'loss': 0.0012, 'grad_norm': 0.13683967292308807, 'learning_rate': 6.898976552527267e-06, 'epoch': 3.31}
{'loss': 0.0022, 'grad_norm': 0.003665775526314974, 'learning_rate': 6.8765816406512445e-06, 'epoch': 3.32}
{'loss': 0.0015, 'grad_norm': 0.000874933844897896, 'learning_rate': 6.854186728775223e-06, 'epoch': 3.32}
{'loss': 0.0023, 'grad_norm': 0.15409617125988007, 'learning_rate': 6.831791816899201e-06, 'epoch': 3.33}
{'loss': 0.0017, 'grad_norm': 0.03335576876997948, 'learning_rate': 6.809396905023179e-06, 'epoch': 3.33}
{'loss': 0.0021, 'grad_norm': 0.013786455616354942, 'learning_rate': 6.787001993147158e-06, 'epoch': 3.34}
{'loss': 0.0017, 'grad_norm': 0.0036290634889155626, 'learning_rate': 6.764607081271136e-06, 'epoch': 3.35}
{'loss': 0.0015, 'grad_norm': 0.1783692091703415, 'learning_rate': 6.742212169395114e-06, 'epoch': 3.35}
{'loss': 0.0023, 'grad_norm': 0.012478599324822426, 'learning_rate': 6.719817257519092e-06, 'epoch': 3.36}
{'loss': 0.0014, 'grad_norm': 0.016466649249196053, 'learning_rate': 6.697422345643071e-06, 'epoch': 3.36}
{'loss': 0.0019, 'grad_norm': 0.006102473475039005, 'learning_rate': 6.675027433767049e-06, 'epoch': 3.37}
{'loss': 0.0017, 'grad_norm': 0.009547678753733635, 'learning_rate': 6.652632521891027e-06, 'epoch': 3.37}
{'loss': 0.0027, 'grad_norm': 0.1453057825565338, 'learning_rate': 6.6302376100150055e-06, 'epoch': 3.38}
{'loss': 0.0016, 'grad_norm': 0.20028233528137207, 'learning_rate': 6.607842698138983e-06, 'epoch': 3.38}
{'loss': 0.0019, 'grad_norm': 0.003452139673754573, 'learning_rate': 6.585447786262961e-06, 'epoch': 3.39}
{'loss': 0.0037, 'grad_norm': 0.004863356240093708, 'learning_rate': 6.563052874386939e-06, 'epoch': 3.4}
{'loss': 0.0016, 'grad_norm': 0.08551418036222458, 'learning_rate': 6.540657962510918e-06, 'epoch': 3.4}
{'loss': 0.0012, 'grad_norm': 0.07263021171092987, 'learning_rate': 6.5182630506348964e-06, 'epoch': 3.41}
{'loss': 0.0024, 'grad_norm': 0.02901959978044033, 'learning_rate': 6.495868138758874e-06, 'epoch': 3.41}
{'loss': 0.0016, 'grad_norm': 0.010008633136749268, 'learning_rate': 6.473473226882852e-06, 'epoch': 3.42}
{'loss': 0.0022, 'grad_norm': 0.02640015073120594, 'learning_rate': 6.4510783150068315e-06, 'epoch': 3.42}
{'loss': 0.0015, 'grad_norm': 0.1104823499917984, 'learning_rate': 6.428683403130809e-06, 'epoch': 3.43}
{'loss': 0.0017, 'grad_norm': 0.16136541962623596, 'learning_rate': 6.406288491254787e-06, 'epoch': 3.43}
{'loss': 0.0015, 'grad_norm': 0.0034606726840138435, 'learning_rate': 6.383893579378766e-06, 'epoch': 3.44}
{'loss': 0.0018, 'grad_norm': 0.03437316045165062, 'learning_rate': 6.361498667502743e-06, 'epoch': 3.44}
{'loss': 0.0015, 'grad_norm': 0.0036164058838039637, 'learning_rate': 6.339103755626722e-06, 'epoch': 3.45}
{'loss': 0.0019, 'grad_norm': 0.01371910609304905, 'learning_rate': 6.316708843750701e-06, 'epoch': 3.46}
{'loss': 0.0009, 'grad_norm': 0.12439179420471191, 'learning_rate': 6.294313931874678e-06, 'epoch': 3.46}
{'loss': 0.001, 'grad_norm': 0.0557035356760025, 'learning_rate': 6.271919019998657e-06, 'epoch': 3.47}
{'loss': 0.001, 'grad_norm': 0.020946547389030457, 'learning_rate': 6.249524108122636e-06, 'epoch': 3.47}
{'loss': 0.0023, 'grad_norm': 0.07646912336349487, 'learning_rate': 6.227129196246613e-06, 'epoch': 3.48}
{'loss': 0.0012, 'grad_norm': 0.07221906632184982, 'learning_rate': 6.204734284370592e-06, 'epoch': 3.48}
{'loss': 0.0012, 'grad_norm': 0.024785563349723816, 'learning_rate': 6.18233937249457e-06, 'epoch': 3.49}
{'loss': 0.0011, 'grad_norm': 0.0033317049965262413, 'learning_rate': 6.1599444606185475e-06, 'epoch': 3.49}
{'loss': 0.0008, 'grad_norm': 0.051508672535419464, 'learning_rate': 6.137549548742526e-06, 'epoch': 3.5}
{'loss': 0.0018, 'grad_norm': 0.29059651494026184, 'learning_rate': 6.115154636866505e-06, 'epoch': 3.5}
{'loss': 0.0009, 'grad_norm': 0.0021790487226098776, 'learning_rate': 6.0927597249904826e-06, 'epoch': 3.51}
{'loss': 0.0016, 'grad_norm': 2.6697778701782227, 'learning_rate': 6.070364813114461e-06, 'epoch': 3.52}
{'loss': 0.0012, 'grad_norm': 1.0531569719314575, 'learning_rate': 6.047969901238439e-06, 'epoch': 3.52}
{'loss': 0.0015, 'grad_norm': 0.4647313952445984, 'learning_rate': 6.025574989362417e-06, 'epoch': 3.53}
{'loss': 0.0024, 'grad_norm': 0.05964852496981621, 'learning_rate': 6.003180077486396e-06, 'epoch': 3.53}
{'loss': 0.0016, 'grad_norm': 0.06724616885185242, 'learning_rate': 5.980785165610374e-06, 'epoch': 3.54}
{'loss': 0.0014, 'grad_norm': 0.2721405625343323, 'learning_rate': 5.958390253734352e-06, 'epoch': 3.54}
{'loss': 0.0014, 'grad_norm': 0.0075986250303685665, 'learning_rate': 5.93599534185833e-06, 'epoch': 3.55}
{'loss': 0.0047, 'grad_norm': 0.07740730047225952, 'learning_rate': 5.913600429982308e-06, 'epoch': 3.55}
{'loss': 0.0013, 'grad_norm': 0.07295466959476471, 'learning_rate': 5.891205518106287e-06, 'epoch': 3.56}
{'loss': 0.0012, 'grad_norm': 0.015490477904677391, 'learning_rate': 5.868810606230265e-06, 'epoch': 3.56}
{'loss': 0.0013, 'grad_norm': 0.10027164220809937, 'learning_rate': 5.846415694354243e-06, 'epoch': 3.57}
{'loss': 0.0011, 'grad_norm': 0.0034784649033099413, 'learning_rate': 5.824020782478221e-06, 'epoch': 3.58}
{'loss': 0.0011, 'grad_norm': 0.11903531104326248, 'learning_rate': 5.8016258706022e-06, 'epoch': 3.58}
{'loss': 0.0016, 'grad_norm': 0.01810777373611927, 'learning_rate': 5.779230958726178e-06, 'epoch': 3.59}
{'loss': 0.0022, 'grad_norm': 0.0328763872385025, 'learning_rate': 5.756836046850156e-06, 'epoch': 3.59}
{'loss': 0.0017, 'grad_norm': 0.004651115275919437, 'learning_rate': 5.7344411349741345e-06, 'epoch': 3.6}
{'loss': 0.0012, 'grad_norm': 0.008656460791826248, 'learning_rate': 5.712046223098112e-06, 'epoch': 3.6}
{'loss': 0.002, 'grad_norm': 0.015148227103054523, 'learning_rate': 5.689651311222091e-06, 'epoch': 3.61}
{'loss': 0.0016, 'grad_norm': 0.04307083040475845, 'learning_rate': 5.6672563993460696e-06, 'epoch': 3.61}
{'loss': 0.0009, 'grad_norm': 0.10523002594709396, 'learning_rate': 5.644861487470047e-06, 'epoch': 3.62}
{'loss': 0.0011, 'grad_norm': 0.004528895020484924, 'learning_rate': 5.622466575594025e-06, 'epoch': 3.63}
{'loss': 0.0019, 'grad_norm': 0.1139262244105339, 'learning_rate': 5.600071663718004e-06, 'epoch': 3.63}
{'loss': 0.0011, 'grad_norm': 0.02509382739663124, 'learning_rate': 5.577676751841981e-06, 'epoch': 3.64}
{'loss': 0.0021, 'grad_norm': 0.3114255368709564, 'learning_rate': 5.5552818399659605e-06, 'epoch': 3.64}
{'loss': 0.0029, 'grad_norm': 0.14174672961235046, 'learning_rate': 5.532886928089939e-06, 'epoch': 3.65}
{'loss': 0.001, 'grad_norm': 0.015288415364921093, 'learning_rate': 5.510492016213916e-06, 'epoch': 3.65}
{'loss': 0.0016, 'grad_norm': 0.0520060658454895, 'learning_rate': 5.488097104337895e-06, 'epoch': 3.66}
{'loss': 0.0016, 'grad_norm': 0.0958566963672638, 'learning_rate': 5.465702192461874e-06, 'epoch': 3.66}
{'loss': 0.0036, 'grad_norm': 0.000693493289873004, 'learning_rate': 5.443307280585851e-06, 'epoch': 3.67}
{'loss': 0.0012, 'grad_norm': 0.037046968936920166, 'learning_rate': 5.42091236870983e-06, 'epoch': 3.67}
{'loss': 0.003, 'grad_norm': 0.031214630231261253, 'learning_rate': 5.398517456833808e-06, 'epoch': 3.68}
{'loss': 0.0014, 'grad_norm': 0.393162339925766, 'learning_rate': 5.376122544957786e-06, 'epoch': 3.69}
{'loss': 0.0018, 'grad_norm': 0.16350078582763672, 'learning_rate': 5.353727633081765e-06, 'epoch': 3.69}
{'loss': 0.001, 'grad_norm': 0.020479297265410423, 'learning_rate': 5.331332721205742e-06, 'epoch': 3.7}
{'loss': 0.001, 'grad_norm': 0.06839997321367264, 'learning_rate': 5.308937809329721e-06, 'epoch': 3.7}
{'loss': 0.0016, 'grad_norm': 0.47072646021842957, 'learning_rate': 5.286542897453699e-06, 'epoch': 3.71}
{'loss': 0.0025, 'grad_norm': 0.015468220226466656, 'learning_rate': 5.2641479855776765e-06, 'epoch': 3.71}
{'loss': 0.001, 'grad_norm': 0.06005273386836052, 'learning_rate': 5.241753073701656e-06, 'epoch': 3.72}
{'loss': 0.0018, 'grad_norm': 0.016474580392241478, 'learning_rate': 5.219358161825634e-06, 'epoch': 3.72}
{'loss': 0.0015, 'grad_norm': 0.0036705026868730783, 'learning_rate': 5.1969632499496116e-06, 'epoch': 3.73}
{'loss': 0.001, 'grad_norm': 0.5551484823226929, 'learning_rate': 5.17456833807359e-06, 'epoch': 3.73}
{'loss': 0.0009, 'grad_norm': 0.006879040505737066, 'learning_rate': 5.152173426197568e-06, 'epoch': 3.74}
{'loss': 0.0013, 'grad_norm': 0.0026731377001851797, 'learning_rate': 5.129778514321546e-06, 'epoch': 3.75}
{'loss': 0.0014, 'grad_norm': 0.10522931814193726, 'learning_rate': 5.107383602445525e-06, 'epoch': 3.75}
{'loss': 0.0013, 'grad_norm': 0.07733763009309769, 'learning_rate': 5.084988690569503e-06, 'epoch': 3.76}
{'loss': 0.0011, 'grad_norm': 0.08409392833709717, 'learning_rate': 5.062593778693481e-06, 'epoch': 3.76}
{'loss': 0.0026, 'grad_norm': 0.03305979073047638, 'learning_rate': 5.040198866817459e-06, 'epoch': 3.77}
{'loss': 0.0014, 'grad_norm': 0.006016087252646685, 'learning_rate': 5.017803954941438e-06, 'epoch': 3.77}
{'loss': 0.0021, 'grad_norm': 0.02351684682071209, 'learning_rate': 4.995409043065416e-06, 'epoch': 3.78}
{'loss': 0.0015, 'grad_norm': 0.009738347493112087, 'learning_rate': 4.973014131189394e-06, 'epoch': 3.78}
{'loss': 0.0013, 'grad_norm': 0.02382291853427887, 'learning_rate': 4.9506192193133726e-06, 'epoch': 3.79}
{'loss': 0.0013, 'grad_norm': 0.028588024899363518, 'learning_rate': 4.92822430743735e-06, 'epoch': 3.79}
{'loss': 0.0019, 'grad_norm': 0.06715335696935654, 'learning_rate': 4.905829395561329e-06, 'epoch': 3.8}
{'loss': 0.0009, 'grad_norm': 0.009042341262102127, 'learning_rate': 4.883434483685307e-06, 'epoch': 3.81}
{'loss': 0.0009, 'grad_norm': 0.03919120132923126, 'learning_rate': 4.861039571809285e-06, 'epoch': 3.81}
{'loss': 0.0014, 'grad_norm': 0.04066384211182594, 'learning_rate': 4.8386446599332635e-06, 'epoch': 3.82}
{'loss': 0.0012, 'grad_norm': 0.05810333788394928, 'learning_rate': 4.816249748057242e-06, 'epoch': 3.82}
{'loss': 0.0032, 'grad_norm': 0.020592456683516502, 'learning_rate': 4.79385483618122e-06, 'epoch': 3.83}
{'loss': 0.0015, 'grad_norm': 0.1887601613998413, 'learning_rate': 4.7714599243051985e-06, 'epoch': 3.83}
{'loss': 0.0011, 'grad_norm': 0.020269712433218956, 'learning_rate': 4.749065012429177e-06, 'epoch': 3.84}
{'loss': 0.002, 'grad_norm': 0.15431857109069824, 'learning_rate': 4.726670100553154e-06, 'epoch': 3.84}
{'loss': 0.0012, 'grad_norm': 0.009703408926725388, 'learning_rate': 4.704275188677134e-06, 'epoch': 3.85}
{'loss': 0.0026, 'grad_norm': 0.03211360052227974, 'learning_rate': 4.681880276801111e-06, 'epoch': 3.86}
{'loss': 0.001, 'grad_norm': 0.08050722628831863, 'learning_rate': 4.6594853649250894e-06, 'epoch': 3.86}
{'loss': 0.0018, 'grad_norm': 0.01742105558514595, 'learning_rate': 4.637090453049068e-06, 'epoch': 3.87}
{'loss': 0.0014, 'grad_norm': 0.13857877254486084, 'learning_rate': 4.614695541173046e-06, 'epoch': 3.87}
{'loss': 0.001, 'grad_norm': 0.10377497225999832, 'learning_rate': 4.592300629297024e-06, 'epoch': 3.88}
{'loss': 0.0018, 'grad_norm': 0.019631896167993546, 'learning_rate': 4.569905717421002e-06, 'epoch': 3.88}
{'loss': 0.0027, 'grad_norm': 0.010785219259560108, 'learning_rate': 4.54751080554498e-06, 'epoch': 3.89}
{'loss': 0.0027, 'grad_norm': 0.0029205495957285166, 'learning_rate': 4.525115893668959e-06, 'epoch': 3.89}
{'loss': 0.0011, 'grad_norm': 0.026202471926808357, 'learning_rate': 4.502720981792937e-06, 'epoch': 3.9}
{'loss': 0.0024, 'grad_norm': 0.005275311879813671, 'learning_rate': 4.480326069916915e-06, 'epoch': 3.9}
{'loss': 0.0012, 'grad_norm': 0.009359275922179222, 'learning_rate': 4.457931158040894e-06, 'epoch': 3.91}
{'loss': 0.0018, 'grad_norm': 0.06890468299388885, 'learning_rate': 4.435536246164871e-06, 'epoch': 3.92}
{'loss': 0.0012, 'grad_norm': 0.004848203156143427, 'learning_rate': 4.4131413342888505e-06, 'epoch': 3.92}
{'loss': 0.0015, 'grad_norm': 1.0583692789077759, 'learning_rate': 4.390746422412828e-06, 'epoch': 3.93}
{'loss': 0.0015, 'grad_norm': 0.08103686571121216, 'learning_rate': 4.368351510536806e-06, 'epoch': 3.93}
{'loss': 0.0018, 'grad_norm': 0.006814138498157263, 'learning_rate': 4.345956598660785e-06, 'epoch': 3.94}
{'loss': 0.0017, 'grad_norm': 0.28501853346824646, 'learning_rate': 4.323561686784763e-06, 'epoch': 3.94}
{'loss': 0.0009, 'grad_norm': 0.005639960058033466, 'learning_rate': 4.301166774908741e-06, 'epoch': 3.95}
{'loss': 0.001, 'grad_norm': 0.0073370854370296, 'learning_rate': 4.278771863032719e-06, 'epoch': 3.95}
{'loss': 0.0013, 'grad_norm': 0.014588725753128529, 'learning_rate': 4.256376951156698e-06, 'epoch': 3.96}
{'loss': 0.0008, 'grad_norm': 0.010143490508198738, 'learning_rate': 4.233982039280676e-06, 'epoch': 3.96}
{'loss': 0.0018, 'grad_norm': 0.00340424757450819, 'learning_rate': 4.211587127404654e-06, 'epoch': 3.97}
{'loss': 0.0027, 'grad_norm': 0.012705673463642597, 'learning_rate': 4.189192215528632e-06, 'epoch': 3.98}
{'loss': 0.0009, 'grad_norm': 0.038429852575063705, 'learning_rate': 4.166797303652611e-06, 'epoch': 3.98}
{'loss': 0.0008, 'grad_norm': 0.4789028763771057, 'learning_rate': 4.144402391776588e-06, 'epoch': 3.99}
{'loss': 0.001, 'grad_norm': 0.006754585541784763, 'learning_rate': 4.122007479900567e-06, 'epoch': 3.99}
{'loss': 0.0009, 'grad_norm': 0.23940064013004303, 'learning_rate': 4.099612568024545e-06, 'epoch': 4.0}
{'loss': 0.0012, 'grad_norm': 0.0665973499417305, 'learning_rate': 4.077217656148523e-06, 'epoch': 4.0}
{'loss': 0.0011, 'grad_norm': 0.0013757392298430204, 'learning_rate': 4.0548227442725016e-06, 'epoch': 4.01}
{'loss': 0.0023, 'grad_norm': 0.8854921460151672, 'learning_rate': 4.03242783239648e-06, 'epoch': 4.01}
{'loss': 0.0023, 'grad_norm': 0.06492713838815689, 'learning_rate': 4.010032920520458e-06, 'epoch': 4.02}
{'loss': 0.0012, 'grad_norm': 0.003994062077254057, 'learning_rate': 3.987638008644436e-06, 'epoch': 4.02}
{'loss': 0.0018, 'grad_norm': 0.024876805022358894, 'learning_rate': 3.965243096768415e-06, 'epoch': 4.03}
{'loss': 0.0013, 'grad_norm': 0.21828804910182953, 'learning_rate': 3.9428481848923925e-06, 'epoch': 4.04}
{'loss': 0.0009, 'grad_norm': 0.02883763425052166, 'learning_rate': 3.920453273016371e-06, 'epoch': 4.04}
{'loss': 0.0016, 'grad_norm': 0.1658484935760498, 'learning_rate': 3.898058361140349e-06, 'epoch': 4.05}
{'loss': 0.0011, 'grad_norm': 0.023233819752931595, 'learning_rate': 3.8756634492643275e-06, 'epoch': 4.05}
{'loss': 0.0011, 'grad_norm': 0.016315072774887085, 'learning_rate': 3.853268537388306e-06, 'epoch': 4.06}
{'loss': 0.0009, 'grad_norm': 0.027211636304855347, 'learning_rate': 3.830873625512284e-06, 'epoch': 4.06}
{'loss': 0.0012, 'grad_norm': 0.006255852058529854, 'learning_rate': 3.808478713636262e-06, 'epoch': 4.07}
{'loss': 0.0011, 'grad_norm': 0.005831268150359392, 'learning_rate': 3.78608380176024e-06, 'epoch': 4.07}
{'loss': 0.0008, 'grad_norm': 0.012144763953983784, 'learning_rate': 3.763688889884219e-06, 'epoch': 4.08}
{'loss': 0.001, 'grad_norm': 0.01724362187087536, 'learning_rate': 3.7412939780081968e-06, 'epoch': 4.09}
{'loss': 0.0008, 'grad_norm': 0.04438236728310585, 'learning_rate': 3.718899066132175e-06, 'epoch': 4.09}
{'loss': 0.0009, 'grad_norm': 0.00658840499818325, 'learning_rate': 3.696504154256153e-06, 'epoch': 4.1}
{'loss': 0.0008, 'grad_norm': 0.05471208319067955, 'learning_rate': 3.674109242380132e-06, 'epoch': 4.1}
{'loss': 0.0008, 'grad_norm': 0.007816795259714127, 'learning_rate': 3.6517143305041098e-06, 'epoch': 4.11}
{'loss': 0.0008, 'grad_norm': 0.02814406529068947, 'learning_rate': 3.6293194186280877e-06, 'epoch': 4.11}
{'loss': 0.0009, 'grad_norm': 0.0004428045067470521, 'learning_rate': 3.6069245067520665e-06, 'epoch': 4.12}
{'loss': 0.0021, 'grad_norm': 0.001689333003014326, 'learning_rate': 3.5845295948760444e-06, 'epoch': 4.12}
{'loss': 0.0007, 'grad_norm': 0.10142877697944641, 'learning_rate': 3.5621346830000223e-06, 'epoch': 4.13}
{'loss': 0.0014, 'grad_norm': 0.03971700370311737, 'learning_rate': 3.539739771124001e-06, 'epoch': 4.13}
{'loss': 0.0008, 'grad_norm': 0.12946633994579315, 'learning_rate': 3.517344859247979e-06, 'epoch': 4.14}
{'loss': 0.0015, 'grad_norm': 0.01494985818862915, 'learning_rate': 3.4949499473719574e-06, 'epoch': 4.15}
{'loss': 0.0008, 'grad_norm': 0.0013534559402614832, 'learning_rate': 3.4725550354959357e-06, 'epoch': 4.15}
{'loss': 0.0008, 'grad_norm': 0.011890546418726444, 'learning_rate': 3.450160123619914e-06, 'epoch': 4.16}
{'loss': 0.0015, 'grad_norm': 0.013109634630382061, 'learning_rate': 3.427765211743892e-06, 'epoch': 4.16}
{'loss': 0.0008, 'grad_norm': 0.0019232493359595537, 'learning_rate': 3.40537029986787e-06, 'epoch': 4.17}
{'loss': 0.0009, 'grad_norm': 0.02066531963646412, 'learning_rate': 3.3829753879918487e-06, 'epoch': 4.17}
{'loss': 0.0018, 'grad_norm': 0.00364371994510293, 'learning_rate': 3.3605804761158266e-06, 'epoch': 4.18}
{'loss': 0.0013, 'grad_norm': 0.0214854683727026, 'learning_rate': 3.3381855642398046e-06, 'epoch': 4.18}
{'loss': 0.0012, 'grad_norm': 0.014650222845375538, 'learning_rate': 3.3157906523637833e-06, 'epoch': 4.19}
{'loss': 0.0008, 'grad_norm': 0.12458858639001846, 'learning_rate': 3.2933957404877613e-06, 'epoch': 4.19}
{'loss': 0.0008, 'grad_norm': 0.05412464588880539, 'learning_rate': 3.2710008286117396e-06, 'epoch': 4.2}
{'loss': 0.0008, 'grad_norm': 0.05582907423377037, 'learning_rate': 3.248605916735718e-06, 'epoch': 4.21}
{'loss': 0.0008, 'grad_norm': 0.006058037281036377, 'learning_rate': 3.2262110048596963e-06, 'epoch': 4.21}
{'loss': 0.001, 'grad_norm': 0.07414203137159348, 'learning_rate': 3.2038160929836743e-06, 'epoch': 4.22}
{'loss': 0.0008, 'grad_norm': 0.07749581336975098, 'learning_rate': 3.181421181107653e-06, 'epoch': 4.22}
{'loss': 0.0008, 'grad_norm': 0.08997820317745209, 'learning_rate': 3.159026269231631e-06, 'epoch': 4.23}
{'loss': 0.0009, 'grad_norm': 0.0007085053948685527, 'learning_rate': 3.136631357355609e-06, 'epoch': 4.23}
{'loss': 0.0008, 'grad_norm': 0.278054803609848, 'learning_rate': 3.1142364454795872e-06, 'epoch': 4.24}
{'loss': 0.0008, 'grad_norm': 0.025398461148142815, 'learning_rate': 3.0918415336035656e-06, 'epoch': 4.24}
{'loss': 0.0011, 'grad_norm': 0.0181169044226408, 'learning_rate': 3.0694466217275435e-06, 'epoch': 4.25}
{'loss': 0.0009, 'grad_norm': 0.03886833414435387, 'learning_rate': 3.047051709851522e-06, 'epoch': 4.25}
{'loss': 0.0007, 'grad_norm': 0.014894254505634308, 'learning_rate': 3.0246567979755002e-06, 'epoch': 4.26}
{'loss': 0.001, 'grad_norm': 0.3343604505062103, 'learning_rate': 3.0022618860994786e-06, 'epoch': 4.27}
{'loss': 0.0007, 'grad_norm': 0.2918633818626404, 'learning_rate': 2.9798669742234565e-06, 'epoch': 4.27}
{'loss': 0.0011, 'grad_norm': 0.011875933967530727, 'learning_rate': 2.9574720623474353e-06, 'epoch': 4.28}
{'loss': 0.0007, 'grad_norm': 0.01958482153713703, 'learning_rate': 2.935077150471413e-06, 'epoch': 4.28}
{'loss': 0.0019, 'grad_norm': 0.018138963729143143, 'learning_rate': 2.912682238595391e-06, 'epoch': 4.29}
{'loss': 0.0009, 'grad_norm': 0.010394470766186714, 'learning_rate': 2.89028732671937e-06, 'epoch': 4.29}
{'loss': 0.0011, 'grad_norm': 0.0032428407575935125, 'learning_rate': 2.867892414843348e-06, 'epoch': 4.3}
{'loss': 0.0008, 'grad_norm': 0.011067216284573078, 'learning_rate': 2.8454975029673258e-06, 'epoch': 4.3}
{'loss': 0.0006, 'grad_norm': 0.022999059408903122, 'learning_rate': 2.823102591091304e-06, 'epoch': 4.31}
{'loss': 0.0009, 'grad_norm': 0.001819304539822042, 'learning_rate': 2.8007076792152825e-06, 'epoch': 4.32}
{'loss': 0.001, 'grad_norm': 0.0037013550754636526, 'learning_rate': 2.778312767339261e-06, 'epoch': 4.32}
{'loss': 0.0007, 'grad_norm': 0.08672203868627548, 'learning_rate': 2.7559178554632387e-06, 'epoch': 4.33}
{'loss': 0.0011, 'grad_norm': 0.005167264491319656, 'learning_rate': 2.7335229435872175e-06, 'epoch': 4.33}
{'loss': 0.0008, 'grad_norm': 0.0014038735534995794, 'learning_rate': 2.7111280317111954e-06, 'epoch': 4.34}
{'loss': 0.0007, 'grad_norm': 0.010056782513856888, 'learning_rate': 2.6887331198351734e-06, 'epoch': 4.34}
{'loss': 0.0007, 'grad_norm': 0.00827051978558302, 'learning_rate': 2.666338207959152e-06, 'epoch': 4.35}
{'loss': 0.0007, 'grad_norm': 0.1306377500295639, 'learning_rate': 2.64394329608313e-06, 'epoch': 4.35}
{'loss': 0.001, 'grad_norm': 0.002261078916490078, 'learning_rate': 2.6215483842071084e-06, 'epoch': 4.36}
{'loss': 0.0008, 'grad_norm': 0.05072946101427078, 'learning_rate': 2.5991534723310868e-06, 'epoch': 4.36}
{'loss': 0.001, 'grad_norm': 0.04886786639690399, 'learning_rate': 2.5767585604550647e-06, 'epoch': 4.37}
{'loss': 0.0014, 'grad_norm': 0.06680363416671753, 'learning_rate': 2.554363648579043e-06, 'epoch': 4.38}
{'loss': 0.0006, 'grad_norm': 0.08678417652845383, 'learning_rate': 2.531968736703021e-06, 'epoch': 4.38}
{'loss': 0.0006, 'grad_norm': 0.17906591296195984, 'learning_rate': 2.5095738248269998e-06, 'epoch': 4.39}
{'loss': 0.001, 'grad_norm': 0.048420462757349014, 'learning_rate': 2.4871789129509777e-06, 'epoch': 4.39}
{'loss': 0.002, 'grad_norm': 0.22092890739440918, 'learning_rate': 2.464784001074956e-06, 'epoch': 4.4}
{'loss': 0.0006, 'grad_norm': 0.02592875249683857, 'learning_rate': 2.442389089198934e-06, 'epoch': 4.4}
{'loss': 0.0007, 'grad_norm': 0.04083279147744179, 'learning_rate': 2.4199941773229123e-06, 'epoch': 4.41}
{'loss': 0.001, 'grad_norm': 0.00027076838887296617, 'learning_rate': 2.3975992654468907e-06, 'epoch': 4.41}
{'loss': 0.0008, 'grad_norm': 0.002070697722956538, 'learning_rate': 2.375204353570869e-06, 'epoch': 4.42}
{'loss': 0.0008, 'grad_norm': 0.022934041917324066, 'learning_rate': 2.352809441694847e-06, 'epoch': 4.42}
{'loss': 0.0009, 'grad_norm': 0.025117984041571617, 'learning_rate': 2.3304145298188253e-06, 'epoch': 4.43}
{'loss': 0.0005, 'grad_norm': 0.0018961215391755104, 'learning_rate': 2.3080196179428037e-06, 'epoch': 4.44}
{'loss': 0.0008, 'grad_norm': 0.016121145337820053, 'learning_rate': 2.285624706066782e-06, 'epoch': 4.44}
{'loss': 0.0008, 'grad_norm': 0.15548691153526306, 'learning_rate': 2.26322979419076e-06, 'epoch': 4.45}
{'loss': 0.0007, 'grad_norm': 0.007404050324112177, 'learning_rate': 2.2408348823147383e-06, 'epoch': 4.45}
{'loss': 0.0006, 'grad_norm': 0.0019669681787490845, 'learning_rate': 2.2184399704387166e-06, 'epoch': 4.46}
{'loss': 0.0006, 'grad_norm': 0.04935136437416077, 'learning_rate': 2.1960450585626946e-06, 'epoch': 4.46}
{'loss': 0.0006, 'grad_norm': 0.007673050742596388, 'learning_rate': 2.173650146686673e-06, 'epoch': 4.47}
{'loss': 0.0006, 'grad_norm': 0.002124810591340065, 'learning_rate': 2.1512552348106513e-06, 'epoch': 4.47}
{'loss': 0.0009, 'grad_norm': 0.011607947759330273, 'learning_rate': 2.128860322934629e-06, 'epoch': 4.48}
{'loss': 0.0007, 'grad_norm': 0.015516514889895916, 'learning_rate': 2.1064654110586076e-06, 'epoch': 4.48}
{'loss': 0.0009, 'grad_norm': 0.013184698298573494, 'learning_rate': 2.084070499182586e-06, 'epoch': 4.49}
{'loss': 0.0006, 'grad_norm': 0.019689731299877167, 'learning_rate': 2.0616755873065643e-06, 'epoch': 4.5}
{'loss': 0.0007, 'grad_norm': 0.22405573725700378, 'learning_rate': 2.0392806754305426e-06, 'epoch': 4.5}
{'loss': 0.0006, 'grad_norm': 0.002072765724733472, 'learning_rate': 2.0168857635545205e-06, 'epoch': 4.51}
{'loss': 0.0007, 'grad_norm': 0.0035121950786560774, 'learning_rate': 1.994490851678499e-06, 'epoch': 4.51}
{'loss': 0.0006, 'grad_norm': 0.0017859174404293299, 'learning_rate': 1.972095939802477e-06, 'epoch': 4.52}
{'loss': 0.0008, 'grad_norm': 0.8883686661720276, 'learning_rate': 1.949701027926455e-06, 'epoch': 4.52}
{'loss': 0.0007, 'grad_norm': 0.3410530984401703, 'learning_rate': 1.9273061160504335e-06, 'epoch': 4.53}
{'loss': 0.0013, 'grad_norm': 0.005357651971280575, 'learning_rate': 1.9049112041744117e-06, 'epoch': 4.53}
{'loss': 0.0006, 'grad_norm': 0.009125343523919582, 'learning_rate': 1.88251629229839e-06, 'epoch': 4.54}
{'loss': 0.0009, 'grad_norm': 0.014439265243709087, 'learning_rate': 1.8601213804223681e-06, 'epoch': 4.55}
{'loss': 0.0015, 'grad_norm': 0.0037733712233603, 'learning_rate': 1.8377264685463465e-06, 'epoch': 4.55}
{'loss': 0.0014, 'grad_norm': 0.07933066040277481, 'learning_rate': 1.8153315566703246e-06, 'epoch': 4.56}
{'loss': 0.0007, 'grad_norm': 0.16726621985435486, 'learning_rate': 1.7929366447943028e-06, 'epoch': 4.56}
{'loss': 0.0007, 'grad_norm': 0.08296032249927521, 'learning_rate': 1.7705417329182811e-06, 'epoch': 4.57}
{'loss': 0.0008, 'grad_norm': 0.0007671950734220445, 'learning_rate': 1.7481468210422595e-06, 'epoch': 4.57}
{'loss': 0.0008, 'grad_norm': 0.07791215181350708, 'learning_rate': 1.7257519091662376e-06, 'epoch': 4.58}
{'loss': 0.0007, 'grad_norm': 0.03872445225715637, 'learning_rate': 1.7033569972902158e-06, 'epoch': 4.58}
{'loss': 0.0006, 'grad_norm': 0.09817063063383102, 'learning_rate': 1.680962085414194e-06, 'epoch': 4.59}
{'loss': 0.0008, 'grad_norm': 0.024218514561653137, 'learning_rate': 1.6585671735381723e-06, 'epoch': 4.59}
{'loss': 0.0008, 'grad_norm': 0.010985558852553368, 'learning_rate': 1.6361722616621506e-06, 'epoch': 4.6}
{'loss': 0.0006, 'grad_norm': 0.0027476183604449034, 'learning_rate': 1.6137773497861287e-06, 'epoch': 4.61}
{'loss': 0.001, 'grad_norm': 0.003122262191027403, 'learning_rate': 1.591382437910107e-06, 'epoch': 4.61}
{'loss': 0.0005, 'grad_norm': 0.0728781521320343, 'learning_rate': 1.568987526034085e-06, 'epoch': 4.62}
{'loss': 0.0007, 'grad_norm': 0.019124431535601616, 'learning_rate': 1.5465926141580634e-06, 'epoch': 4.62}
{'loss': 0.0006, 'grad_norm': 0.004708414431661367, 'learning_rate': 1.5241977022820417e-06, 'epoch': 4.63}
{'loss': 0.0007, 'grad_norm': 0.12547777593135834, 'learning_rate': 1.5018027904060199e-06, 'epoch': 4.63}
{'loss': 0.0009, 'grad_norm': 0.32263386249542236, 'learning_rate': 1.4794078785299982e-06, 'epoch': 4.64}
{'loss': 0.0014, 'grad_norm': 0.01729527674615383, 'learning_rate': 1.4570129666539764e-06, 'epoch': 4.64}
{'loss': 0.0008, 'grad_norm': 0.007950437255203724, 'learning_rate': 1.4346180547779545e-06, 'epoch': 4.65}
{'loss': 0.0006, 'grad_norm': 0.011319808661937714, 'learning_rate': 1.4122231429019328e-06, 'epoch': 4.65}
{'loss': 0.0006, 'grad_norm': 0.0025837954599410295, 'learning_rate': 1.389828231025911e-06, 'epoch': 4.66}
{'loss': 0.0016, 'grad_norm': 0.0021279077045619488, 'learning_rate': 1.3674333191498893e-06, 'epoch': 4.67}
{'loss': 0.0006, 'grad_norm': 0.0539991520345211, 'learning_rate': 1.3450384072738675e-06, 'epoch': 4.67}
{'loss': 0.0006, 'grad_norm': 0.0006465984624810517, 'learning_rate': 1.3226434953978456e-06, 'epoch': 4.68}
{'loss': 0.0012, 'grad_norm': 0.027662355452775955, 'learning_rate': 1.300248583521824e-06, 'epoch': 4.68}
{'loss': 0.0007, 'grad_norm': 0.004381787031888962, 'learning_rate': 1.2778536716458021e-06, 'epoch': 4.69}
{'loss': 0.0009, 'grad_norm': 0.004225610289722681, 'learning_rate': 1.2554587597697805e-06, 'epoch': 4.69}
{'loss': 0.0006, 'grad_norm': 0.0009983439231291413, 'learning_rate': 1.2330638478937586e-06, 'epoch': 4.7}
{'loss': 0.0005, 'grad_norm': 0.024487098678946495, 'learning_rate': 1.210668936017737e-06, 'epoch': 4.7}
{'loss': 0.0007, 'grad_norm': 0.3406839966773987, 'learning_rate': 1.188274024141715e-06, 'epoch': 4.71}
{'loss': 0.0007, 'grad_norm': 0.022679802030324936, 'learning_rate': 1.1658791122656932e-06, 'epoch': 4.71}
{'loss': 0.0006, 'grad_norm': 0.0023362182546406984, 'learning_rate': 1.1434842003896716e-06, 'epoch': 4.72}
{'loss': 0.0006, 'grad_norm': 0.006971537135541439, 'learning_rate': 1.12108928851365e-06, 'epoch': 4.73}
{'loss': 0.0006, 'grad_norm': 0.06807754933834076, 'learning_rate': 1.098694376637628e-06, 'epoch': 4.73}
{'loss': 0.0006, 'grad_norm': 0.007362959440797567, 'learning_rate': 1.0762994647616062e-06, 'epoch': 4.74}
{'loss': 0.0006, 'grad_norm': 0.08116839826107025, 'learning_rate': 1.0539045528855844e-06, 'epoch': 4.74}
{'loss': 0.0006, 'grad_norm': 0.01928202621638775, 'learning_rate': 1.0315096410095627e-06, 'epoch': 4.75}
{'loss': 0.0006, 'grad_norm': 0.13101086020469666, 'learning_rate': 1.009114729133541e-06, 'epoch': 4.75}
{'loss': 0.0006, 'grad_norm': 0.004853931255638599, 'learning_rate': 9.867198172575192e-07, 'epoch': 4.76}
{'loss': 0.0006, 'grad_norm': 0.02783609926700592, 'learning_rate': 9.643249053814973e-07, 'epoch': 4.76}
{'loss': 0.0018, 'grad_norm': 0.003236155491322279, 'learning_rate': 9.419299935054756e-07, 'epoch': 4.77}
{'loss': 0.0009, 'grad_norm': 0.023846732452511787, 'learning_rate': 9.195350816294539e-07, 'epoch': 4.78}
{'loss': 0.0007, 'grad_norm': 0.01901441439986229, 'learning_rate': 8.971401697534321e-07, 'epoch': 4.78}
{'loss': 0.0007, 'grad_norm': 0.00501618767157197, 'learning_rate': 8.747452578774103e-07, 'epoch': 4.79}
{'loss': 0.0005, 'grad_norm': 0.007777991704642773, 'learning_rate': 8.523503460013885e-07, 'epoch': 4.79}
{'loss': 0.0009, 'grad_norm': 0.6491960883140564, 'learning_rate': 8.299554341253668e-07, 'epoch': 4.8}
{'loss': 0.0013, 'grad_norm': 0.0740993320941925, 'learning_rate': 8.075605222493451e-07, 'epoch': 4.8}
{'loss': 0.0007, 'grad_norm': 0.02660405822098255, 'learning_rate': 7.851656103733232e-07, 'epoch': 4.81}
{'loss': 0.0006, 'grad_norm': 0.048786524683237076, 'learning_rate': 7.627706984973014e-07, 'epoch': 4.81}
{'loss': 0.0007, 'grad_norm': 0.005497151054441929, 'learning_rate': 7.403757866212798e-07, 'epoch': 4.82}
{'loss': 0.001, 'grad_norm': 0.003488279180601239, 'learning_rate': 7.179808747452579e-07, 'epoch': 4.82}
{'loss': 0.0019, 'grad_norm': 0.02504000999033451, 'learning_rate': 6.955859628692362e-07, 'epoch': 4.83}
{'loss': 0.0006, 'grad_norm': 0.009829353541135788, 'learning_rate': 6.731910509932143e-07, 'epoch': 4.84}
{'loss': 0.0006, 'grad_norm': 0.01532562542706728, 'learning_rate': 6.507961391171927e-07, 'epoch': 4.84}
{'loss': 0.0009, 'grad_norm': 0.00034189983853138983, 'learning_rate': 6.284012272411709e-07, 'epoch': 4.85}
{'loss': 0.0006, 'grad_norm': 0.019531667232513428, 'learning_rate': 6.060063153651491e-07, 'epoch': 4.85}
{'loss': 0.001, 'grad_norm': 0.0004679520789068192, 'learning_rate': 5.836114034891273e-07, 'epoch': 4.86}
{'loss': 0.0011, 'grad_norm': 0.00026422596420161426, 'learning_rate': 5.612164916131056e-07, 'epoch': 4.86}
{'loss': 0.0007, 'grad_norm': 0.0357745960354805, 'learning_rate': 5.388215797370838e-07, 'epoch': 4.87}
{'loss': 0.0007, 'grad_norm': 0.008043075911700726, 'learning_rate': 5.16426667861062e-07, 'epoch': 4.87}
{'loss': 0.0007, 'grad_norm': 0.01412264909595251, 'learning_rate': 4.940317559850402e-07, 'epoch': 4.88}
{'loss': 0.0018, 'grad_norm': 0.027081595733761787, 'learning_rate': 4.716368441090185e-07, 'epoch': 4.88}
{'loss': 0.0007, 'grad_norm': 0.02130473032593727, 'learning_rate': 4.4924193223299667e-07, 'epoch': 4.89}
{'loss': 0.0012, 'grad_norm': 0.0006097204168327153, 'learning_rate': 4.2684702035697497e-07, 'epoch': 4.9}
{'loss': 0.0007, 'grad_norm': 0.007859633304178715, 'learning_rate': 4.0445210848095316e-07, 'epoch': 4.9}
{'loss': 0.0009, 'grad_norm': 0.025279998779296875, 'learning_rate': 3.820571966049314e-07, 'epoch': 4.91}
{'loss': 0.0007, 'grad_norm': 0.010460122488439083, 'learning_rate': 3.596622847289096e-07, 'epoch': 4.91}
{'loss': 0.001, 'grad_norm': 0.5298627018928528, 'learning_rate': 3.372673728528879e-07, 'epoch': 4.92}
{'loss': 0.0007, 'grad_norm': 0.0009814887307584286, 'learning_rate': 3.148724609768661e-07, 'epoch': 4.92}
{'loss': 0.0007, 'grad_norm': 0.09579623490571976, 'learning_rate': 2.924775491008443e-07, 'epoch': 4.93}
{'loss': 0.0007, 'grad_norm': 0.006857629399746656, 'learning_rate': 2.7008263722482253e-07, 'epoch': 4.93}
{'loss': 0.0011, 'grad_norm': 0.004843506496399641, 'learning_rate': 2.476877253488008e-07, 'epoch': 4.94}
{'loss': 0.0005, 'grad_norm': 0.1149492859840393, 'learning_rate': 2.25292813472779e-07, 'epoch': 4.94}
{'loss': 0.0007, 'grad_norm': 0.09972663223743439, 'learning_rate': 2.0289790159675724e-07, 'epoch': 4.95}
{'loss': 0.0006, 'grad_norm': 0.036814313381910324, 'learning_rate': 1.8050298972073546e-07, 'epoch': 4.96}
{'loss': 0.0009, 'grad_norm': 0.016577519476413727, 'learning_rate': 1.581080778447137e-07, 'epoch': 4.96}
{'loss': 0.0008, 'grad_norm': 1.288059949874878, 'learning_rate': 1.3571316596869193e-07, 'epoch': 4.97}
{'loss': 0.0015, 'grad_norm': 0.060177162289619446, 'learning_rate': 1.1331825409267016e-07, 'epoch': 4.97}
{'loss': 0.0008, 'grad_norm': 0.03802037984132767, 'learning_rate': 9.092334221664839e-08, 'epoch': 4.98}
{'loss': 0.0006, 'grad_norm': 0.025011925026774406, 'learning_rate': 6.852843034062661e-08, 'epoch': 4.98}
{'loss': 0.0006, 'grad_norm': 0.0070183370262384415, 'learning_rate': 4.6133518464604844e-08, 'epoch': 4.99}
{'loss': 0.0007, 'grad_norm': 0.0013526534894481301, 'learning_rate': 2.3738606588583077e-08, 'epoch': 4.99}
{'loss': 0.0006, 'grad_norm': 0.0005251829861663282, 'learning_rate': 1.343694712561306e-09, 'epoch': 5.0}
{'train_runtime': 93010.3988, 'train_samples_per_second': 39.267, 'train_steps_per_second': 4.908, 'train_loss': 0.014228966551943086, 'epoch': 5.0}