zaydzuhri
/

gsa-8192-16M-test

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79aed0d36e91846e5076b38e0c5399a938277b337c30dc5af0fa5fe35aefcf56
 size 50161688

 version https://git-lfs.github.com/spec/v1
+oid sha256:3555c37af26548a1cc6ba4bb87ff4de4041837d85d33ec18def68b87e3fae3c7
 size 50161688

trainer_log.jsonl CHANGED Viewed

@@ -157,3 +157,160 @@
 {"current_steps": 5024, "total_steps": 20000, "loss": 3.9936, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
 {"current_steps": 5056, "total_steps": 20000, "loss": 4.0728, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}
 {"current_steps": 5088, "total_steps": 20000, "loss": 3.9024, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026139384531382795, "epoch": 0.2897989405934955, "percentage": 25.44}

 {"current_steps": 5024, "total_steps": 20000, "loss": 3.9936, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026234863262017535, "epoch": 0.28615367090049554, "percentage": 25.12}
 {"current_steps": 5056, "total_steps": 20000, "loss": 4.0728, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026187248761160676, "epoch": 0.2879763057469955, "percentage": 25.28}
 {"current_steps": 5088, "total_steps": 20000, "loss": 3.9024, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026139384531382795, "epoch": 0.2897989405934955, "percentage": 25.44}
+{"current_steps": 5120, "total_steps": 20000, "loss": 3.9256, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00026091271806582476, "epoch": 0.29162157543999545, "percentage": 25.6}
+{"current_steps": 5152, "total_steps": 20000, "loss": 3.9784, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002604291182706428, "epoch": 0.2934442102864954, "percentage": 25.76}
+{"current_steps": 5184, "total_steps": 20000, "loss": 3.7917, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025994305839506775, "epoch": 0.2952668451329954, "percentage": 25.92}
+{"current_steps": 5216, "total_steps": 20000, "loss": 4.0028, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002594545509693043, "epoch": 0.29708947997949536, "percentage": 26.08}
+{"current_steps": 5248, "total_steps": 20000, "loss": 3.7335, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002589636085866526, "epoch": 0.29891211482599533, "percentage": 26.24}
+{"current_steps": 5280, "total_steps": 20000, "loss": 3.8608, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025847024390318406, "epoch": 0.3007347496724953, "percentage": 26.4}
+{"current_steps": 5312, "total_steps": 20000, "loss": 3.9358, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002579744696374148, "epoch": 0.3025573845189953, "percentage": 26.56}
+{"current_steps": 5344, "total_steps": 20000, "loss": 3.6918, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025747629856997796, "epoch": 0.30438001936549525, "percentage": 26.72}
+{"current_steps": 5376, "total_steps": 20000, "loss": 3.6837, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002569757435432942, "epoch": 0.3062026542119952, "percentage": 26.88}
+{"current_steps": 5408, "total_steps": 20000, "loss": 3.7863, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002564728174612405, "epoch": 0.3080252890584952, "percentage": 27.04}
+{"current_steps": 5440, "total_steps": 20000, "loss": 3.8288, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025596753328881763, "epoch": 0.30984792390499516, "percentage": 27.2}
+{"current_steps": 5472, "total_steps": 20000, "loss": 3.8237, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000255459904051816, "epoch": 0.31167055875149513, "percentage": 27.36}
+{"current_steps": 5504, "total_steps": 20000, "loss": 3.8366, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002549499428364796, "epoch": 0.3134931935979951, "percentage": 27.52}
+{"current_steps": 5536, "total_steps": 20000, "loss": 3.8161, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002544376627891689, "epoch": 0.31531582844449507, "percentage": 27.68}
+{"current_steps": 5568, "total_steps": 20000, "loss": 3.7745, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002539230771160218, "epoch": 0.31713846329099504, "percentage": 27.84}
+{"current_steps": 5600, "total_steps": 20000, "loss": 3.878, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002534061990826135, "epoch": 0.318961098137495, "percentage": 28.0}
+{"current_steps": 5632, "total_steps": 20000, "loss": 3.8246, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002528870420136138, "epoch": 0.320783732983995, "percentage": 28.16}
+{"current_steps": 5664, "total_steps": 20000, "loss": 3.7216, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002523656192924445, "epoch": 0.32260636783049496, "percentage": 28.32}
+{"current_steps": 5696, "total_steps": 20000, "loss": 3.7781, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025184194436093373, "epoch": 0.3244290026769949, "percentage": 28.48}
+{"current_steps": 5728, "total_steps": 20000, "loss": 3.6919, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00025131603071896976, "epoch": 0.3262516375234949, "percentage": 28.64}
+{"current_steps": 5760, "total_steps": 20000, "loss": 3.9951, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002507878919241529, "epoch": 0.32807427236999487, "percentage": 28.8}
+{"current_steps": 5792, "total_steps": 20000, "loss": 3.8049, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002502575415914458, "epoch": 0.32989690721649484, "percentage": 28.96}
+{"current_steps": 5824, "total_steps": 20000, "loss": 3.7728, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024972499339282286, "epoch": 0.3317195420629948, "percentage": 29.12}
+{"current_steps": 5856, "total_steps": 20000, "loss": 3.8084, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024919026105691756, "epoch": 0.3335421769094948, "percentage": 29.28}
+{"current_steps": 5888, "total_steps": 20000, "loss": 3.8065, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024865335836866845, "epoch": 0.33536481175599475, "percentage": 29.44}
+{"current_steps": 5920, "total_steps": 20000, "loss": 3.7681, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002481142991689638, "epoch": 0.3371874466024947, "percentage": 29.6}
+{"current_steps": 5952, "total_steps": 20000, "loss": 3.754, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024757309735428523, "epoch": 0.3390100814489947, "percentage": 29.76}
+{"current_steps": 5984, "total_steps": 20000, "loss": 3.5406, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002470297668763488, "epoch": 0.34083271629549466, "percentage": 29.92}
+{"current_steps": 6016, "total_steps": 20000, "loss": 3.7576, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024648432174174576, "epoch": 0.34265535114199464, "percentage": 30.08}
+{"current_steps": 6048, "total_steps": 20000, "loss": 3.8426, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024593677601158153, "epoch": 0.3444779859884946, "percentage": 30.24}
+{"current_steps": 6080, "total_steps": 20000, "loss": 3.9396, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024538714380111285, "epoch": 0.3463006208349946, "percentage": 30.4}
+{"current_steps": 6112, "total_steps": 20000, "loss": 3.6263, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002448354392793843, "epoch": 0.34812325568149455, "percentage": 30.56}
+{"current_steps": 6144, "total_steps": 20000, "loss": 3.8923, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002442816766688627, "epoch": 0.3499458905279945, "percentage": 30.72}
+{"current_steps": 6176, "total_steps": 20000, "loss": 3.6891, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024372587024507078, "epoch": 0.3517685253744945, "percentage": 30.88}
+{"current_steps": 6208, "total_steps": 20000, "loss": 3.7898, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024316803433621894, "epoch": 0.35359116022099446, "percentage": 31.04}
+{"current_steps": 6240, "total_steps": 20000, "loss": 3.7926, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024260818332283595, "epoch": 0.35541379506749443, "percentage": 31.2}
+{"current_steps": 6272, "total_steps": 20000, "loss": 3.7921, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024204633163739828, "epoch": 0.3572364299139944, "percentage": 31.36}
+{"current_steps": 6304, "total_steps": 20000, "loss": 3.7015, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002414824937639579, "epoch": 0.3590590647604944, "percentage": 31.52}
+{"current_steps": 6336, "total_steps": 20000, "loss": 3.614, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00024091668423776915, "epoch": 0.36088169960699434, "percentage": 31.68}
+{"current_steps": 6368, "total_steps": 20000, "loss": 3.8032, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002403489176449137, "epoch": 0.3627043344534943, "percentage": 31.84}
+{"current_steps": 6400, "total_steps": 20000, "loss": 3.7366, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023977920862192488, "epoch": 0.3645269692999943, "percentage": 32.0}
+{"current_steps": 6432, "total_steps": 20000, "loss": 3.7611, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023920757185541007, "epoch": 0.36634960414649426, "percentage": 32.16}
+{"current_steps": 6464, "total_steps": 20000, "loss": 3.7301, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023863402208167228, "epoch": 0.3681722389929942, "percentage": 32.32}
+{"current_steps": 6496, "total_steps": 20000, "loss": 3.6811, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023805857408633024, "epoch": 0.3699948738394942, "percentage": 32.48}
+{"current_steps": 6528, "total_steps": 20000, "loss": 3.7024, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000237481242703937, "epoch": 0.37181750868599417, "percentage": 32.64}
+{"current_steps": 6560, "total_steps": 20000, "loss": 3.8254, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023690204281759795, "epoch": 0.37364014353249414, "percentage": 32.8}
+{"current_steps": 6592, "total_steps": 20000, "loss": 3.6466, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002363209893585868, "epoch": 0.3754627783789941, "percentage": 32.96}
+{"current_steps": 6624, "total_steps": 20000, "loss": 3.8532, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023573809730596066, "epoch": 0.3772854132254941, "percentage": 33.12}
+{"current_steps": 6656, "total_steps": 20000, "loss": 3.8125, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002351533816861742, "epoch": 0.37910804807199405, "percentage": 33.28}
+{"current_steps": 6688, "total_steps": 20000, "loss": 3.6791, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023456685757269189, "epoch": 0.380930682918494, "percentage": 33.44}
+{"current_steps": 6720, "total_steps": 20000, "loss": 3.7558, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023397854008559975, "epoch": 0.382753317764994, "percentage": 33.6}
+{"current_steps": 6752, "total_steps": 20000, "loss": 3.8509, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023338844439121532, "epoch": 0.38457595261149397, "percentage": 33.76}
+{"current_steps": 6784, "total_steps": 20000, "loss": 3.6575, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023279658570169698, "epoch": 0.38639858745799394, "percentage": 33.92}
+{"current_steps": 6816, "total_steps": 20000, "loss": 3.6496, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023220297927465123, "epoch": 0.3882212223044939, "percentage": 34.08}
+{"current_steps": 6848, "total_steps": 20000, "loss": 3.6609, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002316076404127401, "epoch": 0.3900438571509939, "percentage": 34.24}
+{"current_steps": 6880, "total_steps": 20000, "loss": 3.4333, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023101058446328625, "epoch": 0.3918664919974939, "percentage": 34.4}
+{"current_steps": 6912, "total_steps": 20000, "loss": 3.8277, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00023041182681787713, "epoch": 0.3936891268439939, "percentage": 34.56}
+{"current_steps": 6944, "total_steps": 20000, "loss": 3.7697, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002298113829119687, "epoch": 0.39551176169049385, "percentage": 34.72}
+{"current_steps": 6976, "total_steps": 20000, "loss": 3.6879, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022920926822448716, "epoch": 0.3973343965369938, "percentage": 34.88}
+{"current_steps": 7008, "total_steps": 20000, "loss": 3.6767, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022860549827743, "epoch": 0.3991570313834938, "percentage": 35.04}
+{"current_steps": 7040, "total_steps": 20000, "loss": 3.8671, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022800008863546592, "epoch": 0.40097966622999376, "percentage": 35.2}
+{"current_steps": 7072, "total_steps": 20000, "loss": 3.6704, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022739305490553357, "epoch": 0.40280230107649373, "percentage": 35.36}
+{"current_steps": 7104, "total_steps": 20000, "loss": 3.7757, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022678441273643908, "epoch": 0.4046249359229937, "percentage": 35.52}
+{"current_steps": 7136, "total_steps": 20000, "loss": 3.635, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022617417781845283, "epoch": 0.40644757076949367, "percentage": 35.68}
+{"current_steps": 7168, "total_steps": 20000, "loss": 3.553, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022556236588290487, "epoch": 0.40827020561599364, "percentage": 35.84}
+{"current_steps": 7200, "total_steps": 20000, "loss": 3.6891, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002249489927017795, "epoch": 0.4100928404624936, "percentage": 36.0}
+{"current_steps": 7232, "total_steps": 20000, "loss": 3.571, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022433407408730836, "epoch": 0.4119154753089936, "percentage": 36.16}
+{"current_steps": 7264, "total_steps": 20000, "loss": 3.5861, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022371762589156328, "epoch": 0.41373811015549355, "percentage": 36.32}
+{"current_steps": 7296, "total_steps": 20000, "loss": 3.6287, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022309966400604724, "epoch": 0.4155607450019935, "percentage": 36.48}
+{"current_steps": 7328, "total_steps": 20000, "loss": 3.7313, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022248020436128478, "epoch": 0.4173833798484935, "percentage": 36.64}
+{"current_steps": 7360, "total_steps": 20000, "loss": 3.7296, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002218592629264116, "epoch": 0.41920601469499347, "percentage": 36.8}
+{"current_steps": 7392, "total_steps": 20000, "loss": 3.6566, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022123685570876237, "epoch": 0.42102864954149344, "percentage": 36.96}
+{"current_steps": 7424, "total_steps": 20000, "loss": 3.8003, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00022061299875345867, "epoch": 0.4228512843879934, "percentage": 37.12}
+{"current_steps": 7456, "total_steps": 20000, "loss": 3.5812, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021998770814299495, "epoch": 0.4246739192344934, "percentage": 37.28}
+{"current_steps": 7488, "total_steps": 20000, "loss": 3.71, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021936099999682394, "epoch": 0.42649655408099335, "percentage": 37.44}
+{"current_steps": 7520, "total_steps": 20000, "loss": 3.8821, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021873289047094141, "epoch": 0.4283191889274933, "percentage": 37.6}
+{"current_steps": 7552, "total_steps": 20000, "loss": 3.6688, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002181033957574693, "epoch": 0.4301418237739933, "percentage": 37.76}
+{"current_steps": 7584, "total_steps": 20000, "loss": 3.6847, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002174725320842387, "epoch": 0.43196445862049326, "percentage": 37.92}
+{"current_steps": 7616, "total_steps": 20000, "loss": 3.5993, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021684031571437111, "epoch": 0.43378709346699323, "percentage": 38.08}
+{"current_steps": 7648, "total_steps": 20000, "loss": 3.6037, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021620676294585955, "epoch": 0.4356097283134932, "percentage": 38.24}
+{"current_steps": 7680, "total_steps": 20000, "loss": 3.7809, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002155718901111481, "epoch": 0.4374323631599932, "percentage": 38.4}
+{"current_steps": 7712, "total_steps": 20000, "loss": 3.5873, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021493571357671112, "epoch": 0.43925499800649315, "percentage": 38.56}
+{"current_steps": 7744, "total_steps": 20000, "loss": 3.4473, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002142982497426311, "epoch": 0.4410776328529931, "percentage": 38.72}
+{"current_steps": 7776, "total_steps": 20000, "loss": 3.7102, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021365951504217614, "epoch": 0.4429002676994931, "percentage": 38.88}
+{"current_steps": 7808, "total_steps": 20000, "loss": 3.6855, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021301952594137612, "epoch": 0.44472290254599306, "percentage": 39.04}
+{"current_steps": 7840, "total_steps": 20000, "loss": 3.5989, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021237829893859831, "epoch": 0.44654553739249303, "percentage": 39.2}
+{"current_steps": 7872, "total_steps": 20000, "loss": 3.7687, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002117358505641219, "epoch": 0.448368172238993, "percentage": 39.36}
+{"current_steps": 7904, "total_steps": 20000, "loss": 3.6122, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021109219737971217, "epoch": 0.45019080708549297, "percentage": 39.52}
+{"current_steps": 7936, "total_steps": 20000, "loss": 3.5043, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00021044735597819318, "epoch": 0.45201344193199294, "percentage": 39.68}
+{"current_steps": 7968, "total_steps": 20000, "loss": 3.702, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020980134298302048, "epoch": 0.4538360767784929, "percentage": 39.84}
+{"current_steps": 8000, "total_steps": 20000, "loss": 3.6391, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020915417504785194, "epoch": 0.4556587116249929, "percentage": 40.0}
+{"current_steps": 8032, "total_steps": 20000, "loss": 3.6213, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000208505868856119, "epoch": 0.45748134647149286, "percentage": 40.16}
+{"current_steps": 8064, "total_steps": 20000, "loss": 3.6532, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020785644112059632, "epoch": 0.4593039813179928, "percentage": 40.32}
+{"current_steps": 8096, "total_steps": 20000, "loss": 3.5302, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002072059085829711, "epoch": 0.4611266161644928, "percentage": 40.48}
+{"current_steps": 8128, "total_steps": 20000, "loss": 3.4769, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020655428801341123, "epoch": 0.46294925101099277, "percentage": 40.64}
+{"current_steps": 8160, "total_steps": 20000, "loss": 3.6382, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002059015962101332, "epoch": 0.46477188585749274, "percentage": 40.8}
+{"current_steps": 8192, "total_steps": 20000, "loss": 3.5957, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020524784999896887, "epoch": 0.4665945207039927, "percentage": 40.96}
+{"current_steps": 8224, "total_steps": 20000, "loss": 3.4967, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002045930662329321, "epoch": 0.4684171555504927, "percentage": 41.12}
+{"current_steps": 8256, "total_steps": 20000, "loss": 3.576, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002039372617917837, "epoch": 0.47023979039699265, "percentage": 41.28}
+{"current_steps": 8288, "total_steps": 20000, "loss": 3.5219, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020328045358159678, "epoch": 0.4720624252434926, "percentage": 41.44}
+{"current_steps": 8320, "total_steps": 20000, "loss": 3.6936, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020262265853432084, "epoch": 0.4738850600899926, "percentage": 41.6}
+{"current_steps": 8352, "total_steps": 20000, "loss": 3.7431, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020196389360734485, "epoch": 0.47570769493649256, "percentage": 41.76}
+{"current_steps": 8384, "total_steps": 20000, "loss": 3.9069, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00020130417578306082, "epoch": 0.47753032978299254, "percentage": 41.92}
+{"current_steps": 8416, "total_steps": 20000, "loss": 3.6534, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0002006435220684255, "epoch": 0.4793529646294925, "percentage": 42.08}
+{"current_steps": 8448, "total_steps": 20000, "loss": 3.5996, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019998194949452192, "epoch": 0.4811755994759925, "percentage": 42.24}
+{"current_steps": 8480, "total_steps": 20000, "loss": 3.5928, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019931947511612076, "epoch": 0.48299823432249245, "percentage": 42.4}
+{"current_steps": 8512, "total_steps": 20000, "loss": 3.454, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019865611601124024, "epoch": 0.4848208691689924, "percentage": 42.56}
+{"current_steps": 8544, "total_steps": 20000, "loss": 3.4647, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001979918892807062, "epoch": 0.4866435040154924, "percentage": 42.72}
+{"current_steps": 8576, "total_steps": 20000, "loss": 3.4414, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001973268120477111, "epoch": 0.48846613886199236, "percentage": 42.88}
+{"current_steps": 8608, "total_steps": 20000, "loss": 3.5227, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001966609014573726, "epoch": 0.49028877370849233, "percentage": 43.04}
+{"current_steps": 8640, "total_steps": 20000, "loss": 3.7973, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019599417467629153, "epoch": 0.4921114085549923, "percentage": 43.2}
+{"current_steps": 8672, "total_steps": 20000, "loss": 3.7139, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019532664889210957, "epoch": 0.4939340434014923, "percentage": 43.36}
+{"current_steps": 8704, "total_steps": 20000, "loss": 3.5144, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001946583413130658, "epoch": 0.49575667824799224, "percentage": 43.52}
+{"current_steps": 8736, "total_steps": 20000, "loss": 3.5577, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019398926916755355, "epoch": 0.4975793130944922, "percentage": 43.68}
+{"current_steps": 8768, "total_steps": 20000, "loss": 3.5494, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019331944970367573, "epoch": 0.4994019479409922, "percentage": 43.84}
+{"current_steps": 8800, "total_steps": 20000, "loss": 3.5377, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019264890018880074, "epoch": 0.5012245827874922, "percentage": 44.0}
+{"current_steps": 8832, "total_steps": 20000, "loss": 3.6729, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019197763790911685, "epoch": 0.5030472176339922, "percentage": 44.16}
+{"current_steps": 8864, "total_steps": 20000, "loss": 3.5539, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000191305680169187, "epoch": 0.5048698524804921, "percentage": 44.32}
+{"current_steps": 8896, "total_steps": 20000, "loss": 3.6936, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00019063304429150233, "epoch": 0.5066924873269921, "percentage": 44.48}
+{"current_steps": 8928, "total_steps": 20000, "loss": 3.6496, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018995974761603583, "epoch": 0.508515122173492, "percentage": 44.64}
+{"current_steps": 8960, "total_steps": 20000, "loss": 3.7582, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018928580749979525, "epoch": 0.5103377570199921, "percentage": 44.8}
+{"current_steps": 8992, "total_steps": 20000, "loss": 3.5448, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018861124131637586, "epoch": 0.512160391866492, "percentage": 44.96}
+{"current_steps": 9024, "total_steps": 20000, "loss": 3.6117, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018793606645551217, "epoch": 0.513983026712992, "percentage": 45.12}
+{"current_steps": 9056, "total_steps": 20000, "loss": 3.7348, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018726030032263004, "epoch": 0.5158056615594919, "percentage": 45.28}
+{"current_steps": 9088, "total_steps": 20000, "loss": 3.5361, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001865839603383977, "epoch": 0.517628296405992, "percentage": 45.44}
+{"current_steps": 9120, "total_steps": 20000, "loss": 3.7015, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018590706393827684, "epoch": 0.5194509312524919, "percentage": 45.6}
+{"current_steps": 9152, "total_steps": 20000, "loss": 3.6491, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018522962857207308, "epoch": 0.5212735660989919, "percentage": 45.76}
+{"current_steps": 9184, "total_steps": 20000, "loss": 3.6142, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018455167170348616, "epoch": 0.5230962009454918, "percentage": 45.92}
+{"current_steps": 9216, "total_steps": 20000, "loss": 3.4739, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018387321080965953, "epoch": 0.5249188357919918, "percentage": 46.08}
+{"current_steps": 9248, "total_steps": 20000, "loss": 3.5721, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001831942633807301, "epoch": 0.5267414706384917, "percentage": 46.24}
+{"current_steps": 9280, "total_steps": 20000, "loss": 3.7302, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018251484691937723, "epoch": 0.5285641054849918, "percentage": 46.4}
+{"current_steps": 9312, "total_steps": 20000, "loss": 3.3786, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018183497894037152, "epoch": 0.5303867403314917, "percentage": 46.56}
+{"current_steps": 9344, "total_steps": 20000, "loss": 3.6404, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00018115467697012337, "epoch": 0.5322093751779917, "percentage": 46.72}
+{"current_steps": 9376, "total_steps": 20000, "loss": 3.529, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000180473958546231, "epoch": 0.5340320100244916, "percentage": 46.88}
+{"current_steps": 9408, "total_steps": 20000, "loss": 3.5921, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017979284121702842, "epoch": 0.5358546448709917, "percentage": 47.04}
+{"current_steps": 9440, "total_steps": 20000, "loss": 3.5576, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001791113425411332, "epoch": 0.5376772797174916, "percentage": 47.2}
+{"current_steps": 9472, "total_steps": 20000, "loss": 3.4825, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017842948008699365, "epoch": 0.5394999145639916, "percentage": 47.36}
+{"current_steps": 9504, "total_steps": 20000, "loss": 3.4776, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017774727143243598, "epoch": 0.5413225494104915, "percentage": 47.52}
+{"current_steps": 9536, "total_steps": 20000, "loss": 3.6592, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017706473416421098, "epoch": 0.5431451842569915, "percentage": 47.68}
+{"current_steps": 9568, "total_steps": 20000, "loss": 3.6072, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017638188587754114, "epoch": 0.5449678191034915, "percentage": 47.84}
+{"current_steps": 9600, "total_steps": 20000, "loss": 3.6329, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017569874417566644, "epoch": 0.5467904539499915, "percentage": 48.0}
+{"current_steps": 9632, "total_steps": 20000, "loss": 3.5543, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017501532666939105, "epoch": 0.5486130887964914, "percentage": 48.16}
+{"current_steps": 9664, "total_steps": 20000, "loss": 3.5905, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017433165097662897, "epoch": 0.5504357236429914, "percentage": 48.32}
+{"current_steps": 9696, "total_steps": 20000, "loss": 3.4106, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017364773472195024, "epoch": 0.5522583584894913, "percentage": 48.48}
+{"current_steps": 9728, "total_steps": 20000, "loss": 3.5478, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017296359553612615, "epoch": 0.5540809933359914, "percentage": 48.64}
+{"current_steps": 9760, "total_steps": 20000, "loss": 3.6353, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017227925105567512, "epoch": 0.5559036281824913, "percentage": 48.8}
+{"current_steps": 9792, "total_steps": 20000, "loss": 3.4466, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001715947189224078, "epoch": 0.5577262630289913, "percentage": 48.96}
+{"current_steps": 9824, "total_steps": 20000, "loss": 3.5147, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017091001678297242, "epoch": 0.5595488978754912, "percentage": 49.12}
+{"current_steps": 9856, "total_steps": 20000, "loss": 3.5831, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00017022516228839985, "epoch": 0.5613715327219913, "percentage": 49.28}
+{"current_steps": 9888, "total_steps": 20000, "loss": 3.7177, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001695401730936484, "epoch": 0.5631941675684912, "percentage": 49.44}
+{"current_steps": 9920, "total_steps": 20000, "loss": 3.6523, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016885506685714895, "epoch": 0.5650168024149912, "percentage": 49.6}
+{"current_steps": 9952, "total_steps": 20000, "loss": 3.5529, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016816986124034976, "epoch": 0.5668394372614911, "percentage": 49.76}
+{"current_steps": 9984, "total_steps": 20000, "loss": 3.5883, "eval_loss": null, "predict_loss": null, "learning_rate": 0.0001674845739072607, "epoch": 0.5686620721079911, "percentage": 49.92}
+{"current_steps": 10016, "total_steps": 20000, "loss": 3.3808, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016679922252399841, "epoch": 0.570484706954491, "percentage": 50.08}
+{"current_steps": 10048, "total_steps": 20000, "loss": 3.6073, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016611382475833068, "epoch": 0.5723073418009911, "percentage": 50.24}
+{"current_steps": 10080, "total_steps": 20000, "loss": 3.5213, "eval_loss": null, "predict_loss": null, "learning_rate": 0.000165428398279221, "epoch": 0.574129976647491, "percentage": 50.4}
+{"current_steps": 10112, "total_steps": 20000, "loss": 3.6138, "eval_loss": null, "predict_loss": null, "learning_rate": 0.00016474296075637306, "epoch": 0.575952611493991, "percentage": 50.56}