{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 230,
  "global_step": 919,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001088139281828074,
      "grad_norm": 0.04828796908259392,
      "learning_rate": 2e-05,
      "loss": 0.0762,
      "step": 1
    },
    {
      "epoch": 0.002176278563656148,
      "grad_norm": 0.06207922473549843,
      "learning_rate": 4e-05,
      "loss": 0.0973,
      "step": 2
    },
    {
      "epoch": 0.003264417845484222,
      "grad_norm": 0.06030188128352165,
      "learning_rate": 6e-05,
      "loss": 0.1003,
      "step": 3
    },
    {
      "epoch": 0.004352557127312296,
      "grad_norm": 0.05758730694651604,
      "learning_rate": 8e-05,
      "loss": 0.085,
      "step": 4
    },
    {
      "epoch": 0.00544069640914037,
      "grad_norm": 0.07111983001232147,
      "learning_rate": 0.0001,
      "loss": 0.1174,
      "step": 5
    },
    {
      "epoch": 0.006528835690968444,
      "grad_norm": 0.09522929042577744,
      "learning_rate": 0.00012,
      "loss": 0.1404,
      "step": 6
    },
    {
      "epoch": 0.007616974972796518,
      "grad_norm": 0.08600069582462311,
      "learning_rate": 0.00014,
      "loss": 0.1187,
      "step": 7
    },
    {
      "epoch": 0.008705114254624592,
      "grad_norm": 0.0808354914188385,
      "learning_rate": 0.00016,
      "loss": 0.1235,
      "step": 8
    },
    {
      "epoch": 0.009793253536452665,
      "grad_norm": 0.10051260888576508,
      "learning_rate": 0.00018,
      "loss": 0.135,
      "step": 9
    },
    {
      "epoch": 0.01088139281828074,
      "grad_norm": 0.08877796679735184,
      "learning_rate": 0.0002,
      "loss": 0.0803,
      "step": 10
    },
    {
      "epoch": 0.011969532100108813,
      "grad_norm": 0.10384293645620346,
      "learning_rate": 0.00019999940277008808,
      "loss": 0.1206,
      "step": 11
    },
    {
      "epoch": 0.013057671381936888,
      "grad_norm": 0.1314290463924408,
      "learning_rate": 0.00019999761108748597,
      "loss": 0.1249,
      "step": 12
    },
    {
      "epoch": 0.014145810663764961,
      "grad_norm": 0.12873488664627075,
      "learning_rate": 0.00019999462497359466,
      "loss": 0.0847,
      "step": 13
    },
    {
      "epoch": 0.015233949945593036,
      "grad_norm": 0.12493155896663666,
      "learning_rate": 0.000199990444464082,
      "loss": 0.0858,
      "step": 14
    },
    {
      "epoch": 0.01632208922742111,
      "grad_norm": 0.1131022647023201,
      "learning_rate": 0.00019998506960888256,
      "loss": 0.0737,
      "step": 15
    },
    {
      "epoch": 0.017410228509249184,
      "grad_norm": 0.1214890405535698,
      "learning_rate": 0.0001999785004721968,
      "loss": 0.1151,
      "step": 16
    },
    {
      "epoch": 0.018498367791077257,
      "grad_norm": 0.12649253010749817,
      "learning_rate": 0.0001999707371324904,
      "loss": 0.0913,
      "step": 17
    },
    {
      "epoch": 0.01958650707290533,
      "grad_norm": 0.12470237910747528,
      "learning_rate": 0.00019996177968249334,
      "loss": 0.1043,
      "step": 18
    },
    {
      "epoch": 0.020674646354733407,
      "grad_norm": 0.15574277937412262,
      "learning_rate": 0.00019995162822919883,
      "loss": 0.1092,
      "step": 19
    },
    {
      "epoch": 0.02176278563656148,
      "grad_norm": 0.1281992644071579,
      "learning_rate": 0.0001999402828938618,
      "loss": 0.0892,
      "step": 20
    },
    {
      "epoch": 0.022850924918389554,
      "grad_norm": 0.16906976699829102,
      "learning_rate": 0.00019992774381199778,
      "loss": 0.1633,
      "step": 21
    },
    {
      "epoch": 0.023939064200217627,
      "grad_norm": 0.12387573719024658,
      "learning_rate": 0.00019991401113338104,
      "loss": 0.0872,
      "step": 22
    },
    {
      "epoch": 0.025027203482045703,
      "grad_norm": 0.12343913316726685,
      "learning_rate": 0.00019989908502204292,
      "loss": 0.1084,
      "step": 23
    },
    {
      "epoch": 0.026115342763873776,
      "grad_norm": 0.11399204283952713,
      "learning_rate": 0.00019988296565626987,
      "loss": 0.0824,
      "step": 24
    },
    {
      "epoch": 0.02720348204570185,
      "grad_norm": 0.1402149796485901,
      "learning_rate": 0.00019986565322860115,
      "loss": 0.1289,
      "step": 25
    },
    {
      "epoch": 0.028291621327529923,
      "grad_norm": 0.13711000978946686,
      "learning_rate": 0.00019984714794582683,
      "loss": 0.097,
      "step": 26
    },
    {
      "epoch": 0.029379760609358,
      "grad_norm": 0.18544617295265198,
      "learning_rate": 0.000199827450028985,
      "loss": 0.1281,
      "step": 27
    },
    {
      "epoch": 0.030467899891186073,
      "grad_norm": 0.15856046974658966,
      "learning_rate": 0.00019980655971335945,
      "loss": 0.1027,
      "step": 28
    },
    {
      "epoch": 0.031556039173014146,
      "grad_norm": 0.12590578198432922,
      "learning_rate": 0.00019978447724847652,
      "loss": 0.0863,
      "step": 29
    },
    {
      "epoch": 0.03264417845484222,
      "grad_norm": 0.14784540235996246,
      "learning_rate": 0.00019976120289810247,
      "loss": 0.1125,
      "step": 30
    },
    {
      "epoch": 0.03373231773667029,
      "grad_norm": 0.19753308594226837,
      "learning_rate": 0.00019973673694024,
      "loss": 0.1389,
      "step": 31
    },
    {
      "epoch": 0.03482045701849837,
      "grad_norm": 0.17247086763381958,
      "learning_rate": 0.00019971107966712518,
      "loss": 0.0901,
      "step": 32
    },
    {
      "epoch": 0.035908596300326445,
      "grad_norm": 0.23573236167430878,
      "learning_rate": 0.0001996842313852238,
      "loss": 0.1141,
      "step": 33
    },
    {
      "epoch": 0.036996735582154515,
      "grad_norm": 0.1349520981311798,
      "learning_rate": 0.0001996561924152278,
      "loss": 0.077,
      "step": 34
    },
    {
      "epoch": 0.03808487486398259,
      "grad_norm": 0.2573637068271637,
      "learning_rate": 0.00019962696309205148,
      "loss": 0.0965,
      "step": 35
    },
    {
      "epoch": 0.03917301414581066,
      "grad_norm": 0.2688570022583008,
      "learning_rate": 0.0001995965437648273,
      "loss": 0.1754,
      "step": 36
    },
    {
      "epoch": 0.04026115342763874,
      "grad_norm": 0.2946501076221466,
      "learning_rate": 0.0001995649347969019,
      "loss": 0.1893,
      "step": 37
    },
    {
      "epoch": 0.041349292709466814,
      "grad_norm": 0.2942318320274353,
      "learning_rate": 0.00019953213656583168,
      "loss": 0.1461,
      "step": 38
    },
    {
      "epoch": 0.042437431991294884,
      "grad_norm": 0.3316934406757355,
      "learning_rate": 0.00019949814946337838,
      "loss": 0.1072,
      "step": 39
    },
    {
      "epoch": 0.04352557127312296,
      "grad_norm": 0.3863315284252167,
      "learning_rate": 0.00019946297389550433,
      "loss": 0.1517,
      "step": 40
    },
    {
      "epoch": 0.04461371055495103,
      "grad_norm": 0.3102675974369049,
      "learning_rate": 0.00019942661028236745,
      "loss": 0.1421,
      "step": 41
    },
    {
      "epoch": 0.04570184983677911,
      "grad_norm": 0.3270488679409027,
      "learning_rate": 0.00019938905905831654,
      "loss": 0.085,
      "step": 42
    },
    {
      "epoch": 0.046789989118607184,
      "grad_norm": 0.3799861669540405,
      "learning_rate": 0.0001993503206718859,
      "loss": 0.1333,
      "step": 43
    },
    {
      "epoch": 0.04787812840043525,
      "grad_norm": 0.45475858449935913,
      "learning_rate": 0.00019931039558578997,
      "loss": 0.1431,
      "step": 44
    },
    {
      "epoch": 0.04896626768226333,
      "grad_norm": 0.3995339870452881,
      "learning_rate": 0.00019926928427691786,
      "loss": 0.18,
      "step": 45
    },
    {
      "epoch": 0.05005440696409141,
      "grad_norm": 0.4547290503978729,
      "learning_rate": 0.00019922698723632767,
      "loss": 0.1578,
      "step": 46
    },
    {
      "epoch": 0.051142546245919476,
      "grad_norm": 0.44180116057395935,
      "learning_rate": 0.0001991835049692405,
      "loss": 0.2327,
      "step": 47
    },
    {
      "epoch": 0.05223068552774755,
      "grad_norm": 0.8059853911399841,
      "learning_rate": 0.0001991388379950346,
      "loss": 0.3089,
      "step": 48
    },
    {
      "epoch": 0.05331882480957562,
      "grad_norm": 0.6336686015129089,
      "learning_rate": 0.00019909298684723904,
      "loss": 0.2055,
      "step": 49
    },
    {
      "epoch": 0.0544069640914037,
      "grad_norm": 0.8279074430465698,
      "learning_rate": 0.00019904595207352737,
      "loss": 0.2626,
      "step": 50
    },
    {
      "epoch": 0.055495103373231776,
      "grad_norm": 0.07426032423973083,
      "learning_rate": 0.000198997734235711,
      "loss": 0.0632,
      "step": 51
    },
    {
      "epoch": 0.056583242655059846,
      "grad_norm": 0.09094005823135376,
      "learning_rate": 0.00019894833390973266,
      "loss": 0.0734,
      "step": 52
    },
    {
      "epoch": 0.05767138193688792,
      "grad_norm": 0.09561450034379959,
      "learning_rate": 0.00019889775168565943,
      "loss": 0.0972,
      "step": 53
    },
    {
      "epoch": 0.058759521218716,
      "grad_norm": 0.09174304455518723,
      "learning_rate": 0.00019884598816767563,
      "loss": 0.082,
      "step": 54
    },
    {
      "epoch": 0.05984766050054407,
      "grad_norm": 0.0911480113863945,
      "learning_rate": 0.0001987930439740757,
      "loss": 0.0712,
      "step": 55
    },
    {
      "epoch": 0.060935799782372145,
      "grad_norm": 0.1090071052312851,
      "learning_rate": 0.0001987389197372567,
      "loss": 0.09,
      "step": 56
    },
    {
      "epoch": 0.062023939064200215,
      "grad_norm": 0.09118974953889847,
      "learning_rate": 0.00019868361610371097,
      "loss": 0.0946,
      "step": 57
    },
    {
      "epoch": 0.06311207834602829,
      "grad_norm": 0.09903446584939957,
      "learning_rate": 0.0001986271337340182,
      "loss": 0.1074,
      "step": 58
    },
    {
      "epoch": 0.06420021762785637,
      "grad_norm": 0.08208192884922028,
      "learning_rate": 0.00019856947330283752,
      "loss": 0.0847,
      "step": 59
    },
    {
      "epoch": 0.06528835690968444,
      "grad_norm": 0.08504832535982132,
      "learning_rate": 0.0001985106354988997,
      "loss": 0.0852,
      "step": 60
    },
    {
      "epoch": 0.06637649619151251,
      "grad_norm": 0.07276565581560135,
      "learning_rate": 0.0001984506210249986,
      "loss": 0.061,
      "step": 61
    },
    {
      "epoch": 0.06746463547334058,
      "grad_norm": 0.08346979320049286,
      "learning_rate": 0.00019838943059798304,
      "loss": 0.0717,
      "step": 62
    },
    {
      "epoch": 0.06855277475516866,
      "grad_norm": 0.09144837409257889,
      "learning_rate": 0.0001983270649487481,
      "loss": 0.0817,
      "step": 63
    },
    {
      "epoch": 0.06964091403699674,
      "grad_norm": 0.09562050551176071,
      "learning_rate": 0.00019826352482222638,
      "loss": 0.0809,
      "step": 64
    },
    {
      "epoch": 0.07072905331882481,
      "grad_norm": 0.10410594195127487,
      "learning_rate": 0.00019819881097737915,
      "loss": 0.0801,
      "step": 65
    },
    {
      "epoch": 0.07181719260065289,
      "grad_norm": 0.0836932361125946,
      "learning_rate": 0.00019813292418718732,
      "loss": 0.0775,
      "step": 66
    },
    {
      "epoch": 0.07290533188248095,
      "grad_norm": 0.09397463500499725,
      "learning_rate": 0.0001980658652386421,
      "loss": 0.065,
      "step": 67
    },
    {
      "epoch": 0.07399347116430903,
      "grad_norm": 0.108340784907341,
      "learning_rate": 0.0001979976349327357,
      "loss": 0.0981,
      "step": 68
    },
    {
      "epoch": 0.0750816104461371,
      "grad_norm": 0.08717814087867737,
      "learning_rate": 0.00019792823408445174,
      "loss": 0.0798,
      "step": 69
    },
    {
      "epoch": 0.07616974972796518,
      "grad_norm": 0.1279960721731186,
      "learning_rate": 0.00019785766352275542,
      "loss": 0.0993,
      "step": 70
    },
    {
      "epoch": 0.07725788900979326,
      "grad_norm": 0.13422514498233795,
      "learning_rate": 0.00019778592409058378,
      "loss": 0.1023,
      "step": 71
    },
    {
      "epoch": 0.07834602829162132,
      "grad_norm": 0.10113417357206345,
      "learning_rate": 0.0001977130166448355,
      "loss": 0.0742,
      "step": 72
    },
    {
      "epoch": 0.0794341675734494,
      "grad_norm": 0.1026310920715332,
      "learning_rate": 0.00019763894205636072,
      "loss": 0.0988,
      "step": 73
    },
    {
      "epoch": 0.08052230685527748,
      "grad_norm": 0.09779265522956848,
      "learning_rate": 0.00019756370120995066,
      "loss": 0.0738,
      "step": 74
    },
    {
      "epoch": 0.08161044613710555,
      "grad_norm": 0.14643464982509613,
      "learning_rate": 0.000197487295004327,
      "loss": 0.09,
      "step": 75
    },
    {
      "epoch": 0.08269858541893363,
      "grad_norm": 0.11976644396781921,
      "learning_rate": 0.00019740972435213115,
      "loss": 0.0904,
      "step": 76
    },
    {
      "epoch": 0.08378672470076169,
      "grad_norm": 0.10904321819543839,
      "learning_rate": 0.00019733099017991341,
      "loss": 0.0766,
      "step": 77
    },
    {
      "epoch": 0.08487486398258977,
      "grad_norm": 0.1651339828968048,
      "learning_rate": 0.0001972510934281218,
      "loss": 0.1186,
      "step": 78
    },
    {
      "epoch": 0.08596300326441784,
      "grad_norm": 0.11781762540340424,
      "learning_rate": 0.00019717003505109095,
      "loss": 0.0833,
      "step": 79
    },
    {
      "epoch": 0.08705114254624592,
      "grad_norm": 0.15122370421886444,
      "learning_rate": 0.00019708781601703065,
      "loss": 0.1166,
      "step": 80
    },
    {
      "epoch": 0.088139281828074,
      "grad_norm": 0.1798838973045349,
      "learning_rate": 0.00019700443730801413,
      "loss": 0.1109,
      "step": 81
    },
    {
      "epoch": 0.08922742110990206,
      "grad_norm": 0.18025629222393036,
      "learning_rate": 0.00019691989991996663,
      "loss": 0.1243,
      "step": 82
    },
    {
      "epoch": 0.09031556039173014,
      "grad_norm": 0.1731874644756317,
      "learning_rate": 0.00019683420486265327,
      "loss": 0.1189,
      "step": 83
    },
    {
      "epoch": 0.09140369967355821,
      "grad_norm": 0.2220824509859085,
      "learning_rate": 0.0001967473531596671,
      "loss": 0.1451,
      "step": 84
    },
    {
      "epoch": 0.09249183895538629,
      "grad_norm": 0.1664338856935501,
      "learning_rate": 0.00019665934584841682,
      "loss": 0.0897,
      "step": 85
    },
    {
      "epoch": 0.09357997823721437,
      "grad_norm": 0.17619486153125763,
      "learning_rate": 0.00019657018398011434,
      "loss": 0.0935,
      "step": 86
    },
    {
      "epoch": 0.09466811751904244,
      "grad_norm": 0.24987219274044037,
      "learning_rate": 0.00019647986861976246,
      "loss": 0.1955,
      "step": 87
    },
    {
      "epoch": 0.0957562568008705,
      "grad_norm": 0.21318784356117249,
      "learning_rate": 0.00019638840084614182,
      "loss": 0.1131,
      "step": 88
    },
    {
      "epoch": 0.09684439608269858,
      "grad_norm": 0.3128167390823364,
      "learning_rate": 0.0001962957817517982,
      "loss": 0.2011,
      "step": 89
    },
    {
      "epoch": 0.09793253536452666,
      "grad_norm": 0.2833835184574127,
      "learning_rate": 0.00019620201244302952,
      "loss": 0.1592,
      "step": 90
    },
    {
      "epoch": 0.09902067464635474,
      "grad_norm": 0.3286789357662201,
      "learning_rate": 0.00019610709403987246,
      "loss": 0.1602,
      "step": 91
    },
    {
      "epoch": 0.10010881392818281,
      "grad_norm": 0.44117358326911926,
      "learning_rate": 0.00019601102767608923,
      "loss": 0.2323,
      "step": 92
    },
    {
      "epoch": 0.10119695321001088,
      "grad_norm": 0.3795579671859741,
      "learning_rate": 0.00019591381449915397,
      "loss": 0.1867,
      "step": 93
    },
    {
      "epoch": 0.10228509249183895,
      "grad_norm": 0.5780506730079651,
      "learning_rate": 0.000195815455670239,
      "loss": 0.1884,
      "step": 94
    },
    {
      "epoch": 0.10337323177366703,
      "grad_norm": 0.5124024748802185,
      "learning_rate": 0.00019571595236420102,
      "loss": 0.221,
      "step": 95
    },
    {
      "epoch": 0.1044613710554951,
      "grad_norm": 0.4628782272338867,
      "learning_rate": 0.00019561530576956703,
      "loss": 0.208,
      "step": 96
    },
    {
      "epoch": 0.10554951033732318,
      "grad_norm": 0.3904087543487549,
      "learning_rate": 0.0001955135170885202,
      "loss": 0.2029,
      "step": 97
    },
    {
      "epoch": 0.10663764961915125,
      "grad_norm": 0.513387143611908,
      "learning_rate": 0.00019541058753688538,
      "loss": 0.2248,
      "step": 98
    },
    {
      "epoch": 0.10772578890097932,
      "grad_norm": 0.6133597493171692,
      "learning_rate": 0.00019530651834411474,
      "loss": 0.3751,
      "step": 99
    },
    {
      "epoch": 0.1088139281828074,
      "grad_norm": 0.6515563726425171,
      "learning_rate": 0.00019520131075327298,
      "loss": 0.2096,
      "step": 100
    },
    {
      "epoch": 0.10990206746463548,
      "grad_norm": 0.07718291878700256,
      "learning_rate": 0.00019509496602102252,
      "loss": 0.0631,
      "step": 101
    },
    {
      "epoch": 0.11099020674646355,
      "grad_norm": 0.07896394282579422,
      "learning_rate": 0.00019498748541760846,
      "loss": 0.095,
      "step": 102
    },
    {
      "epoch": 0.11207834602829161,
      "grad_norm": 0.07955438643693924,
      "learning_rate": 0.00019487887022684336,
      "loss": 0.067,
      "step": 103
    },
    {
      "epoch": 0.11316648531011969,
      "grad_norm": 0.08391376584768295,
      "learning_rate": 0.0001947691217460921,
      "loss": 0.0637,
      "step": 104
    },
    {
      "epoch": 0.11425462459194777,
      "grad_norm": 0.07990088313817978,
      "learning_rate": 0.00019465824128625617,
      "loss": 0.0569,
      "step": 105
    },
    {
      "epoch": 0.11534276387377584,
      "grad_norm": 0.09000790864229202,
      "learning_rate": 0.00019454623017175812,
      "loss": 0.0639,
      "step": 106
    },
    {
      "epoch": 0.11643090315560392,
      "grad_norm": 0.0831453874707222,
      "learning_rate": 0.0001944330897405257,
      "loss": 0.0766,
      "step": 107
    },
    {
      "epoch": 0.117519042437432,
      "grad_norm": 0.08180610835552216,
      "learning_rate": 0.00019431882134397598,
      "loss": 0.0806,
      "step": 108
    },
    {
      "epoch": 0.11860718171926006,
      "grad_norm": 0.07601706683635712,
      "learning_rate": 0.0001942034263469989,
      "loss": 0.0727,
      "step": 109
    },
    {
      "epoch": 0.11969532100108814,
      "grad_norm": 0.08873546868562698,
      "learning_rate": 0.00019408690612794148,
      "loss": 0.0878,
      "step": 110
    },
    {
      "epoch": 0.12078346028291621,
      "grad_norm": 0.10206414759159088,
      "learning_rate": 0.00019396926207859084,
      "loss": 0.1171,
      "step": 111
    },
    {
      "epoch": 0.12187159956474429,
      "grad_norm": 0.07465587556362152,
      "learning_rate": 0.00019385049560415794,
      "loss": 0.0603,
      "step": 112
    },
    {
      "epoch": 0.12295973884657237,
      "grad_norm": 0.09952360391616821,
      "learning_rate": 0.00019373060812326052,
      "loss": 0.0923,
      "step": 113
    },
    {
      "epoch": 0.12404787812840043,
      "grad_norm": 0.09894778579473495,
      "learning_rate": 0.00019360960106790643,
      "loss": 0.0795,
      "step": 114
    },
    {
      "epoch": 0.1251360174102285,
      "grad_norm": 0.09721358120441437,
      "learning_rate": 0.00019348747588347637,
      "loss": 0.1103,
      "step": 115
    },
    {
      "epoch": 0.12622415669205658,
      "grad_norm": 0.10310002416372299,
      "learning_rate": 0.00019336423402870653,
      "loss": 0.1037,
      "step": 116
    },
    {
      "epoch": 0.12731229597388466,
      "grad_norm": 0.10904382914304733,
      "learning_rate": 0.0001932398769756714,
      "loss": 0.1063,
      "step": 117
    },
    {
      "epoch": 0.12840043525571274,
      "grad_norm": 0.11545544862747192,
      "learning_rate": 0.00019311440620976597,
      "loss": 0.096,
      "step": 118
    },
    {
      "epoch": 0.1294885745375408,
      "grad_norm": 0.08674886077642441,
      "learning_rate": 0.00019298782322968815,
      "loss": 0.0779,
      "step": 119
    },
    {
      "epoch": 0.1305767138193689,
      "grad_norm": 0.09437372535467148,
      "learning_rate": 0.0001928601295474208,
      "loss": 0.0975,
      "step": 120
    },
    {
      "epoch": 0.13166485310119697,
      "grad_norm": 0.1258208006620407,
      "learning_rate": 0.00019273132668821364,
      "loss": 0.1277,
      "step": 121
    },
    {
      "epoch": 0.13275299238302501,
      "grad_norm": 0.09919868409633636,
      "learning_rate": 0.00019260141619056507,
      "loss": 0.0993,
      "step": 122
    },
    {
      "epoch": 0.1338411316648531,
      "grad_norm": 0.12028370052576065,
      "learning_rate": 0.0001924703996062038,
      "loss": 0.0751,
      "step": 123
    },
    {
      "epoch": 0.13492927094668117,
      "grad_norm": 0.10702817142009735,
      "learning_rate": 0.00019233827850007027,
      "loss": 0.0949,
      "step": 124
    },
    {
      "epoch": 0.13601741022850924,
      "grad_norm": 0.10939855128526688,
      "learning_rate": 0.000192205054450298,
      "loss": 0.0977,
      "step": 125
    },
    {
      "epoch": 0.13710554951033732,
      "grad_norm": 0.11803679168224335,
      "learning_rate": 0.00019207072904819486,
      "loss": 0.0877,
      "step": 126
    },
    {
      "epoch": 0.1381936887921654,
      "grad_norm": 0.1382649838924408,
      "learning_rate": 0.00019193530389822363,
      "loss": 0.1017,
      "step": 127
    },
    {
      "epoch": 0.13928182807399347,
      "grad_norm": 0.1433139145374298,
      "learning_rate": 0.00019179878061798347,
      "loss": 0.0748,
      "step": 128
    },
    {
      "epoch": 0.14036996735582155,
      "grad_norm": 0.14679527282714844,
      "learning_rate": 0.00019166116083819002,
      "loss": 0.1164,
      "step": 129
    },
    {
      "epoch": 0.14145810663764963,
      "grad_norm": 0.13680118322372437,
      "learning_rate": 0.0001915224462026563,
      "loss": 0.1149,
      "step": 130
    },
    {
      "epoch": 0.1425462459194777,
      "grad_norm": 0.16263848543167114,
      "learning_rate": 0.00019138263836827288,
      "loss": 0.1192,
      "step": 131
    },
    {
      "epoch": 0.14363438520130578,
      "grad_norm": 0.16534928977489471,
      "learning_rate": 0.00019124173900498818,
      "loss": 0.1138,
      "step": 132
    },
    {
      "epoch": 0.14472252448313383,
      "grad_norm": 0.21276706457138062,
      "learning_rate": 0.0001910997497957885,
      "loss": 0.1461,
      "step": 133
    },
    {
      "epoch": 0.1458106637649619,
      "grad_norm": 0.2375650703907013,
      "learning_rate": 0.0001909566724366779,
      "loss": 0.2031,
      "step": 134
    },
    {
      "epoch": 0.14689880304678998,
      "grad_norm": 0.20974405109882355,
      "learning_rate": 0.00019081250863665794,
      "loss": 0.1285,
      "step": 135
    },
    {
      "epoch": 0.14798694232861806,
      "grad_norm": 0.308624267578125,
      "learning_rate": 0.00019066726011770726,
      "loss": 0.1717,
      "step": 136
    },
    {
      "epoch": 0.14907508161044614,
      "grad_norm": 0.21192695200443268,
      "learning_rate": 0.0001905209286147611,
      "loss": 0.1064,
      "step": 137
    },
    {
      "epoch": 0.1501632208922742,
      "grad_norm": 0.20596542954444885,
      "learning_rate": 0.0001903735158756905,
      "loss": 0.0975,
      "step": 138
    },
    {
      "epoch": 0.1512513601741023,
      "grad_norm": 0.21547934412956238,
      "learning_rate": 0.00019022502366128135,
      "loss": 0.1255,
      "step": 139
    },
    {
      "epoch": 0.15233949945593037,
      "grad_norm": 0.276815801858902,
      "learning_rate": 0.00019007545374521355,
      "loss": 0.0868,
      "step": 140
    },
    {
      "epoch": 0.15342763873775844,
      "grad_norm": 0.37251031398773193,
      "learning_rate": 0.00018992480791403958,
      "loss": 0.1078,
      "step": 141
    },
    {
      "epoch": 0.15451577801958652,
      "grad_norm": 0.328265517950058,
      "learning_rate": 0.0001897730879671634,
      "loss": 0.1842,
      "step": 142
    },
    {
      "epoch": 0.15560391730141457,
      "grad_norm": 0.4400005340576172,
      "learning_rate": 0.00018962029571681886,
      "loss": 0.1857,
      "step": 143
    },
    {
      "epoch": 0.15669205658324264,
      "grad_norm": 0.28378888964653015,
      "learning_rate": 0.00018946643298804793,
      "loss": 0.0955,
      "step": 144
    },
    {
      "epoch": 0.15778019586507072,
      "grad_norm": 0.609008252620697,
      "learning_rate": 0.00018931150161867916,
      "loss": 0.3827,
      "step": 145
    },
    {
      "epoch": 0.1588683351468988,
      "grad_norm": 0.3973180055618286,
      "learning_rate": 0.0001891555034593055,
      "loss": 0.1844,
      "step": 146
    },
    {
      "epoch": 0.15995647442872687,
      "grad_norm": 0.36245423555374146,
      "learning_rate": 0.00018899844037326225,
      "loss": 0.2005,
      "step": 147
    },
    {
      "epoch": 0.16104461371055495,
      "grad_norm": 0.5730637311935425,
      "learning_rate": 0.0001888403142366049,
      "loss": 0.2742,
      "step": 148
    },
    {
      "epoch": 0.16213275299238303,
      "grad_norm": 0.5383718013763428,
      "learning_rate": 0.00018868112693808665,
      "loss": 0.2249,
      "step": 149
    },
    {
      "epoch": 0.1632208922742111,
      "grad_norm": 0.9835379123687744,
      "learning_rate": 0.00018852088037913577,
      "loss": 0.344,
      "step": 150
    },
    {
      "epoch": 0.16430903155603918,
      "grad_norm": 0.09142426401376724,
      "learning_rate": 0.00018835957647383303,
      "loss": 0.0876,
      "step": 151
    },
    {
      "epoch": 0.16539717083786726,
      "grad_norm": 0.09199874103069305,
      "learning_rate": 0.00018819721714888877,
      "loss": 0.0798,
      "step": 152
    },
    {
      "epoch": 0.16648531011969533,
      "grad_norm": 0.08299195021390915,
      "learning_rate": 0.00018803380434362,
      "loss": 0.0746,
      "step": 153
    },
    {
      "epoch": 0.16757344940152338,
      "grad_norm": 0.10273315012454987,
      "learning_rate": 0.00018786934000992688,
      "loss": 0.101,
      "step": 154
    },
    {
      "epoch": 0.16866158868335146,
      "grad_norm": 0.08524151146411896,
      "learning_rate": 0.00018770382611226987,
      "loss": 0.0684,
      "step": 155
    },
    {
      "epoch": 0.16974972796517954,
      "grad_norm": 0.10515481233596802,
      "learning_rate": 0.000187537264627646,
      "loss": 0.0809,
      "step": 156
    },
    {
      "epoch": 0.1708378672470076,
      "grad_norm": 0.09009183198213577,
      "learning_rate": 0.00018736965754556528,
      "loss": 0.0955,
      "step": 157
    },
    {
      "epoch": 0.1719260065288357,
      "grad_norm": 0.10571747273206711,
      "learning_rate": 0.00018720100686802694,
      "loss": 0.0847,
      "step": 158
    },
    {
      "epoch": 0.17301414581066377,
      "grad_norm": 0.08275768160820007,
      "learning_rate": 0.00018703131460949554,
      "loss": 0.0799,
      "step": 159
    },
    {
      "epoch": 0.17410228509249184,
      "grad_norm": 0.08440782129764557,
      "learning_rate": 0.00018686058279687698,
      "loss": 0.0672,
      "step": 160
    },
    {
      "epoch": 0.17519042437431992,
      "grad_norm": 0.10261505097150803,
      "learning_rate": 0.00018668881346949417,
      "loss": 0.1004,
      "step": 161
    },
    {
      "epoch": 0.176278563656148,
      "grad_norm": 0.08730655908584595,
      "learning_rate": 0.00018651600867906272,
      "loss": 0.0711,
      "step": 162
    },
    {
      "epoch": 0.17736670293797607,
      "grad_norm": 0.10591359436511993,
      "learning_rate": 0.00018634217048966637,
      "loss": 0.0919,
      "step": 163
    },
    {
      "epoch": 0.17845484221980412,
      "grad_norm": 0.09251653403043747,
      "learning_rate": 0.0001861673009777325,
      "loss": 0.078,
      "step": 164
    },
    {
      "epoch": 0.1795429815016322,
      "grad_norm": 0.106822170317173,
      "learning_rate": 0.00018599140223200716,
      "loss": 0.0895,
      "step": 165
    },
    {
      "epoch": 0.18063112078346028,
      "grad_norm": 0.11222364753484726,
      "learning_rate": 0.0001858144763535302,
      "loss": 0.0918,
      "step": 166
    },
    {
      "epoch": 0.18171926006528835,
      "grad_norm": 0.1363314390182495,
      "learning_rate": 0.00018563652545561013,
      "loss": 0.1126,
      "step": 167
    },
    {
      "epoch": 0.18280739934711643,
      "grad_norm": 0.09316174685955048,
      "learning_rate": 0.000185457551663799,
      "loss": 0.0799,
      "step": 168
    },
    {
      "epoch": 0.1838955386289445,
      "grad_norm": 0.13098089396953583,
      "learning_rate": 0.00018527755711586678,
      "loss": 0.0994,
      "step": 169
    },
    {
      "epoch": 0.18498367791077258,
      "grad_norm": 0.11433115601539612,
      "learning_rate": 0.00018509654396177609,
      "loss": 0.1072,
      "step": 170
    },
    {
      "epoch": 0.18607181719260066,
      "grad_norm": 0.11261814087629318,
      "learning_rate": 0.00018491451436365627,
      "loss": 0.1011,
      "step": 171
    },
    {
      "epoch": 0.18715995647442873,
      "grad_norm": 0.1038559302687645,
      "learning_rate": 0.00018473147049577774,
      "loss": 0.0746,
      "step": 172
    },
    {
      "epoch": 0.1882480957562568,
      "grad_norm": 0.11395396292209625,
      "learning_rate": 0.00018454741454452603,
      "loss": 0.0792,
      "step": 173
    },
    {
      "epoch": 0.1893362350380849,
      "grad_norm": 0.13332821428775787,
      "learning_rate": 0.00018436234870837547,
      "loss": 0.1041,
      "step": 174
    },
    {
      "epoch": 0.19042437431991294,
      "grad_norm": 0.12438289821147919,
      "learning_rate": 0.00018417627519786315,
      "loss": 0.1066,
      "step": 175
    },
    {
      "epoch": 0.191512513601741,
      "grad_norm": 0.1353287398815155,
      "learning_rate": 0.00018398919623556238,
      "loss": 0.1193,
      "step": 176
    },
    {
      "epoch": 0.1926006528835691,
      "grad_norm": 0.13928581774234772,
      "learning_rate": 0.0001838011140560562,
      "loss": 0.1228,
      "step": 177
    },
    {
      "epoch": 0.19368879216539717,
      "grad_norm": 0.1474994421005249,
      "learning_rate": 0.00018361203090591071,
      "loss": 0.0812,
      "step": 178
    },
    {
      "epoch": 0.19477693144722524,
      "grad_norm": 0.1910678595304489,
      "learning_rate": 0.00018342194904364813,
      "loss": 0.1435,
      "step": 179
    },
    {
      "epoch": 0.19586507072905332,
      "grad_norm": 0.16526034474372864,
      "learning_rate": 0.00018323087073971993,
      "loss": 0.1136,
      "step": 180
    },
    {
      "epoch": 0.1969532100108814,
      "grad_norm": 0.1933068335056305,
      "learning_rate": 0.00018303879827647975,
      "loss": 0.1498,
      "step": 181
    },
    {
      "epoch": 0.19804134929270947,
      "grad_norm": 0.1647845059633255,
      "learning_rate": 0.00018284573394815597,
      "loss": 0.0764,
      "step": 182
    },
    {
      "epoch": 0.19912948857453755,
      "grad_norm": 0.19414739310741425,
      "learning_rate": 0.00018265168006082437,
      "loss": 0.1142,
      "step": 183
    },
    {
      "epoch": 0.20021762785636563,
      "grad_norm": 0.1872360110282898,
      "learning_rate": 0.00018245663893238075,
      "loss": 0.1169,
      "step": 184
    },
    {
      "epoch": 0.20130576713819368,
      "grad_norm": 0.19919492304325104,
      "learning_rate": 0.00018226061289251298,
      "loss": 0.0854,
      "step": 185
    },
    {
      "epoch": 0.20239390642002175,
      "grad_norm": 0.2233375757932663,
      "learning_rate": 0.00018206360428267332,
      "loss": 0.1271,
      "step": 186
    },
    {
      "epoch": 0.20348204570184983,
      "grad_norm": 0.22116345167160034,
      "learning_rate": 0.00018186561545605054,
      "loss": 0.1402,
      "step": 187
    },
    {
      "epoch": 0.2045701849836779,
      "grad_norm": 0.253864049911499,
      "learning_rate": 0.0001816666487775416,
      "loss": 0.1431,
      "step": 188
    },
    {
      "epoch": 0.20565832426550598,
      "grad_norm": 0.2945636212825775,
      "learning_rate": 0.00018146670662372354,
      "loss": 0.1284,
      "step": 189
    },
    {
      "epoch": 0.20674646354733406,
      "grad_norm": 0.24834126234054565,
      "learning_rate": 0.00018126579138282503,
      "loss": 0.098,
      "step": 190
    },
    {
      "epoch": 0.20783460282916214,
      "grad_norm": 0.26815730333328247,
      "learning_rate": 0.00018106390545469795,
      "loss": 0.0877,
      "step": 191
    },
    {
      "epoch": 0.2089227421109902,
      "grad_norm": 0.375293493270874,
      "learning_rate": 0.00018086105125078857,
      "loss": 0.1985,
      "step": 192
    },
    {
      "epoch": 0.2100108813928183,
      "grad_norm": 0.4025906026363373,
      "learning_rate": 0.00018065723119410884,
      "loss": 0.2082,
      "step": 193
    },
    {
      "epoch": 0.21109902067464636,
      "grad_norm": 0.3551553785800934,
      "learning_rate": 0.0001804524477192075,
      "loss": 0.2305,
      "step": 194
    },
    {
      "epoch": 0.21218715995647444,
      "grad_norm": 0.594780445098877,
      "learning_rate": 0.00018024670327214084,
      "loss": 0.2713,
      "step": 195
    },
    {
      "epoch": 0.2132752992383025,
      "grad_norm": 0.3940027356147766,
      "learning_rate": 0.0001800400003104436,
      "loss": 0.1623,
      "step": 196
    },
    {
      "epoch": 0.21436343852013057,
      "grad_norm": 0.51041579246521,
      "learning_rate": 0.00017983234130309968,
      "loss": 0.2236,
      "step": 197
    },
    {
      "epoch": 0.21545157780195864,
      "grad_norm": 0.6203753352165222,
      "learning_rate": 0.00017962372873051252,
      "loss": 0.2654,
      "step": 198
    },
    {
      "epoch": 0.21653971708378672,
      "grad_norm": 0.7527713179588318,
      "learning_rate": 0.00017941416508447536,
      "loss": 0.2088,
      "step": 199
    },
    {
      "epoch": 0.2176278563656148,
      "grad_norm": 1.1047406196594238,
      "learning_rate": 0.00017920365286814183,
      "loss": 0.3097,
      "step": 200
    },
    {
      "epoch": 0.21871599564744287,
      "grad_norm": 0.0492124930024147,
      "learning_rate": 0.0001789921945959958,
      "loss": 0.0344,
      "step": 201
    },
    {
      "epoch": 0.21980413492927095,
      "grad_norm": 0.07087790220975876,
      "learning_rate": 0.00017877979279382135,
      "loss": 0.0582,
      "step": 202
    },
    {
      "epoch": 0.22089227421109903,
      "grad_norm": 0.07622935622930527,
      "learning_rate": 0.00017856644999867264,
      "loss": 0.062,
      "step": 203
    },
    {
      "epoch": 0.2219804134929271,
      "grad_norm": 0.08792652189731598,
      "learning_rate": 0.00017835216875884368,
      "loss": 0.0511,
      "step": 204
    },
    {
      "epoch": 0.22306855277475518,
      "grad_norm": 0.08028998970985413,
      "learning_rate": 0.0001781369516338378,
      "loss": 0.0665,
      "step": 205
    },
    {
      "epoch": 0.22415669205658323,
      "grad_norm": 0.08997032046318054,
      "learning_rate": 0.0001779208011943371,
      "loss": 0.069,
      "step": 206
    },
    {
      "epoch": 0.2252448313384113,
      "grad_norm": 0.08684886246919632,
      "learning_rate": 0.00017770372002217172,
      "loss": 0.077,
      "step": 207
    },
    {
      "epoch": 0.22633297062023938,
      "grad_norm": 0.0965440422296524,
      "learning_rate": 0.000177485710710289,
      "loss": 0.0782,
      "step": 208
    },
    {
      "epoch": 0.22742110990206746,
      "grad_norm": 0.09060367196798325,
      "learning_rate": 0.00017726677586272263,
      "loss": 0.066,
      "step": 209
    },
    {
      "epoch": 0.22850924918389554,
      "grad_norm": 0.0900409147143364,
      "learning_rate": 0.00017704691809456143,
      "loss": 0.0707,
      "step": 210
    },
    {
      "epoch": 0.2295973884657236,
      "grad_norm": 0.10733999311923981,
      "learning_rate": 0.00017682614003191807,
      "loss": 0.0916,
      "step": 211
    },
    {
      "epoch": 0.2306855277475517,
      "grad_norm": 0.09372083842754364,
      "learning_rate": 0.0001766044443118978,
      "loss": 0.0872,
      "step": 212
    },
    {
      "epoch": 0.23177366702937977,
      "grad_norm": 0.10344577580690384,
      "learning_rate": 0.00017638183358256696,
      "loss": 0.0903,
      "step": 213
    },
    {
      "epoch": 0.23286180631120784,
      "grad_norm": 0.1084800437092781,
      "learning_rate": 0.0001761583105029213,
      "loss": 0.0926,
      "step": 214
    },
    {
      "epoch": 0.23394994559303592,
      "grad_norm": 0.08565113693475723,
      "learning_rate": 0.00017593387774285412,
      "loss": 0.0758,
      "step": 215
    },
    {
      "epoch": 0.235038084874864,
      "grad_norm": 0.11589045077562332,
      "learning_rate": 0.0001757085379831246,
      "loss": 0.0925,
      "step": 216
    },
    {
      "epoch": 0.23612622415669204,
      "grad_norm": 0.12087468057870865,
      "learning_rate": 0.00017548229391532572,
      "loss": 0.1012,
      "step": 217
    },
    {
      "epoch": 0.23721436343852012,
      "grad_norm": 0.1125798150897026,
      "learning_rate": 0.00017525514824185185,
      "loss": 0.109,
      "step": 218
    },
    {
      "epoch": 0.2383025027203482,
      "grad_norm": 0.12492644041776657,
      "learning_rate": 0.00017502710367586687,
      "loss": 0.1048,
      "step": 219
    },
    {
      "epoch": 0.23939064200217627,
      "grad_norm": 0.09837982058525085,
      "learning_rate": 0.00017479816294127152,
      "loss": 0.0803,
      "step": 220
    },
    {
      "epoch": 0.24047878128400435,
      "grad_norm": 0.099558524787426,
      "learning_rate": 0.00017456832877267084,
      "loss": 0.0552,
      "step": 221
    },
    {
      "epoch": 0.24156692056583243,
      "grad_norm": 0.095551498234272,
      "learning_rate": 0.00017433760391534167,
      "loss": 0.0905,
      "step": 222
    },
    {
      "epoch": 0.2426550598476605,
      "grad_norm": 0.11664412170648575,
      "learning_rate": 0.0001741059911251997,
      "loss": 0.1005,
      "step": 223
    },
    {
      "epoch": 0.24374319912948858,
      "grad_norm": 0.1248706802725792,
      "learning_rate": 0.00017387349316876666,
      "loss": 0.1135,
      "step": 224
    },
    {
      "epoch": 0.24483133841131666,
      "grad_norm": 0.13133874535560608,
      "learning_rate": 0.0001736401128231373,
      "loss": 0.121,
      "step": 225
    },
    {
      "epoch": 0.24591947769314473,
      "grad_norm": 0.12476039677858353,
      "learning_rate": 0.00017340585287594604,
      "loss": 0.1025,
      "step": 226
    },
    {
      "epoch": 0.2470076169749728,
      "grad_norm": 0.1645650863647461,
      "learning_rate": 0.0001731707161253338,
      "loss": 0.1313,
      "step": 227
    },
    {
      "epoch": 0.24809575625680086,
      "grad_norm": 0.1172671690583229,
      "learning_rate": 0.00017293470537991463,
      "loss": 0.0801,
      "step": 228
    },
    {
      "epoch": 0.24918389553862894,
      "grad_norm": 0.17031441628932953,
      "learning_rate": 0.00017269782345874203,
      "loss": 0.154,
      "step": 229
    },
    {
      "epoch": 0.250272034820457,
      "grad_norm": 0.16571593284606934,
      "learning_rate": 0.00017246007319127545,
      "loss": 0.1209,
      "step": 230
    },
    {
      "epoch": 0.250272034820457,
      "eval_loss": 0.12318640202283859,
      "eval_runtime": 24.4163,
      "eval_samples_per_second": 15.85,
      "eval_steps_per_second": 7.945,
      "step": 230
    },
    {
      "epoch": 0.2513601741022851,
      "grad_norm": 0.14655253291130066,
      "learning_rate": 0.00017222145741734626,
      "loss": 0.0879,
      "step": 231
    },
    {
      "epoch": 0.25244831338411317,
      "grad_norm": 0.17367680370807648,
      "learning_rate": 0.00017198197898712404,
      "loss": 0.1261,
      "step": 232
    },
    {
      "epoch": 0.2535364526659412,
      "grad_norm": 0.14948749542236328,
      "learning_rate": 0.0001717416407610824,
      "loss": 0.0874,
      "step": 233
    },
    {
      "epoch": 0.2546245919477693,
      "grad_norm": 0.19695116579532623,
      "learning_rate": 0.00017150044560996488,
      "loss": 0.1119,
      "step": 234
    },
    {
      "epoch": 0.25571273122959737,
      "grad_norm": 0.2416209876537323,
      "learning_rate": 0.00017125839641475072,
      "loss": 0.1495,
      "step": 235
    },
    {
      "epoch": 0.25680087051142547,
      "grad_norm": 0.23595106601715088,
      "learning_rate": 0.00017101549606662024,
      "loss": 0.092,
      "step": 236
    },
    {
      "epoch": 0.2578890097932535,
      "grad_norm": 0.3377005457878113,
      "learning_rate": 0.00017077174746692056,
      "loss": 0.1537,
      "step": 237
    },
    {
      "epoch": 0.2589771490750816,
      "grad_norm": 0.31011515855789185,
      "learning_rate": 0.00017052715352713075,
      "loss": 0.2351,
      "step": 238
    },
    {
      "epoch": 0.2600652883569097,
      "grad_norm": 0.2296973615884781,
      "learning_rate": 0.00017028171716882714,
      "loss": 0.1034,
      "step": 239
    },
    {
      "epoch": 0.2611534276387378,
      "grad_norm": 0.33184927701950073,
      "learning_rate": 0.00017003544132364846,
      "loss": 0.1518,
      "step": 240
    },
    {
      "epoch": 0.2622415669205658,
      "grad_norm": 0.333794504404068,
      "learning_rate": 0.00016978832893326074,
      "loss": 0.1167,
      "step": 241
    },
    {
      "epoch": 0.26332970620239393,
      "grad_norm": 0.33567357063293457,
      "learning_rate": 0.00016954038294932216,
      "loss": 0.1672,
      "step": 242
    },
    {
      "epoch": 0.264417845484222,
      "grad_norm": 0.3648099899291992,
      "learning_rate": 0.0001692916063334479,
      "loss": 0.1562,
      "step": 243
    },
    {
      "epoch": 0.26550598476605003,
      "grad_norm": 0.3762454092502594,
      "learning_rate": 0.0001690420020571747,
      "loss": 0.1495,
      "step": 244
    },
    {
      "epoch": 0.26659412404787813,
      "grad_norm": 0.42424383759498596,
      "learning_rate": 0.00016879157310192535,
      "loss": 0.1763,
      "step": 245
    },
    {
      "epoch": 0.2676822633297062,
      "grad_norm": 0.4968826472759247,
      "learning_rate": 0.00016854032245897308,
      "loss": 0.2473,
      "step": 246
    },
    {
      "epoch": 0.2687704026115343,
      "grad_norm": 0.5231485366821289,
      "learning_rate": 0.00016828825312940592,
      "loss": 0.2924,
      "step": 247
    },
    {
      "epoch": 0.26985854189336234,
      "grad_norm": 0.5466935634613037,
      "learning_rate": 0.00016803536812409075,
      "loss": 0.2519,
      "step": 248
    },
    {
      "epoch": 0.27094668117519044,
      "grad_norm": 0.6696439981460571,
      "learning_rate": 0.00016778167046363734,
      "loss": 0.2106,
      "step": 249
    },
    {
      "epoch": 0.2720348204570185,
      "grad_norm": 0.7066907286643982,
      "learning_rate": 0.00016752716317836229,
      "loss": 0.2733,
      "step": 250
    },
    {
      "epoch": 0.2731229597388466,
      "grad_norm": 0.058309707790613174,
      "learning_rate": 0.00016727184930825288,
      "loss": 0.0459,
      "step": 251
    },
    {
      "epoch": 0.27421109902067464,
      "grad_norm": 0.06278934329748154,
      "learning_rate": 0.00016701573190293077,
      "loss": 0.049,
      "step": 252
    },
    {
      "epoch": 0.27529923830250275,
      "grad_norm": 0.07942797988653183,
      "learning_rate": 0.00016675881402161536,
      "loss": 0.0757,
      "step": 253
    },
    {
      "epoch": 0.2763873775843308,
      "grad_norm": 0.0874176099896431,
      "learning_rate": 0.00016650109873308765,
      "loss": 0.0952,
      "step": 254
    },
    {
      "epoch": 0.27747551686615884,
      "grad_norm": 0.0788157656788826,
      "learning_rate": 0.0001662425891156531,
      "loss": 0.0655,
      "step": 255
    },
    {
      "epoch": 0.27856365614798695,
      "grad_norm": 0.08784733712673187,
      "learning_rate": 0.00016598328825710533,
      "loss": 0.0778,
      "step": 256
    },
    {
      "epoch": 0.279651795429815,
      "grad_norm": 0.09089700132608414,
      "learning_rate": 0.00016572319925468892,
      "loss": 0.0767,
      "step": 257
    },
    {
      "epoch": 0.2807399347116431,
      "grad_norm": 0.07957662642002106,
      "learning_rate": 0.0001654623252150624,
      "loss": 0.0623,
      "step": 258
    },
    {
      "epoch": 0.28182807399347115,
      "grad_norm": 0.08320681005716324,
      "learning_rate": 0.00016520066925426144,
      "loss": 0.0812,
      "step": 259
    },
    {
      "epoch": 0.28291621327529926,
      "grad_norm": 0.10143834352493286,
      "learning_rate": 0.00016493823449766136,
      "loss": 0.0953,
      "step": 260
    },
    {
      "epoch": 0.2840043525571273,
      "grad_norm": 0.1192905604839325,
      "learning_rate": 0.00016467502407993992,
      "loss": 0.1163,
      "step": 261
    },
    {
      "epoch": 0.2850924918389554,
      "grad_norm": 0.11428846418857574,
      "learning_rate": 0.0001644110411450398,
      "loss": 0.1028,
      "step": 262
    },
    {
      "epoch": 0.28618063112078346,
      "grad_norm": 0.11233223229646683,
      "learning_rate": 0.00016414628884613107,
      "loss": 0.091,
      "step": 263
    },
    {
      "epoch": 0.28726877040261156,
      "grad_norm": 0.10367966443300247,
      "learning_rate": 0.00016388077034557355,
      "loss": 0.0797,
      "step": 264
    },
    {
      "epoch": 0.2883569096844396,
      "grad_norm": 0.11604032665491104,
      "learning_rate": 0.00016361448881487914,
      "loss": 0.0919,
      "step": 265
    },
    {
      "epoch": 0.28944504896626766,
      "grad_norm": 0.10309276729822159,
      "learning_rate": 0.00016334744743467364,
      "loss": 0.1065,
      "step": 266
    },
    {
      "epoch": 0.29053318824809576,
      "grad_norm": 0.11475658416748047,
      "learning_rate": 0.00016307964939465914,
      "loss": 0.0959,
      "step": 267
    },
    {
      "epoch": 0.2916213275299238,
      "grad_norm": 0.1230575293302536,
      "learning_rate": 0.0001628110978935756,
      "loss": 0.1031,
      "step": 268
    },
    {
      "epoch": 0.2927094668117519,
      "grad_norm": 0.1267620474100113,
      "learning_rate": 0.00016254179613916278,
      "loss": 0.1219,
      "step": 269
    },
    {
      "epoch": 0.29379760609357997,
      "grad_norm": 0.1032036617398262,
      "learning_rate": 0.000162271747348122,
      "loss": 0.0792,
      "step": 270
    },
    {
      "epoch": 0.29488574537540807,
      "grad_norm": 0.10867134481668472,
      "learning_rate": 0.00016200095474607753,
      "loss": 0.0964,
      "step": 271
    },
    {
      "epoch": 0.2959738846572361,
      "grad_norm": 0.13934585452079773,
      "learning_rate": 0.0001617294215675382,
      "loss": 0.1493,
      "step": 272
    },
    {
      "epoch": 0.2970620239390642,
      "grad_norm": 0.1254916936159134,
      "learning_rate": 0.0001614571510558588,
      "loss": 0.1035,
      "step": 273
    },
    {
      "epoch": 0.2981501632208923,
      "grad_norm": 0.10226383805274963,
      "learning_rate": 0.0001611841464632011,
      "loss": 0.0777,
      "step": 274
    },
    {
      "epoch": 0.2992383025027203,
      "grad_norm": 0.11369970440864563,
      "learning_rate": 0.0001609104110504954,
      "loss": 0.0823,
      "step": 275
    },
    {
      "epoch": 0.3003264417845484,
      "grad_norm": 0.11098276078701019,
      "learning_rate": 0.00016063594808740113,
      "loss": 0.0976,
      "step": 276
    },
    {
      "epoch": 0.3014145810663765,
      "grad_norm": 0.13366885483264923,
      "learning_rate": 0.00016036076085226814,
      "loss": 0.1378,
      "step": 277
    },
    {
      "epoch": 0.3025027203482046,
      "grad_norm": 0.11494230479001999,
      "learning_rate": 0.00016008485263209742,
      "loss": 0.072,
      "step": 278
    },
    {
      "epoch": 0.30359085963003263,
      "grad_norm": 0.11145862936973572,
      "learning_rate": 0.0001598082267225018,
      "loss": 0.066,
      "step": 279
    },
    {
      "epoch": 0.30467899891186073,
      "grad_norm": 0.1483200490474701,
      "learning_rate": 0.0001595308864276666,
      "loss": 0.1023,
      "step": 280
    },
    {
      "epoch": 0.3057671381936888,
      "grad_norm": 0.12836772203445435,
      "learning_rate": 0.0001592528350603103,
      "loss": 0.0682,
      "step": 281
    },
    {
      "epoch": 0.3068552774755169,
      "grad_norm": 0.16118410229682922,
      "learning_rate": 0.00015897407594164467,
      "loss": 0.1025,
      "step": 282
    },
    {
      "epoch": 0.30794341675734493,
      "grad_norm": 0.22559022903442383,
      "learning_rate": 0.0001586946124013354,
      "loss": 0.1228,
      "step": 283
    },
    {
      "epoch": 0.30903155603917304,
      "grad_norm": 0.233434796333313,
      "learning_rate": 0.0001584144477774623,
      "loss": 0.1928,
      "step": 284
    },
    {
      "epoch": 0.3101196953210011,
      "grad_norm": 0.21861650049686432,
      "learning_rate": 0.00015813358541647915,
      "loss": 0.1054,
      "step": 285
    },
    {
      "epoch": 0.31120783460282914,
      "grad_norm": 0.2723356783390045,
      "learning_rate": 0.00015785202867317407,
      "loss": 0.1411,
      "step": 286
    },
    {
      "epoch": 0.31229597388465724,
      "grad_norm": 0.3065739870071411,
      "learning_rate": 0.0001575697809106292,
      "loss": 0.1785,
      "step": 287
    },
    {
      "epoch": 0.3133841131664853,
      "grad_norm": 0.2983495593070984,
      "learning_rate": 0.00015728684550018064,
      "loss": 0.1402,
      "step": 288
    },
    {
      "epoch": 0.3144722524483134,
      "grad_norm": 0.3250825107097626,
      "learning_rate": 0.00015700322582137827,
      "loss": 0.1929,
      "step": 289
    },
    {
      "epoch": 0.31556039173014144,
      "grad_norm": 0.35388973355293274,
      "learning_rate": 0.00015671892526194516,
      "loss": 0.1791,
      "step": 290
    },
    {
      "epoch": 0.31664853101196955,
      "grad_norm": 0.32610148191452026,
      "learning_rate": 0.0001564339472177373,
      "loss": 0.1289,
      "step": 291
    },
    {
      "epoch": 0.3177366702937976,
      "grad_norm": 0.4028049409389496,
      "learning_rate": 0.0001561482950927029,
      "loss": 0.2026,
      "step": 292
    },
    {
      "epoch": 0.3188248095756257,
      "grad_norm": 0.2420492172241211,
      "learning_rate": 0.00015586197229884184,
      "loss": 0.098,
      "step": 293
    },
    {
      "epoch": 0.31991294885745375,
      "grad_norm": 0.3512971103191376,
      "learning_rate": 0.00015557498225616487,
      "loss": 0.205,
      "step": 294
    },
    {
      "epoch": 0.32100108813928185,
      "grad_norm": 0.39271989464759827,
      "learning_rate": 0.00015528732839265272,
      "loss": 0.1473,
      "step": 295
    },
    {
      "epoch": 0.3220892274211099,
      "grad_norm": 0.3802226185798645,
      "learning_rate": 0.0001549990141442153,
      "loss": 0.136,
      "step": 296
    },
    {
      "epoch": 0.32317736670293795,
      "grad_norm": 0.5737869739532471,
      "learning_rate": 0.00015471004295465035,
      "loss": 0.3053,
      "step": 297
    },
    {
      "epoch": 0.32426550598476606,
      "grad_norm": 0.45224013924598694,
      "learning_rate": 0.00015442041827560274,
      "loss": 0.222,
      "step": 298
    },
    {
      "epoch": 0.3253536452665941,
      "grad_norm": 0.522432267665863,
      "learning_rate": 0.00015413014356652286,
      "loss": 0.1809,
      "step": 299
    },
    {
      "epoch": 0.3264417845484222,
      "grad_norm": 0.6229780316352844,
      "learning_rate": 0.00015383922229462549,
      "loss": 0.2081,
      "step": 300
    },
    {
      "epoch": 0.32752992383025026,
      "grad_norm": 0.053111448884010315,
      "learning_rate": 0.00015354765793484834,
      "loss": 0.0414,
      "step": 301
    },
    {
      "epoch": 0.32861806311207836,
      "grad_norm": 0.07464036345481873,
      "learning_rate": 0.0001532554539698105,
      "loss": 0.0639,
      "step": 302
    },
    {
      "epoch": 0.3297062023939064,
      "grad_norm": 0.08635352551937103,
      "learning_rate": 0.00015296261388977108,
      "loss": 0.074,
      "step": 303
    },
    {
      "epoch": 0.3307943416757345,
      "grad_norm": 0.0818236917257309,
      "learning_rate": 0.000152669141192587,
      "loss": 0.0843,
      "step": 304
    },
    {
      "epoch": 0.33188248095756256,
      "grad_norm": 0.08959626406431198,
      "learning_rate": 0.00015237503938367186,
      "loss": 0.0752,
      "step": 305
    },
    {
      "epoch": 0.33297062023939067,
      "grad_norm": 0.087018683552742,
      "learning_rate": 0.00015208031197595356,
      "loss": 0.074,
      "step": 306
    },
    {
      "epoch": 0.3340587595212187,
      "grad_norm": 0.10946961492300034,
      "learning_rate": 0.00015178496248983254,
      "loss": 0.0907,
      "step": 307
    },
    {
      "epoch": 0.33514689880304677,
      "grad_norm": 0.09914237260818481,
      "learning_rate": 0.00015148899445313981,
      "loss": 0.0939,
      "step": 308
    },
    {
      "epoch": 0.33623503808487487,
      "grad_norm": 0.07641992717981339,
      "learning_rate": 0.00015119241140109467,
      "loss": 0.0587,
      "step": 309
    },
    {
      "epoch": 0.3373231773667029,
      "grad_norm": 0.10857319831848145,
      "learning_rate": 0.00015089521687626243,
      "loss": 0.1052,
      "step": 310
    },
    {
      "epoch": 0.338411316648531,
      "grad_norm": 0.0868939459323883,
      "learning_rate": 0.0001505974144285124,
      "loss": 0.0723,
      "step": 311
    },
    {
      "epoch": 0.3394994559303591,
      "grad_norm": 0.11470666527748108,
      "learning_rate": 0.00015029900761497506,
      "loss": 0.0972,
      "step": 312
    },
    {
      "epoch": 0.3405875952121872,
      "grad_norm": 0.09828225523233414,
      "learning_rate": 0.00015000000000000001,
      "loss": 0.0904,
      "step": 313
    },
    {
      "epoch": 0.3416757344940152,
      "grad_norm": 0.09422045201063156,
      "learning_rate": 0.00014970039515511304,
      "loss": 0.0736,
      "step": 314
    },
    {
      "epoch": 0.34276387377584333,
      "grad_norm": 0.09876245260238647,
      "learning_rate": 0.0001494001966589736,
      "loss": 0.0849,
      "step": 315
    },
    {
      "epoch": 0.3438520130576714,
      "grad_norm": 0.1073005348443985,
      "learning_rate": 0.00014909940809733222,
      "loss": 0.0842,
      "step": 316
    },
    {
      "epoch": 0.34494015233949943,
      "grad_norm": 0.11519600450992584,
      "learning_rate": 0.00014879803306298736,
      "loss": 0.0901,
      "step": 317
    },
    {
      "epoch": 0.34602829162132753,
      "grad_norm": 0.10380937904119492,
      "learning_rate": 0.00014849607515574276,
      "loss": 0.0688,
      "step": 318
    },
    {
      "epoch": 0.3471164309031556,
      "grad_norm": 0.10230353474617004,
      "learning_rate": 0.00014819353798236427,
      "loss": 0.064,
      "step": 319
    },
    {
      "epoch": 0.3482045701849837,
      "grad_norm": 0.10846245288848877,
      "learning_rate": 0.00014789042515653687,
      "loss": 0.0815,
      "step": 320
    },
    {
      "epoch": 0.34929270946681173,
      "grad_norm": 0.11520566791296005,
      "learning_rate": 0.00014758674029882152,
      "loss": 0.0846,
      "step": 321
    },
    {
      "epoch": 0.35038084874863984,
      "grad_norm": 0.16834412515163422,
      "learning_rate": 0.00014728248703661182,
      "loss": 0.1249,
      "step": 322
    },
    {
      "epoch": 0.3514689880304679,
      "grad_norm": 0.11053828150033951,
      "learning_rate": 0.00014697766900409074,
      "loss": 0.073,
      "step": 323
    },
    {
      "epoch": 0.352557127312296,
      "grad_norm": 0.12219499796628952,
      "learning_rate": 0.0001466722898421873,
      "loss": 0.0943,
      "step": 324
    },
    {
      "epoch": 0.35364526659412404,
      "grad_norm": 0.1294214427471161,
      "learning_rate": 0.00014636635319853275,
      "loss": 0.0761,
      "step": 325
    },
    {
      "epoch": 0.35473340587595215,
      "grad_norm": 0.13043484091758728,
      "learning_rate": 0.00014605986272741748,
      "loss": 0.1065,
      "step": 326
    },
    {
      "epoch": 0.3558215451577802,
      "grad_norm": 0.1078469529747963,
      "learning_rate": 0.00014575282208974702,
      "loss": 0.0718,
      "step": 327
    },
    {
      "epoch": 0.35690968443960824,
      "grad_norm": 0.17083537578582764,
      "learning_rate": 0.00014544523495299842,
      "loss": 0.1035,
      "step": 328
    },
    {
      "epoch": 0.35799782372143635,
      "grad_norm": 0.1370207518339157,
      "learning_rate": 0.00014513710499117647,
      "loss": 0.089,
      "step": 329
    },
    {
      "epoch": 0.3590859630032644,
      "grad_norm": 0.1698474884033203,
      "learning_rate": 0.00014482843588476974,
      "loss": 0.1172,
      "step": 330
    },
    {
      "epoch": 0.3601741022850925,
      "grad_norm": 0.1472265124320984,
      "learning_rate": 0.0001445192313207067,
      "loss": 0.0782,
      "step": 331
    },
    {
      "epoch": 0.36126224156692055,
      "grad_norm": 0.153669074177742,
      "learning_rate": 0.00014420949499231172,
      "loss": 0.0844,
      "step": 332
    },
    {
      "epoch": 0.36235038084874865,
      "grad_norm": 0.2612091600894928,
      "learning_rate": 0.00014389923059926062,
      "loss": 0.1256,
      "step": 333
    },
    {
      "epoch": 0.3634385201305767,
      "grad_norm": 0.18867933750152588,
      "learning_rate": 0.00014358844184753712,
      "loss": 0.0822,
      "step": 334
    },
    {
      "epoch": 0.3645266594124048,
      "grad_norm": 0.29405227303504944,
      "learning_rate": 0.0001432771324493879,
      "loss": 0.1562,
      "step": 335
    },
    {
      "epoch": 0.36561479869423286,
      "grad_norm": 0.299411803483963,
      "learning_rate": 0.00014296530612327863,
      "loss": 0.151,
      "step": 336
    },
    {
      "epoch": 0.36670293797606096,
      "grad_norm": 0.4020368754863739,
      "learning_rate": 0.00014265296659384956,
      "loss": 0.2564,
      "step": 337
    },
    {
      "epoch": 0.367791077257889,
      "grad_norm": 0.27561965584754944,
      "learning_rate": 0.00014234011759187083,
      "loss": 0.1193,
      "step": 338
    },
    {
      "epoch": 0.36887921653971706,
      "grad_norm": 0.36899837851524353,
      "learning_rate": 0.00014202676285419812,
      "loss": 0.1844,
      "step": 339
    },
    {
      "epoch": 0.36996735582154516,
      "grad_norm": 0.3305605351924896,
      "learning_rate": 0.0001417129061237278,
      "loss": 0.0825,
      "step": 340
    },
    {
      "epoch": 0.3710554951033732,
      "grad_norm": 0.45063266158103943,
      "learning_rate": 0.00014139855114935252,
      "loss": 0.2383,
      "step": 341
    },
    {
      "epoch": 0.3721436343852013,
      "grad_norm": 0.319297730922699,
      "learning_rate": 0.0001410837016859161,
      "loss": 0.1054,
      "step": 342
    },
    {
      "epoch": 0.37323177366702937,
      "grad_norm": 0.3711492121219635,
      "learning_rate": 0.00014076836149416887,
      "loss": 0.1265,
      "step": 343
    },
    {
      "epoch": 0.37431991294885747,
      "grad_norm": 0.4362325966358185,
      "learning_rate": 0.0001404525343407228,
      "loss": 0.1818,
      "step": 344
    },
    {
      "epoch": 0.3754080522306855,
      "grad_norm": 0.39839836955070496,
      "learning_rate": 0.00014013622399800627,
      "loss": 0.173,
      "step": 345
    },
    {
      "epoch": 0.3764961915125136,
      "grad_norm": 0.4215060770511627,
      "learning_rate": 0.00013981943424421932,
      "loss": 0.1225,
      "step": 346
    },
    {
      "epoch": 0.37758433079434167,
      "grad_norm": 0.4466668963432312,
      "learning_rate": 0.0001395021688632882,
      "loss": 0.1336,
      "step": 347
    },
    {
      "epoch": 0.3786724700761698,
      "grad_norm": 0.490313321352005,
      "learning_rate": 0.00013918443164482046,
      "loss": 0.1364,
      "step": 348
    },
    {
      "epoch": 0.3797606093579978,
      "grad_norm": 0.6865617036819458,
      "learning_rate": 0.00013886622638405952,
      "loss": 0.2864,
      "step": 349
    },
    {
      "epoch": 0.3808487486398259,
      "grad_norm": 0.7716324925422668,
      "learning_rate": 0.0001385475568818394,
      "loss": 0.2994,
      "step": 350
    },
    {
      "epoch": 0.381936887921654,
      "grad_norm": 0.04748038947582245,
      "learning_rate": 0.00013822842694453924,
      "loss": 0.0425,
      "step": 351
    },
    {
      "epoch": 0.383025027203482,
      "grad_norm": 0.06222306191921234,
      "learning_rate": 0.00013790884038403795,
      "loss": 0.0519,
      "step": 352
    },
    {
      "epoch": 0.38411316648531013,
      "grad_norm": 0.07450418174266815,
      "learning_rate": 0.0001375888010176686,
      "loss": 0.0629,
      "step": 353
    },
    {
      "epoch": 0.3852013057671382,
      "grad_norm": 0.08733393251895905,
      "learning_rate": 0.00013726831266817278,
      "loss": 0.0701,
      "step": 354
    },
    {
      "epoch": 0.3862894450489663,
      "grad_norm": 0.09622704982757568,
      "learning_rate": 0.00013694737916365517,
      "loss": 0.0909,
      "step": 355
    },
    {
      "epoch": 0.38737758433079433,
      "grad_norm": 0.08062370121479034,
      "learning_rate": 0.00013662600433753745,
      "loss": 0.0722,
      "step": 356
    },
    {
      "epoch": 0.38846572361262244,
      "grad_norm": 0.09811591356992722,
      "learning_rate": 0.00013630419202851284,
      "loss": 0.0894,
      "step": 357
    },
    {
      "epoch": 0.3895538628944505,
      "grad_norm": 0.0917980894446373,
      "learning_rate": 0.0001359819460805001,
      "loss": 0.0816,
      "step": 358
    },
    {
      "epoch": 0.3906420021762786,
      "grad_norm": 0.08292034268379211,
      "learning_rate": 0.0001356592703425976,
      "loss": 0.0832,
      "step": 359
    },
    {
      "epoch": 0.39173014145810664,
      "grad_norm": 0.0940559059381485,
      "learning_rate": 0.00013533616866903735,
      "loss": 0.078,
      "step": 360
    },
    {
      "epoch": 0.3928182807399347,
      "grad_norm": 0.09960496425628662,
      "learning_rate": 0.00013501264491913906,
      "loss": 0.0899,
      "step": 361
    },
    {
      "epoch": 0.3939064200217628,
      "grad_norm": 0.1174091249704361,
      "learning_rate": 0.00013468870295726398,
      "loss": 0.0983,
      "step": 362
    },
    {
      "epoch": 0.39499455930359084,
      "grad_norm": 0.1083730086684227,
      "learning_rate": 0.00013436434665276865,
      "loss": 0.1004,
      "step": 363
    },
    {
      "epoch": 0.39608269858541895,
      "grad_norm": 0.09829343855381012,
      "learning_rate": 0.00013403957987995882,
      "loss": 0.0851,
      "step": 364
    },
    {
      "epoch": 0.397170837867247,
      "grad_norm": 0.1172933354973793,
      "learning_rate": 0.00013371440651804313,
      "loss": 0.1033,
      "step": 365
    },
    {
      "epoch": 0.3982589771490751,
      "grad_norm": 0.11004797369241714,
      "learning_rate": 0.00013338883045108674,
      "loss": 0.0852,
      "step": 366
    },
    {
      "epoch": 0.39934711643090315,
      "grad_norm": 0.10466606914997101,
      "learning_rate": 0.00013306285556796495,
      "loss": 0.0893,
      "step": 367
    },
    {
      "epoch": 0.40043525571273125,
      "grad_norm": 0.121376633644104,
      "learning_rate": 0.0001327364857623168,
      "loss": 0.1037,
      "step": 368
    },
    {
      "epoch": 0.4015233949945593,
      "grad_norm": 0.10333437472581863,
      "learning_rate": 0.00013240972493249847,
      "loss": 0.0981,
      "step": 369
    },
    {
      "epoch": 0.40261153427638735,
      "grad_norm": 0.1174560934305191,
      "learning_rate": 0.00013208257698153677,
      "loss": 0.1187,
      "step": 370
    },
    {
      "epoch": 0.40369967355821545,
      "grad_norm": 0.09671124815940857,
      "learning_rate": 0.0001317550458170826,
      "loss": 0.0771,
      "step": 371
    },
    {
      "epoch": 0.4047878128400435,
      "grad_norm": 0.11311496794223785,
      "learning_rate": 0.00013142713535136414,
      "loss": 0.0915,
      "step": 372
    },
    {
      "epoch": 0.4058759521218716,
      "grad_norm": 0.11149045825004578,
      "learning_rate": 0.00013109884950114007,
      "loss": 0.078,
      "step": 373
    },
    {
      "epoch": 0.40696409140369966,
      "grad_norm": 0.15049664676189423,
      "learning_rate": 0.00013077019218765305,
      "loss": 0.1008,
      "step": 374
    },
    {
      "epoch": 0.40805223068552776,
      "grad_norm": 0.13566477596759796,
      "learning_rate": 0.0001304411673365826,
      "loss": 0.1116,
      "step": 375
    },
    {
      "epoch": 0.4091403699673558,
      "grad_norm": 0.1317652463912964,
      "learning_rate": 0.00013011177887799845,
      "loss": 0.1068,
      "step": 376
    },
    {
      "epoch": 0.4102285092491839,
      "grad_norm": 0.12117652595043182,
      "learning_rate": 0.00012978203074631334,
      "loss": 0.0926,
      "step": 377
    },
    {
      "epoch": 0.41131664853101196,
      "grad_norm": 0.13246335089206696,
      "learning_rate": 0.00012945192688023624,
      "loss": 0.0867,
      "step": 378
    },
    {
      "epoch": 0.41240478781284007,
      "grad_norm": 0.1427900642156601,
      "learning_rate": 0.00012912147122272523,
      "loss": 0.1054,
      "step": 379
    },
    {
      "epoch": 0.4134929270946681,
      "grad_norm": 0.13975268602371216,
      "learning_rate": 0.0001287906677209403,
      "loss": 0.0993,
      "step": 380
    },
    {
      "epoch": 0.41458106637649617,
      "grad_norm": 0.16829046607017517,
      "learning_rate": 0.0001284595203261965,
      "loss": 0.0986,
      "step": 381
    },
    {
      "epoch": 0.41566920565832427,
      "grad_norm": 0.18288354575634003,
      "learning_rate": 0.00012812803299391628,
      "loss": 0.1164,
      "step": 382
    },
    {
      "epoch": 0.4167573449401523,
      "grad_norm": 0.20097504556179047,
      "learning_rate": 0.00012779620968358273,
      "loss": 0.1273,
      "step": 383
    },
    {
      "epoch": 0.4178454842219804,
      "grad_norm": 0.1646791398525238,
      "learning_rate": 0.00012746405435869198,
      "loss": 0.0833,
      "step": 384
    },
    {
      "epoch": 0.41893362350380847,
      "grad_norm": 0.1997787058353424,
      "learning_rate": 0.0001271315709867059,
      "loss": 0.1495,
      "step": 385
    },
    {
      "epoch": 0.4200217627856366,
      "grad_norm": 0.1489897519350052,
      "learning_rate": 0.00012679876353900482,
      "loss": 0.0756,
      "step": 386
    },
    {
      "epoch": 0.4211099020674646,
      "grad_norm": 0.22502455115318298,
      "learning_rate": 0.00012646563599083996,
      "loss": 0.1427,
      "step": 387
    },
    {
      "epoch": 0.42219804134929273,
      "grad_norm": 0.19359458982944489,
      "learning_rate": 0.00012613219232128608,
      "loss": 0.121,
      "step": 388
    },
    {
      "epoch": 0.4232861806311208,
      "grad_norm": 0.244260773062706,
      "learning_rate": 0.0001257984365131938,
      "loss": 0.1469,
      "step": 389
    },
    {
      "epoch": 0.4243743199129489,
      "grad_norm": 0.18485282361507416,
      "learning_rate": 0.00012546437255314222,
      "loss": 0.0892,
      "step": 390
    },
    {
      "epoch": 0.42546245919477693,
      "grad_norm": 0.3717290461063385,
      "learning_rate": 0.00012513000443139112,
      "loss": 0.2099,
      "step": 391
    },
    {
      "epoch": 0.426550598476605,
      "grad_norm": 0.28721094131469727,
      "learning_rate": 0.00012479533614183334,
      "loss": 0.1193,
      "step": 392
    },
    {
      "epoch": 0.4276387377584331,
      "grad_norm": 0.2697299122810364,
      "learning_rate": 0.00012446037168194714,
      "loss": 0.0965,
      "step": 393
    },
    {
      "epoch": 0.42872687704026113,
      "grad_norm": 0.32627496123313904,
      "learning_rate": 0.00012412511505274844,
      "loss": 0.1832,
      "step": 394
    },
    {
      "epoch": 0.42981501632208924,
      "grad_norm": 0.37745073437690735,
      "learning_rate": 0.000123789570258743,
      "loss": 0.1572,
      "step": 395
    },
    {
      "epoch": 0.4309031556039173,
      "grad_norm": 0.4901193082332611,
      "learning_rate": 0.00012345374130787854,
      "loss": 0.1873,
      "step": 396
    },
    {
      "epoch": 0.4319912948857454,
      "grad_norm": 0.44663485884666443,
      "learning_rate": 0.000123117632211497,
      "loss": 0.3353,
      "step": 397
    },
    {
      "epoch": 0.43307943416757344,
      "grad_norm": 0.34345391392707825,
      "learning_rate": 0.0001227812469842864,
      "loss": 0.1924,
      "step": 398
    },
    {
      "epoch": 0.43416757344940154,
      "grad_norm": 0.5725805759429932,
      "learning_rate": 0.00012244458964423327,
      "loss": 0.2352,
      "step": 399
    },
    {
      "epoch": 0.4352557127312296,
      "grad_norm": 0.5519152879714966,
      "learning_rate": 0.0001221076642125742,
      "loss": 0.167,
      "step": 400
    },
    {
      "epoch": 0.4363438520130577,
      "grad_norm": 0.055198315531015396,
      "learning_rate": 0.00012177047471374807,
      "loss": 0.0472,
      "step": 401
    },
    {
      "epoch": 0.43743199129488575,
      "grad_norm": 0.09932799637317657,
      "learning_rate": 0.0001214330251753481,
      "loss": 0.0783,
      "step": 402
    },
    {
      "epoch": 0.4385201305767138,
      "grad_norm": 0.08226185292005539,
      "learning_rate": 0.00012109531962807332,
      "loss": 0.0656,
      "step": 403
    },
    {
      "epoch": 0.4396082698585419,
      "grad_norm": 0.0858379453420639,
      "learning_rate": 0.0001207573621056809,
      "loss": 0.0741,
      "step": 404
    },
    {
      "epoch": 0.44069640914036995,
      "grad_norm": 0.07838830351829529,
      "learning_rate": 0.00012041915664493761,
      "loss": 0.066,
      "step": 405
    },
    {
      "epoch": 0.44178454842219805,
      "grad_norm": 0.08843716233968735,
      "learning_rate": 0.00012008070728557186,
      "loss": 0.0817,
      "step": 406
    },
    {
      "epoch": 0.4428726877040261,
      "grad_norm": 0.09485173225402832,
      "learning_rate": 0.00011974201807022525,
      "loss": 0.0719,
      "step": 407
    },
    {
      "epoch": 0.4439608269858542,
      "grad_norm": 0.12550269067287445,
      "learning_rate": 0.00011940309304440433,
      "loss": 0.1025,
      "step": 408
    },
    {
      "epoch": 0.44504896626768226,
      "grad_norm": 0.10056477040052414,
      "learning_rate": 0.00011906393625643244,
      "loss": 0.0822,
      "step": 409
    },
    {
      "epoch": 0.44613710554951036,
      "grad_norm": 0.08779609948396683,
      "learning_rate": 0.00011872455175740112,
      "loss": 0.0731,
      "step": 410
    },
    {
      "epoch": 0.4472252448313384,
      "grad_norm": 0.08771763741970062,
      "learning_rate": 0.00011838494360112185,
      "loss": 0.0686,
      "step": 411
    },
    {
      "epoch": 0.44831338411316646,
      "grad_norm": 0.09602241218090057,
      "learning_rate": 0.00011804511584407763,
      "loss": 0.0826,
      "step": 412
    },
    {
      "epoch": 0.44940152339499456,
      "grad_norm": 0.10052221268415451,
      "learning_rate": 0.00011770507254537453,
      "loss": 0.0711,
      "step": 413
    },
    {
      "epoch": 0.4504896626768226,
      "grad_norm": 0.08452215045690536,
      "learning_rate": 0.00011736481776669306,
      "loss": 0.061,
      "step": 414
    },
    {
      "epoch": 0.4515778019586507,
      "grad_norm": 0.09362675249576569,
      "learning_rate": 0.00011702435557223987,
      "loss": 0.0852,
      "step": 415
    },
    {
      "epoch": 0.45266594124047876,
      "grad_norm": 0.10676004737615585,
      "learning_rate": 0.00011668369002869912,
      "loss": 0.101,
      "step": 416
    },
    {
      "epoch": 0.45375408052230687,
      "grad_norm": 0.10523767024278641,
      "learning_rate": 0.00011634282520518383,
      "loss": 0.0892,
      "step": 417
    },
    {
      "epoch": 0.4548422198041349,
      "grad_norm": 0.09733587503433228,
      "learning_rate": 0.00011600176517318741,
      "loss": 0.0714,
      "step": 418
    },
    {
      "epoch": 0.455930359085963,
      "grad_norm": 0.13115546107292175,
      "learning_rate": 0.00011566051400653486,
      "loss": 0.1079,
      "step": 419
    },
    {
      "epoch": 0.45701849836779107,
      "grad_norm": 0.10536440461874008,
      "learning_rate": 0.00011531907578133429,
      "loss": 0.0807,
      "step": 420
    },
    {
      "epoch": 0.4581066376496192,
      "grad_norm": 0.10071249306201935,
      "learning_rate": 0.00011497745457592816,
      "loss": 0.0647,
      "step": 421
    },
    {
      "epoch": 0.4591947769314472,
      "grad_norm": 0.12494815140962601,
      "learning_rate": 0.00011463565447084445,
      "loss": 0.0969,
      "step": 422
    },
    {
      "epoch": 0.4602829162132753,
      "grad_norm": 0.10858377069234848,
      "learning_rate": 0.00011429367954874819,
      "loss": 0.0709,
      "step": 423
    },
    {
      "epoch": 0.4613710554951034,
      "grad_norm": 0.10477497428655624,
      "learning_rate": 0.00011395153389439233,
      "loss": 0.0875,
      "step": 424
    },
    {
      "epoch": 0.4624591947769314,
      "grad_norm": 0.12716920673847198,
      "learning_rate": 0.00011360922159456928,
      "loss": 0.0864,
      "step": 425
    },
    {
      "epoch": 0.46354733405875953,
      "grad_norm": 0.13803425431251526,
      "learning_rate": 0.00011326674673806195,
      "loss": 0.1028,
      "step": 426
    },
    {
      "epoch": 0.4646354733405876,
      "grad_norm": 0.1662827581167221,
      "learning_rate": 0.0001129241134155949,
      "loss": 0.1053,
      "step": 427
    },
    {
      "epoch": 0.4657236126224157,
      "grad_norm": 0.13029906153678894,
      "learning_rate": 0.00011258132571978555,
      "loss": 0.0797,
      "step": 428
    },
    {
      "epoch": 0.46681175190424373,
      "grad_norm": 0.18869560956954956,
      "learning_rate": 0.00011223838774509514,
      "loss": 0.1292,
      "step": 429
    },
    {
      "epoch": 0.46789989118607184,
      "grad_norm": 0.14279034733772278,
      "learning_rate": 0.00011189530358778005,
      "loss": 0.0951,
      "step": 430
    },
    {
      "epoch": 0.4689880304678999,
      "grad_norm": 0.11428643018007278,
      "learning_rate": 0.00011155207734584263,
      "loss": 0.0664,
      "step": 431
    },
    {
      "epoch": 0.470076169749728,
      "grad_norm": 0.20008297264575958,
      "learning_rate": 0.00011120871311898254,
      "loss": 0.1027,
      "step": 432
    },
    {
      "epoch": 0.47116430903155604,
      "grad_norm": 0.22173888981342316,
      "learning_rate": 0.00011086521500854745,
      "loss": 0.1356,
      "step": 433
    },
    {
      "epoch": 0.4722524483133841,
      "grad_norm": 0.2382795661687851,
      "learning_rate": 0.00011052158711748434,
      "loss": 0.1516,
      "step": 434
    },
    {
      "epoch": 0.4733405875952122,
      "grad_norm": 0.2854343354701996,
      "learning_rate": 0.00011017783355029026,
      "loss": 0.1116,
      "step": 435
    },
    {
      "epoch": 0.47442872687704024,
      "grad_norm": 0.23063793778419495,
      "learning_rate": 0.00010983395841296348,
      "loss": 0.107,
      "step": 436
    },
    {
      "epoch": 0.47551686615886835,
      "grad_norm": 0.19402769207954407,
      "learning_rate": 0.00010948996581295436,
      "loss": 0.0883,
      "step": 437
    },
    {
      "epoch": 0.4766050054406964,
      "grad_norm": 0.2664678692817688,
      "learning_rate": 0.00010914585985911632,
      "loss": 0.1161,
      "step": 438
    },
    {
      "epoch": 0.4776931447225245,
      "grad_norm": 0.29061347246170044,
      "learning_rate": 0.00010880164466165674,
      "loss": 0.1833,
      "step": 439
    },
    {
      "epoch": 0.47878128400435255,
      "grad_norm": 0.33060985803604126,
      "learning_rate": 0.00010845732433208779,
      "loss": 0.1521,
      "step": 440
    },
    {
      "epoch": 0.47986942328618065,
      "grad_norm": 0.28285855054855347,
      "learning_rate": 0.00010811290298317755,
      "loss": 0.1248,
      "step": 441
    },
    {
      "epoch": 0.4809575625680087,
      "grad_norm": 0.49815383553504944,
      "learning_rate": 0.00010776838472890065,
      "loss": 0.2238,
      "step": 442
    },
    {
      "epoch": 0.4820457018498368,
      "grad_norm": 0.367214173078537,
      "learning_rate": 0.00010742377368438914,
      "loss": 0.2344,
      "step": 443
    },
    {
      "epoch": 0.48313384113166485,
      "grad_norm": 0.3444245159626007,
      "learning_rate": 0.00010707907396588361,
      "loss": 0.1254,
      "step": 444
    },
    {
      "epoch": 0.4842219804134929,
      "grad_norm": 0.31096217036247253,
      "learning_rate": 0.00010673428969068364,
      "loss": 0.1313,
      "step": 445
    },
    {
      "epoch": 0.485310119695321,
      "grad_norm": 0.5377318263053894,
      "learning_rate": 0.0001063894249770989,
      "loss": 0.2526,
      "step": 446
    },
    {
      "epoch": 0.48639825897714906,
      "grad_norm": 0.4121945798397064,
      "learning_rate": 0.00010604448394439983,
      "loss": 0.1663,
      "step": 447
    },
    {
      "epoch": 0.48748639825897716,
      "grad_norm": 0.48366662859916687,
      "learning_rate": 0.00010569947071276847,
      "loss": 0.2457,
      "step": 448
    },
    {
      "epoch": 0.4885745375408052,
      "grad_norm": 0.6081061959266663,
      "learning_rate": 0.0001053543894032493,
      "loss": 0.2678,
      "step": 449
    },
    {
      "epoch": 0.4896626768226333,
      "grad_norm": 1.0334888696670532,
      "learning_rate": 0.00010500924413769988,
      "loss": 0.3153,
      "step": 450
    },
    {
      "epoch": 0.49075081610446136,
      "grad_norm": 0.0451701320707798,
      "learning_rate": 0.00010466403903874176,
      "loss": 0.0455,
      "step": 451
    },
    {
      "epoch": 0.49183895538628947,
      "grad_norm": 0.05214075744152069,
      "learning_rate": 0.00010431877822971117,
      "loss": 0.0519,
      "step": 452
    },
    {
      "epoch": 0.4929270946681175,
      "grad_norm": 0.06553710252046585,
      "learning_rate": 0.00010397346583460971,
      "loss": 0.0557,
      "step": 453
    },
    {
      "epoch": 0.4940152339499456,
      "grad_norm": 0.06424305588006973,
      "learning_rate": 0.00010362810597805526,
      "loss": 0.0672,
      "step": 454
    },
    {
      "epoch": 0.49510337323177367,
      "grad_norm": 0.08962132036685944,
      "learning_rate": 0.00010328270278523256,
      "loss": 0.0957,
      "step": 455
    },
    {
      "epoch": 0.4961915125136017,
      "grad_norm": 0.08780992031097412,
      "learning_rate": 0.00010293726038184393,
      "loss": 0.0894,
      "step": 456
    },
    {
      "epoch": 0.4972796517954298,
      "grad_norm": 0.08018220961093903,
      "learning_rate": 0.00010259178289406011,
      "loss": 0.0663,
      "step": 457
    },
    {
      "epoch": 0.49836779107725787,
      "grad_norm": 0.07880765199661255,
      "learning_rate": 0.0001022462744484709,
      "loss": 0.0832,
      "step": 458
    },
    {
      "epoch": 0.499455930359086,
      "grad_norm": 0.07101229578256607,
      "learning_rate": 0.00010190073917203589,
      "loss": 0.054,
      "step": 459
    },
    {
      "epoch": 0.500544069640914,
      "grad_norm": 0.07901884615421295,
      "learning_rate": 0.0001015551811920351,
      "loss": 0.0611,
      "step": 460
    },
    {
      "epoch": 0.500544069640914,
      "eval_loss": 0.11412899941205978,
      "eval_runtime": 24.4441,
      "eval_samples_per_second": 15.832,
      "eval_steps_per_second": 7.936,
      "step": 460
    },
    {
      "epoch": 0.5016322089227421,
      "grad_norm": 0.08245149999856949,
      "learning_rate": 0.00010120960463601976,
      "loss": 0.0758,
      "step": 461
    },
    {
      "epoch": 0.5027203482045702,
      "grad_norm": 0.07407300174236298,
      "learning_rate": 0.00010086401363176305,
      "loss": 0.0567,
      "step": 462
    },
    {
      "epoch": 0.5038084874863983,
      "grad_norm": 0.08621735125780106,
      "learning_rate": 0.00010051841230721065,
      "loss": 0.0853,
      "step": 463
    },
    {
      "epoch": 0.5048966267682263,
      "grad_norm": 0.08985213935375214,
      "learning_rate": 0.00010017280479043147,
      "loss": 0.0806,
      "step": 464
    },
    {
      "epoch": 0.5059847660500544,
      "grad_norm": 0.10007097572088242,
      "learning_rate": 9.982719520956855e-05,
      "loss": 0.0943,
      "step": 465
    },
    {
      "epoch": 0.5070729053318824,
      "grad_norm": 0.08833252638578415,
      "learning_rate": 9.948158769278939e-05,
      "loss": 0.0736,
      "step": 466
    },
    {
      "epoch": 0.5081610446137106,
      "grad_norm": 0.08999834209680557,
      "learning_rate": 9.913598636823693e-05,
      "loss": 0.0711,
      "step": 467
    },
    {
      "epoch": 0.5092491838955386,
      "grad_norm": 0.09894470125436783,
      "learning_rate": 9.879039536398024e-05,
      "loss": 0.0854,
      "step": 468
    },
    {
      "epoch": 0.5103373231773667,
      "grad_norm": 0.10664485394954681,
      "learning_rate": 9.844481880796491e-05,
      "loss": 0.0817,
      "step": 469
    },
    {
      "epoch": 0.5114254624591947,
      "grad_norm": 0.08572715520858765,
      "learning_rate": 9.809926082796415e-05,
      "loss": 0.0685,
      "step": 470
    },
    {
      "epoch": 0.5125136017410229,
      "grad_norm": 0.1364021748304367,
      "learning_rate": 9.775372555152912e-05,
      "loss": 0.1289,
      "step": 471
    },
    {
      "epoch": 0.5136017410228509,
      "grad_norm": 0.0975506454706192,
      "learning_rate": 9.740821710593989e-05,
      "loss": 0.0816,
      "step": 472
    },
    {
      "epoch": 0.514689880304679,
      "grad_norm": 0.10148054361343384,
      "learning_rate": 9.70627396181561e-05,
      "loss": 0.0685,
      "step": 473
    },
    {
      "epoch": 0.515778019586507,
      "grad_norm": 0.10723249614238739,
      "learning_rate": 9.671729721476746e-05,
      "loss": 0.1108,
      "step": 474
    },
    {
      "epoch": 0.5168661588683352,
      "grad_norm": 0.1059638112783432,
      "learning_rate": 9.637189402194476e-05,
      "loss": 0.0797,
      "step": 475
    },
    {
      "epoch": 0.5179542981501633,
      "grad_norm": 0.09612549841403961,
      "learning_rate": 9.602653416539031e-05,
      "loss": 0.0756,
      "step": 476
    },
    {
      "epoch": 0.5190424374319913,
      "grad_norm": 0.12177007645368576,
      "learning_rate": 9.568122177028884e-05,
      "loss": 0.072,
      "step": 477
    },
    {
      "epoch": 0.5201305767138193,
      "grad_norm": 0.10441110283136368,
      "learning_rate": 9.533596096125825e-05,
      "loss": 0.082,
      "step": 478
    },
    {
      "epoch": 0.5212187159956474,
      "grad_norm": 0.1342850774526596,
      "learning_rate": 9.499075586230013e-05,
      "loss": 0.0877,
      "step": 479
    },
    {
      "epoch": 0.5223068552774756,
      "grad_norm": 0.14177678525447845,
      "learning_rate": 9.464561059675073e-05,
      "loss": 0.1105,
      "step": 480
    },
    {
      "epoch": 0.5233949945593036,
      "grad_norm": 0.14493241906166077,
      "learning_rate": 9.430052928723153e-05,
      "loss": 0.0975,
      "step": 481
    },
    {
      "epoch": 0.5244831338411317,
      "grad_norm": 0.22142328321933746,
      "learning_rate": 9.395551605560018e-05,
      "loss": 0.1441,
      "step": 482
    },
    {
      "epoch": 0.5255712731229597,
      "grad_norm": 0.13570967316627502,
      "learning_rate": 9.361057502290113e-05,
      "loss": 0.0952,
      "step": 483
    },
    {
      "epoch": 0.5266594124047879,
      "grad_norm": 0.16124001145362854,
      "learning_rate": 9.326571030931637e-05,
      "loss": 0.0976,
      "step": 484
    },
    {
      "epoch": 0.5277475516866159,
      "grad_norm": 0.17145387828350067,
      "learning_rate": 9.292092603411641e-05,
      "loss": 0.1024,
      "step": 485
    },
    {
      "epoch": 0.528835690968444,
      "grad_norm": 0.23006115853786469,
      "learning_rate": 9.257622631561085e-05,
      "loss": 0.147,
      "step": 486
    },
    {
      "epoch": 0.529923830250272,
      "grad_norm": 0.2926236391067505,
      "learning_rate": 9.223161527109937e-05,
      "loss": 0.1706,
      "step": 487
    },
    {
      "epoch": 0.5310119695321001,
      "grad_norm": 0.2122851312160492,
      "learning_rate": 9.188709701682247e-05,
      "loss": 0.0793,
      "step": 488
    },
    {
      "epoch": 0.5321001088139282,
      "grad_norm": 0.30783331394195557,
      "learning_rate": 9.154267566791223e-05,
      "loss": 0.1446,
      "step": 489
    },
    {
      "epoch": 0.5331882480957563,
      "grad_norm": 0.26017701625823975,
      "learning_rate": 9.119835533834331e-05,
      "loss": 0.0925,
      "step": 490
    },
    {
      "epoch": 0.5342763873775843,
      "grad_norm": 0.3646100163459778,
      "learning_rate": 9.085414014088369e-05,
      "loss": 0.1893,
      "step": 491
    },
    {
      "epoch": 0.5353645266594124,
      "grad_norm": 0.3202396035194397,
      "learning_rate": 9.051003418704565e-05,
      "loss": 0.1389,
      "step": 492
    },
    {
      "epoch": 0.5364526659412405,
      "grad_norm": 0.420622318983078,
      "learning_rate": 9.016604158703654e-05,
      "loss": 0.2336,
      "step": 493
    },
    {
      "epoch": 0.5375408052230686,
      "grad_norm": 0.41953420639038086,
      "learning_rate": 8.982216644970979e-05,
      "loss": 0.2328,
      "step": 494
    },
    {
      "epoch": 0.5386289445048966,
      "grad_norm": 0.39154770970344543,
      "learning_rate": 8.947841288251568e-05,
      "loss": 0.1791,
      "step": 495
    },
    {
      "epoch": 0.5397170837867247,
      "grad_norm": 0.3094623386859894,
      "learning_rate": 8.913478499145254e-05,
      "loss": 0.1163,
      "step": 496
    },
    {
      "epoch": 0.5408052230685527,
      "grad_norm": 0.47343355417251587,
      "learning_rate": 8.879128688101749e-05,
      "loss": 0.2118,
      "step": 497
    },
    {
      "epoch": 0.5418933623503809,
      "grad_norm": 0.5772989988327026,
      "learning_rate": 8.844792265415738e-05,
      "loss": 0.3241,
      "step": 498
    },
    {
      "epoch": 0.5429815016322089,
      "grad_norm": 0.574259877204895,
      "learning_rate": 8.810469641222001e-05,
      "loss": 0.1832,
      "step": 499
    },
    {
      "epoch": 0.544069640914037,
      "grad_norm": 0.7393798828125,
      "learning_rate": 8.776161225490489e-05,
      "loss": 0.3208,
      "step": 500
    },
    {
      "epoch": 0.545157780195865,
      "grad_norm": 0.08375679701566696,
      "learning_rate": 8.741867428021446e-05,
      "loss": 0.0647,
      "step": 501
    },
    {
      "epoch": 0.5462459194776932,
      "grad_norm": 0.06409952789545059,
      "learning_rate": 8.707588658440511e-05,
      "loss": 0.0669,
      "step": 502
    },
    {
      "epoch": 0.5473340587595212,
      "grad_norm": 0.07277576625347137,
      "learning_rate": 8.673325326193806e-05,
      "loss": 0.069,
      "step": 503
    },
    {
      "epoch": 0.5484221980413493,
      "grad_norm": 0.0738697499036789,
      "learning_rate": 8.639077840543077e-05,
      "loss": 0.0729,
      "step": 504
    },
    {
      "epoch": 0.5495103373231773,
      "grad_norm": 0.07032415270805359,
      "learning_rate": 8.604846610560771e-05,
      "loss": 0.0619,
      "step": 505
    },
    {
      "epoch": 0.5505984766050055,
      "grad_norm": 0.08152731508016586,
      "learning_rate": 8.570632045125185e-05,
      "loss": 0.0984,
      "step": 506
    },
    {
      "epoch": 0.5516866158868335,
      "grad_norm": 0.08058314025402069,
      "learning_rate": 8.536434552915556e-05,
      "loss": 0.0727,
      "step": 507
    },
    {
      "epoch": 0.5527747551686616,
      "grad_norm": 0.08897782117128372,
      "learning_rate": 8.502254542407186e-05,
      "loss": 0.0844,
      "step": 508
    },
    {
      "epoch": 0.5538628944504896,
      "grad_norm": 0.07130607962608337,
      "learning_rate": 8.468092421866573e-05,
      "loss": 0.0612,
      "step": 509
    },
    {
      "epoch": 0.5549510337323177,
      "grad_norm": 0.09470459073781967,
      "learning_rate": 8.433948599346516e-05,
      "loss": 0.0983,
      "step": 510
    },
    {
      "epoch": 0.5560391730141458,
      "grad_norm": 0.10217074304819107,
      "learning_rate": 8.399823482681262e-05,
      "loss": 0.1066,
      "step": 511
    },
    {
      "epoch": 0.5571273122959739,
      "grad_norm": 0.08955902606248856,
      "learning_rate": 8.36571747948162e-05,
      "loss": 0.0754,
      "step": 512
    },
    {
      "epoch": 0.558215451577802,
      "grad_norm": 0.08967861533164978,
      "learning_rate": 8.33163099713009e-05,
      "loss": 0.0745,
      "step": 513
    },
    {
      "epoch": 0.55930359085963,
      "grad_norm": 0.09490852057933807,
      "learning_rate": 8.297564442776014e-05,
      "loss": 0.0956,
      "step": 514
    },
    {
      "epoch": 0.5603917301414582,
      "grad_norm": 0.1147465854883194,
      "learning_rate": 8.263518223330697e-05,
      "loss": 0.0918,
      "step": 515
    },
    {
      "epoch": 0.5614798694232862,
      "grad_norm": 0.10192292928695679,
      "learning_rate": 8.22949274546255e-05,
      "loss": 0.0865,
      "step": 516
    },
    {
      "epoch": 0.5625680087051143,
      "grad_norm": 0.09790289402008057,
      "learning_rate": 8.195488415592238e-05,
      "loss": 0.0884,
      "step": 517
    },
    {
      "epoch": 0.5636561479869423,
      "grad_norm": 0.10624364018440247,
      "learning_rate": 8.161505639887817e-05,
      "loss": 0.0743,
      "step": 518
    },
    {
      "epoch": 0.5647442872687704,
      "grad_norm": 0.10007826238870621,
      "learning_rate": 8.127544824259889e-05,
      "loss": 0.077,
      "step": 519
    },
    {
      "epoch": 0.5658324265505985,
      "grad_norm": 0.10816752165555954,
      "learning_rate": 8.093606374356759e-05,
      "loss": 0.0967,
      "step": 520
    },
    {
      "epoch": 0.5669205658324266,
      "grad_norm": 0.09151450544595718,
      "learning_rate": 8.059690695559568e-05,
      "loss": 0.0559,
      "step": 521
    },
    {
      "epoch": 0.5680087051142546,
      "grad_norm": 0.09337753057479858,
      "learning_rate": 8.025798192977481e-05,
      "loss": 0.0666,
      "step": 522
    },
    {
      "epoch": 0.5690968443960827,
      "grad_norm": 0.07552886009216309,
      "learning_rate": 7.991929271442817e-05,
      "loss": 0.0427,
      "step": 523
    },
    {
      "epoch": 0.5701849836779108,
      "grad_norm": 0.125149667263031,
      "learning_rate": 7.958084335506239e-05,
      "loss": 0.0886,
      "step": 524
    },
    {
      "epoch": 0.5712731229597389,
      "grad_norm": 0.1259811669588089,
      "learning_rate": 7.924263789431912e-05,
      "loss": 0.0836,
      "step": 525
    },
    {
      "epoch": 0.5723612622415669,
      "grad_norm": 0.11561718583106995,
      "learning_rate": 7.89046803719267e-05,
      "loss": 0.0767,
      "step": 526
    },
    {
      "epoch": 0.573449401523395,
      "grad_norm": 0.15881969034671783,
      "learning_rate": 7.856697482465196e-05,
      "loss": 0.132,
      "step": 527
    },
    {
      "epoch": 0.5745375408052231,
      "grad_norm": 0.11481433361768723,
      "learning_rate": 7.822952528625191e-05,
      "loss": 0.0772,
      "step": 528
    },
    {
      "epoch": 0.5756256800870512,
      "grad_norm": 0.133880615234375,
      "learning_rate": 7.789233578742582e-05,
      "loss": 0.0851,
      "step": 529
    },
    {
      "epoch": 0.5767138193688792,
      "grad_norm": 0.1513182371854782,
      "learning_rate": 7.755541035576677e-05,
      "loss": 0.1258,
      "step": 530
    },
    {
      "epoch": 0.5778019586507073,
      "grad_norm": 0.1432909518480301,
      "learning_rate": 7.721875301571359e-05,
      "loss": 0.1227,
      "step": 531
    },
    {
      "epoch": 0.5788900979325353,
      "grad_norm": 0.11642878502607346,
      "learning_rate": 7.688236778850306e-05,
      "loss": 0.0686,
      "step": 532
    },
    {
      "epoch": 0.5799782372143635,
      "grad_norm": 0.16764387488365173,
      "learning_rate": 7.654625869212146e-05,
      "loss": 0.1262,
      "step": 533
    },
    {
      "epoch": 0.5810663764961915,
      "grad_norm": 0.11564290523529053,
      "learning_rate": 7.6210429741257e-05,
      "loss": 0.0572,
      "step": 534
    },
    {
      "epoch": 0.5821545157780196,
      "grad_norm": 0.2554946541786194,
      "learning_rate": 7.587488494725157e-05,
      "loss": 0.1812,
      "step": 535
    },
    {
      "epoch": 0.5832426550598476,
      "grad_norm": 0.1616709679365158,
      "learning_rate": 7.55396283180529e-05,
      "loss": 0.0818,
      "step": 536
    },
    {
      "epoch": 0.5843307943416758,
      "grad_norm": 0.321591317653656,
      "learning_rate": 7.520466385816671e-05,
      "loss": 0.2124,
      "step": 537
    },
    {
      "epoch": 0.5854189336235038,
      "grad_norm": 0.21219317615032196,
      "learning_rate": 7.48699955686089e-05,
      "loss": 0.1097,
      "step": 538
    },
    {
      "epoch": 0.5865070729053319,
      "grad_norm": 0.19242917001247406,
      "learning_rate": 7.453562744685778e-05,
      "loss": 0.0769,
      "step": 539
    },
    {
      "epoch": 0.5875952121871599,
      "grad_norm": 0.27252575755119324,
      "learning_rate": 7.42015634868062e-05,
      "loss": 0.123,
      "step": 540
    },
    {
      "epoch": 0.588683351468988,
      "grad_norm": 0.3768553137779236,
      "learning_rate": 7.386780767871397e-05,
      "loss": 0.1882,
      "step": 541
    },
    {
      "epoch": 0.5897714907508161,
      "grad_norm": 0.2910580337047577,
      "learning_rate": 7.353436400916004e-05,
      "loss": 0.11,
      "step": 542
    },
    {
      "epoch": 0.5908596300326442,
      "grad_norm": 0.5426351428031921,
      "learning_rate": 7.320123646099519e-05,
      "loss": 0.2963,
      "step": 543
    },
    {
      "epoch": 0.5919477693144722,
      "grad_norm": 0.47717493772506714,
      "learning_rate": 7.286842901329412e-05,
      "loss": 0.1808,
      "step": 544
    },
    {
      "epoch": 0.5930359085963003,
      "grad_norm": 0.3526507019996643,
      "learning_rate": 7.253594564130804e-05,
      "loss": 0.1664,
      "step": 545
    },
    {
      "epoch": 0.5941240478781284,
      "grad_norm": 0.4166988134384155,
      "learning_rate": 7.22037903164173e-05,
      "loss": 0.199,
      "step": 546
    },
    {
      "epoch": 0.5952121871599565,
      "grad_norm": 0.3085844814777374,
      "learning_rate": 7.187196700608373e-05,
      "loss": 0.1008,
      "step": 547
    },
    {
      "epoch": 0.5963003264417845,
      "grad_norm": 0.6430099606513977,
      "learning_rate": 7.154047967380354e-05,
      "loss": 0.2083,
      "step": 548
    },
    {
      "epoch": 0.5973884657236126,
      "grad_norm": 0.5886674523353577,
      "learning_rate": 7.12093322790597e-05,
      "loss": 0.2135,
      "step": 549
    },
    {
      "epoch": 0.5984766050054406,
      "grad_norm": 0.6182297468185425,
      "learning_rate": 7.087852877727481e-05,
      "loss": 0.1715,
      "step": 550
    },
    {
      "epoch": 0.5995647442872688,
      "grad_norm": 0.052968356758356094,
      "learning_rate": 7.054807311976379e-05,
      "loss": 0.0482,
      "step": 551
    },
    {
      "epoch": 0.6006528835690969,
      "grad_norm": 0.05972611904144287,
      "learning_rate": 7.021796925368667e-05,
      "loss": 0.0518,
      "step": 552
    },
    {
      "epoch": 0.6017410228509249,
      "grad_norm": 0.06913693249225616,
      "learning_rate": 6.988822112200156e-05,
      "loss": 0.067,
      "step": 553
    },
    {
      "epoch": 0.602829162132753,
      "grad_norm": 0.07957234978675842,
      "learning_rate": 6.955883266341741e-05,
      "loss": 0.0881,
      "step": 554
    },
    {
      "epoch": 0.6039173014145811,
      "grad_norm": 0.07048328220844269,
      "learning_rate": 6.922980781234699e-05,
      "loss": 0.073,
      "step": 555
    },
    {
      "epoch": 0.6050054406964092,
      "grad_norm": 0.07528451830148697,
      "learning_rate": 6.890115049885994e-05,
      "loss": 0.0777,
      "step": 556
    },
    {
      "epoch": 0.6060935799782372,
      "grad_norm": 0.07747096568346024,
      "learning_rate": 6.85728646486359e-05,
      "loss": 0.0758,
      "step": 557
    },
    {
      "epoch": 0.6071817192600653,
      "grad_norm": 0.10643380880355835,
      "learning_rate": 6.82449541829174e-05,
      "loss": 0.1274,
      "step": 558
    },
    {
      "epoch": 0.6082698585418934,
      "grad_norm": 0.08175136148929596,
      "learning_rate": 6.791742301846326e-05,
      "loss": 0.0838,
      "step": 559
    },
    {
      "epoch": 0.6093579978237215,
      "grad_norm": 0.09339357912540436,
      "learning_rate": 6.759027506750158e-05,
      "loss": 0.0767,
      "step": 560
    },
    {
      "epoch": 0.6104461371055495,
      "grad_norm": 0.07980689406394958,
      "learning_rate": 6.726351423768322e-05,
      "loss": 0.0645,
      "step": 561
    },
    {
      "epoch": 0.6115342763873776,
      "grad_norm": 0.09120305627584457,
      "learning_rate": 6.693714443203507e-05,
      "loss": 0.0763,
      "step": 562
    },
    {
      "epoch": 0.6126224156692056,
      "grad_norm": 0.09666004031896591,
      "learning_rate": 6.661116954891328e-05,
      "loss": 0.0749,
      "step": 563
    },
    {
      "epoch": 0.6137105549510338,
      "grad_norm": 0.09731943160295486,
      "learning_rate": 6.62855934819569e-05,
      "loss": 0.0891,
      "step": 564
    },
    {
      "epoch": 0.6147986942328618,
      "grad_norm": 0.09505044668912888,
      "learning_rate": 6.59604201200412e-05,
      "loss": 0.0734,
      "step": 565
    },
    {
      "epoch": 0.6158868335146899,
      "grad_norm": 0.09885645657777786,
      "learning_rate": 6.563565334723134e-05,
      "loss": 0.0726,
      "step": 566
    },
    {
      "epoch": 0.6169749727965179,
      "grad_norm": 0.10182873159646988,
      "learning_rate": 6.531129704273604e-05,
      "loss": 0.0907,
      "step": 567
    },
    {
      "epoch": 0.6180631120783461,
      "grad_norm": 0.10983593761920929,
      "learning_rate": 6.498735508086093e-05,
      "loss": 0.0774,
      "step": 568
    },
    {
      "epoch": 0.6191512513601741,
      "grad_norm": 0.13069598376750946,
      "learning_rate": 6.466383133096267e-05,
      "loss": 0.1334,
      "step": 569
    },
    {
      "epoch": 0.6202393906420022,
      "grad_norm": 0.10764119029045105,
      "learning_rate": 6.434072965740242e-05,
      "loss": 0.0921,
      "step": 570
    },
    {
      "epoch": 0.6213275299238302,
      "grad_norm": 0.10900213569402695,
      "learning_rate": 6.40180539194999e-05,
      "loss": 0.0842,
      "step": 571
    },
    {
      "epoch": 0.6224156692056583,
      "grad_norm": 0.13261805474758148,
      "learning_rate": 6.369580797148718e-05,
      "loss": 0.1045,
      "step": 572
    },
    {
      "epoch": 0.6235038084874864,
      "grad_norm": 0.13680216670036316,
      "learning_rate": 6.337399566246257e-05,
      "loss": 0.1367,
      "step": 573
    },
    {
      "epoch": 0.6245919477693145,
      "grad_norm": 0.13827918469905853,
      "learning_rate": 6.305262083634488e-05,
      "loss": 0.1063,
      "step": 574
    },
    {
      "epoch": 0.6256800870511425,
      "grad_norm": 0.0938330814242363,
      "learning_rate": 6.273168733182722e-05,
      "loss": 0.0686,
      "step": 575
    },
    {
      "epoch": 0.6267682263329706,
      "grad_norm": 0.14945276081562042,
      "learning_rate": 6.241119898233144e-05,
      "loss": 0.1373,
      "step": 576
    },
    {
      "epoch": 0.6278563656147987,
      "grad_norm": 0.10897387564182281,
      "learning_rate": 6.209115961596208e-05,
      "loss": 0.068,
      "step": 577
    },
    {
      "epoch": 0.6289445048966268,
      "grad_norm": 0.11899581551551819,
      "learning_rate": 6.177157305546078e-05,
      "loss": 0.0812,
      "step": 578
    },
    {
      "epoch": 0.6300326441784548,
      "grad_norm": 0.12964366376399994,
      "learning_rate": 6.145244311816063e-05,
      "loss": 0.0919,
      "step": 579
    },
    {
      "epoch": 0.6311207834602829,
      "grad_norm": 0.14867788553237915,
      "learning_rate": 6.113377361594049e-05,
      "loss": 0.1079,
      "step": 580
    },
    {
      "epoch": 0.6322089227421109,
      "grad_norm": 0.13811950385570526,
      "learning_rate": 6.0815568355179556e-05,
      "loss": 0.0871,
      "step": 581
    },
    {
      "epoch": 0.6332970620239391,
      "grad_norm": 0.14532406628131866,
      "learning_rate": 6.0497831136711836e-05,
      "loss": 0.0912,
      "step": 582
    },
    {
      "epoch": 0.6343852013057671,
      "grad_norm": 0.19129644334316254,
      "learning_rate": 6.018056575578075e-05,
      "loss": 0.1137,
      "step": 583
    },
    {
      "epoch": 0.6354733405875952,
      "grad_norm": 0.16450344026088715,
      "learning_rate": 5.986377600199371e-05,
      "loss": 0.072,
      "step": 584
    },
    {
      "epoch": 0.6365614798694232,
      "grad_norm": 0.1428171992301941,
      "learning_rate": 5.9547465659277215e-05,
      "loss": 0.0671,
      "step": 585
    },
    {
      "epoch": 0.6376496191512514,
      "grad_norm": 0.18160395324230194,
      "learning_rate": 5.923163850583113e-05,
      "loss": 0.1049,
      "step": 586
    },
    {
      "epoch": 0.6387377584330794,
      "grad_norm": 0.18718522787094116,
      "learning_rate": 5.8916298314083915e-05,
      "loss": 0.1037,
      "step": 587
    },
    {
      "epoch": 0.6398258977149075,
      "grad_norm": 0.3233761489391327,
      "learning_rate": 5.860144885064751e-05,
      "loss": 0.1401,
      "step": 588
    },
    {
      "epoch": 0.6409140369967355,
      "grad_norm": 0.27942174673080444,
      "learning_rate": 5.828709387627218e-05,
      "loss": 0.1464,
      "step": 589
    },
    {
      "epoch": 0.6420021762785637,
      "grad_norm": 0.26235440373420715,
      "learning_rate": 5.797323714580192e-05,
      "loss": 0.1238,
      "step": 590
    },
    {
      "epoch": 0.6430903155603918,
      "grad_norm": 0.3004370927810669,
      "learning_rate": 5.765988240812921e-05,
      "loss": 0.1483,
      "step": 591
    },
    {
      "epoch": 0.6441784548422198,
      "grad_norm": 0.33811435103416443,
      "learning_rate": 5.73470334061505e-05,
      "loss": 0.1895,
      "step": 592
    },
    {
      "epoch": 0.6452665941240479,
      "grad_norm": 0.352417528629303,
      "learning_rate": 5.7034693876721376e-05,
      "loss": 0.1148,
      "step": 593
    },
    {
      "epoch": 0.6463547334058759,
      "grad_norm": 0.296340674161911,
      "learning_rate": 5.6722867550612116e-05,
      "loss": 0.1647,
      "step": 594
    },
    {
      "epoch": 0.6474428726877041,
      "grad_norm": 0.47691333293914795,
      "learning_rate": 5.6411558152462894e-05,
      "loss": 0.2066,
      "step": 595
    },
    {
      "epoch": 0.6485310119695321,
      "grad_norm": 0.5979732275009155,
      "learning_rate": 5.6100769400739383e-05,
      "loss": 0.291,
      "step": 596
    },
    {
      "epoch": 0.6496191512513602,
      "grad_norm": 0.4951854944229126,
      "learning_rate": 5.579050500768836e-05,
      "loss": 0.2417,
      "step": 597
    },
    {
      "epoch": 0.6507072905331882,
      "grad_norm": 0.5365352630615234,
      "learning_rate": 5.54807686792933e-05,
      "loss": 0.2438,
      "step": 598
    },
    {
      "epoch": 0.6517954298150164,
      "grad_norm": 0.6378306150436401,
      "learning_rate": 5.5171564115230254e-05,
      "loss": 0.2436,
      "step": 599
    },
    {
      "epoch": 0.6528835690968444,
      "grad_norm": 0.5462427735328674,
      "learning_rate": 5.486289500882355e-05,
      "loss": 0.1536,
      "step": 600
    },
    {
      "epoch": 0.6539717083786725,
      "grad_norm": 0.0600992813706398,
      "learning_rate": 5.4554765047001613e-05,
      "loss": 0.0662,
      "step": 601
    },
    {
      "epoch": 0.6550598476605005,
      "grad_norm": 0.06883436441421509,
      "learning_rate": 5.424717791025302e-05,
      "loss": 0.0791,
      "step": 602
    },
    {
      "epoch": 0.6561479869423286,
      "grad_norm": 0.07644320279359818,
      "learning_rate": 5.394013727258254e-05,
      "loss": 0.0863,
      "step": 603
    },
    {
      "epoch": 0.6572361262241567,
      "grad_norm": 0.07377026975154877,
      "learning_rate": 5.363364680146725e-05,
      "loss": 0.0669,
      "step": 604
    },
    {
      "epoch": 0.6583242655059848,
      "grad_norm": 0.06373579055070877,
      "learning_rate": 5.332771015781275e-05,
      "loss": 0.0537,
      "step": 605
    },
    {
      "epoch": 0.6594124047878128,
      "grad_norm": 0.05605285242199898,
      "learning_rate": 5.302233099590928e-05,
      "loss": 0.0505,
      "step": 606
    },
    {
      "epoch": 0.6605005440696409,
      "grad_norm": 0.0761309266090393,
      "learning_rate": 5.271751296338823e-05,
      "loss": 0.079,
      "step": 607
    },
    {
      "epoch": 0.661588683351469,
      "grad_norm": 0.08843579143285751,
      "learning_rate": 5.2413259701178505e-05,
      "loss": 0.0662,
      "step": 608
    },
    {
      "epoch": 0.6626768226332971,
      "grad_norm": 0.07351501286029816,
      "learning_rate": 5.210957484346314e-05,
      "loss": 0.0533,
      "step": 609
    },
    {
      "epoch": 0.6637649619151251,
      "grad_norm": 0.08167769014835358,
      "learning_rate": 5.180646201763577e-05,
      "loss": 0.0796,
      "step": 610
    },
    {
      "epoch": 0.6648531011969532,
      "grad_norm": 0.09149360656738281,
      "learning_rate": 5.150392484425728e-05,
      "loss": 0.1115,
      "step": 611
    },
    {
      "epoch": 0.6659412404787813,
      "grad_norm": 0.08288878947496414,
      "learning_rate": 5.120196693701267e-05,
      "loss": 0.0761,
      "step": 612
    },
    {
      "epoch": 0.6670293797606094,
      "grad_norm": 0.07389149814844131,
      "learning_rate": 5.090059190266779e-05,
      "loss": 0.0645,
      "step": 613
    },
    {
      "epoch": 0.6681175190424374,
      "grad_norm": 0.08279106020927429,
      "learning_rate": 5.059980334102637e-05,
      "loss": 0.0772,
      "step": 614
    },
    {
      "epoch": 0.6692056583242655,
      "grad_norm": 0.09307517111301422,
      "learning_rate": 5.0299604844886985e-05,
      "loss": 0.0823,
      "step": 615
    },
    {
      "epoch": 0.6702937976060935,
      "grad_norm": 0.09981580078601837,
      "learning_rate": 5.000000000000002e-05,
      "loss": 0.0991,
      "step": 616
    },
    {
      "epoch": 0.6713819368879217,
      "grad_norm": 0.11640693992376328,
      "learning_rate": 4.9700992385024934e-05,
      "loss": 0.1061,
      "step": 617
    },
    {
      "epoch": 0.6724700761697497,
      "grad_norm": 0.10669746994972229,
      "learning_rate": 4.940258557148765e-05,
      "loss": 0.0897,
      "step": 618
    },
    {
      "epoch": 0.6735582154515778,
      "grad_norm": 0.1135135293006897,
      "learning_rate": 4.9104783123737566e-05,
      "loss": 0.1121,
      "step": 619
    },
    {
      "epoch": 0.6746463547334058,
      "grad_norm": 0.08616163581609726,
      "learning_rate": 4.880758859890536e-05,
      "loss": 0.0684,
      "step": 620
    },
    {
      "epoch": 0.675734494015234,
      "grad_norm": 0.10301216691732407,
      "learning_rate": 4.851100554686021e-05,
      "loss": 0.0894,
      "step": 621
    },
    {
      "epoch": 0.676822633297062,
      "grad_norm": 0.10738655179738998,
      "learning_rate": 4.821503751016746e-05,
      "loss": 0.0919,
      "step": 622
    },
    {
      "epoch": 0.6779107725788901,
      "grad_norm": 0.10355032980442047,
      "learning_rate": 4.791968802404648e-05,
      "loss": 0.0855,
      "step": 623
    },
    {
      "epoch": 0.6789989118607181,
      "grad_norm": 0.10595700144767761,
      "learning_rate": 4.762496061632814e-05,
      "loss": 0.0903,
      "step": 624
    },
    {
      "epoch": 0.6800870511425462,
      "grad_norm": 0.12492071092128754,
      "learning_rate": 4.733085880741301e-05,
      "loss": 0.1232,
      "step": 625
    },
    {
      "epoch": 0.6811751904243744,
      "grad_norm": 0.1137222945690155,
      "learning_rate": 4.7037386110228985e-05,
      "loss": 0.0958,
      "step": 626
    },
    {
      "epoch": 0.6822633297062024,
      "grad_norm": 0.13245636224746704,
      "learning_rate": 4.6744546030189486e-05,
      "loss": 0.0981,
      "step": 627
    },
    {
      "epoch": 0.6833514689880305,
      "grad_norm": 0.12368131428956985,
      "learning_rate": 4.645234206515171e-05,
      "loss": 0.0811,
      "step": 628
    },
    {
      "epoch": 0.6844396082698585,
      "grad_norm": 0.10623182356357574,
      "learning_rate": 4.6160777705374524e-05,
      "loss": 0.0723,
      "step": 629
    },
    {
      "epoch": 0.6855277475516867,
      "grad_norm": 0.13129866123199463,
      "learning_rate": 4.586985643347717e-05,
      "loss": 0.1147,
      "step": 630
    },
    {
      "epoch": 0.6866158868335147,
      "grad_norm": 0.11502306908369064,
      "learning_rate": 4.5579581724397255e-05,
      "loss": 0.0715,
      "step": 631
    },
    {
      "epoch": 0.6877040261153428,
      "grad_norm": 0.1408235728740692,
      "learning_rate": 4.5289957045349653e-05,
      "loss": 0.0919,
      "step": 632
    },
    {
      "epoch": 0.6887921653971708,
      "grad_norm": 0.1587967872619629,
      "learning_rate": 4.5000985855784746e-05,
      "loss": 0.109,
      "step": 633
    },
    {
      "epoch": 0.6898803046789989,
      "grad_norm": 0.19859641790390015,
      "learning_rate": 4.471267160734731e-05,
      "loss": 0.0959,
      "step": 634
    },
    {
      "epoch": 0.690968443960827,
      "grad_norm": 0.16058838367462158,
      "learning_rate": 4.442501774383515e-05,
      "loss": 0.1012,
      "step": 635
    },
    {
      "epoch": 0.6920565832426551,
      "grad_norm": 0.2084600329399109,
      "learning_rate": 4.413802770115816e-05,
      "loss": 0.1343,
      "step": 636
    },
    {
      "epoch": 0.6931447225244831,
      "grad_norm": 0.23033252358436584,
      "learning_rate": 4.385170490729712e-05,
      "loss": 0.1517,
      "step": 637
    },
    {
      "epoch": 0.6942328618063112,
      "grad_norm": 0.2856910228729248,
      "learning_rate": 4.3566052782262735e-05,
      "loss": 0.1669,
      "step": 638
    },
    {
      "epoch": 0.6953210010881393,
      "grad_norm": 0.19062520563602448,
      "learning_rate": 4.328107473805487e-05,
      "loss": 0.0654,
      "step": 639
    },
    {
      "epoch": 0.6964091403699674,
      "grad_norm": 0.3172631561756134,
      "learning_rate": 4.2996774178621736e-05,
      "loss": 0.1788,
      "step": 640
    },
    {
      "epoch": 0.6974972796517954,
      "grad_norm": 0.4395265281200409,
      "learning_rate": 4.271315449981934e-05,
      "loss": 0.1254,
      "step": 641
    },
    {
      "epoch": 0.6985854189336235,
      "grad_norm": 0.3653918206691742,
      "learning_rate": 4.2430219089370823e-05,
      "loss": 0.2148,
      "step": 642
    },
    {
      "epoch": 0.6996735582154516,
      "grad_norm": 0.45207682251930237,
      "learning_rate": 4.2147971326825966e-05,
      "loss": 0.2424,
      "step": 643
    },
    {
      "epoch": 0.7007616974972797,
      "grad_norm": 0.33358728885650635,
      "learning_rate": 4.1866414583520877e-05,
      "loss": 0.1578,
      "step": 644
    },
    {
      "epoch": 0.7018498367791077,
      "grad_norm": 0.2964087426662445,
      "learning_rate": 4.158555222253771e-05,
      "loss": 0.0704,
      "step": 645
    },
    {
      "epoch": 0.7029379760609358,
      "grad_norm": 0.3286013603210449,
      "learning_rate": 4.130538759866457e-05,
      "loss": 0.2085,
      "step": 646
    },
    {
      "epoch": 0.7040261153427638,
      "grad_norm": 0.3953593671321869,
      "learning_rate": 4.102592405835536e-05,
      "loss": 0.2185,
      "step": 647
    },
    {
      "epoch": 0.705114254624592,
      "grad_norm": 0.46906566619873047,
      "learning_rate": 4.074716493968975e-05,
      "loss": 0.2676,
      "step": 648
    },
    {
      "epoch": 0.70620239390642,
      "grad_norm": 0.545005738735199,
      "learning_rate": 4.046911357233343e-05,
      "loss": 0.2487,
      "step": 649
    },
    {
      "epoch": 0.7072905331882481,
      "grad_norm": 0.5767453908920288,
      "learning_rate": 4.019177327749822e-05,
      "loss": 0.2432,
      "step": 650
    },
    {
      "epoch": 0.7083786724700761,
      "grad_norm": 0.058534830808639526,
      "learning_rate": 3.991514736790258e-05,
      "loss": 0.0652,
      "step": 651
    },
    {
      "epoch": 0.7094668117519043,
      "grad_norm": 0.06634719669818878,
      "learning_rate": 3.963923914773187e-05,
      "loss": 0.0712,
      "step": 652
    },
    {
      "epoch": 0.7105549510337323,
      "grad_norm": 0.0771845281124115,
      "learning_rate": 3.936405191259891e-05,
      "loss": 0.0702,
      "step": 653
    },
    {
      "epoch": 0.7116430903155604,
      "grad_norm": 0.06693675369024277,
      "learning_rate": 3.9089588949504655e-05,
      "loss": 0.0785,
      "step": 654
    },
    {
      "epoch": 0.7127312295973884,
      "grad_norm": 0.07800418138504028,
      "learning_rate": 3.8815853536798904e-05,
      "loss": 0.093,
      "step": 655
    },
    {
      "epoch": 0.7138193688792165,
      "grad_norm": 0.06311319023370743,
      "learning_rate": 3.854284894414122e-05,
      "loss": 0.0619,
      "step": 656
    },
    {
      "epoch": 0.7149075081610446,
      "grad_norm": 0.08463241159915924,
      "learning_rate": 3.82705784324618e-05,
      "loss": 0.0799,
      "step": 657
    },
    {
      "epoch": 0.7159956474428727,
      "grad_norm": 0.06584708392620087,
      "learning_rate": 3.79990452539225e-05,
      "loss": 0.0508,
      "step": 658
    },
    {
      "epoch": 0.7170837867247007,
      "grad_norm": 0.07503578066825867,
      "learning_rate": 3.772825265187802e-05,
      "loss": 0.0651,
      "step": 659
    },
    {
      "epoch": 0.7181719260065288,
      "grad_norm": 0.09440509229898453,
      "learning_rate": 3.7458203860837234e-05,
      "loss": 0.0824,
      "step": 660
    },
    {
      "epoch": 0.719260065288357,
      "grad_norm": 0.0794801339507103,
      "learning_rate": 3.7188902106424416e-05,
      "loss": 0.0752,
      "step": 661
    },
    {
      "epoch": 0.720348204570185,
      "grad_norm": 0.08709513396024704,
      "learning_rate": 3.692035060534088e-05,
      "loss": 0.0858,
      "step": 662
    },
    {
      "epoch": 0.721436343852013,
      "grad_norm": 0.08292333036661148,
      "learning_rate": 3.665255256532638e-05,
      "loss": 0.0747,
      "step": 663
    },
    {
      "epoch": 0.7225244831338411,
      "grad_norm": 0.08945606648921967,
      "learning_rate": 3.638551118512089e-05,
      "loss": 0.0875,
      "step": 664
    },
    {
      "epoch": 0.7236126224156693,
      "grad_norm": 0.09742715954780579,
      "learning_rate": 3.611922965442648e-05,
      "loss": 0.0894,
      "step": 665
    },
    {
      "epoch": 0.7247007616974973,
      "grad_norm": 0.09512501209974289,
      "learning_rate": 3.5853711153868965e-05,
      "loss": 0.0831,
      "step": 666
    },
    {
      "epoch": 0.7257889009793254,
      "grad_norm": 0.12309622764587402,
      "learning_rate": 3.558895885496023e-05,
      "loss": 0.1218,
      "step": 667
    },
    {
      "epoch": 0.7268770402611534,
      "grad_norm": 0.09456098824739456,
      "learning_rate": 3.53249759200601e-05,
      "loss": 0.0957,
      "step": 668
    },
    {
      "epoch": 0.7279651795429815,
      "grad_norm": 0.10691989958286285,
      "learning_rate": 3.506176550233863e-05,
      "loss": 0.1067,
      "step": 669
    },
    {
      "epoch": 0.7290533188248096,
      "grad_norm": 0.11746580898761749,
      "learning_rate": 3.479933074573858e-05,
      "loss": 0.1002,
      "step": 670
    },
    {
      "epoch": 0.7301414581066377,
      "grad_norm": 0.0943666398525238,
      "learning_rate": 3.4537674784937614e-05,
      "loss": 0.0842,
      "step": 671
    },
    {
      "epoch": 0.7312295973884657,
      "grad_norm": 0.0884823352098465,
      "learning_rate": 3.427680074531113e-05,
      "loss": 0.0642,
      "step": 672
    },
    {
      "epoch": 0.7323177366702938,
      "grad_norm": 0.10647040605545044,
      "learning_rate": 3.401671174289469e-05,
      "loss": 0.0805,
      "step": 673
    },
    {
      "epoch": 0.7334058759521219,
      "grad_norm": 0.11635477840900421,
      "learning_rate": 3.3757410884346894e-05,
      "loss": 0.1075,
      "step": 674
    },
    {
      "epoch": 0.73449401523395,
      "grad_norm": 0.10123847424983978,
      "learning_rate": 3.3498901266912396e-05,
      "loss": 0.0783,
      "step": 675
    },
    {
      "epoch": 0.735582154515778,
      "grad_norm": 0.1347595453262329,
      "learning_rate": 3.324118597838464e-05,
      "loss": 0.1216,
      "step": 676
    },
    {
      "epoch": 0.7366702937976061,
      "grad_norm": 0.11851736158132553,
      "learning_rate": 3.298426809706928e-05,
      "loss": 0.0891,
      "step": 677
    },
    {
      "epoch": 0.7377584330794341,
      "grad_norm": 0.1312292367219925,
      "learning_rate": 3.2728150691747115e-05,
      "loss": 0.1008,
      "step": 678
    },
    {
      "epoch": 0.7388465723612623,
      "grad_norm": 0.12228815257549286,
      "learning_rate": 3.2472836821637744e-05,
      "loss": 0.0696,
      "step": 679
    },
    {
      "epoch": 0.7399347116430903,
      "grad_norm": 0.12540924549102783,
      "learning_rate": 3.2218329536362704e-05,
      "loss": 0.0801,
      "step": 680
    },
    {
      "epoch": 0.7410228509249184,
      "grad_norm": 0.12973323464393616,
      "learning_rate": 3.196463187590929e-05,
      "loss": 0.0712,
      "step": 681
    },
    {
      "epoch": 0.7421109902067464,
      "grad_norm": 0.15368451178073883,
      "learning_rate": 3.1711746870594086e-05,
      "loss": 0.1033,
      "step": 682
    },
    {
      "epoch": 0.7431991294885746,
      "grad_norm": 0.21176296472549438,
      "learning_rate": 3.145967754102691e-05,
      "loss": 0.1367,
      "step": 683
    },
    {
      "epoch": 0.7442872687704026,
      "grad_norm": 0.18676644563674927,
      "learning_rate": 3.120842689807468e-05,
      "loss": 0.1081,
      "step": 684
    },
    {
      "epoch": 0.7453754080522307,
      "grad_norm": 0.1671050786972046,
      "learning_rate": 3.0957997942825336e-05,
      "loss": 0.0898,
      "step": 685
    },
    {
      "epoch": 0.7464635473340587,
      "grad_norm": 0.187219500541687,
      "learning_rate": 3.070839366655215e-05,
      "loss": 0.1019,
      "step": 686
    },
    {
      "epoch": 0.7475516866158868,
      "grad_norm": 0.17203396558761597,
      "learning_rate": 3.0459617050677868e-05,
      "loss": 0.0865,
      "step": 687
    },
    {
      "epoch": 0.7486398258977149,
      "grad_norm": 0.23022624850273132,
      "learning_rate": 3.021167106673928e-05,
      "loss": 0.1252,
      "step": 688
    },
    {
      "epoch": 0.749727965179543,
      "grad_norm": 0.2407008409500122,
      "learning_rate": 2.996455867635155e-05,
      "loss": 0.1142,
      "step": 689
    },
    {
      "epoch": 0.750816104461371,
      "grad_norm": 0.32173025608062744,
      "learning_rate": 2.9718282831172883e-05,
      "loss": 0.1342,
      "step": 690
    },
    {
      "epoch": 0.750816104461371,
      "eval_loss": 0.10566242039203644,
      "eval_runtime": 24.3899,
      "eval_samples_per_second": 15.867,
      "eval_steps_per_second": 7.954,
      "step": 690
    },
    {
      "epoch": 0.7519042437431991,
      "grad_norm": 0.21464985609054565,
      "learning_rate": 2.9472846472869298e-05,
      "loss": 0.0963,
      "step": 691
    },
    {
      "epoch": 0.7529923830250272,
      "grad_norm": 0.19391842186450958,
      "learning_rate": 2.922825253307947e-05,
      "loss": 0.078,
      "step": 692
    },
    {
      "epoch": 0.7540805223068553,
      "grad_norm": 0.5395727157592773,
      "learning_rate": 2.898450393337977e-05,
      "loss": 0.2525,
      "step": 693
    },
    {
      "epoch": 0.7551686615886833,
      "grad_norm": 0.25584131479263306,
      "learning_rate": 2.874160358524931e-05,
      "loss": 0.1305,
      "step": 694
    },
    {
      "epoch": 0.7562568008705114,
      "grad_norm": 0.37683942914009094,
      "learning_rate": 2.8499554390035143e-05,
      "loss": 0.1649,
      "step": 695
    },
    {
      "epoch": 0.7573449401523396,
      "grad_norm": 0.5291657447814941,
      "learning_rate": 2.8258359238917665e-05,
      "loss": 0.401,
      "step": 696
    },
    {
      "epoch": 0.7584330794341676,
      "grad_norm": 0.3864194452762604,
      "learning_rate": 2.8018021012875994e-05,
      "loss": 0.1678,
      "step": 697
    },
    {
      "epoch": 0.7595212187159956,
      "grad_norm": 0.582097589969635,
      "learning_rate": 2.7778542582653744e-05,
      "loss": 0.3378,
      "step": 698
    },
    {
      "epoch": 0.7606093579978237,
      "grad_norm": 0.5892650485038757,
      "learning_rate": 2.753992680872457e-05,
      "loss": 0.3441,
      "step": 699
    },
    {
      "epoch": 0.7616974972796517,
      "grad_norm": 0.5687892436981201,
      "learning_rate": 2.7302176541257986e-05,
      "loss": 0.1971,
      "step": 700
    },
    {
      "epoch": 0.7627856365614799,
      "grad_norm": 0.05355902388691902,
      "learning_rate": 2.7065294620085424e-05,
      "loss": 0.04,
      "step": 701
    },
    {
      "epoch": 0.763873775843308,
      "grad_norm": 0.06114435940980911,
      "learning_rate": 2.6829283874666233e-05,
      "loss": 0.0591,
      "step": 702
    },
    {
      "epoch": 0.764961915125136,
      "grad_norm": 0.07170981913805008,
      "learning_rate": 2.659414712405398e-05,
      "loss": 0.0786,
      "step": 703
    },
    {
      "epoch": 0.766050054406964,
      "grad_norm": 0.06378500908613205,
      "learning_rate": 2.6359887176862718e-05,
      "loss": 0.0583,
      "step": 704
    },
    {
      "epoch": 0.7671381936887922,
      "grad_norm": 0.07413233816623688,
      "learning_rate": 2.6126506831233344e-05,
      "loss": 0.0649,
      "step": 705
    },
    {
      "epoch": 0.7682263329706203,
      "grad_norm": 0.08822925388813019,
      "learning_rate": 2.5894008874800325e-05,
      "loss": 0.0867,
      "step": 706
    },
    {
      "epoch": 0.7693144722524483,
      "grad_norm": 0.08858999609947205,
      "learning_rate": 2.566239608465838e-05,
      "loss": 0.097,
      "step": 707
    },
    {
      "epoch": 0.7704026115342764,
      "grad_norm": 0.08912277966737747,
      "learning_rate": 2.543167122732918e-05,
      "loss": 0.0789,
      "step": 708
    },
    {
      "epoch": 0.7714907508161044,
      "grad_norm": 0.09791934490203857,
      "learning_rate": 2.5201837058728505e-05,
      "loss": 0.0694,
      "step": 709
    },
    {
      "epoch": 0.7725788900979326,
      "grad_norm": 0.08719997853040695,
      "learning_rate": 2.4972896324133144e-05,
      "loss": 0.0815,
      "step": 710
    },
    {
      "epoch": 0.7736670293797606,
      "grad_norm": 0.09913161396980286,
      "learning_rate": 2.4744851758148156e-05,
      "loss": 0.0781,
      "step": 711
    },
    {
      "epoch": 0.7747551686615887,
      "grad_norm": 0.09172407537698746,
      "learning_rate": 2.451770608467432e-05,
      "loss": 0.0924,
      "step": 712
    },
    {
      "epoch": 0.7758433079434167,
      "grad_norm": 0.08026967942714691,
      "learning_rate": 2.429146201687538e-05,
      "loss": 0.0716,
      "step": 713
    },
    {
      "epoch": 0.7769314472252449,
      "grad_norm": 0.11445032805204391,
      "learning_rate": 2.4066122257145894e-05,
      "loss": 0.1015,
      "step": 714
    },
    {
      "epoch": 0.7780195865070729,
      "grad_norm": 0.09224435687065125,
      "learning_rate": 2.3841689497078746e-05,
      "loss": 0.0694,
      "step": 715
    },
    {
      "epoch": 0.779107725788901,
      "grad_norm": 0.08717647194862366,
      "learning_rate": 2.361816641743303e-05,
      "loss": 0.0592,
      "step": 716
    },
    {
      "epoch": 0.780195865070729,
      "grad_norm": 0.0966147854924202,
      "learning_rate": 2.339555568810221e-05,
      "loss": 0.0786,
      "step": 717
    },
    {
      "epoch": 0.7812840043525572,
      "grad_norm": 0.1080668717622757,
      "learning_rate": 2.3173859968081944e-05,
      "loss": 0.0977,
      "step": 718
    },
    {
      "epoch": 0.7823721436343852,
      "grad_norm": 0.10351711511611938,
      "learning_rate": 2.295308190543859e-05,
      "loss": 0.0867,
      "step": 719
    },
    {
      "epoch": 0.7834602829162133,
      "grad_norm": 0.11572374403476715,
      "learning_rate": 2.2733224137277366e-05,
      "loss": 0.0998,
      "step": 720
    },
    {
      "epoch": 0.7845484221980413,
      "grad_norm": 0.09316647052764893,
      "learning_rate": 2.251428928971102e-05,
      "loss": 0.0702,
      "step": 721
    },
    {
      "epoch": 0.7856365614798694,
      "grad_norm": 0.10631789267063141,
      "learning_rate": 2.2296279977828337e-05,
      "loss": 0.0631,
      "step": 722
    },
    {
      "epoch": 0.7867247007616975,
      "grad_norm": 0.11438383907079697,
      "learning_rate": 2.2079198805662914e-05,
      "loss": 0.0969,
      "step": 723
    },
    {
      "epoch": 0.7878128400435256,
      "grad_norm": 0.11713221669197083,
      "learning_rate": 2.1863048366162208e-05,
      "loss": 0.0966,
      "step": 724
    },
    {
      "epoch": 0.7889009793253536,
      "grad_norm": 0.12945635616779327,
      "learning_rate": 2.1647831241156302e-05,
      "loss": 0.1063,
      "step": 725
    },
    {
      "epoch": 0.7899891186071817,
      "grad_norm": 0.10376941412687302,
      "learning_rate": 2.1433550001327373e-05,
      "loss": 0.0658,
      "step": 726
    },
    {
      "epoch": 0.7910772578890098,
      "grad_norm": 0.13715630769729614,
      "learning_rate": 2.1220207206178688e-05,
      "loss": 0.1085,
      "step": 727
    },
    {
      "epoch": 0.7921653971708379,
      "grad_norm": 0.12354642152786255,
      "learning_rate": 2.1007805404004242e-05,
      "loss": 0.0897,
      "step": 728
    },
    {
      "epoch": 0.7932535364526659,
      "grad_norm": 0.12347663193941116,
      "learning_rate": 2.0796347131858186e-05,
      "loss": 0.086,
      "step": 729
    },
    {
      "epoch": 0.794341675734494,
      "grad_norm": 0.12429869920015335,
      "learning_rate": 2.058583491552465e-05,
      "loss": 0.1008,
      "step": 730
    },
    {
      "epoch": 0.795429815016322,
      "grad_norm": 0.12943844497203827,
      "learning_rate": 2.0376271269487514e-05,
      "loss": 0.0773,
      "step": 731
    },
    {
      "epoch": 0.7965179542981502,
      "grad_norm": 0.1839335411787033,
      "learning_rate": 2.0167658696900317e-05,
      "loss": 0.1115,
      "step": 732
    },
    {
      "epoch": 0.7976060935799782,
      "grad_norm": 0.15224863588809967,
      "learning_rate": 1.995999968955641e-05,
      "loss": 0.0847,
      "step": 733
    },
    {
      "epoch": 0.7986942328618063,
      "grad_norm": 0.19822123646736145,
      "learning_rate": 1.9753296727859195e-05,
      "loss": 0.1225,
      "step": 734
    },
    {
      "epoch": 0.7997823721436343,
      "grad_norm": 0.20507045090198517,
      "learning_rate": 1.9547552280792524e-05,
      "loss": 0.104,
      "step": 735
    },
    {
      "epoch": 0.8008705114254625,
      "grad_norm": 0.1983303725719452,
      "learning_rate": 1.9342768805891178e-05,
      "loss": 0.1208,
      "step": 736
    },
    {
      "epoch": 0.8019586507072906,
      "grad_norm": 0.18087254464626312,
      "learning_rate": 1.9138948749211472e-05,
      "loss": 0.1085,
      "step": 737
    },
    {
      "epoch": 0.8030467899891186,
      "grad_norm": 0.20106813311576843,
      "learning_rate": 1.8936094545302095e-05,
      "loss": 0.106,
      "step": 738
    },
    {
      "epoch": 0.8041349292709467,
      "grad_norm": 0.2678329348564148,
      "learning_rate": 1.8734208617174988e-05,
      "loss": 0.1376,
      "step": 739
    },
    {
      "epoch": 0.8052230685527747,
      "grad_norm": 0.3087542951107025,
      "learning_rate": 1.8533293376276472e-05,
      "loss": 0.1685,
      "step": 740
    },
    {
      "epoch": 0.8063112078346029,
      "grad_norm": 0.21778535842895508,
      "learning_rate": 1.8333351222458407e-05,
      "loss": 0.1088,
      "step": 741
    },
    {
      "epoch": 0.8073993471164309,
      "grad_norm": 0.30875080823898315,
      "learning_rate": 1.8134384543949478e-05,
      "loss": 0.1272,
      "step": 742
    },
    {
      "epoch": 0.808487486398259,
      "grad_norm": 0.28981634974479675,
      "learning_rate": 1.7936395717326704e-05,
      "loss": 0.0876,
      "step": 743
    },
    {
      "epoch": 0.809575625680087,
      "grad_norm": 0.4402623474597931,
      "learning_rate": 1.773938710748706e-05,
      "loss": 0.1671,
      "step": 744
    },
    {
      "epoch": 0.8106637649619152,
      "grad_norm": 0.3520585894584656,
      "learning_rate": 1.754336106761927e-05,
      "loss": 0.1063,
      "step": 745
    },
    {
      "epoch": 0.8117519042437432,
      "grad_norm": 0.31854307651519775,
      "learning_rate": 1.7348319939175637e-05,
      "loss": 0.1521,
      "step": 746
    },
    {
      "epoch": 0.8128400435255713,
      "grad_norm": 0.4468978941440582,
      "learning_rate": 1.715426605184407e-05,
      "loss": 0.2484,
      "step": 747
    },
    {
      "epoch": 0.8139281828073993,
      "grad_norm": 0.385442316532135,
      "learning_rate": 1.696120172352025e-05,
      "loss": 0.2066,
      "step": 748
    },
    {
      "epoch": 0.8150163220892275,
      "grad_norm": 0.5463036894798279,
      "learning_rate": 1.676912926028007e-05,
      "loss": 0.2398,
      "step": 749
    },
    {
      "epoch": 0.8161044613710555,
      "grad_norm": 0.8237993717193604,
      "learning_rate": 1.6578050956351886e-05,
      "loss": 0.2319,
      "step": 750
    },
    {
      "epoch": 0.8171926006528836,
      "grad_norm": 0.056420858949422836,
      "learning_rate": 1.6387969094089316e-05,
      "loss": 0.0726,
      "step": 751
    },
    {
      "epoch": 0.8182807399347116,
      "grad_norm": 0.0559864416718483,
      "learning_rate": 1.619888594394382e-05,
      "loss": 0.0535,
      "step": 752
    },
    {
      "epoch": 0.8193688792165397,
      "grad_norm": 0.0695619061589241,
      "learning_rate": 1.601080376443763e-05,
      "loss": 0.0764,
      "step": 753
    },
    {
      "epoch": 0.8204570184983678,
      "grad_norm": 0.06585152447223663,
      "learning_rate": 1.5823724802136865e-05,
      "loss": 0.0583,
      "step": 754
    },
    {
      "epoch": 0.8215451577801959,
      "grad_norm": 0.09294595569372177,
      "learning_rate": 1.5637651291624523e-05,
      "loss": 0.0952,
      "step": 755
    },
    {
      "epoch": 0.8226332970620239,
      "grad_norm": 0.07608404755592346,
      "learning_rate": 1.5452585455473977e-05,
      "loss": 0.0665,
      "step": 756
    },
    {
      "epoch": 0.823721436343852,
      "grad_norm": 0.09707889705896378,
      "learning_rate": 1.526852950422226e-05,
      "loss": 0.101,
      "step": 757
    },
    {
      "epoch": 0.8248095756256801,
      "grad_norm": 0.086356520652771,
      "learning_rate": 1.5085485636343755e-05,
      "loss": 0.0713,
      "step": 758
    },
    {
      "epoch": 0.8258977149075082,
      "grad_norm": 0.10413988679647446,
      "learning_rate": 1.4903456038223939e-05,
      "loss": 0.0931,
      "step": 759
    },
    {
      "epoch": 0.8269858541893362,
      "grad_norm": 0.11106099933385849,
      "learning_rate": 1.4722442884133214e-05,
      "loss": 0.0637,
      "step": 760
    },
    {
      "epoch": 0.8280739934711643,
      "grad_norm": 0.07780591398477554,
      "learning_rate": 1.454244833620102e-05,
      "loss": 0.0736,
      "step": 761
    },
    {
      "epoch": 0.8291621327529923,
      "grad_norm": 0.08770725876092911,
      "learning_rate": 1.4363474544389877e-05,
      "loss": 0.0743,
      "step": 762
    },
    {
      "epoch": 0.8302502720348205,
      "grad_norm": 0.10190238058567047,
      "learning_rate": 1.4185523646469822e-05,
      "loss": 0.0983,
      "step": 763
    },
    {
      "epoch": 0.8313384113166485,
      "grad_norm": 0.09307550638914108,
      "learning_rate": 1.4008597767992871e-05,
      "loss": 0.0814,
      "step": 764
    },
    {
      "epoch": 0.8324265505984766,
      "grad_norm": 0.1155632883310318,
      "learning_rate": 1.3832699022267515e-05,
      "loss": 0.0876,
      "step": 765
    },
    {
      "epoch": 0.8335146898803046,
      "grad_norm": 0.09275174140930176,
      "learning_rate": 1.3657829510333654e-05,
      "loss": 0.0754,
      "step": 766
    },
    {
      "epoch": 0.8346028291621328,
      "grad_norm": 0.08752154558897018,
      "learning_rate": 1.3483991320937306e-05,
      "loss": 0.0775,
      "step": 767
    },
    {
      "epoch": 0.8356909684439608,
      "grad_norm": 0.10071904957294464,
      "learning_rate": 1.3311186530505838e-05,
      "loss": 0.0957,
      "step": 768
    },
    {
      "epoch": 0.8367791077257889,
      "grad_norm": 0.11828504502773285,
      "learning_rate": 1.3139417203123027e-05,
      "loss": 0.0915,
      "step": 769
    },
    {
      "epoch": 0.8378672470076169,
      "grad_norm": 0.1135001927614212,
      "learning_rate": 1.2968685390504465e-05,
      "loss": 0.0925,
      "step": 770
    },
    {
      "epoch": 0.8389553862894451,
      "grad_norm": 0.10750744491815567,
      "learning_rate": 1.2798993131973091e-05,
      "loss": 0.0955,
      "step": 771
    },
    {
      "epoch": 0.8400435255712732,
      "grad_norm": 0.1162073016166687,
      "learning_rate": 1.263034245443473e-05,
      "loss": 0.089,
      "step": 772
    },
    {
      "epoch": 0.8411316648531012,
      "grad_norm": 0.12537071108818054,
      "learning_rate": 1.2462735372353996e-05,
      "loss": 0.0955,
      "step": 773
    },
    {
      "epoch": 0.8422198041349293,
      "grad_norm": 0.13251665234565735,
      "learning_rate": 1.2296173887730123e-05,
      "loss": 0.1036,
      "step": 774
    },
    {
      "epoch": 0.8433079434167573,
      "grad_norm": 0.13233721256256104,
      "learning_rate": 1.2130659990073146e-05,
      "loss": 0.1139,
      "step": 775
    },
    {
      "epoch": 0.8443960826985855,
      "grad_norm": 0.1206088662147522,
      "learning_rate": 1.1966195656380031e-05,
      "loss": 0.0853,
      "step": 776
    },
    {
      "epoch": 0.8454842219804135,
      "grad_norm": 0.10946936160326004,
      "learning_rate": 1.1802782851111205e-05,
      "loss": 0.074,
      "step": 777
    },
    {
      "epoch": 0.8465723612622416,
      "grad_norm": 0.1602969467639923,
      "learning_rate": 1.1640423526166988e-05,
      "loss": 0.1153,
      "step": 778
    },
    {
      "epoch": 0.8476605005440696,
      "grad_norm": 0.1147325336933136,
      "learning_rate": 1.1479119620864276e-05,
      "loss": 0.0542,
      "step": 779
    },
    {
      "epoch": 0.8487486398258978,
      "grad_norm": 0.16215886175632477,
      "learning_rate": 1.1318873061913405e-05,
      "loss": 0.1048,
      "step": 780
    },
    {
      "epoch": 0.8498367791077258,
      "grad_norm": 0.15750151872634888,
      "learning_rate": 1.1159685763395111e-05,
      "loss": 0.1229,
      "step": 781
    },
    {
      "epoch": 0.8509249183895539,
      "grad_norm": 0.16287699341773987,
      "learning_rate": 1.1001559626737756e-05,
      "loss": 0.0973,
      "step": 782
    },
    {
      "epoch": 0.8520130576713819,
      "grad_norm": 0.14996270835399628,
      "learning_rate": 1.0844496540694515e-05,
      "loss": 0.0959,
      "step": 783
    },
    {
      "epoch": 0.85310119695321,
      "grad_norm": 0.2524786591529846,
      "learning_rate": 1.0688498381320855e-05,
      "loss": 0.255,
      "step": 784
    },
    {
      "epoch": 0.8541893362350381,
      "grad_norm": 0.19718289375305176,
      "learning_rate": 1.0533567011952094e-05,
      "loss": 0.1131,
      "step": 785
    },
    {
      "epoch": 0.8552774755168662,
      "grad_norm": 0.21403737366199493,
      "learning_rate": 1.0379704283181179e-05,
      "loss": 0.1055,
      "step": 786
    },
    {
      "epoch": 0.8563656147986942,
      "grad_norm": 0.2776722013950348,
      "learning_rate": 1.0226912032836611e-05,
      "loss": 0.1149,
      "step": 787
    },
    {
      "epoch": 0.8574537540805223,
      "grad_norm": 0.2056991308927536,
      "learning_rate": 1.007519208596045e-05,
      "loss": 0.078,
      "step": 788
    },
    {
      "epoch": 0.8585418933623504,
      "grad_norm": 0.3096133768558502,
      "learning_rate": 9.924546254786493e-06,
      "loss": 0.1237,
      "step": 789
    },
    {
      "epoch": 0.8596300326441785,
      "grad_norm": 0.38796815276145935,
      "learning_rate": 9.774976338718677e-06,
      "loss": 0.1631,
      "step": 790
    },
    {
      "epoch": 0.8607181719260065,
      "grad_norm": 0.2669233977794647,
      "learning_rate": 9.62648412430951e-06,
      "loss": 0.1011,
      "step": 791
    },
    {
      "epoch": 0.8618063112078346,
      "grad_norm": 0.4013719856739044,
      "learning_rate": 9.479071385238892e-06,
      "loss": 0.2422,
      "step": 792
    },
    {
      "epoch": 0.8628944504896626,
      "grad_norm": 0.35241514444351196,
      "learning_rate": 9.332739882292752e-06,
      "loss": 0.1604,
      "step": 793
    },
    {
      "epoch": 0.8639825897714908,
      "grad_norm": 0.3863401710987091,
      "learning_rate": 9.187491363342093e-06,
      "loss": 0.1977,
      "step": 794
    },
    {
      "epoch": 0.8650707290533188,
      "grad_norm": 0.4365151524543762,
      "learning_rate": 9.043327563322112e-06,
      "loss": 0.2164,
      "step": 795
    },
    {
      "epoch": 0.8661588683351469,
      "grad_norm": 0.4250886142253876,
      "learning_rate": 8.900250204211514e-06,
      "loss": 0.2607,
      "step": 796
    },
    {
      "epoch": 0.8672470076169749,
      "grad_norm": 0.6903502345085144,
      "learning_rate": 8.758260995011825e-06,
      "loss": 0.2994,
      "step": 797
    },
    {
      "epoch": 0.8683351468988031,
      "grad_norm": 0.6091783046722412,
      "learning_rate": 8.617361631727138e-06,
      "loss": 0.3278,
      "step": 798
    },
    {
      "epoch": 0.8694232861806311,
      "grad_norm": 0.7825955152511597,
      "learning_rate": 8.47755379734373e-06,
      "loss": 0.2998,
      "step": 799
    },
    {
      "epoch": 0.8705114254624592,
      "grad_norm": 0.5094212293624878,
      "learning_rate": 8.338839161809997e-06,
      "loss": 0.1437,
      "step": 800
    },
    {
      "epoch": 0.8715995647442872,
      "grad_norm": 0.047669120132923126,
      "learning_rate": 8.201219382016556e-06,
      "loss": 0.0489,
      "step": 801
    },
    {
      "epoch": 0.8726877040261154,
      "grad_norm": 0.06768417358398438,
      "learning_rate": 8.064696101776358e-06,
      "loss": 0.0689,
      "step": 802
    },
    {
      "epoch": 0.8737758433079434,
      "grad_norm": 0.06095738708972931,
      "learning_rate": 7.929270951805178e-06,
      "loss": 0.0639,
      "step": 803
    },
    {
      "epoch": 0.8748639825897715,
      "grad_norm": 0.07757483422756195,
      "learning_rate": 7.794945549701993e-06,
      "loss": 0.077,
      "step": 804
    },
    {
      "epoch": 0.8759521218715995,
      "grad_norm": 0.07621616870164871,
      "learning_rate": 7.661721499929753e-06,
      "loss": 0.0679,
      "step": 805
    },
    {
      "epoch": 0.8770402611534276,
      "grad_norm": 0.06622826308012009,
      "learning_rate": 7.529600393796232e-06,
      "loss": 0.0554,
      "step": 806
    },
    {
      "epoch": 0.8781284004352558,
      "grad_norm": 0.0733778178691864,
      "learning_rate": 7.3985838094349444e-06,
      "loss": 0.0443,
      "step": 807
    },
    {
      "epoch": 0.8792165397170838,
      "grad_norm": 0.0740467980504036,
      "learning_rate": 7.2686733117863784e-06,
      "loss": 0.0663,
      "step": 808
    },
    {
      "epoch": 0.8803046789989118,
      "grad_norm": 0.073309525847435,
      "learning_rate": 7.1398704525792e-06,
      "loss": 0.0549,
      "step": 809
    },
    {
      "epoch": 0.8813928182807399,
      "grad_norm": 0.08254940807819366,
      "learning_rate": 7.012176770311862e-06,
      "loss": 0.0849,
      "step": 810
    },
    {
      "epoch": 0.8824809575625681,
      "grad_norm": 0.0972483903169632,
      "learning_rate": 6.8855937902340576e-06,
      "loss": 0.0861,
      "step": 811
    },
    {
      "epoch": 0.8835690968443961,
      "grad_norm": 0.08929561078548431,
      "learning_rate": 6.760123024328624e-06,
      "loss": 0.0626,
      "step": 812
    },
    {
      "epoch": 0.8846572361262242,
      "grad_norm": 0.08776423335075378,
      "learning_rate": 6.635765971293484e-06,
      "loss": 0.0781,
      "step": 813
    },
    {
      "epoch": 0.8857453754080522,
      "grad_norm": 0.09048158675432205,
      "learning_rate": 6.512524116523633e-06,
      "loss": 0.0748,
      "step": 814
    },
    {
      "epoch": 0.8868335146898803,
      "grad_norm": 0.09002123028039932,
      "learning_rate": 6.390398932093555e-06,
      "loss": 0.0743,
      "step": 815
    },
    {
      "epoch": 0.8879216539717084,
      "grad_norm": 0.08896075189113617,
      "learning_rate": 6.269391876739495e-06,
      "loss": 0.0759,
      "step": 816
    },
    {
      "epoch": 0.8890097932535365,
      "grad_norm": 0.09824143350124359,
      "learning_rate": 6.149504395842087e-06,
      "loss": 0.0944,
      "step": 817
    },
    {
      "epoch": 0.8900979325353645,
      "grad_norm": 0.11370905488729477,
      "learning_rate": 6.030737921409169e-06,
      "loss": 0.1098,
      "step": 818
    },
    {
      "epoch": 0.8911860718171926,
      "grad_norm": 0.09926322102546692,
      "learning_rate": 5.913093872058528e-06,
      "loss": 0.0721,
      "step": 819
    },
    {
      "epoch": 0.8922742110990207,
      "grad_norm": 0.11143568158149719,
      "learning_rate": 5.7965736530010916e-06,
      "loss": 0.0838,
      "step": 820
    },
    {
      "epoch": 0.8933623503808488,
      "grad_norm": 0.10661139339208603,
      "learning_rate": 5.681178656024055e-06,
      "loss": 0.0828,
      "step": 821
    },
    {
      "epoch": 0.8944504896626768,
      "grad_norm": 0.09252527356147766,
      "learning_rate": 5.566910259474289e-06,
      "loss": 0.0607,
      "step": 822
    },
    {
      "epoch": 0.8955386289445049,
      "grad_norm": 0.11243504285812378,
      "learning_rate": 5.453769828241872e-06,
      "loss": 0.0883,
      "step": 823
    },
    {
      "epoch": 0.8966267682263329,
      "grad_norm": 0.08846960961818695,
      "learning_rate": 5.341758713743828e-06,
      "loss": 0.0726,
      "step": 824
    },
    {
      "epoch": 0.8977149075081611,
      "grad_norm": 0.09837763756513596,
      "learning_rate": 5.230878253907912e-06,
      "loss": 0.0761,
      "step": 825
    },
    {
      "epoch": 0.8988030467899891,
      "grad_norm": 0.0819426029920578,
      "learning_rate": 5.121129773156663e-06,
      "loss": 0.0521,
      "step": 826
    },
    {
      "epoch": 0.8998911860718172,
      "grad_norm": 0.11781435459852219,
      "learning_rate": 5.012514582391592e-06,
      "loss": 0.0843,
      "step": 827
    },
    {
      "epoch": 0.9009793253536452,
      "grad_norm": 0.1131996214389801,
      "learning_rate": 4.905033978977491e-06,
      "loss": 0.0716,
      "step": 828
    },
    {
      "epoch": 0.9020674646354734,
      "grad_norm": 0.11639894545078278,
      "learning_rate": 4.798689246727006e-06,
      "loss": 0.0872,
      "step": 829
    },
    {
      "epoch": 0.9031556039173014,
      "grad_norm": 0.12089676409959793,
      "learning_rate": 4.693481655885257e-06,
      "loss": 0.0776,
      "step": 830
    },
    {
      "epoch": 0.9042437431991295,
      "grad_norm": 0.13454534113407135,
      "learning_rate": 4.58941246311464e-06,
      "loss": 0.0824,
      "step": 831
    },
    {
      "epoch": 0.9053318824809575,
      "grad_norm": 0.13089610636234283,
      "learning_rate": 4.486482911479839e-06,
      "loss": 0.0841,
      "step": 832
    },
    {
      "epoch": 0.9064200217627857,
      "grad_norm": 0.12023388594388962,
      "learning_rate": 4.384694230432984e-06,
      "loss": 0.0799,
      "step": 833
    },
    {
      "epoch": 0.9075081610446137,
      "grad_norm": 0.17653657495975494,
      "learning_rate": 4.2840476357989825e-06,
      "loss": 0.1006,
      "step": 834
    },
    {
      "epoch": 0.9085963003264418,
      "grad_norm": 0.16812124848365784,
      "learning_rate": 4.184544329761009e-06,
      "loss": 0.0959,
      "step": 835
    },
    {
      "epoch": 0.9096844396082698,
      "grad_norm": 0.12245675921440125,
      "learning_rate": 4.0861855008460405e-06,
      "loss": 0.0525,
      "step": 836
    },
    {
      "epoch": 0.9107725788900979,
      "grad_norm": 0.17066197097301483,
      "learning_rate": 3.988972323910778e-06,
      "loss": 0.0974,
      "step": 837
    },
    {
      "epoch": 0.911860718171926,
      "grad_norm": 0.23829351365566254,
      "learning_rate": 3.892905960127546e-06,
      "loss": 0.1489,
      "step": 838
    },
    {
      "epoch": 0.9129488574537541,
      "grad_norm": 0.18741947412490845,
      "learning_rate": 3.797987556970495e-06,
      "loss": 0.0845,
      "step": 839
    },
    {
      "epoch": 0.9140369967355821,
      "grad_norm": 0.31613054871559143,
      "learning_rate": 3.7042182482018075e-06,
      "loss": 0.1522,
      "step": 840
    },
    {
      "epoch": 0.9151251360174102,
      "grad_norm": 0.30818799138069153,
      "learning_rate": 3.611599153858214e-06,
      "loss": 0.1807,
      "step": 841
    },
    {
      "epoch": 0.9162132752992383,
      "grad_norm": 0.19653384387493134,
      "learning_rate": 3.5201313802375456e-06,
      "loss": 0.073,
      "step": 842
    },
    {
      "epoch": 0.9173014145810664,
      "grad_norm": 0.311813622713089,
      "learning_rate": 3.4298160198856568e-06,
      "loss": 0.1273,
      "step": 843
    },
    {
      "epoch": 0.9183895538628944,
      "grad_norm": 0.3088919520378113,
      "learning_rate": 3.3406541515832003e-06,
      "loss": 0.1707,
      "step": 844
    },
    {
      "epoch": 0.9194776931447225,
      "grad_norm": 0.34374913573265076,
      "learning_rate": 3.252646840332918e-06,
      "loss": 0.1326,
      "step": 845
    },
    {
      "epoch": 0.9205658324265505,
      "grad_norm": 0.4254063069820404,
      "learning_rate": 3.1657951373467497e-06,
      "loss": 0.2334,
      "step": 846
    },
    {
      "epoch": 0.9216539717083787,
      "grad_norm": 0.3956216275691986,
      "learning_rate": 3.0801000800333877e-06,
      "loss": 0.2152,
      "step": 847
    },
    {
      "epoch": 0.9227421109902068,
      "grad_norm": 0.41808605194091797,
      "learning_rate": 2.995562691985898e-06,
      "loss": 0.1875,
      "step": 848
    },
    {
      "epoch": 0.9238302502720348,
      "grad_norm": 0.48160499334335327,
      "learning_rate": 2.912183982969385e-06,
      "loss": 0.1849,
      "step": 849
    },
    {
      "epoch": 0.9249183895538629,
      "grad_norm": 0.5654423832893372,
      "learning_rate": 2.8299649489090475e-06,
      "loss": 0.175,
      "step": 850
    },
    {
      "epoch": 0.926006528835691,
      "grad_norm": 0.04587412625551224,
      "learning_rate": 2.748906571878207e-06,
      "loss": 0.0362,
      "step": 851
    },
    {
      "epoch": 0.9270946681175191,
      "grad_norm": 0.05238286778330803,
      "learning_rate": 2.6690098200866098e-06,
      "loss": 0.0459,
      "step": 852
    },
    {
      "epoch": 0.9281828073993471,
      "grad_norm": 0.05864802002906799,
      "learning_rate": 2.590275647868867e-06,
      "loss": 0.0568,
      "step": 853
    },
    {
      "epoch": 0.9292709466811752,
      "grad_norm": 0.06772205978631973,
      "learning_rate": 2.5127049956730207e-06,
      "loss": 0.0671,
      "step": 854
    },
    {
      "epoch": 0.9303590859630033,
      "grad_norm": 0.07428263127803802,
      "learning_rate": 2.436298790049363e-06,
      "loss": 0.0653,
      "step": 855
    },
    {
      "epoch": 0.9314472252448314,
      "grad_norm": 0.06716316193342209,
      "learning_rate": 2.3610579436393e-06,
      "loss": 0.0608,
      "step": 856
    },
    {
      "epoch": 0.9325353645266594,
      "grad_norm": 0.07774016261100769,
      "learning_rate": 2.286983355164529e-06,
      "loss": 0.0641,
      "step": 857
    },
    {
      "epoch": 0.9336235038084875,
      "grad_norm": 0.07007763534784317,
      "learning_rate": 2.2140759094162467e-06,
      "loss": 0.0688,
      "step": 858
    },
    {
      "epoch": 0.9347116430903155,
      "grad_norm": 0.08392661809921265,
      "learning_rate": 2.1423364772445887e-06,
      "loss": 0.0862,
      "step": 859
    },
    {
      "epoch": 0.9357997823721437,
      "grad_norm": 0.08616143465042114,
      "learning_rate": 2.0717659155482738e-06,
      "loss": 0.084,
      "step": 860
    },
    {
      "epoch": 0.9368879216539717,
      "grad_norm": 0.08230069279670715,
      "learning_rate": 2.002365067264289e-06,
      "loss": 0.0671,
      "step": 861
    },
    {
      "epoch": 0.9379760609357998,
      "grad_norm": 0.10698749870061874,
      "learning_rate": 1.9341347613579087e-06,
      "loss": 0.0856,
      "step": 862
    },
    {
      "epoch": 0.9390642002176278,
      "grad_norm": 0.07910988479852676,
      "learning_rate": 1.8670758128126909e-06,
      "loss": 0.0643,
      "step": 863
    },
    {
      "epoch": 0.940152339499456,
      "grad_norm": 0.08783937990665436,
      "learning_rate": 1.8011890226208527e-06,
      "loss": 0.0921,
      "step": 864
    },
    {
      "epoch": 0.941240478781284,
      "grad_norm": 0.09200912714004517,
      "learning_rate": 1.7364751777736332e-06,
      "loss": 0.0853,
      "step": 865
    },
    {
      "epoch": 0.9423286180631121,
      "grad_norm": 0.0886380597949028,
      "learning_rate": 1.6729350512519005e-06,
      "loss": 0.0655,
      "step": 866
    },
    {
      "epoch": 0.9434167573449401,
      "grad_norm": 0.08538145571947098,
      "learning_rate": 1.6105694020169593e-06,
      "loss": 0.069,
      "step": 867
    },
    {
      "epoch": 0.9445048966267682,
      "grad_norm": 0.10413581132888794,
      "learning_rate": 1.5493789750014031e-06,
      "loss": 0.0789,
      "step": 868
    },
    {
      "epoch": 0.9455930359085963,
      "grad_norm": 0.09816232323646545,
      "learning_rate": 1.489364501100332e-06,
      "loss": 0.0749,
      "step": 869
    },
    {
      "epoch": 0.9466811751904244,
      "grad_norm": 0.10278590023517609,
      "learning_rate": 1.430526697162482e-06,
      "loss": 0.0895,
      "step": 870
    },
    {
      "epoch": 0.9477693144722524,
      "grad_norm": 0.10024615377187729,
      "learning_rate": 1.3728662659818204e-06,
      "loss": 0.0869,
      "step": 871
    },
    {
      "epoch": 0.9488574537540805,
      "grad_norm": 0.08774451911449432,
      "learning_rate": 1.3163838962890195e-06,
      "loss": 0.0631,
      "step": 872
    },
    {
      "epoch": 0.9499455930359086,
      "grad_norm": 0.08854610472917557,
      "learning_rate": 1.261080262743297e-06,
      "loss": 0.061,
      "step": 873
    },
    {
      "epoch": 0.9510337323177367,
      "grad_norm": 0.08709405362606049,
      "learning_rate": 1.2069560259243328e-06,
      "loss": 0.0547,
      "step": 874
    },
    {
      "epoch": 0.9521218715995647,
      "grad_norm": 0.11931779980659485,
      "learning_rate": 1.1540118323243865e-06,
      "loss": 0.0876,
      "step": 875
    },
    {
      "epoch": 0.9532100108813928,
      "grad_norm": 0.11160387098789215,
      "learning_rate": 1.1022483143405705e-06,
      "loss": 0.0894,
      "step": 876
    },
    {
      "epoch": 0.9542981501632208,
      "grad_norm": 0.1185893788933754,
      "learning_rate": 1.0516660902673448e-06,
      "loss": 0.0966,
      "step": 877
    },
    {
      "epoch": 0.955386289445049,
      "grad_norm": 0.1318797916173935,
      "learning_rate": 1.0022657642890231e-06,
      "loss": 0.1193,
      "step": 878
    },
    {
      "epoch": 0.956474428726877,
      "grad_norm": 0.11834029108285904,
      "learning_rate": 9.540479264726676e-07,
      "loss": 0.0869,
      "step": 879
    },
    {
      "epoch": 0.9575625680087051,
      "grad_norm": 0.11685867607593536,
      "learning_rate": 9.070131527609604e-07,
      "loss": 0.07,
      "step": 880
    },
    {
      "epoch": 0.9586507072905331,
      "grad_norm": 0.12375818938016891,
      "learning_rate": 8.611620049653879e-07,
      "loss": 0.0742,
      "step": 881
    },
    {
      "epoch": 0.9597388465723613,
      "grad_norm": 0.14064817130565643,
      "learning_rate": 8.16495030759501e-07,
      "loss": 0.1006,
      "step": 882
    },
    {
      "epoch": 0.9608269858541894,
      "grad_norm": 0.1763945370912552,
      "learning_rate": 7.730127636723539e-07,
      "loss": 0.0958,
      "step": 883
    },
    {
      "epoch": 0.9619151251360174,
      "grad_norm": 0.1824800968170166,
      "learning_rate": 7.307157230821426e-07,
      "loss": 0.0771,
      "step": 884
    },
    {
      "epoch": 0.9630032644178455,
      "grad_norm": 0.1460670381784439,
      "learning_rate": 6.896044142100433e-07,
      "loss": 0.0701,
      "step": 885
    },
    {
      "epoch": 0.9640914036996736,
      "grad_norm": 0.22308966517448425,
      "learning_rate": 6.496793281141056e-07,
      "loss": 0.1186,
      "step": 886
    },
    {
      "epoch": 0.9651795429815017,
      "grad_norm": 0.24287503957748413,
      "learning_rate": 6.109409416834688e-07,
      "loss": 0.1604,
      "step": 887
    },
    {
      "epoch": 0.9662676822633297,
      "grad_norm": 0.19692181050777435,
      "learning_rate": 5.733897176325665e-07,
      "loss": 0.0767,
      "step": 888
    },
    {
      "epoch": 0.9673558215451578,
      "grad_norm": 0.20672950148582458,
      "learning_rate": 5.370261044956971e-07,
      "loss": 0.0995,
      "step": 889
    },
    {
      "epoch": 0.9684439608269858,
      "grad_norm": 0.30662739276885986,
      "learning_rate": 5.018505366216175e-07,
      "loss": 0.1752,
      "step": 890
    },
    {
      "epoch": 0.969532100108814,
      "grad_norm": 0.30604445934295654,
      "learning_rate": 4.678634341683252e-07,
      "loss": 0.2206,
      "step": 891
    },
    {
      "epoch": 0.970620239390642,
      "grad_norm": 0.3338996469974518,
      "learning_rate": 4.3506520309813947e-07,
      "loss": 0.0772,
      "step": 892
    },
    {
      "epoch": 0.9717083786724701,
      "grad_norm": 0.40458595752716064,
      "learning_rate": 4.034562351727389e-07,
      "loss": 0.1714,
      "step": 893
    },
    {
      "epoch": 0.9727965179542981,
      "grad_norm": 0.20113840699195862,
      "learning_rate": 3.73036907948543e-07,
      "loss": 0.0493,
      "step": 894
    },
    {
      "epoch": 0.9738846572361263,
      "grad_norm": 0.2628382742404938,
      "learning_rate": 3.4380758477219333e-07,
      "loss": 0.0849,
      "step": 895
    },
    {
      "epoch": 0.9749727965179543,
      "grad_norm": 0.4046911597251892,
      "learning_rate": 3.1576861477621287e-07,
      "loss": 0.1658,
      "step": 896
    },
    {
      "epoch": 0.9760609357997824,
      "grad_norm": 0.5590918660163879,
      "learning_rate": 2.889203328748424e-07,
      "loss": 0.2407,
      "step": 897
    },
    {
      "epoch": 0.9771490750816104,
      "grad_norm": 0.42356160283088684,
      "learning_rate": 2.6326305976001055e-07,
      "loss": 0.1904,
      "step": 898
    },
    {
      "epoch": 0.9782372143634385,
      "grad_norm": 0.6852498650550842,
      "learning_rate": 2.3879710189753656e-07,
      "loss": 0.2016,
      "step": 899
    },
    {
      "epoch": 0.9793253536452666,
      "grad_norm": 0.913657546043396,
      "learning_rate": 2.15522751523467e-07,
      "loss": 0.3404,
      "step": 900
    },
    {
      "epoch": 0.9804134929270947,
      "grad_norm": 0.05817437916994095,
      "learning_rate": 1.9344028664056713e-07,
      "loss": 0.0545,
      "step": 901
    },
    {
      "epoch": 0.9815016322089227,
      "grad_norm": 0.06097998097538948,
      "learning_rate": 1.7254997101500137e-07,
      "loss": 0.0471,
      "step": 902
    },
    {
      "epoch": 0.9825897714907508,
      "grad_norm": 0.07131399214267731,
      "learning_rate": 1.5285205417319149e-07,
      "loss": 0.0588,
      "step": 903
    },
    {
      "epoch": 0.9836779107725789,
      "grad_norm": 0.09075633436441422,
      "learning_rate": 1.3434677139885222e-07,
      "loss": 0.0759,
      "step": 904
    },
    {
      "epoch": 0.984766050054407,
      "grad_norm": 0.08667346835136414,
      "learning_rate": 1.170343437301491e-07,
      "loss": 0.078,
      "step": 905
    },
    {
      "epoch": 0.985854189336235,
      "grad_norm": 0.0773538202047348,
      "learning_rate": 1.0091497795706728e-07,
      "loss": 0.0658,
      "step": 906
    },
    {
      "epoch": 0.9869423286180631,
      "grad_norm": 0.09016713500022888,
      "learning_rate": 8.598886661895788e-08,
      "loss": 0.0687,
      "step": 907
    },
    {
      "epoch": 0.9880304678998912,
      "grad_norm": 0.10080257803201675,
      "learning_rate": 7.225618800222877e-08,
      "loss": 0.0807,
      "step": 908
    },
    {
      "epoch": 0.9891186071817193,
      "grad_norm": 0.10645921528339386,
      "learning_rate": 5.971710613821291e-08,
      "loss": 0.0832,
      "step": 909
    },
    {
      "epoch": 0.9902067464635473,
      "grad_norm": 0.11274649947881699,
      "learning_rate": 4.837177080119215e-08,
      "loss": 0.0918,
      "step": 910
    },
    {
      "epoch": 0.9912948857453754,
      "grad_norm": 0.12319578975439072,
      "learning_rate": 3.8220317506654226e-08,
      "loss": 0.0858,
      "step": 911
    },
    {
      "epoch": 0.9923830250272034,
      "grad_norm": 0.12649929523468018,
      "learning_rate": 2.9262867509605163e-08,
      "loss": 0.0769,
      "step": 912
    },
    {
      "epoch": 0.9934711643090316,
      "grad_norm": 0.1557326763868332,
      "learning_rate": 2.1499527803214846e-08,
      "loss": 0.1158,
      "step": 913
    },
    {
      "epoch": 0.9945593035908596,
      "grad_norm": 0.1900101900100708,
      "learning_rate": 1.4930391117451426e-08,
      "loss": 0.1022,
      "step": 914
    },
    {
      "epoch": 0.9956474428726877,
      "grad_norm": 0.2401544153690338,
      "learning_rate": 9.555535917993297e-09,
      "loss": 0.1377,
      "step": 915
    },
    {
      "epoch": 0.9967355821545157,
      "grad_norm": 0.2791292071342468,
      "learning_rate": 5.375026405352035e-09,
      "loss": 0.1531,
      "step": 916
    },
    {
      "epoch": 0.9978237214363439,
      "grad_norm": 0.24386504292488098,
      "learning_rate": 2.388912514017516e-09,
      "loss": 0.1123,
      "step": 917
    },
    {
      "epoch": 0.998911860718172,
      "grad_norm": 0.312024861574173,
      "learning_rate": 5.972299119250125e-10,
      "loss": 0.1117,
      "step": 918
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4759993255138397,
      "learning_rate": 0.0,
      "loss": 0.2228,
      "step": 919
    }
  ],
  "logging_steps": 1,
  "max_steps": 919,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 230,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.65038685754753e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}