Training in progress, epoch 2, checkpoint

4abed97 verified 27 days ago

62.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 354,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005649717514124294,
	"grad_norm": 0.5776382684707642,
	"learning_rate": 1e-05,
	"loss": 88.641,
	"step": 1
	},
	{
	"epoch": 0.011299435028248588,
	"grad_norm": 0.5559790730476379,
	"learning_rate": 2e-05,
	"loss": 88.6713,
	"step": 2
	},
	{
	"epoch": 0.01694915254237288,
	"grad_norm": 0.5598555207252502,
	"learning_rate": 3e-05,
	"loss": 88.7191,
	"step": 3
	},
	{
	"epoch": 0.022598870056497175,
	"grad_norm": 0.5563465356826782,
	"learning_rate": 4e-05,
	"loss": 88.6407,
	"step": 4
	},
	{
	"epoch": 0.02824858757062147,
	"grad_norm": 0.6338562965393066,
	"learning_rate": 5e-05,
	"loss": 88.64,
	"step": 5
	},
	{
	"epoch": 0.03389830508474576,
	"grad_norm": 0.5904527902603149,
	"learning_rate": 6e-05,
	"loss": 88.6842,
	"step": 6
	},
	{
	"epoch": 0.03954802259887006,
	"grad_norm": 0.629975438117981,
	"learning_rate": 7e-05,
	"loss": 88.6572,
	"step": 7
	},
	{
	"epoch": 0.04519774011299435,
	"grad_norm": 0.6180629730224609,
	"learning_rate": 8e-05,
	"loss": 88.6373,
	"step": 8
	},
	{
	"epoch": 0.05084745762711865,
	"grad_norm": 0.6689253449440002,
	"learning_rate": 9e-05,
	"loss": 88.5833,
	"step": 9
	},
	{
	"epoch": 0.05649717514124294,
	"grad_norm": 0.676450788974762,
	"learning_rate": 0.0001,
	"loss": 88.6067,
	"step": 10
	},
	{
	"epoch": 0.062146892655367235,
	"grad_norm": 0.6853811740875244,
	"learning_rate": 9.999791493378921e-05,
	"loss": 88.6227,
	"step": 11
	},
	{
	"epoch": 0.06779661016949153,
	"grad_norm": 0.6194440126419067,
	"learning_rate": 9.999165990905683e-05,
	"loss": 88.6231,
	"step": 12
	},
	{
	"epoch": 0.07344632768361582,
	"grad_norm": 0.6684823632240295,
	"learning_rate": 9.998123544748852e-05,
	"loss": 88.6185,
	"step": 13
	},
	{
	"epoch": 0.07909604519774012,
	"grad_norm": 0.6482928991317749,
	"learning_rate": 9.996664241851197e-05,
	"loss": 88.6342,
	"step": 14
	},
	{
	"epoch": 0.0847457627118644,
	"grad_norm": 0.7201379537582397,
	"learning_rate": 9.994788203922447e-05,
	"loss": 88.5714,
	"step": 15
	},
	{
	"epoch": 0.0903954802259887,
	"grad_norm": 0.6155017614364624,
	"learning_rate": 9.992495587429129e-05,
	"loss": 88.5541,
	"step": 16
	},
	{
	"epoch": 0.096045197740113,
	"grad_norm": 0.6636160016059875,
	"learning_rate": 9.989786583581535e-05,
	"loss": 88.5598,
	"step": 17
	},
	{
	"epoch": 0.1016949152542373,
	"grad_norm": 0.6538222432136536,
	"learning_rate": 9.986661418317759e-05,
	"loss": 88.5863,
	"step": 18
	},
	{
	"epoch": 0.10734463276836158,
	"grad_norm": 0.5915122628211975,
	"learning_rate": 9.98312035228486e-05,
	"loss": 88.6102,
	"step": 19
	},
	{
	"epoch": 0.11299435028248588,
	"grad_norm": 0.6704850792884827,
	"learning_rate": 9.979163680817124e-05,
	"loss": 88.5026,
	"step": 20
	},
	{
	"epoch": 0.11864406779661017,
	"grad_norm": 0.6887699961662292,
	"learning_rate": 9.97479173391143e-05,
	"loss": 88.5315,
	"step": 21
	},
	{
	"epoch": 0.12429378531073447,
	"grad_norm": 0.7467436790466309,
	"learning_rate": 9.97000487619973e-05,
	"loss": 88.5097,
	"step": 22
	},
	{
	"epoch": 0.12994350282485875,
	"grad_norm": 0.750785231590271,
	"learning_rate": 9.964803506918634e-05,
	"loss": 88.5409,
	"step": 23
	},
	{
	"epoch": 0.13559322033898305,
	"grad_norm": 0.7216200828552246,
	"learning_rate": 9.959188059876115e-05,
	"loss": 88.4787,
	"step": 24
	},
	{
	"epoch": 0.14124293785310735,
	"grad_norm": 0.7141463160514832,
	"learning_rate": 9.953159003415328e-05,
	"loss": 88.5226,
	"step": 25
	},
	{
	"epoch": 0.14689265536723164,
	"grad_norm": 0.7239276766777039,
	"learning_rate": 9.946716840375551e-05,
	"loss": 88.4626,
	"step": 26
	},
	{
	"epoch": 0.15254237288135594,
	"grad_norm": 0.7370103001594543,
	"learning_rate": 9.939862108050243e-05,
	"loss": 88.5769,
	"step": 27
	},
	{
	"epoch": 0.15819209039548024,
	"grad_norm": 0.6700708270072937,
	"learning_rate": 9.932595378142233e-05,
	"loss": 88.558,
	"step": 28
	},
	{
	"epoch": 0.1638418079096045,
	"grad_norm": 0.7646386027336121,
	"learning_rate": 9.924917256716042e-05,
	"loss": 88.4619,
	"step": 29
	},
	{
	"epoch": 0.1694915254237288,
	"grad_norm": 0.6728429198265076,
	"learning_rate": 9.916828384147331e-05,
	"loss": 88.5065,
	"step": 30
	},
	{
	"epoch": 0.1751412429378531,
	"grad_norm": 0.7492191195487976,
	"learning_rate": 9.908329435069495e-05,
	"loss": 88.4889,
	"step": 31
	},
	{
	"epoch": 0.1807909604519774,
	"grad_norm": 0.7224460244178772,
	"learning_rate": 9.899421118317398e-05,
	"loss": 88.4961,
	"step": 32
	},
	{
	"epoch": 0.1864406779661017,
	"grad_norm": 0.7774916887283325,
	"learning_rate": 9.890104176868247e-05,
	"loss": 88.6111,
	"step": 33
	},
	{
	"epoch": 0.192090395480226,
	"grad_norm": 0.7639403939247131,
	"learning_rate": 9.880379387779637e-05,
	"loss": 88.4938,
	"step": 34
	},
	{
	"epoch": 0.1977401129943503,
	"grad_norm": 0.683748185634613,
	"learning_rate": 9.87024756212473e-05,
	"loss": 88.5265,
	"step": 35
	},
	{
	"epoch": 0.2033898305084746,
	"grad_norm": 0.7794637680053711,
	"learning_rate": 9.859709544924624e-05,
	"loss": 88.5168,
	"step": 36
	},
	{
	"epoch": 0.20903954802259886,
	"grad_norm": 0.7606369256973267,
	"learning_rate": 9.848766215077858e-05,
	"loss": 88.4687,
	"step": 37
	},
	{
	"epoch": 0.21468926553672316,
	"grad_norm": 0.7200310826301575,
	"learning_rate": 9.837418485287127e-05,
	"loss": 88.494,
	"step": 38
	},
	{
	"epoch": 0.22033898305084745,
	"grad_norm": 0.804512619972229,
	"learning_rate": 9.825667301983148e-05,
	"loss": 88.4699,
	"step": 39
	},
	{
	"epoch": 0.22598870056497175,
	"grad_norm": 0.7734663486480713,
	"learning_rate": 9.813513645245729e-05,
	"loss": 88.4918,
	"step": 40
	},
	{
	"epoch": 0.23163841807909605,
	"grad_norm": 0.8824536204338074,
	"learning_rate": 9.800958528722036e-05,
	"loss": 88.5269,
	"step": 41
	},
	{
	"epoch": 0.23728813559322035,
	"grad_norm": 0.8647343516349792,
	"learning_rate": 9.78800299954203e-05,
	"loss": 88.4415,
	"step": 42
	},
	{
	"epoch": 0.24293785310734464,
	"grad_norm": 0.8488788604736328,
	"learning_rate": 9.774648138231163e-05,
	"loss": 88.5083,
	"step": 43
	},
	{
	"epoch": 0.24858757062146894,
	"grad_norm": 1.1741865873336792,
	"learning_rate": 9.760895058620235e-05,
	"loss": 88.4342,
	"step": 44
	},
	{
	"epoch": 0.2542372881355932,
	"grad_norm": 0.6116179823875427,
	"learning_rate": 9.746744907752509e-05,
	"loss": 88.5531,
	"step": 45
	},
	{
	"epoch": 0.2598870056497175,
	"grad_norm": 0.6405426859855652,
	"learning_rate": 9.732198865788047e-05,
	"loss": 88.5101,
	"step": 46
	},
	{
	"epoch": 0.2655367231638418,
	"grad_norm": 0.6234097480773926,
	"learning_rate": 9.71725814590527e-05,
	"loss": 88.5438,
	"step": 47
	},
	{
	"epoch": 0.2711864406779661,
	"grad_norm": 0.6477924585342407,
	"learning_rate": 9.701923994199784e-05,
	"loss": 88.4566,
	"step": 48
	},
	{
	"epoch": 0.2768361581920904,
	"grad_norm": 0.5889535546302795,
	"learning_rate": 9.686197689580456e-05,
	"loss": 88.515,
	"step": 49
	},
	{
	"epoch": 0.2824858757062147,
	"grad_norm": 0.7161465883255005,
	"learning_rate": 9.67008054366274e-05,
	"loss": 88.4243,
	"step": 50
	},
	{
	"epoch": 0.288135593220339,
	"grad_norm": 0.6408765316009521,
	"learning_rate": 9.653573900659292e-05,
	"loss": 88.4917,
	"step": 51
	},
	{
	"epoch": 0.2937853107344633,
	"grad_norm": 0.7543685436248779,
	"learning_rate": 9.636679137267852e-05,
	"loss": 88.443,
	"step": 52
	},
	{
	"epoch": 0.2994350282485876,
	"grad_norm": 0.71647709608078,
	"learning_rate": 9.619397662556435e-05,
	"loss": 88.4699,
	"step": 53
	},
	{
	"epoch": 0.3050847457627119,
	"grad_norm": 0.7122645974159241,
	"learning_rate": 9.601730917845797e-05,
	"loss": 88.401,
	"step": 54
	},
	{
	"epoch": 0.3107344632768362,
	"grad_norm": 0.7030540704727173,
	"learning_rate": 9.583680376589241e-05,
	"loss": 88.4259,
	"step": 55
	},
	{
	"epoch": 0.3163841807909605,
	"grad_norm": 0.7593639492988586,
	"learning_rate": 9.56524754424971e-05,
	"loss": 88.4487,
	"step": 56
	},
	{
	"epoch": 0.3220338983050847,
	"grad_norm": 0.7722213268280029,
	"learning_rate": 9.546433958174238e-05,
	"loss": 88.43,
	"step": 57
	},
	{
	"epoch": 0.327683615819209,
	"grad_norm": 0.7288438677787781,
	"learning_rate": 9.527241187465734e-05,
	"loss": 88.3441,
	"step": 58
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.7370777130126953,
	"learning_rate": 9.507670832852102e-05,
	"loss": 88.4693,
	"step": 59
	},
	{
	"epoch": 0.3389830508474576,
	"grad_norm": 0.6613349318504333,
	"learning_rate": 9.487724526552753e-05,
	"loss": 88.3618,
	"step": 60
	},
	{
	"epoch": 0.3446327683615819,
	"grad_norm": 0.6312256455421448,
	"learning_rate": 9.467403932142452e-05,
	"loss": 88.3936,
	"step": 61
	},
	{
	"epoch": 0.3502824858757062,
	"grad_norm": 0.7118995189666748,
	"learning_rate": 9.446710744412595e-05,
	"loss": 88.4331,
	"step": 62
	},
	{
	"epoch": 0.3559322033898305,
	"grad_norm": 0.6945487260818481,
	"learning_rate": 9.425646689229842e-05,
	"loss": 88.3982,
	"step": 63
	},
	{
	"epoch": 0.3615819209039548,
	"grad_norm": 0.617613673210144,
	"learning_rate": 9.404213523392183e-05,
	"loss": 88.4616,
	"step": 64
	},
	{
	"epoch": 0.3672316384180791,
	"grad_norm": 0.6954861879348755,
	"learning_rate": 9.38241303448241e-05,
	"loss": 88.3863,
	"step": 65
	},
	{
	"epoch": 0.3728813559322034,
	"grad_norm": 0.6992458701133728,
	"learning_rate": 9.360247040719039e-05,
	"loss": 88.3965,
	"step": 66
	},
	{
	"epoch": 0.3785310734463277,
	"grad_norm": 0.6800311207771301,
	"learning_rate": 9.337717390804652e-05,
	"loss": 88.3868,
	"step": 67
	},
	{
	"epoch": 0.384180790960452,
	"grad_norm": 0.7097700238227844,
	"learning_rate": 9.314825963771723e-05,
	"loss": 88.3632,
	"step": 68
	},
	{
	"epoch": 0.3898305084745763,
	"grad_norm": 0.7166731953620911,
	"learning_rate": 9.29157466882589e-05,
	"loss": 88.3418,
	"step": 69
	},
	{
	"epoch": 0.3954802259887006,
	"grad_norm": 0.7072133421897888,
	"learning_rate": 9.267965445186733e-05,
	"loss": 88.3753,
	"step": 70
	},
	{
	"epoch": 0.4011299435028249,
	"grad_norm": 0.7065291404724121,
	"learning_rate": 9.24400026192603e-05,
	"loss": 88.3499,
	"step": 71
	},
	{
	"epoch": 0.4067796610169492,
	"grad_norm": 0.8113076090812683,
	"learning_rate": 9.219681117803536e-05,
	"loss": 88.3214,
	"step": 72
	},
	{
	"epoch": 0.4124293785310734,
	"grad_norm": 0.7646364569664001,
	"learning_rate": 9.195010041100275e-05,
	"loss": 88.3064,
	"step": 73
	},
	{
	"epoch": 0.4180790960451977,
	"grad_norm": 0.756248950958252,
	"learning_rate": 9.16998908944939e-05,
	"loss": 88.3968,
	"step": 74
	},
	{
	"epoch": 0.423728813559322,
	"grad_norm": 0.805596113204956,
	"learning_rate": 9.14462034966451e-05,
	"loss": 88.3718,
	"step": 75
	},
	{
	"epoch": 0.4293785310734463,
	"grad_norm": 0.6950631737709045,
	"learning_rate": 9.118905937565722e-05,
	"loss": 88.3981,
	"step": 76
	},
	{
	"epoch": 0.4350282485875706,
	"grad_norm": 0.7553988695144653,
	"learning_rate": 9.092847997803097e-05,
	"loss": 88.3488,
	"step": 77
	},
	{
	"epoch": 0.4406779661016949,
	"grad_norm": 0.7791416645050049,
	"learning_rate": 9.066448703677828e-05,
	"loss": 88.4197,
	"step": 78
	},
	{
	"epoch": 0.4463276836158192,
	"grad_norm": 0.7216358184814453,
	"learning_rate": 9.039710256960957e-05,
	"loss": 88.3813,
	"step": 79
	},
	{
	"epoch": 0.4519774011299435,
	"grad_norm": 0.8204500079154968,
	"learning_rate": 9.012634887709754e-05,
	"loss": 88.2346,
	"step": 80
	},
	{
	"epoch": 0.4576271186440678,
	"grad_norm": 0.843241274356842,
	"learning_rate": 8.985224854081726e-05,
	"loss": 88.4055,
	"step": 81
	},
	{
	"epoch": 0.4632768361581921,
	"grad_norm": 0.7781232595443726,
	"learning_rate": 8.957482442146272e-05,
	"loss": 88.372,
	"step": 82
	},
	{
	"epoch": 0.4689265536723164,
	"grad_norm": 0.8177736401557922,
	"learning_rate": 8.929409965694016e-05,
	"loss": 88.3409,
	"step": 83
	},
	{
	"epoch": 0.4745762711864407,
	"grad_norm": 0.8297736644744873,
	"learning_rate": 8.901009766043847e-05,
	"loss": 88.3283,
	"step": 84
	},
	{
	"epoch": 0.480225988700565,
	"grad_norm": 0.8678383231163025,
	"learning_rate": 8.872284211847629e-05,
	"loss": 88.3416,
	"step": 85
	},
	{
	"epoch": 0.4858757062146893,
	"grad_norm": 0.8668798804283142,
	"learning_rate": 8.84323569889266e-05,
	"loss": 88.2483,
	"step": 86
	},
	{
	"epoch": 0.4915254237288136,
	"grad_norm": 0.9378306269645691,
	"learning_rate": 8.813866649901856e-05,
	"loss": 88.3618,
	"step": 87
	},
	{
	"epoch": 0.4971751412429379,
	"grad_norm": 1.1833090782165527,
	"learning_rate": 8.784179514331682e-05,
	"loss": 88.2735,
	"step": 88
	},
	{
	"epoch": 0.5028248587570622,
	"grad_norm": 0.6026833057403564,
	"learning_rate": 8.75417676816787e-05,
	"loss": 88.4478,
	"step": 89
	},
	{
	"epoch": 0.5084745762711864,
	"grad_norm": 0.6131640672683716,
	"learning_rate": 8.72386091371891e-05,
	"loss": 88.4419,
	"step": 90
	},
	{
	"epoch": 0.5141242937853108,
	"grad_norm": 0.6138200759887695,
	"learning_rate": 8.693234479407353e-05,
	"loss": 88.4078,
	"step": 91
	},
	{
	"epoch": 0.519774011299435,
	"grad_norm": 0.6851401329040527,
	"learning_rate": 8.662300019558931e-05,
	"loss": 88.3743,
	"step": 92
	},
	{
	"epoch": 0.5254237288135594,
	"grad_norm": 0.6595472693443298,
	"learning_rate": 8.631060114189525e-05,
	"loss": 88.387,
	"step": 93
	},
	{
	"epoch": 0.5310734463276836,
	"grad_norm": 0.6642423272132874,
	"learning_rate": 8.59951736878998e-05,
	"loss": 88.2821,
	"step": 94
	},
	{
	"epoch": 0.536723163841808,
	"grad_norm": 0.7108228206634521,
	"learning_rate": 8.5676744141088e-05,
	"loss": 88.2668,
	"step": 95
	},
	{
	"epoch": 0.5423728813559322,
	"grad_norm": 0.7303377985954285,
	"learning_rate": 8.535533905932738e-05,
	"loss": 88.2737,
	"step": 96
	},
	{
	"epoch": 0.5480225988700564,
	"grad_norm": 0.6971437931060791,
	"learning_rate": 8.503098524865301e-05,
	"loss": 88.342,
	"step": 97
	},
	{
	"epoch": 0.5536723163841808,
	"grad_norm": 0.7270698547363281,
	"learning_rate": 8.47037097610317e-05,
	"loss": 88.2374,
	"step": 98
	},
	{
	"epoch": 0.559322033898305,
	"grad_norm": 0.6642720103263855,
	"learning_rate": 8.43735398921059e-05,
	"loss": 88.2445,
	"step": 99
	},
	{
	"epoch": 0.5649717514124294,
	"grad_norm": 0.6921072602272034,
	"learning_rate": 8.404050317891711e-05,
	"loss": 88.3058,
	"step": 100
	},
	{
	"epoch": 0.5706214689265536,
	"grad_norm": 0.7314338088035583,
	"learning_rate": 8.370462739760923e-05,
	"loss": 88.1885,
	"step": 101
	},
	{
	"epoch": 0.576271186440678,
	"grad_norm": 0.7479543089866638,
	"learning_rate": 8.336594056111197e-05,
	"loss": 88.3319,
	"step": 102
	},
	{
	"epoch": 0.5819209039548022,
	"grad_norm": 0.6370671987533569,
	"learning_rate": 8.30244709168045e-05,
	"loss": 88.3088,
	"step": 103
	},
	{
	"epoch": 0.5875706214689266,
	"grad_norm": 0.68263179063797,
	"learning_rate": 8.268024694415947e-05,
	"loss": 88.216,
	"step": 104
	},
	{
	"epoch": 0.5932203389830508,
	"grad_norm": 0.7159000635147095,
	"learning_rate": 8.233329735236789e-05,
	"loss": 88.2724,
	"step": 105
	},
	{
	"epoch": 0.5988700564971752,
	"grad_norm": 0.6509236097335815,
	"learning_rate": 8.198365107794457e-05,
	"loss": 88.2867,
	"step": 106
	},
	{
	"epoch": 0.6045197740112994,
	"grad_norm": 0.6526631712913513,
	"learning_rate": 8.163133728231482e-05,
	"loss": 88.3246,
	"step": 107
	},
	{
	"epoch": 0.6101694915254238,
	"grad_norm": 0.7395955920219421,
	"learning_rate": 8.127638534938227e-05,
	"loss": 88.276,
	"step": 108
	},
	{
	"epoch": 0.615819209039548,
	"grad_norm": 0.6584829688072205,
	"learning_rate": 8.09188248830782e-05,
	"loss": 88.1927,
	"step": 109
	},
	{
	"epoch": 0.6214689265536724,
	"grad_norm": 0.8070241808891296,
	"learning_rate": 8.055868570489247e-05,
	"loss": 88.1449,
	"step": 110
	},
	{
	"epoch": 0.6271186440677966,
	"grad_norm": 0.6944290995597839,
	"learning_rate": 8.019599785138635e-05,
	"loss": 88.2262,
	"step": 111
	},
	{
	"epoch": 0.632768361581921,
	"grad_norm": 0.7627915740013123,
	"learning_rate": 7.983079157168736e-05,
	"loss": 88.2257,
	"step": 112
	},
	{
	"epoch": 0.6384180790960452,
	"grad_norm": 0.7771816849708557,
	"learning_rate": 7.946309732496647e-05,
	"loss": 88.211,
	"step": 113
	},
	{
	"epoch": 0.6440677966101694,
	"grad_norm": 0.766257107257843,
	"learning_rate": 7.909294577789766e-05,
	"loss": 88.1717,
	"step": 114
	},
	{
	"epoch": 0.6497175141242938,
	"grad_norm": 0.7782958149909973,
	"learning_rate": 7.872036780210026e-05,
	"loss": 88.15,
	"step": 115
	},
	{
	"epoch": 0.655367231638418,
	"grad_norm": 0.7616683840751648,
	"learning_rate": 7.834539447156424e-05,
	"loss": 88.1597,
	"step": 116
	},
	{
	"epoch": 0.6610169491525424,
	"grad_norm": 0.6816295981407166,
	"learning_rate": 7.796805706005843e-05,
	"loss": 88.1752,
	"step": 117
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.7385973334312439,
	"learning_rate": 7.75883870385223e-05,
	"loss": 88.1828,
	"step": 118
	},
	{
	"epoch": 0.672316384180791,
	"grad_norm": 0.7695619463920593,
	"learning_rate": 7.72064160724412e-05,
	"loss": 88.2801,
	"step": 119
	},
	{
	"epoch": 0.6779661016949152,
	"grad_norm": 0.7640277147293091,
	"learning_rate": 7.682217601920529e-05,
	"loss": 88.2095,
	"step": 120
	},
	{
	"epoch": 0.6836158192090396,
	"grad_norm": 0.7877722382545471,
	"learning_rate": 7.643569892545267e-05,
	"loss": 88.16,
	"step": 121
	},
	{
	"epoch": 0.6892655367231638,
	"grad_norm": 0.7659584283828735,
	"learning_rate": 7.604701702439651e-05,
	"loss": 88.1962,
	"step": 122
	},
	{
	"epoch": 0.6949152542372882,
	"grad_norm": 0.8098394870758057,
	"learning_rate": 7.565616273313678e-05,
	"loss": 88.1656,
	"step": 123
	},
	{
	"epoch": 0.7005649717514124,
	"grad_norm": 0.7991154193878174,
	"learning_rate": 7.526316864995647e-05,
	"loss": 88.1524,
	"step": 124
	},
	{
	"epoch": 0.7062146892655368,
	"grad_norm": 0.7656694650650024,
	"learning_rate": 7.486806755160297e-05,
	"loss": 88.1187,
	"step": 125
	},
	{
	"epoch": 0.711864406779661,
	"grad_norm": 0.7287772297859192,
	"learning_rate": 7.447089239055428e-05,
	"loss": 88.1673,
	"step": 126
	},
	{
	"epoch": 0.7175141242937854,
	"grad_norm": 0.8145878911018372,
	"learning_rate": 7.407167629227072e-05,
	"loss": 88.1032,
	"step": 127
	},
	{
	"epoch": 0.7231638418079096,
	"grad_norm": 0.857018768787384,
	"learning_rate": 7.367045255243216e-05,
	"loss": 88.0358,
	"step": 128
	},
	{
	"epoch": 0.7288135593220338,
	"grad_norm": 0.8250066041946411,
	"learning_rate": 7.326725463416117e-05,
	"loss": 88.2404,
	"step": 129
	},
	{
	"epoch": 0.7344632768361582,
	"grad_norm": 0.9477486610412598,
	"learning_rate": 7.286211616523193e-05,
	"loss": 88.2214,
	"step": 130
	},
	{
	"epoch": 0.7401129943502824,
	"grad_norm": 0.971202552318573,
	"learning_rate": 7.245507093526574e-05,
	"loss": 88.214,
	"step": 131
	},
	{
	"epoch": 0.7457627118644068,
	"grad_norm": 1.0824439525604248,
	"learning_rate": 7.204615289291283e-05,
	"loss": 88.1631,
	"step": 132
	},
	{
	"epoch": 0.751412429378531,
	"grad_norm": 0.7381979823112488,
	"learning_rate": 7.163539614302088e-05,
	"loss": 88.2446,
	"step": 133
	},
	{
	"epoch": 0.7570621468926554,
	"grad_norm": 0.6837661266326904,
	"learning_rate": 7.122283494379076e-05,
	"loss": 88.2198,
	"step": 134
	},
	{
	"epoch": 0.7627118644067796,
	"grad_norm": 0.6421964764595032,
	"learning_rate": 7.080850370391907e-05,
	"loss": 88.2727,
	"step": 135
	},
	{
	"epoch": 0.768361581920904,
	"grad_norm": 0.6602257490158081,
	"learning_rate": 7.039243697972857e-05,
	"loss": 88.1771,
	"step": 136
	},
	{
	"epoch": 0.7740112994350282,
	"grad_norm": 0.7069459557533264,
	"learning_rate": 6.997466947228596e-05,
	"loss": 88.1327,
	"step": 137
	},
	{
	"epoch": 0.7796610169491526,
	"grad_norm": 0.6446311473846436,
	"learning_rate": 6.95552360245078e-05,
	"loss": 88.2014,
	"step": 138
	},
	{
	"epoch": 0.7853107344632768,
	"grad_norm": 0.6669993996620178,
	"learning_rate": 6.91341716182545e-05,
	"loss": 88.1836,
	"step": 139
	},
	{
	"epoch": 0.7909604519774012,
	"grad_norm": 0.7162554264068604,
	"learning_rate": 6.871151137141266e-05,
	"loss": 88.0806,
	"step": 140
	},
	{
	"epoch": 0.7966101694915254,
	"grad_norm": 0.6205349564552307,
	"learning_rate": 6.828729053496629e-05,
	"loss": 88.1998,
	"step": 141
	},
	{
	"epoch": 0.8022598870056498,
	"grad_norm": 0.6284624934196472,
	"learning_rate": 6.786154449005665e-05,
	"loss": 88.0922,
	"step": 142
	},
	{
	"epoch": 0.807909604519774,
	"grad_norm": 0.6776576638221741,
	"learning_rate": 6.743430874503143e-05,
	"loss": 88.104,
	"step": 143
	},
	{
	"epoch": 0.8135593220338984,
	"grad_norm": 0.6751952767372131,
	"learning_rate": 6.700561893248332e-05,
	"loss": 88.1876,
	"step": 144
	},
	{
	"epoch": 0.8192090395480226,
	"grad_norm": 0.6897196769714355,
	"learning_rate": 6.6575510806278e-05,
	"loss": 88.1415,
	"step": 145
	},
	{
	"epoch": 0.8248587570621468,
	"grad_norm": 0.6813532114028931,
	"learning_rate": 6.614402023857232e-05,
	"loss": 88.0379,
	"step": 146
	},
	{
	"epoch": 0.8305084745762712,
	"grad_norm": 0.7052000164985657,
	"learning_rate": 6.57111832168224e-05,
	"loss": 88.0754,
	"step": 147
	},
	{
	"epoch": 0.8361581920903954,
	"grad_norm": 0.6268584132194519,
	"learning_rate": 6.527703584078218e-05,
	"loss": 88.0336,
	"step": 148
	},
	{
	"epoch": 0.8418079096045198,
	"grad_norm": 0.6451026201248169,
	"learning_rate": 6.484161431949267e-05,
	"loss": 88.1128,
	"step": 149
	},
	{
	"epoch": 0.847457627118644,
	"grad_norm": 0.6330875158309937,
	"learning_rate": 6.440495496826189e-05,
	"loss": 88.0844,
	"step": 150
	},
	{
	"epoch": 0.8531073446327684,
	"grad_norm": 0.5872354507446289,
	"learning_rate": 6.39670942056362e-05,
	"loss": 88.082,
	"step": 151
	},
	{
	"epoch": 0.8587570621468926,
	"grad_norm": 0.6449838280677795,
	"learning_rate": 6.352806855036287e-05,
	"loss": 88.0767,
	"step": 152
	},
	{
	"epoch": 0.864406779661017,
	"grad_norm": 0.6349008083343506,
	"learning_rate": 6.308791461834426e-05,
	"loss": 88.0604,
	"step": 153
	},
	{
	"epoch": 0.8700564971751412,
	"grad_norm": 0.6187208890914917,
	"learning_rate": 6.264666911958404e-05,
	"loss": 88.1468,
	"step": 154
	},
	{
	"epoch": 0.8757062146892656,
	"grad_norm": 0.6470857262611389,
	"learning_rate": 6.22043688551254e-05,
	"loss": 88.0885,
	"step": 155
	},
	{
	"epoch": 0.8813559322033898,
	"grad_norm": 0.6183845400810242,
	"learning_rate": 6.17610507139818e-05,
	"loss": 88.0303,
	"step": 156
	},
	{
	"epoch": 0.8870056497175142,
	"grad_norm": 0.6772004961967468,
	"learning_rate": 6.13167516700603e-05,
	"loss": 88.111,
	"step": 157
	},
	{
	"epoch": 0.8926553672316384,
	"grad_norm": 0.6499753594398499,
	"learning_rate": 6.0871508779077856e-05,
	"loss": 88.0266,
	"step": 158
	},
	{
	"epoch": 0.8983050847457628,
	"grad_norm": 0.6717754602432251,
	"learning_rate": 6.04253591754708e-05,
	"loss": 88.0712,
	"step": 159
	},
	{
	"epoch": 0.903954802259887,
	"grad_norm": 0.6724316477775574,
	"learning_rate": 5.9978340069297647e-05,
	"loss": 87.9934,
	"step": 160
	},
	{
	"epoch": 0.9096045197740112,
	"grad_norm": 0.6548104286193848,
	"learning_rate": 5.9530488743135746e-05,
	"loss": 88.0043,
	"step": 161
	},
	{
	"epoch": 0.9152542372881356,
	"grad_norm": 0.6596248745918274,
	"learning_rate": 5.908184254897182e-05,
	"loss": 88.0424,
	"step": 162
	},
	{
	"epoch": 0.9209039548022598,
	"grad_norm": 0.6875431537628174,
	"learning_rate": 5.863243890508668e-05,
	"loss": 88.0799,
	"step": 163
	},
	{
	"epoch": 0.9265536723163842,
	"grad_norm": 0.6975457668304443,
	"learning_rate": 5.8182315292934406e-05,
	"loss": 88.0774,
	"step": 164
	},
	{
	"epoch": 0.9322033898305084,
	"grad_norm": 0.6618639230728149,
	"learning_rate": 5.773150925401641e-05,
	"loss": 88.124,
	"step": 165
	},
	{
	"epoch": 0.9378531073446328,
	"grad_norm": 0.6853637099266052,
	"learning_rate": 5.7280058386750255e-05,
	"loss": 87.9972,
	"step": 166
	},
	{
	"epoch": 0.943502824858757,
	"grad_norm": 0.7230448126792908,
	"learning_rate": 5.68280003433339e-05,
	"loss": 87.9713,
	"step": 167
	},
	{
	"epoch": 0.9491525423728814,
	"grad_norm": 0.7414244413375854,
	"learning_rate": 5.63753728266054e-05,
	"loss": 88.0774,
	"step": 168
	},
	{
	"epoch": 0.9548022598870056,
	"grad_norm": 0.766106367111206,
	"learning_rate": 5.592221358689843e-05,
	"loss": 88.0479,
	"step": 169
	},
	{
	"epoch": 0.96045197740113,
	"grad_norm": 0.7827813029289246,
	"learning_rate": 5.546856041889373e-05,
	"loss": 88.1115,
	"step": 170
	},
	{
	"epoch": 0.9661016949152542,
	"grad_norm": 0.693665623664856,
	"learning_rate": 5.5014451158466975e-05,
	"loss": 88.0148,
	"step": 171
	},
	{
	"epoch": 0.9717514124293786,
	"grad_norm": 0.7761551737785339,
	"learning_rate": 5.4559923679533173e-05,
	"loss": 87.9896,
	"step": 172
	},
	{
	"epoch": 0.9774011299435028,
	"grad_norm": 0.7685063481330872,
	"learning_rate": 5.410501589088785e-05,
	"loss": 87.9791,
	"step": 173
	},
	{
	"epoch": 0.9830508474576272,
	"grad_norm": 0.8432329297065735,
	"learning_rate": 5.364976573304538e-05,
	"loss": 88.1228,
	"step": 174
	},
	{
	"epoch": 0.9887005649717514,
	"grad_norm": 0.9350976347923279,
	"learning_rate": 5.319421117507462e-05,
	"loss": 87.9292,
	"step": 175
	},
	{
	"epoch": 0.9943502824858758,
	"grad_norm": 1.2149473428726196,
	"learning_rate": 5.273839021143218e-05,
	"loss": 87.9655,
	"step": 176
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.6291913986206055,
	"learning_rate": 5.22823408587937e-05,
	"loss": 88.1277,
	"step": 177
	},
	{
	"epoch": 1.0,
	"eval_loss": 11.00737476348877,
	"eval_runtime": 0.6468,
	"eval_samples_per_second": 460.76,
	"eval_steps_per_second": 115.963,
	"step": 177
	},
	{
	"epoch": 1.0056497175141244,
	"grad_norm": 0.6629582047462463,
	"learning_rate": 5.182610115288295e-05,
	"loss": 88.1835,
	"step": 178
	},
	{
	"epoch": 1.0112994350282485,
	"grad_norm": 0.6663825511932373,
	"learning_rate": 5.136970914529975e-05,
	"loss": 88.162,
	"step": 179
	},
	{
	"epoch": 1.0169491525423728,
	"grad_norm": 0.6589259505271912,
	"learning_rate": 5.091320290034625e-05,
	"loss": 88.1961,
	"step": 180
	},
	{
	"epoch": 1.0225988700564972,
	"grad_norm": 0.5902798175811768,
	"learning_rate": 5.045662049185229e-05,
	"loss": 88.0916,
	"step": 181
	},
	{
	"epoch": 1.0282485875706215,
	"grad_norm": 0.5283370018005371,
	"learning_rate": 5e-05,
	"loss": 88.119,
	"step": 182
	},
	{
	"epoch": 1.0338983050847457,
	"grad_norm": 0.5795127749443054,
	"learning_rate": 4.9543379508147716e-05,
	"loss": 88.1366,
	"step": 183
	},
	{
	"epoch": 1.03954802259887,
	"grad_norm": 0.6025692820549011,
	"learning_rate": 4.9086797099653756e-05,
	"loss": 88.0548,
	"step": 184
	},
	{
	"epoch": 1.0451977401129944,
	"grad_norm": 0.5939972996711731,
	"learning_rate": 4.863029085470026e-05,
	"loss": 87.9877,
	"step": 185
	},
	{
	"epoch": 1.0508474576271187,
	"grad_norm": 0.5899671316146851,
	"learning_rate": 4.817389884711705e-05,
	"loss": 88.0826,
	"step": 186
	},
	{
	"epoch": 1.0564971751412429,
	"grad_norm": 0.5887870788574219,
	"learning_rate": 4.771765914120631e-05,
	"loss": 88.1155,
	"step": 187
	},
	{
	"epoch": 1.0621468926553672,
	"grad_norm": 0.5916518568992615,
	"learning_rate": 4.726160978856782e-05,
	"loss": 88.0002,
	"step": 188
	},
	{
	"epoch": 1.0677966101694916,
	"grad_norm": 0.6661847233772278,
	"learning_rate": 4.6805788824925386e-05,
	"loss": 88.0365,
	"step": 189
	},
	{
	"epoch": 1.073446327683616,
	"grad_norm": 0.5642584562301636,
	"learning_rate": 4.6350234266954626e-05,
	"loss": 88.0447,
	"step": 190
	},
	{
	"epoch": 1.07909604519774,
	"grad_norm": 0.5734567046165466,
	"learning_rate": 4.589498410911215e-05,
	"loss": 88.0759,
	"step": 191
	},
	{
	"epoch": 1.0847457627118644,
	"grad_norm": 0.5504806041717529,
	"learning_rate": 4.5440076320466825e-05,
	"loss": 88.0262,
	"step": 192
	},
	{
	"epoch": 1.0903954802259888,
	"grad_norm": 0.5161648392677307,
	"learning_rate": 4.4985548841533036e-05,
	"loss": 88.0113,
	"step": 193
	},
	{
	"epoch": 1.0960451977401129,
	"grad_norm": 0.5934569239616394,
	"learning_rate": 4.4531439581106295e-05,
	"loss": 88.1235,
	"step": 194
	},
	{
	"epoch": 1.1016949152542372,
	"grad_norm": 0.5542126297950745,
	"learning_rate": 4.4077786413101595e-05,
	"loss": 88.0276,
	"step": 195
	},
	{
	"epoch": 1.1073446327683616,
	"grad_norm": 0.6331348419189453,
	"learning_rate": 4.362462717339461e-05,
	"loss": 88.0501,
	"step": 196
	},
	{
	"epoch": 1.112994350282486,
	"grad_norm": 0.5662806630134583,
	"learning_rate": 4.317199965666613e-05,
	"loss": 88.0157,
	"step": 197
	},
	{
	"epoch": 1.11864406779661,
	"grad_norm": 0.5534279942512512,
	"learning_rate": 4.271994161324977e-05,
	"loss": 87.9114,
	"step": 198
	},
	{
	"epoch": 1.1242937853107344,
	"grad_norm": 0.5692214369773865,
	"learning_rate": 4.22684907459836e-05,
	"loss": 87.9938,
	"step": 199
	},
	{
	"epoch": 1.1299435028248588,
	"grad_norm": 0.6049486994743347,
	"learning_rate": 4.1817684707065605e-05,
	"loss": 87.9819,
	"step": 200
	},
	{
	"epoch": 1.1355932203389831,
	"grad_norm": 0.5856545567512512,
	"learning_rate": 4.1367561094913335e-05,
	"loss": 87.9492,
	"step": 201
	},
	{
	"epoch": 1.1412429378531073,
	"grad_norm": 0.5690354704856873,
	"learning_rate": 4.0918157451028185e-05,
	"loss": 87.9628,
	"step": 202
	},
	{
	"epoch": 1.1468926553672316,
	"grad_norm": 0.6273289322853088,
	"learning_rate": 4.0469511256864265e-05,
	"loss": 88.0531,
	"step": 203
	},
	{
	"epoch": 1.152542372881356,
	"grad_norm": 0.6032590866088867,
	"learning_rate": 4.002165993070237e-05,
	"loss": 87.8896,
	"step": 204
	},
	{
	"epoch": 1.1581920903954803,
	"grad_norm": 0.5722517371177673,
	"learning_rate": 3.957464082452922e-05,
	"loss": 87.9297,
	"step": 205
	},
	{
	"epoch": 1.1638418079096045,
	"grad_norm": 0.6684175729751587,
	"learning_rate": 3.9128491220922156e-05,
	"loss": 88.0202,
	"step": 206
	},
	{
	"epoch": 1.1694915254237288,
	"grad_norm": 0.6134036779403687,
	"learning_rate": 3.8683248329939716e-05,
	"loss": 87.9706,
	"step": 207
	},
	{
	"epoch": 1.1751412429378532,
	"grad_norm": 0.6217228174209595,
	"learning_rate": 3.823894928601822e-05,
	"loss": 88.0366,
	"step": 208
	},
	{
	"epoch": 1.1807909604519775,
	"grad_norm": 0.577599287033081,
	"learning_rate": 3.7795631144874604e-05,
	"loss": 88.0188,
	"step": 209
	},
	{
	"epoch": 1.1864406779661016,
	"grad_norm": 0.6666799783706665,
	"learning_rate": 3.735333088041596e-05,
	"loss": 88.0513,
	"step": 210
	},
	{
	"epoch": 1.192090395480226,
	"grad_norm": 0.5872676968574524,
	"learning_rate": 3.6912085381655734e-05,
	"loss": 88.0103,
	"step": 211
	},
	{
	"epoch": 1.1977401129943503,
	"grad_norm": 0.5996030569076538,
	"learning_rate": 3.6471931449637124e-05,
	"loss": 87.9581,
	"step": 212
	},
	{
	"epoch": 1.2033898305084745,
	"grad_norm": 0.6568124890327454,
	"learning_rate": 3.60329057943638e-05,
	"loss": 87.9921,
	"step": 213
	},
	{
	"epoch": 1.2090395480225988,
	"grad_norm": 0.7044454216957092,
	"learning_rate": 3.5595045031738125e-05,
	"loss": 88.0731,
	"step": 214
	},
	{
	"epoch": 1.2146892655367232,
	"grad_norm": 0.7266508936882019,
	"learning_rate": 3.515838568050736e-05,
	"loss": 88.0184,
	"step": 215
	},
	{
	"epoch": 1.2203389830508475,
	"grad_norm": 0.7107569575309753,
	"learning_rate": 3.472296415921783e-05,
	"loss": 88.0427,
	"step": 216
	},
	{
	"epoch": 1.2259887005649717,
	"grad_norm": 0.7413809299468994,
	"learning_rate": 3.428881678317763e-05,
	"loss": 87.9618,
	"step": 217
	},
	{
	"epoch": 1.231638418079096,
	"grad_norm": 0.7287234663963318,
	"learning_rate": 3.38559797614277e-05,
	"loss": 88.007,
	"step": 218
	},
	{
	"epoch": 1.2372881355932204,
	"grad_norm": 0.8537057042121887,
	"learning_rate": 3.3424489193722013e-05,
	"loss": 88.055,
	"step": 219
	},
	{
	"epoch": 1.2429378531073447,
	"grad_norm": 0.8392075300216675,
	"learning_rate": 3.2994381067516696e-05,
	"loss": 88.0221,
	"step": 220
	},
	{
	"epoch": 1.2485875706214689,
	"grad_norm": 1.036270022392273,
	"learning_rate": 3.256569125496858e-05,
	"loss": 87.9944,
	"step": 221
	},
	{
	"epoch": 1.2542372881355932,
	"grad_norm": 0.633751392364502,
	"learning_rate": 3.2138455509943366e-05,
	"loss": 88.1435,
	"step": 222
	},
	{
	"epoch": 1.2598870056497176,
	"grad_norm": 0.5413132309913635,
	"learning_rate": 3.171270946503373e-05,
	"loss": 88.1694,
	"step": 223
	},
	{
	"epoch": 1.2655367231638417,
	"grad_norm": 0.5542528629302979,
	"learning_rate": 3.128848862858734e-05,
	"loss": 88.1215,
	"step": 224
	},
	{
	"epoch": 1.271186440677966,
	"grad_norm": 0.5940180420875549,
	"learning_rate": 3.086582838174551e-05,
	"loss": 88.0598,
	"step": 225
	},
	{
	"epoch": 1.2768361581920904,
	"grad_norm": 0.5067227482795715,
	"learning_rate": 3.0444763975492208e-05,
	"loss": 88.0876,
	"step": 226
	},
	{
	"epoch": 1.2824858757062148,
	"grad_norm": 0.5656532049179077,
	"learning_rate": 3.0025330527714046e-05,
	"loss": 88.0915,
	"step": 227
	},
	{
	"epoch": 1.288135593220339,
	"grad_norm": 0.52092045545578,
	"learning_rate": 2.9607563020271446e-05,
	"loss": 88.0636,
	"step": 228
	},
	{
	"epoch": 1.2937853107344632,
	"grad_norm": 0.5944317579269409,
	"learning_rate": 2.9191496296080935e-05,
	"loss": 87.999,
	"step": 229
	},
	{
	"epoch": 1.2994350282485876,
	"grad_norm": 0.5355740189552307,
	"learning_rate": 2.8777165056209256e-05,
	"loss": 88.0768,
	"step": 230
	},
	{
	"epoch": 1.305084745762712,
	"grad_norm": 0.5801308155059814,
	"learning_rate": 2.836460385697911e-05,
	"loss": 88.016,
	"step": 231
	},
	{
	"epoch": 1.310734463276836,
	"grad_norm": 0.5269469618797302,
	"learning_rate": 2.7953847107087172e-05,
	"loss": 87.9684,
	"step": 232
	},
	{
	"epoch": 1.3163841807909604,
	"grad_norm": 0.5054383873939514,
	"learning_rate": 2.754492906473425e-05,
	"loss": 88.1685,
	"step": 233
	},
	{
	"epoch": 1.3220338983050848,
	"grad_norm": 0.6001875400543213,
	"learning_rate": 2.7137883834768073e-05,
	"loss": 88.0379,
	"step": 234
	},
	{
	"epoch": 1.327683615819209,
	"grad_norm": 0.5223692059516907,
	"learning_rate": 2.6732745365838828e-05,
	"loss": 87.9794,
	"step": 235
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.6370963454246521,
	"learning_rate": 2.6329547447567836e-05,
	"loss": 87.9989,
	"step": 236
	},
	{
	"epoch": 1.3389830508474576,
	"grad_norm": 0.49859458208084106,
	"learning_rate": 2.5928323707729306e-05,
	"loss": 88.0401,
	"step": 237
	},
	{
	"epoch": 1.344632768361582,
	"grad_norm": 0.544282078742981,
	"learning_rate": 2.5529107609445733e-05,
	"loss": 88.0129,
	"step": 238
	},
	{
	"epoch": 1.3502824858757063,
	"grad_norm": 0.6058323979377747,
	"learning_rate": 2.513193244839704e-05,
	"loss": 88.0901,
	"step": 239
	},
	{
	"epoch": 1.3559322033898304,
	"grad_norm": 0.5392006635665894,
	"learning_rate": 2.4736831350043536e-05,
	"loss": 88.0176,
	"step": 240
	},
	{
	"epoch": 1.3615819209039548,
	"grad_norm": 0.5761566758155823,
	"learning_rate": 2.4343837266863246e-05,
	"loss": 88.0378,
	"step": 241
	},
	{
	"epoch": 1.3672316384180792,
	"grad_norm": 0.5357884764671326,
	"learning_rate": 2.3952982975603496e-05,
	"loss": 88.0098,
	"step": 242
	},
	{
	"epoch": 1.3728813559322033,
	"grad_norm": 0.5242740511894226,
	"learning_rate": 2.356430107454733e-05,
	"loss": 88.0394,
	"step": 243
	},
	{
	"epoch": 1.3785310734463276,
	"grad_norm": 0.5258982181549072,
	"learning_rate": 2.3177823980794727e-05,
	"loss": 87.9584,
	"step": 244
	},
	{
	"epoch": 1.384180790960452,
	"grad_norm": 0.6452914476394653,
	"learning_rate": 2.279358392755882e-05,
	"loss": 88.0219,
	"step": 245
	},
	{
	"epoch": 1.3898305084745763,
	"grad_norm": 0.5566428899765015,
	"learning_rate": 2.24116129614777e-05,
	"loss": 87.9679,
	"step": 246
	},
	{
	"epoch": 1.3954802259887007,
	"grad_norm": 0.5655139088630676,
	"learning_rate": 2.2031942939941592e-05,
	"loss": 87.9924,
	"step": 247
	},
	{
	"epoch": 1.4011299435028248,
	"grad_norm": 0.6263113617897034,
	"learning_rate": 2.1654605528435773e-05,
	"loss": 87.919,
	"step": 248
	},
	{
	"epoch": 1.4067796610169492,
	"grad_norm": 0.5700308084487915,
	"learning_rate": 2.127963219789974e-05,
	"loss": 87.9079,
	"step": 249
	},
	{
	"epoch": 1.4124293785310735,
	"grad_norm": 0.5626516938209534,
	"learning_rate": 2.090705422210237e-05,
	"loss": 87.9963,
	"step": 250
	},
	{
	"epoch": 1.4180790960451977,
	"grad_norm": 0.5786779522895813,
	"learning_rate": 2.0536902675033548e-05,
	"loss": 87.9655,
	"step": 251
	},
	{
	"epoch": 1.423728813559322,
	"grad_norm": 0.6087446212768555,
	"learning_rate": 2.0169208428312647e-05,
	"loss": 87.9886,
	"step": 252
	},
	{
	"epoch": 1.4293785310734464,
	"grad_norm": 0.627742350101471,
	"learning_rate": 1.980400214861367e-05,
	"loss": 88.072,
	"step": 253
	},
	{
	"epoch": 1.4350282485875705,
	"grad_norm": 0.6009258031845093,
	"learning_rate": 1.9441314295107537e-05,
	"loss": 87.9974,
	"step": 254
	},
	{
	"epoch": 1.4406779661016949,
	"grad_norm": 0.5660704374313354,
	"learning_rate": 1.90811751169218e-05,
	"loss": 87.9457,
	"step": 255
	},
	{
	"epoch": 1.4463276836158192,
	"grad_norm": 0.6332747340202332,
	"learning_rate": 1.8723614650617723e-05,
	"loss": 88.0142,
	"step": 256
	},
	{
	"epoch": 1.4519774011299436,
	"grad_norm": 0.653758704662323,
	"learning_rate": 1.8368662717685187e-05,
	"loss": 88.0092,
	"step": 257
	},
	{
	"epoch": 1.457627118644068,
	"grad_norm": 0.574155330657959,
	"learning_rate": 1.801634892205545e-05,
	"loss": 87.9217,
	"step": 258
	},
	{
	"epoch": 1.463276836158192,
	"grad_norm": 0.6903696060180664,
	"learning_rate": 1.766670264763213e-05,
	"loss": 87.9605,
	"step": 259
	},
	{
	"epoch": 1.4689265536723164,
	"grad_norm": 0.6985341310501099,
	"learning_rate": 1.7319753055840553e-05,
	"loss": 88.1013,
	"step": 260
	},
	{
	"epoch": 1.4745762711864407,
	"grad_norm": 0.6917281150817871,
	"learning_rate": 1.697552908319553e-05,
	"loss": 87.9394,
	"step": 261
	},
	{
	"epoch": 1.4802259887005649,
	"grad_norm": 0.7425939440727234,
	"learning_rate": 1.6634059438888033e-05,
	"loss": 87.9243,
	"step": 262
	},
	{
	"epoch": 1.4858757062146892,
	"grad_norm": 0.7640402317047119,
	"learning_rate": 1.6295372602390767e-05,
	"loss": 87.9382,
	"step": 263
	},
	{
	"epoch": 1.4915254237288136,
	"grad_norm": 0.8300817608833313,
	"learning_rate": 1.5959496821082905e-05,
	"loss": 87.8827,
	"step": 264
	},
	{
	"epoch": 1.497175141242938,
	"grad_norm": 1.0759795904159546,
	"learning_rate": 1.562646010789411e-05,
	"loss": 87.8789,
	"step": 265
	},
	{
	"epoch": 1.5028248587570623,
	"grad_norm": 0.6373040080070496,
	"learning_rate": 1.5296290238968303e-05,
	"loss": 88.0713,
	"step": 266
	},
	{
	"epoch": 1.5084745762711864,
	"grad_norm": 0.5541619062423706,
	"learning_rate": 1.496901475134701e-05,
	"loss": 88.1348,
	"step": 267
	},
	{
	"epoch": 1.5141242937853108,
	"grad_norm": 0.5655987858772278,
	"learning_rate": 1.4644660940672627e-05,
	"loss": 88.1458,
	"step": 268
	},
	{
	"epoch": 1.5197740112994351,
	"grad_norm": 0.5608534216880798,
	"learning_rate": 1.4323255858912011e-05,
	"loss": 88.1328,
	"step": 269
	},
	{
	"epoch": 1.5254237288135593,
	"grad_norm": 0.5184534192085266,
	"learning_rate": 1.4004826312100216e-05,
	"loss": 88.049,
	"step": 270
	},
	{
	"epoch": 1.5310734463276836,
	"grad_norm": 0.5682441592216492,
	"learning_rate": 1.3689398858104751e-05,
	"loss": 88.0269,
	"step": 271
	},
	{
	"epoch": 1.536723163841808,
	"grad_norm": 0.46682822704315186,
	"learning_rate": 1.337699980441069e-05,
	"loss": 88.0322,
	"step": 272
	},
	{
	"epoch": 1.542372881355932,
	"grad_norm": 0.55782550573349,
	"learning_rate": 1.3067655205926488e-05,
	"loss": 87.9584,
	"step": 273
	},
	{
	"epoch": 1.5480225988700564,
	"grad_norm": 0.549993097782135,
	"learning_rate": 1.2761390862810907e-05,
	"loss": 87.9824,
	"step": 274
	},
	{
	"epoch": 1.5536723163841808,
	"grad_norm": 0.49282097816467285,
	"learning_rate": 1.2458232318321305e-05,
	"loss": 87.9938,
	"step": 275
	},
	{
	"epoch": 1.559322033898305,
	"grad_norm": 0.5615452527999878,
	"learning_rate": 1.2158204856683176e-05,
	"loss": 87.9862,
	"step": 276
	},
	{
	"epoch": 1.5649717514124295,
	"grad_norm": 0.5333657264709473,
	"learning_rate": 1.1861333500981448e-05,
	"loss": 87.9579,
	"step": 277
	},
	{
	"epoch": 1.5706214689265536,
	"grad_norm": 0.5501605868339539,
	"learning_rate": 1.1567643011073392e-05,
	"loss": 87.8844,
	"step": 278
	},
	{
	"epoch": 1.576271186440678,
	"grad_norm": 0.5416379570960999,
	"learning_rate": 1.127715788152372e-05,
	"loss": 87.9542,
	"step": 279
	},
	{
	"epoch": 1.5819209039548023,
	"grad_norm": 0.5352757573127747,
	"learning_rate": 1.0989902339561553e-05,
	"loss": 87.9788,
	"step": 280
	},
	{
	"epoch": 1.5875706214689265,
	"grad_norm": 0.514640748500824,
	"learning_rate": 1.0705900343059855e-05,
	"loss": 87.9644,
	"step": 281
	},
	{
	"epoch": 1.5932203389830508,
	"grad_norm": 0.5264514088630676,
	"learning_rate": 1.0425175578537299e-05,
	"loss": 88.0876,
	"step": 282
	},
	{
	"epoch": 1.5988700564971752,
	"grad_norm": 0.5024112462997437,
	"learning_rate": 1.0147751459182736e-05,
	"loss": 87.9844,
	"step": 283
	},
	{
	"epoch": 1.6045197740112993,
	"grad_norm": 0.48817285895347595,
	"learning_rate": 9.873651122902472e-06,
	"loss": 88.0376,
	"step": 284
	},
	{
	"epoch": 1.6101694915254239,
	"grad_norm": 0.6276935935020447,
	"learning_rate": 9.602897430390457e-06,
	"loss": 87.933,
	"step": 285
	},
	{
	"epoch": 1.615819209039548,
	"grad_norm": 0.5100238919258118,
	"learning_rate": 9.335512963221732e-06,
	"loss": 88.0798,
	"step": 286
	},
	{
	"epoch": 1.6214689265536724,
	"grad_norm": 0.534130871295929,
	"learning_rate": 9.071520021969027e-06,
	"loss": 88.1008,
	"step": 287
	},
	{
	"epoch": 1.6271186440677967,
	"grad_norm": 0.5745760798454285,
	"learning_rate": 8.810940624342785e-06,
	"loss": 87.9179,
	"step": 288
	},
	{
	"epoch": 1.6327683615819208,
	"grad_norm": 0.5422095656394958,
	"learning_rate": 8.553796503354899e-06,
	"loss": 87.9494,
	"step": 289
	},
	{
	"epoch": 1.6384180790960452,
	"grad_norm": 0.5460516214370728,
	"learning_rate": 8.30010910550611e-06,
	"loss": 87.9545,
	"step": 290
	},
	{
	"epoch": 1.6440677966101696,
	"grad_norm": 0.6041167974472046,
	"learning_rate": 8.049899588997244e-06,
	"loss": 87.9521,
	"step": 291
	},
	{
	"epoch": 1.6497175141242937,
	"grad_norm": 0.5654332637786865,
	"learning_rate": 7.803188821964652e-06,
	"loss": 87.9232,
	"step": 292
	},
	{
	"epoch": 1.655367231638418,
	"grad_norm": 0.5767014026641846,
	"learning_rate": 7.559997380739714e-06,
	"loss": 87.8771,
	"step": 293
	},
	{
	"epoch": 1.6610169491525424,
	"grad_norm": 0.5665624737739563,
	"learning_rate": 7.320345548132679e-06,
	"loss": 88.0009,
	"step": 294
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.5585253238677979,
	"learning_rate": 7.084253311741101e-06,
	"loss": 87.9623,
	"step": 295
	},
	{
	"epoch": 1.672316384180791,
	"grad_norm": 0.6449034214019775,
	"learning_rate": 6.851740362282788e-06,
	"loss": 87.968,
	"step": 296
	},
	{
	"epoch": 1.6779661016949152,
	"grad_norm": 0.6085680723190308,
	"learning_rate": 6.622826091953482e-06,
	"loss": 88.0431,
	"step": 297
	},
	{
	"epoch": 1.6836158192090396,
	"grad_norm": 0.7078083753585815,
	"learning_rate": 6.397529592809614e-06,
	"loss": 87.9145,
	"step": 298
	},
	{
	"epoch": 1.689265536723164,
	"grad_norm": 0.5888929963111877,
	"learning_rate": 6.1758696551758976e-06,
	"loss": 87.974,
	"step": 299
	},
	{
	"epoch": 1.694915254237288,
	"grad_norm": 0.6576589941978455,
	"learning_rate": 5.957864766078186e-06,
	"loss": 87.9155,
	"step": 300
	},
	{
	"epoch": 1.7005649717514124,
	"grad_norm": 0.6700954437255859,
	"learning_rate": 5.743533107701593e-06,
	"loss": 87.9094,
	"step": 301
	},
	{
	"epoch": 1.7062146892655368,
	"grad_norm": 0.6426727175712585,
	"learning_rate": 5.532892555874059e-06,
	"loss": 87.9853,
	"step": 302
	},
	{
	"epoch": 1.711864406779661,
	"grad_norm": 0.6309840679168701,
	"learning_rate": 5.325960678575498e-06,
	"loss": 87.997,
	"step": 303
	},
	{
	"epoch": 1.7175141242937855,
	"grad_norm": 0.6771166920661926,
	"learning_rate": 5.122754734472496e-06,
	"loss": 87.9336,
	"step": 304
	},
	{
	"epoch": 1.7231638418079096,
	"grad_norm": 0.7140227556228638,
	"learning_rate": 4.92329167147898e-06,
	"loss": 87.9128,
	"step": 305
	},
	{
	"epoch": 1.7288135593220337,
	"grad_norm": 0.7067782282829285,
	"learning_rate": 4.727588125342669e-06,
	"loss": 88.008,
	"step": 306
	},
	{
	"epoch": 1.7344632768361583,
	"grad_norm": 0.746557891368866,
	"learning_rate": 4.535660418257631e-06,
	"loss": 87.9927,
	"step": 307
	},
	{
	"epoch": 1.7401129943502824,
	"grad_norm": 0.8619289994239807,
	"learning_rate": 4.3475245575029185e-06,
	"loss": 87.8356,
	"step": 308
	},
	{
	"epoch": 1.7457627118644068,
	"grad_norm": 1.2444101572036743,
	"learning_rate": 4.163196234107603e-06,
	"loss": 87.9559,
	"step": 309
	},
	{
	"epoch": 1.7514124293785311,
	"grad_norm": 0.6213842034339905,
	"learning_rate": 3.982690821542035e-06,
	"loss": 88.1411,
	"step": 310
	},
	{
	"epoch": 1.7570621468926553,
	"grad_norm": 0.5701696872711182,
	"learning_rate": 3.8060233744356633e-06,
	"loss": 88.1261,
	"step": 311
	},
	{
	"epoch": 1.7627118644067796,
	"grad_norm": 0.5259557366371155,
	"learning_rate": 3.6332086273214827e-06,
	"loss": 88.1058,
	"step": 312
	},
	{
	"epoch": 1.768361581920904,
	"grad_norm": 0.561783492565155,
	"learning_rate": 3.464260993407098e-06,
	"loss": 87.9936,
	"step": 313
	},
	{
	"epoch": 1.774011299435028,
	"grad_norm": 0.5012845993041992,
	"learning_rate": 3.299194563372604e-06,
	"loss": 88.0487,
	"step": 314
	},
	{
	"epoch": 1.7796610169491527,
	"grad_norm": 0.5462010502815247,
	"learning_rate": 3.1380231041954366e-06,
	"loss": 87.9775,
	"step": 315
	},
	{
	"epoch": 1.7853107344632768,
	"grad_norm": 0.5348891615867615,
	"learning_rate": 2.9807600580021634e-06,
	"loss": 88.0445,
	"step": 316
	},
	{
	"epoch": 1.7909604519774012,
	"grad_norm": 0.5476884245872498,
	"learning_rate": 2.827418540947313e-06,
	"loss": 87.9698,
	"step": 317
	},
	{
	"epoch": 1.7966101694915255,
	"grad_norm": 0.5374354124069214,
	"learning_rate": 2.6780113421195298e-06,
	"loss": 87.9377,
	"step": 318
	},
	{
	"epoch": 1.8022598870056497,
	"grad_norm": 0.5628228783607483,
	"learning_rate": 2.532550922474897e-06,
	"loss": 87.8776,
	"step": 319
	},
	{
	"epoch": 1.807909604519774,
	"grad_norm": 0.5416897535324097,
	"learning_rate": 2.3910494137976523e-06,
	"loss": 87.9337,
	"step": 320
	},
	{
	"epoch": 1.8135593220338984,
	"grad_norm": 0.590156614780426,
	"learning_rate": 2.253518617688377e-06,
	"loss": 87.9672,
	"step": 321
	},
	{
	"epoch": 1.8192090395480225,
	"grad_norm": 0.5673385858535767,
	"learning_rate": 2.1199700045797077e-06,
	"loss": 87.9425,
	"step": 322
	},
	{
	"epoch": 1.8248587570621468,
	"grad_norm": 0.5306013226509094,
	"learning_rate": 1.9904147127796646e-06,
	"loss": 87.9447,
	"step": 323
	},
	{
	"epoch": 1.8305084745762712,
	"grad_norm": 0.5657864809036255,
	"learning_rate": 1.864863547542711e-06,
	"loss": 87.9126,
	"step": 324
	},
	{
	"epoch": 1.8361581920903953,
	"grad_norm": 0.5366300344467163,
	"learning_rate": 1.7433269801685303e-06,
	"loss": 87.9557,
	"step": 325
	},
	{
	"epoch": 1.84180790960452,
	"grad_norm": 0.5389237403869629,
	"learning_rate": 1.6258151471287396e-06,
	"loss": 87.9312,
	"step": 326
	},
	{
	"epoch": 1.847457627118644,
	"grad_norm": 0.5478444695472717,
	"learning_rate": 1.5123378492214291e-06,
	"loss": 87.9573,
	"step": 327
	},
	{
	"epoch": 1.8531073446327684,
	"grad_norm": 0.5147649645805359,
	"learning_rate": 1.4029045507537697e-06,
	"loss": 88.0396,
	"step": 328
	},
	{
	"epoch": 1.8587570621468927,
	"grad_norm": 0.5677837133407593,
	"learning_rate": 1.297524378752696e-06,
	"loss": 88.0318,
	"step": 329
	},
	{
	"epoch": 1.8644067796610169,
	"grad_norm": 0.5549485087394714,
	"learning_rate": 1.196206122203647e-06,
	"loss": 88.005,
	"step": 330
	},
	{
	"epoch": 1.8700564971751412,
	"grad_norm": 0.5245904922485352,
	"learning_rate": 1.0989582313175374e-06,
	"loss": 88.0128,
	"step": 331
	},
	{
	"epoch": 1.8757062146892656,
	"grad_norm": 0.5384089946746826,
	"learning_rate": 1.005788816826031e-06,
	"loss": 87.8896,
	"step": 332
	},
	{
	"epoch": 1.8813559322033897,
	"grad_norm": 0.5512574911117554,
	"learning_rate": 9.167056493050496e-07,
	"loss": 87.996,
	"step": 333
	},
	{
	"epoch": 1.8870056497175143,
	"grad_norm": 0.6043868064880371,
	"learning_rate": 8.317161585266964e-07,
	"loss": 87.9643,
	"step": 334
	},
	{
	"epoch": 1.8926553672316384,
	"grad_norm": 0.617608368396759,
	"learning_rate": 7.508274328395848e-07,
	"loss": 87.9645,
	"step": 335
	},
	{
	"epoch": 1.8983050847457628,
	"grad_norm": 0.5591124892234802,
	"learning_rate": 6.74046218577673e-07,
	"loss": 87.9943,
	"step": 336
	},
	{
	"epoch": 1.9039548022598871,
	"grad_norm": 0.5672664046287537,
	"learning_rate": 6.013789194975749e-07,
	"loss": 87.9743,
	"step": 337
	},
	{
	"epoch": 1.9096045197740112,
	"grad_norm": 0.5669750571250916,
	"learning_rate": 5.328315962444874e-07,
	"loss": 87.8982,
	"step": 338
	},
	{
	"epoch": 1.9152542372881356,
	"grad_norm": 0.5600360035896301,
	"learning_rate": 4.684099658467223e-07,
	"loss": 87.8697,
	"step": 339
	},
	{
	"epoch": 1.92090395480226,
	"grad_norm": 0.5569552183151245,
	"learning_rate": 4.0811940123886004e-07,
	"loss": 88.0418,
	"step": 340
	},
	{
	"epoch": 1.926553672316384,
	"grad_norm": 0.549552857875824,
	"learning_rate": 3.5196493081366967e-07,
	"loss": 87.9701,
	"step": 341
	},
	{
	"epoch": 1.9322033898305084,
	"grad_norm": 0.6111685037612915,
	"learning_rate": 2.9995123800270476e-07,
	"loss": 88.1107,
	"step": 342
	},
	{
	"epoch": 1.9378531073446328,
	"grad_norm": 0.6287999153137207,
	"learning_rate": 2.5208266088569966e-07,
	"loss": 87.9764,
	"step": 343
	},
	{
	"epoch": 1.943502824858757,
	"grad_norm": 0.5528276562690735,
	"learning_rate": 2.083631918287643e-07,
	"loss": 87.9886,
	"step": 344
	},
	{
	"epoch": 1.9491525423728815,
	"grad_norm": 0.6393068432807922,
	"learning_rate": 1.6879647715140611e-07,
	"loss": 88.0424,
	"step": 345
	},
	{
	"epoch": 1.9548022598870056,
	"grad_norm": 0.6431833505630493,
	"learning_rate": 1.333858168224178e-07,
	"loss": 88.0173,
	"step": 346
	},
	{
	"epoch": 1.96045197740113,
	"grad_norm": 0.6915642023086548,
	"learning_rate": 1.0213416418465294e-07,
	"loss": 87.9516,
	"step": 347
	},
	{
	"epoch": 1.9661016949152543,
	"grad_norm": 0.6479020714759827,
	"learning_rate": 7.5044125708712e-08,
	"loss": 87.9935,
	"step": 348
	},
	{
	"epoch": 1.9717514124293785,
	"grad_norm": 0.7263698577880859,
	"learning_rate": 5.2117960775543986e-08,
	"loss": 87.9126,
	"step": 349
	},
	{
	"epoch": 1.9774011299435028,
	"grad_norm": 0.6763975024223328,
	"learning_rate": 3.3357581488030475e-08,
	"loss": 87.993,
	"step": 350
	},
	{
	"epoch": 1.9830508474576272,
	"grad_norm": 0.8059737682342529,
	"learning_rate": 1.8764552511485457e-08,
	"loss": 88.038,
	"step": 351
	},
	{
	"epoch": 1.9887005649717513,
	"grad_norm": 0.7300512790679932,
	"learning_rate": 8.340090943176338e-09,
	"loss": 88.0236,
	"step": 352
	},
	{
	"epoch": 1.9943502824858759,
	"grad_norm": 0.9957327842712402,
	"learning_rate": 2.0850662108051755e-09,
	"loss": 87.9029,
	"step": 353
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.6088115572929382,
	"learning_rate": 0.0,
	"loss": 87.8932,
	"step": 354
	},
	{
	"epoch": 2.0,
	"eval_loss": 10.999165534973145,
	"eval_runtime": 0.674,
	"eval_samples_per_second": 442.111,
	"eval_steps_per_second": 111.27,
	"step": 354
	}
	],
	"logging_steps": 1,
	"max_steps": 354,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3718069616640.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}