salamandra-2B-instruct-ultrachat / trainer_state.json

Model save

b7b25d0 verified about 2 months ago

81.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.998916106655105,
	"eval_steps": 500,
	"global_step": 2306,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0008671146759158899,
	"grad_norm": 5.864805612767453e+19,
	"learning_rate": 1.2987012987012986e-06,
	"loss": 1.5218,
	"step": 1
	},
	{
	"epoch": 0.004335573379579449,
	"grad_norm": 0.5226513429859231,
	"learning_rate": 6.493506493506493e-06,
	"loss": 1.36,
	"step": 5
	},
	{
	"epoch": 0.008671146759158898,
	"grad_norm": 0.7095719390962212,
	"learning_rate": 1.2987012987012986e-05,
	"loss": 1.342,
	"step": 10
	},
	{
	"epoch": 0.013006720138738348,
	"grad_norm": 0.429950690175044,
	"learning_rate": 1.9480519480519476e-05,
	"loss": 1.3738,
	"step": 15
	},
	{
	"epoch": 0.017342293518317797,
	"grad_norm": 0.25369452359038985,
	"learning_rate": 2.5974025974025972e-05,
	"loss": 1.2215,
	"step": 20
	},
	{
	"epoch": 0.021677866897897247,
	"grad_norm": 14.366536861443981,
	"learning_rate": 3.246753246753247e-05,
	"loss": 1.2357,
	"step": 25
	},
	{
	"epoch": 0.026013440277476697,
	"grad_norm": 0.2687159676086448,
	"learning_rate": 3.896103896103895e-05,
	"loss": 1.1712,
	"step": 30
	},
	{
	"epoch": 0.030349013657056147,
	"grad_norm": 0.15608265987863726,
	"learning_rate": 4.545454545454545e-05,
	"loss": 1.1152,
	"step": 35
	},
	{
	"epoch": 0.03468458703663559,
	"grad_norm": 0.11635461961055855,
	"learning_rate": 5.1948051948051944e-05,
	"loss": 1.1033,
	"step": 40
	},
	{
	"epoch": 0.03902016041621505,
	"grad_norm": 0.11449246594254398,
	"learning_rate": 5.8441558441558436e-05,
	"loss": 1.0896,
	"step": 45
	},
	{
	"epoch": 0.04335573379579449,
	"grad_norm": 0.11032771125077512,
	"learning_rate": 6.493506493506494e-05,
	"loss": 1.0795,
	"step": 50
	},
	{
	"epoch": 0.04769130717537394,
	"grad_norm": 0.10732618594326016,
	"learning_rate": 7.142857142857142e-05,
	"loss": 1.1107,
	"step": 55
	},
	{
	"epoch": 0.05202688055495339,
	"grad_norm": 0.11532043672084052,
	"learning_rate": 7.79220779220779e-05,
	"loss": 1.0941,
	"step": 60
	},
	{
	"epoch": 0.05636245393453284,
	"grad_norm": 0.10484657398976702,
	"learning_rate": 8.441558441558442e-05,
	"loss": 1.0636,
	"step": 65
	},
	{
	"epoch": 0.06069802731411229,
	"grad_norm": 0.11736262481626532,
	"learning_rate": 9.09090909090909e-05,
	"loss": 1.0939,
	"step": 70
	},
	{
	"epoch": 0.06503360069369174,
	"grad_norm": 0.14275729093576736,
	"learning_rate": 9.740259740259739e-05,
	"loss": 1.0876,
	"step": 75
	},
	{
	"epoch": 0.06936917407327119,
	"grad_norm": 0.15749002462194958,
	"learning_rate": 0.00010389610389610389,
	"loss": 1.073,
	"step": 80
	},
	{
	"epoch": 0.07370474745285063,
	"grad_norm": 0.19946818080973713,
	"learning_rate": 0.00011038961038961037,
	"loss": 1.0935,
	"step": 85
	},
	{
	"epoch": 0.0780403208324301,
	"grad_norm": 0.5992707412202727,
	"learning_rate": 0.00011688311688311687,
	"loss": 1.1826,
	"step": 90
	},
	{
	"epoch": 0.08237589421200954,
	"grad_norm": 0.19153297117483123,
	"learning_rate": 0.00012337662337662337,
	"loss": 1.1079,
	"step": 95
	},
	{
	"epoch": 0.08671146759158899,
	"grad_norm": 0.23132363172618897,
	"learning_rate": 0.00012987012987012987,
	"loss": 1.1509,
	"step": 100
	},
	{
	"epoch": 0.09104704097116843,
	"grad_norm": 13.74435400048776,
	"learning_rate": 0.00013636363636363634,
	"loss": 1.271,
	"step": 105
	},
	{
	"epoch": 0.09538261435074788,
	"grad_norm": 0.5226174167068346,
	"learning_rate": 0.00014285714285714284,
	"loss": 1.1902,
	"step": 110
	},
	{
	"epoch": 0.09971818773032734,
	"grad_norm": 0.3629740083051462,
	"learning_rate": 0.00014935064935064934,
	"loss": 1.1643,
	"step": 115
	},
	{
	"epoch": 0.10405376110990679,
	"grad_norm": 0.22433655763478755,
	"learning_rate": 0.0001558441558441558,
	"loss": 1.155,
	"step": 120
	},
	{
	"epoch": 0.10838933448948623,
	"grad_norm": 0.1335411736809728,
	"learning_rate": 0.0001623376623376623,
	"loss": 1.1243,
	"step": 125
	},
	{
	"epoch": 0.11272490786906568,
	"grad_norm": 0.20752640927016786,
	"learning_rate": 0.00016883116883116884,
	"loss": 1.1104,
	"step": 130
	},
	{
	"epoch": 0.11706048124864514,
	"grad_norm": 0.12168629703712475,
	"learning_rate": 0.0001753246753246753,
	"loss": 1.114,
	"step": 135
	},
	{
	"epoch": 0.12139605462822459,
	"grad_norm": 0.26232391688421475,
	"learning_rate": 0.0001818181818181818,
	"loss": 1.1204,
	"step": 140
	},
	{
	"epoch": 0.12573162800780402,
	"grad_norm": 0.16457276786988467,
	"learning_rate": 0.00018831168831168828,
	"loss": 1.1442,
	"step": 145
	},
	{
	"epoch": 0.13006720138738348,
	"grad_norm": 0.15538288562486247,
	"learning_rate": 0.00019480519480519478,
	"loss": 1.1111,
	"step": 150
	},
	{
	"epoch": 0.13440277476696294,
	"grad_norm": 0.201009562048921,
	"learning_rate": 0.0002012987012987013,
	"loss": 1.1284,
	"step": 155
	},
	{
	"epoch": 0.13873834814654237,
	"grad_norm": 0.10830435883952598,
	"learning_rate": 0.00020779220779220778,
	"loss": 1.13,
	"step": 160
	},
	{
	"epoch": 0.14307392152612183,
	"grad_norm": 0.11463870554451829,
	"learning_rate": 0.00021428571428571427,
	"loss": 1.1146,
	"step": 165
	},
	{
	"epoch": 0.14740949490570127,
	"grad_norm": 0.12316133988511195,
	"learning_rate": 0.00022077922077922075,
	"loss": 1.1238,
	"step": 170
	},
	{
	"epoch": 0.15174506828528073,
	"grad_norm": 0.19826475153806197,
	"learning_rate": 0.00022727272727272725,
	"loss": 1.2731,
	"step": 175
	},
	{
	"epoch": 0.1560806416648602,
	"grad_norm": 0.928027899524197,
	"learning_rate": 0.00023376623376623374,
	"loss": 1.1896,
	"step": 180
	},
	{
	"epoch": 0.16041621504443962,
	"grad_norm": 67.14385763593648,
	"learning_rate": 0.00024025974025974024,
	"loss": 3.7592,
	"step": 185
	},
	{
	"epoch": 0.16475178842401908,
	"grad_norm": 172.25626988972317,
	"learning_rate": 0.00024675324675324674,
	"loss": 6.1514,
	"step": 190
	},
	{
	"epoch": 0.1690873618035985,
	"grad_norm": 8.384860694083399,
	"learning_rate": 0.0002532467532467532,
	"loss": 8.2367,
	"step": 195
	},
	{
	"epoch": 0.17342293518317797,
	"grad_norm": 15.817512331978708,
	"learning_rate": 0.00025974025974025974,
	"loss": 10.8846,
	"step": 200
	},
	{
	"epoch": 0.17775850856275743,
	"grad_norm": 3.4669948773987103,
	"learning_rate": 0.0002662337662337662,
	"loss": 9.8149,
	"step": 205
	},
	{
	"epoch": 0.18209408194233687,
	"grad_norm": 6.211867615520024,
	"learning_rate": 0.0002727272727272727,
	"loss": 10.4091,
	"step": 210
	},
	{
	"epoch": 0.18642965532191633,
	"grad_norm": 8.673657491918139,
	"learning_rate": 0.0002792207792207792,
	"loss": 10.3271,
	"step": 215
	},
	{
	"epoch": 0.19076522870149576,
	"grad_norm": 2.503560404486804,
	"learning_rate": 0.0002857142857142857,
	"loss": 12.6414,
	"step": 220
	},
	{
	"epoch": 0.19510080208107522,
	"grad_norm": 3.8638747380263703,
	"learning_rate": 0.00029220779220779215,
	"loss": 8.4926,
	"step": 225
	},
	{
	"epoch": 0.19943637546065468,
	"grad_norm": 1.0101210010336394,
	"learning_rate": 0.0002987012987012987,
	"loss": 7.6948,
	"step": 230
	},
	{
	"epoch": 0.2037719488402341,
	"grad_norm": 0.8467011565643021,
	"learning_rate": 0.0002999972492985145,
	"loss": 7.5188,
	"step": 235
	},
	{
	"epoch": 0.20810752221981357,
	"grad_norm": 0.5245296390809255,
	"learning_rate": 0.0002999860747466326,
	"loss": 7.4533,
	"step": 240
	},
	{
	"epoch": 0.212443095599393,
	"grad_norm": 0.42147554363918227,
	"learning_rate": 0.0002999663050653897,
	"loss": 7.4204,
	"step": 245
	},
	{
	"epoch": 0.21677866897897247,
	"grad_norm": 0.38921879090695144,
	"learning_rate": 0.00029993794138771085,
	"loss": 7.4012,
	"step": 250
	},
	{
	"epoch": 0.22111424235855193,
	"grad_norm": 0.2418087757057217,
	"learning_rate": 0.0002999009853390101,
	"loss": 7.3999,
	"step": 255
	},
	{
	"epoch": 0.22544981573813136,
	"grad_norm": 0.35618630058079676,
	"learning_rate": 0.0002998554390370975,
	"loss": 7.3883,
	"step": 260
	},
	{
	"epoch": 0.22978538911771082,
	"grad_norm": 0.18510696993654735,
	"learning_rate": 0.0002998013050920577,
	"loss": 7.3686,
	"step": 265
	},
	{
	"epoch": 0.23412096249729028,
	"grad_norm": 0.21788844504555988,
	"learning_rate": 0.0002997385866061005,
	"loss": 7.3719,
	"step": 270
	},
	{
	"epoch": 0.2384565358768697,
	"grad_norm": 0.2255775965595111,
	"learning_rate": 0.00029966728717338294,
	"loss": 7.3634,
	"step": 275
	},
	{
	"epoch": 0.24279210925644917,
	"grad_norm": 0.21067089388376176,
	"learning_rate": 0.0002995874108798032,
	"loss": 7.3456,
	"step": 280
	},
	{
	"epoch": 0.2471276826360286,
	"grad_norm": 0.1534328867763096,
	"learning_rate": 0.00029949896230276675,
	"loss": 7.3761,
	"step": 285
	},
	{
	"epoch": 0.25146325601560804,
	"grad_norm": 0.12732733473622673,
	"learning_rate": 0.000299401946510924,
	"loss": 7.3546,
	"step": 290
	},
	{
	"epoch": 0.2557988293951875,
	"grad_norm": 0.13550982122013763,
	"learning_rate": 0.0002992963690638794,
	"loss": 7.3462,
	"step": 295
	},
	{
	"epoch": 0.26013440277476696,
	"grad_norm": 0.17601177463870957,
	"learning_rate": 0.0002991822360118736,
	"loss": 7.3682,
	"step": 300
	},
	{
	"epoch": 0.2644699761543464,
	"grad_norm": 0.14421180444911577,
	"learning_rate": 0.00029905955389543604,
	"loss": 7.3557,
	"step": 305
	},
	{
	"epoch": 0.2688055495339259,
	"grad_norm": 0.185975203761939,
	"learning_rate": 0.00029892832974501044,
	"loss": 7.356,
	"step": 310
	},
	{
	"epoch": 0.2731411229135053,
	"grad_norm": 0.14867246915893478,
	"learning_rate": 0.00029878857108055185,
	"loss": 7.3347,
	"step": 315
	},
	{
	"epoch": 0.27747669629308475,
	"grad_norm": 0.1334709517444074,
	"learning_rate": 0.00029864028591109593,
	"loss": 7.375,
	"step": 320
	},
	{
	"epoch": 0.2818122696726642,
	"grad_norm": 0.1642667927001403,
	"learning_rate": 0.00029848348273429947,
	"loss": 7.3474,
	"step": 325
	},
	{
	"epoch": 0.28614784305224367,
	"grad_norm": 0.17688345956299092,
	"learning_rate": 0.0002983181705359541,
	"loss": 7.3567,
	"step": 330
	},
	{
	"epoch": 0.2904834164318231,
	"grad_norm": 0.16088931478744917,
	"learning_rate": 0.00029814435878947076,
	"loss": 7.3632,
	"step": 335
	},
	{
	"epoch": 0.29481898981140253,
	"grad_norm": 0.19798325540549802,
	"learning_rate": 0.000297962057455337,
	"loss": 7.3831,
	"step": 340
	},
	{
	"epoch": 0.299154563190982,
	"grad_norm": 0.1608484618987419,
	"learning_rate": 0.0002977712769805465,
	"loss": 7.3528,
	"step": 345
	},
	{
	"epoch": 0.30349013657056145,
	"grad_norm": 0.1484369817347631,
	"learning_rate": 0.00029757202829799986,
	"loss": 7.3502,
	"step": 350
	},
	{
	"epoch": 0.3078257099501409,
	"grad_norm": 0.22145679449709124,
	"learning_rate": 0.0002973643228258784,
	"loss": 7.3133,
	"step": 355
	},
	{
	"epoch": 0.3121612833297204,
	"grad_norm": 0.2122717500901206,
	"learning_rate": 0.0002971481724669898,
	"loss": 7.3684,
	"step": 360
	},
	{
	"epoch": 0.3164968567092998,
	"grad_norm": 0.14900310266228523,
	"learning_rate": 0.0002969235896080861,
	"loss": 7.3474,
	"step": 365
	},
	{
	"epoch": 0.32083243008887924,
	"grad_norm": 0.17278164384767145,
	"learning_rate": 0.0002966905871191534,
	"loss": 7.3683,
	"step": 370
	},
	{
	"epoch": 0.3251680034684587,
	"grad_norm": 0.20274199845375984,
	"learning_rate": 0.0002964491783526749,
	"loss": 7.3476,
	"step": 375
	},
	{
	"epoch": 0.32950357684803816,
	"grad_norm": 0.13540893972237644,
	"learning_rate": 0.00029619937714286547,
	"loss": 7.3424,
	"step": 380
	},
	{
	"epoch": 0.3338391502276176,
	"grad_norm": 0.16792713197591935,
	"learning_rate": 0.0002959411978048787,
	"loss": 7.3629,
	"step": 385
	},
	{
	"epoch": 0.338174723607197,
	"grad_norm": 0.16598160402305692,
	"learning_rate": 0.00029567465513398694,
	"loss": 7.3435,
	"step": 390
	},
	{
	"epoch": 0.3425102969867765,
	"grad_norm": 0.15743754774094762,
	"learning_rate": 0.00029539976440473304,
	"loss": 7.3405,
	"step": 395
	},
	{
	"epoch": 0.34684587036635595,
	"grad_norm": 0.1928431563375656,
	"learning_rate": 0.00029511654137005534,
	"loss": 7.3398,
	"step": 400
	},
	{
	"epoch": 0.3511814437459354,
	"grad_norm": 0.4234041342810784,
	"learning_rate": 0.00029482500226038467,
	"loss": 7.3163,
	"step": 405
	},
	{
	"epoch": 0.35551701712551487,
	"grad_norm": 1.6964467666559244,
	"learning_rate": 0.00029452516378271446,
	"loss": 7.4424,
	"step": 410
	},
	{
	"epoch": 0.35985259050509427,
	"grad_norm": 1.1952504992783122,
	"learning_rate": 0.00029421704311964316,
	"loss": 7.3051,
	"step": 415
	},
	{
	"epoch": 0.36418816388467373,
	"grad_norm": 0.9910699747566197,
	"learning_rate": 0.0002939006579283898,
	"loss": 7.1588,
	"step": 420
	},
	{
	"epoch": 0.3685237372642532,
	"grad_norm": 0.5010649163848268,
	"learning_rate": 0.00029357602633978185,
	"loss": 7.0579,
	"step": 425
	},
	{
	"epoch": 0.37285931064383265,
	"grad_norm": 0.3223794058961508,
	"learning_rate": 0.0002932431669572163,
	"loss": 6.9952,
	"step": 430
	},
	{
	"epoch": 0.3771948840234121,
	"grad_norm": 0.39385777708948017,
	"learning_rate": 0.00029290209885559363,
	"loss": 6.9317,
	"step": 435
	},
	{
	"epoch": 0.3815304574029915,
	"grad_norm": 0.6906673045815623,
	"learning_rate": 0.00029255284158022474,
	"loss": 6.9197,
	"step": 440
	},
	{
	"epoch": 0.385866030782571,
	"grad_norm": 0.5699230517220503,
	"learning_rate": 0.00029219541514571075,
	"loss": 6.9122,
	"step": 445
	},
	{
	"epoch": 0.39020160416215044,
	"grad_norm": 0.3399949766360826,
	"learning_rate": 0.00029182984003479613,
	"loss": 6.8496,
	"step": 450
	},
	{
	"epoch": 0.3945371775417299,
	"grad_norm": 0.46915620454457757,
	"learning_rate": 0.00029145613719719484,
	"loss": 6.8021,
	"step": 455
	},
	{
	"epoch": 0.39887275092130936,
	"grad_norm": 0.7795294645969753,
	"learning_rate": 0.0002910743280483899,
	"loss": 6.7266,
	"step": 460
	},
	{
	"epoch": 0.40320832430088877,
	"grad_norm": 1.1660550286252116,
	"learning_rate": 0.00029068443446840606,
	"loss": 6.8039,
	"step": 465
	},
	{
	"epoch": 0.4075438976804682,
	"grad_norm": 1.9954850065496847,
	"learning_rate": 0.0002902864788005559,
	"loss": 6.7036,
	"step": 470
	},
	{
	"epoch": 0.4118794710600477,
	"grad_norm": 1.3144540313281778,
	"learning_rate": 0.00028988048385015955,
	"loss": 6.6625,
	"step": 475
	},
	{
	"epoch": 0.41621504443962715,
	"grad_norm": 0.5550135068925496,
	"learning_rate": 0.00028946647288323766,
	"loss": 6.5448,
	"step": 480
	},
	{
	"epoch": 0.4205506178192066,
	"grad_norm": 0.30284368817332974,
	"learning_rate": 0.0002890444696251783,
	"loss": 6.4523,
	"step": 485
	},
	{
	"epoch": 0.424886191198786,
	"grad_norm": 0.5328756605828856,
	"learning_rate": 0.0002886144982593771,
	"loss": 6.3727,
	"step": 490
	},
	{
	"epoch": 0.4292217645783655,
	"grad_norm": 1.2843902165543528,
	"learning_rate": 0.0002881765834258516,
	"loss": 6.471,
	"step": 495
	},
	{
	"epoch": 0.43355733795794493,
	"grad_norm": 0.7139034044101961,
	"learning_rate": 0.00028773075021982917,
	"loss": 6.3271,
	"step": 500
	},
	{
	"epoch": 0.4378929113375244,
	"grad_norm": 0.41272252446113744,
	"learning_rate": 0.00028727702419030883,
	"loss": 6.2754,
	"step": 505
	},
	{
	"epoch": 0.44222848471710385,
	"grad_norm": 0.24680608205710353,
	"learning_rate": 0.00028681543133859716,
	"loss": 6.1946,
	"step": 510
	},
	{
	"epoch": 0.4465640580966833,
	"grad_norm": 0.9592076263299766,
	"learning_rate": 0.0002863459981168184,
	"loss": 6.1744,
	"step": 515
	},
	{
	"epoch": 0.4508996314762627,
	"grad_norm": 2.2348898675903532,
	"learning_rate": 0.0002858687514263983,
	"loss": 6.112,
	"step": 520
	},
	{
	"epoch": 0.4552352048558422,
	"grad_norm": 0.5214216239256872,
	"learning_rate": 0.00028538371861652284,
	"loss": 6.1034,
	"step": 525
	},
	{
	"epoch": 0.45957077823542164,
	"grad_norm": 0.6212645654417902,
	"learning_rate": 0.00028489092748257066,
	"loss": 6.0164,
	"step": 530
	},
	{
	"epoch": 0.4639063516150011,
	"grad_norm": 0.7124953084880589,
	"learning_rate": 0.0002843904062645204,
	"loss": 5.986,
	"step": 535
	},
	{
	"epoch": 0.46824192499458056,
	"grad_norm": 0.3376451437228419,
	"learning_rate": 0.0002838821836453323,
	"loss": 5.9095,
	"step": 540
	},
	{
	"epoch": 0.47257749837415997,
	"grad_norm": 2.464753993204931,
	"learning_rate": 0.0002833662887493045,
	"loss": 5.9207,
	"step": 545
	},
	{
	"epoch": 0.4769130717537394,
	"grad_norm": 0.8049577940385247,
	"learning_rate": 0.00028284275114040395,
	"loss": 5.9179,
	"step": 550
	},
	{
	"epoch": 0.4812486451333189,
	"grad_norm": 1.3390472579975088,
	"learning_rate": 0.0002823116008205725,
	"loss": 5.9107,
	"step": 555
	},
	{
	"epoch": 0.48558421851289835,
	"grad_norm": 0.6905384313954396,
	"learning_rate": 0.00028177286822800713,
	"loss": 5.796,
	"step": 560
	},
	{
	"epoch": 0.4899197918924778,
	"grad_norm": 2.8514904783073898,
	"learning_rate": 0.0002812265842354162,
	"loss": 5.7603,
	"step": 565
	},
	{
	"epoch": 0.4942553652720572,
	"grad_norm": 1.5555920419031897,
	"learning_rate": 0.0002806727801482498,
	"loss": 5.9134,
	"step": 570
	},
	{
	"epoch": 0.4985909386516367,
	"grad_norm": 0.8043247332715469,
	"learning_rate": 0.000280111487702906,
	"loss": 5.8254,
	"step": 575
	},
	{
	"epoch": 0.5029265120312161,
	"grad_norm": 0.5751977544216561,
	"learning_rate": 0.0002795427390649119,
	"loss": 5.7081,
	"step": 580
	},
	{
	"epoch": 0.5072620854107955,
	"grad_norm": 0.6822440874804724,
	"learning_rate": 0.00027896656682708094,
	"loss": 5.6121,
	"step": 585
	},
	{
	"epoch": 0.511597658790375,
	"grad_norm": 0.8797162911577192,
	"learning_rate": 0.0002783830040076444,
	"loss": 5.5998,
	"step": 590
	},
	{
	"epoch": 0.5159332321699545,
	"grad_norm": 0.4760553301829561,
	"learning_rate": 0.0002777920840483596,
	"loss": 5.5739,
	"step": 595
	},
	{
	"epoch": 0.5202688055495339,
	"grad_norm": 1.2070114825643932,
	"learning_rate": 0.0002771938408125936,
	"loss": 5.539,
	"step": 600
	},
	{
	"epoch": 0.5246043789291134,
	"grad_norm": 0.3589877318117702,
	"learning_rate": 0.00027658830858338245,
	"loss": 5.5504,
	"step": 605
	},
	{
	"epoch": 0.5289399523086928,
	"grad_norm": 0.7944121659454099,
	"learning_rate": 0.0002759755220614664,
	"loss": 5.5072,
	"step": 610
	},
	{
	"epoch": 0.5332755256882723,
	"grad_norm": 0.7202458729236075,
	"learning_rate": 0.00027535551636330175,
	"loss": 5.454,
	"step": 615
	},
	{
	"epoch": 0.5376110990678518,
	"grad_norm": 2.106706884389399,
	"learning_rate": 0.0002747283270190482,
	"loss": 5.4935,
	"step": 620
	},
	{
	"epoch": 0.5419466724474312,
	"grad_norm": 1.3364284227174121,
	"learning_rate": 0.0002740939899705327,
	"loss": 5.5994,
	"step": 625
	},
	{
	"epoch": 0.5462822458270106,
	"grad_norm": 0.6407462262016212,
	"learning_rate": 0.00027345254156918976,
	"loss": 5.5447,
	"step": 630
	},
	{
	"epoch": 0.55061781920659,
	"grad_norm": 0.7271335411877718,
	"learning_rate": 0.00027280401857397854,
	"loss": 5.4461,
	"step": 635
	},
	{
	"epoch": 0.5549533925861695,
	"grad_norm": 0.9256391048561129,
	"learning_rate": 0.0002721484581492762,
	"loss": 5.3663,
	"step": 640
	},
	{
	"epoch": 0.559288965965749,
	"grad_norm": 0.7708081453999853,
	"learning_rate": 0.00027148589786274793,
	"loss": 5.3796,
	"step": 645
	},
	{
	"epoch": 0.5636245393453284,
	"grad_norm": 0.7777461095797896,
	"learning_rate": 0.00027081637568319446,
	"loss": 5.2963,
	"step": 650
	},
	{
	"epoch": 0.5679601127249079,
	"grad_norm": 0.5329435487662679,
	"learning_rate": 0.00027013992997837585,
	"loss": 5.2219,
	"step": 655
	},
	{
	"epoch": 0.5722956861044873,
	"grad_norm": 0.6524870578047196,
	"learning_rate": 0.0002694565995128132,
	"loss": 5.2601,
	"step": 660
	},
	{
	"epoch": 0.5766312594840668,
	"grad_norm": 1.2050259366493623,
	"learning_rate": 0.0002687664234455667,
	"loss": 5.2788,
	"step": 665
	},
	{
	"epoch": 0.5809668328636463,
	"grad_norm": 0.6205369626056482,
	"learning_rate": 0.00026806944132799196,
	"loss": 5.1169,
	"step": 670
	},
	{
	"epoch": 0.5853024062432257,
	"grad_norm": 0.9580684303122623,
	"learning_rate": 0.0002673656931014735,
	"loss": 5.1311,
	"step": 675
	},
	{
	"epoch": 0.5896379796228051,
	"grad_norm": 0.9227742616515185,
	"learning_rate": 0.00026665521909513545,
	"loss": 5.1194,
	"step": 680
	},
	{
	"epoch": 0.5939735530023845,
	"grad_norm": 0.35677362077396757,
	"learning_rate": 0.00026593806002353086,
	"loss": 5.0662,
	"step": 685
	},
	{
	"epoch": 0.598309126381964,
	"grad_norm": 0.5456219742352171,
	"learning_rate": 0.0002652142569843083,
	"loss": 4.9998,
	"step": 690
	},
	{
	"epoch": 0.6026446997615434,
	"grad_norm": 2.0462321590818453,
	"learning_rate": 0.0002644838514558568,
	"loss": 5.0121,
	"step": 695
	},
	{
	"epoch": 0.6069802731411229,
	"grad_norm": 1.2389697363524088,
	"learning_rate": 0.00026374688529492887,
	"loss": 4.9563,
	"step": 700
	},
	{
	"epoch": 0.6113158465207024,
	"grad_norm": 0.6691025924761106,
	"learning_rate": 0.0002630034007342416,
	"loss": 4.9738,
	"step": 705
	},
	{
	"epoch": 0.6156514199002818,
	"grad_norm": 0.6906310139155549,
	"learning_rate": 0.00026225344038005707,
	"loss": 4.9986,
	"step": 710
	},
	{
	"epoch": 0.6199869932798613,
	"grad_norm": 0.9744576847003475,
	"learning_rate": 0.00026149704720974004,
	"loss": 4.9758,
	"step": 715
	},
	{
	"epoch": 0.6243225666594407,
	"grad_norm": 1.4069257744518648,
	"learning_rate": 0.0002607342645692955,
	"loss": 4.9898,
	"step": 720
	},
	{
	"epoch": 0.6286581400390202,
	"grad_norm": 1.2113043966119588,
	"learning_rate": 0.0002599651361708846,
	"loss": 4.947,
	"step": 725
	},
	{
	"epoch": 0.6329937134185996,
	"grad_norm": 0.7232403329008882,
	"learning_rate": 0.0002591897060903197,
	"loss": 4.8734,
	"step": 730
	},
	{
	"epoch": 0.637329286798179,
	"grad_norm": 0.5694346606113075,
	"learning_rate": 0.0002584080187645384,
	"loss": 4.8135,
	"step": 735
	},
	{
	"epoch": 0.6416648601777585,
	"grad_norm": 0.4648121706598134,
	"learning_rate": 0.00025762011898905723,
	"loss": 4.8169,
	"step": 740
	},
	{
	"epoch": 0.6460004335573379,
	"grad_norm": 0.57832813623837,
	"learning_rate": 0.00025682605191540447,
	"loss": 4.7676,
	"step": 745
	},
	{
	"epoch": 0.6503360069369174,
	"grad_norm": 0.690363584833736,
	"learning_rate": 0.00025602586304853265,
	"loss": 4.7134,
	"step": 750
	},
	{
	"epoch": 0.6546715803164969,
	"grad_norm": 0.2557886503788499,
	"learning_rate": 0.000255219598244211,
	"loss": 4.7075,
	"step": 755
	},
	{
	"epoch": 0.6590071536960763,
	"grad_norm": 0.7529134213339467,
	"learning_rate": 0.00025440730370639744,
	"loss": 4.65,
	"step": 760
	},
	{
	"epoch": 0.6633427270756558,
	"grad_norm": 0.5243957618805375,
	"learning_rate": 0.00025358902598459097,
	"loss": 4.6432,
	"step": 765
	},
	{
	"epoch": 0.6676783004552352,
	"grad_norm": 0.8067461754194933,
	"learning_rate": 0.00025276481197116397,
	"loss": 4.6508,
	"step": 770
	},
	{
	"epoch": 0.6720138738348147,
	"grad_norm": 1.2265176252828778,
	"learning_rate": 0.00025193470889867505,
	"loss": 4.6586,
	"step": 775
	},
	{
	"epoch": 0.676349447214394,
	"grad_norm": 1.0124995665289962,
	"learning_rate": 0.00025109876433716236,
	"loss": 4.5788,
	"step": 780
	},
	{
	"epoch": 0.6806850205939735,
	"grad_norm": 0.9858327008465355,
	"learning_rate": 0.0002502570261914174,
	"loss": 4.5459,
	"step": 785
	},
	{
	"epoch": 0.685020593973553,
	"grad_norm": 0.675937090658665,
	"learning_rate": 0.0002494095426982399,
	"loss": 4.5489,
	"step": 790
	},
	{
	"epoch": 0.6893561673531324,
	"grad_norm": 0.9300433002492945,
	"learning_rate": 0.0002485563624236736,
	"loss": 4.55,
	"step": 795
	},
	{
	"epoch": 0.6936917407327119,
	"grad_norm": 0.5489664608896133,
	"learning_rate": 0.0002476975342602229,
	"loss": 4.4796,
	"step": 800
	},
	{
	"epoch": 0.6980273141122914,
	"grad_norm": 0.826574591896581,
	"learning_rate": 0.00024683310742405106,
	"loss": 4.4609,
	"step": 805
	},
	{
	"epoch": 0.7023628874918708,
	"grad_norm": 1.1037971961437545,
	"learning_rate": 0.00024596313145216033,
	"loss": 4.5026,
	"step": 810
	},
	{
	"epoch": 0.7066984608714503,
	"grad_norm": 0.4898602321700531,
	"learning_rate": 0.0002450876561995523,
	"loss": 4.4346,
	"step": 815
	},
	{
	"epoch": 0.7110340342510297,
	"grad_norm": 0.5951952065642176,
	"learning_rate": 0.00024420673183637146,
	"loss": 4.4397,
	"step": 820
	},
	{
	"epoch": 0.7153696076306092,
	"grad_norm": 0.8199632042459121,
	"learning_rate": 0.00024332040884503023,
	"loss": 4.4169,
	"step": 825
	},
	{
	"epoch": 0.7197051810101885,
	"grad_norm": 0.7484859334102708,
	"learning_rate": 0.00024242873801731552,
	"loss": 4.4214,
	"step": 830
	},
	{
	"epoch": 0.724040754389768,
	"grad_norm": 0.3847206228382832,
	"learning_rate": 0.0002415317704514785,
	"loss": 4.4005,
	"step": 835
	},
	{
	"epoch": 0.7283763277693475,
	"grad_norm": 0.25033596262216246,
	"learning_rate": 0.0002406295575493061,
	"loss": 4.2858,
	"step": 840
	},
	{
	"epoch": 0.7327119011489269,
	"grad_norm": 0.6631031175545227,
	"learning_rate": 0.00023972215101317545,
	"loss": 4.2667,
	"step": 845
	},
	{
	"epoch": 0.7370474745285064,
	"grad_norm": 0.9152978939845885,
	"learning_rate": 0.00023880960284309116,
	"loss": 4.2363,
	"step": 850
	},
	{
	"epoch": 0.7413830479080858,
	"grad_norm": 1.6470126913016125,
	"learning_rate": 0.000237891965333705,
	"loss": 4.2788,
	"step": 855
	},
	{
	"epoch": 0.7457186212876653,
	"grad_norm": 0.9797191599004809,
	"learning_rate": 0.00023696929107131962,
	"loss": 4.3022,
	"step": 860
	},
	{
	"epoch": 0.7500541946672448,
	"grad_norm": 0.6420083064783988,
	"learning_rate": 0.00023604163293087447,
	"loss": 4.2127,
	"step": 865
	},
	{
	"epoch": 0.7543897680468242,
	"grad_norm": 0.3430659331012604,
	"learning_rate": 0.0002351090440729163,
	"loss": 4.183,
	"step": 870
	},
	{
	"epoch": 0.7587253414264037,
	"grad_norm": 0.5456932919947513,
	"learning_rate": 0.00023417157794055233,
	"loss": 4.1664,
	"step": 875
	},
	{
	"epoch": 0.763060914805983,
	"grad_norm": 0.6297764897631516,
	"learning_rate": 0.0002332292882563877,
	"loss": 4.1577,
	"step": 880
	},
	{
	"epoch": 0.7673964881855625,
	"grad_norm": 0.7190804662247191,
	"learning_rate": 0.00023228222901944693,
	"loss": 4.1005,
	"step": 885
	},
	{
	"epoch": 0.771732061565142,
	"grad_norm": 0.7661623579650987,
	"learning_rate": 0.00023133045450207952,
	"loss": 4.1292,
	"step": 890
	},
	{
	"epoch": 0.7760676349447214,
	"grad_norm": 1.0103277074141193,
	"learning_rate": 0.00023037401924684946,
	"loss": 4.1244,
	"step": 895
	},
	{
	"epoch": 0.7804032083243009,
	"grad_norm": 0.6247976412624747,
	"learning_rate": 0.0002294129780634101,
	"loss": 4.1062,
	"step": 900
	},
	{
	"epoch": 0.7847387817038803,
	"grad_norm": 0.6772595937883702,
	"learning_rate": 0.00022844738602536275,
	"loss": 4.0618,
	"step": 905
	},
	{
	"epoch": 0.7890743550834598,
	"grad_norm": 0.6184206318420459,
	"learning_rate": 0.00022747729846710085,
	"loss": 4.0676,
	"step": 910
	},
	{
	"epoch": 0.7934099284630393,
	"grad_norm": 0.638858720650207,
	"learning_rate": 0.0002265027709806391,
	"loss": 4.0643,
	"step": 915
	},
	{
	"epoch": 0.7977455018426187,
	"grad_norm": 0.6957940244542513,
	"learning_rate": 0.00022552385941242736,
	"loss": 4.0841,
	"step": 920
	},
	{
	"epoch": 0.8020810752221982,
	"grad_norm": 0.9335514321597355,
	"learning_rate": 0.00022454061986015047,
	"loss": 4.0154,
	"step": 925
	},
	{
	"epoch": 0.8064166486017775,
	"grad_norm": 0.4531070372158566,
	"learning_rate": 0.0002235531086695137,
	"loss": 3.9897,
	"step": 930
	},
	{
	"epoch": 0.810752221981357,
	"grad_norm": 0.9518970467477127,
	"learning_rate": 0.00022256138243101337,
	"loss": 3.9785,
	"step": 935
	},
	{
	"epoch": 0.8150877953609365,
	"grad_norm": 0.7222836717307966,
	"learning_rate": 0.00022156549797669434,
	"loss": 3.9408,
	"step": 940
	},
	{
	"epoch": 0.8194233687405159,
	"grad_norm": 0.4376277363109283,
	"learning_rate": 0.00022056551237689277,
	"loss": 3.9633,
	"step": 945
	},
	{
	"epoch": 0.8237589421200954,
	"grad_norm": 0.40106634394410035,
	"learning_rate": 0.00021956148293696584,
	"loss": 3.9324,
	"step": 950
	},
	{
	"epoch": 0.8280945154996748,
	"grad_norm": 0.4672307168059042,
	"learning_rate": 0.00021855346719400787,
	"loss": 3.9066,
	"step": 955
	},
	{
	"epoch": 0.8324300888792543,
	"grad_norm": 0.9110683889580367,
	"learning_rate": 0.00021754152291355284,
	"loss": 3.8493,
	"step": 960
	},
	{
	"epoch": 0.8367656622588338,
	"grad_norm": 0.8166157046078413,
	"learning_rate": 0.0002165257080862643,
	"loss": 3.8129,
	"step": 965
	},
	{
	"epoch": 0.8411012356384132,
	"grad_norm": 0.5406920005139866,
	"learning_rate": 0.00021550608092461208,
	"loss": 3.8946,
	"step": 970
	},
	{
	"epoch": 0.8454368090179927,
	"grad_norm": 0.9346807879316044,
	"learning_rate": 0.00021448269985953634,
	"loss": 3.8407,
	"step": 975
	},
	{
	"epoch": 0.849772382397572,
	"grad_norm": 0.5449137337223598,
	"learning_rate": 0.00021345562353709905,
	"loss": 3.8459,
	"step": 980
	},
	{
	"epoch": 0.8541079557771515,
	"grad_norm": 0.5017093393188926,
	"learning_rate": 0.00021242491081512329,
	"loss": 3.8334,
	"step": 985
	},
	{
	"epoch": 0.858443529156731,
	"grad_norm": 0.3346538476585638,
	"learning_rate": 0.00021139062075982038,
	"loss": 3.7552,
	"step": 990
	},
	{
	"epoch": 0.8627791025363104,
	"grad_norm": 0.3170992203885485,
	"learning_rate": 0.00021035281264240491,
	"loss": 3.7351,
	"step": 995
	},
	{
	"epoch": 0.8671146759158899,
	"grad_norm": 0.6053179178799784,
	"learning_rate": 0.00020931154593569813,
	"loss": 3.7225,
	"step": 1000
	},
	{
	"epoch": 0.8714502492954693,
	"grad_norm": 1.3058143067536492,
	"learning_rate": 0.00020826688031072,
	"loss": 3.7079,
	"step": 1005
	},
	{
	"epoch": 0.8757858226750488,
	"grad_norm": 0.5266184524547373,
	"learning_rate": 0.00020721887563326924,
	"loss": 3.7352,
	"step": 1010
	},
	{
	"epoch": 0.8801213960546282,
	"grad_norm": 0.420302054844465,
	"learning_rate": 0.0002061675919604932,
	"loss": 3.6589,
	"step": 1015
	},
	{
	"epoch": 0.8844569694342077,
	"grad_norm": 0.7488296555492675,
	"learning_rate": 0.00020511308953744578,
	"loss": 3.6358,
	"step": 1020
	},
	{
	"epoch": 0.8887925428137872,
	"grad_norm": 0.6601885350762652,
	"learning_rate": 0.0002040554287936352,
	"loss": 3.6682,
	"step": 1025
	},
	{
	"epoch": 0.8931281161933666,
	"grad_norm": 0.3880230100654199,
	"learning_rate": 0.000202994670339561,
	"loss": 3.6391,
	"step": 1030
	},
	{
	"epoch": 0.897463689572946,
	"grad_norm": 0.3917175363168505,
	"learning_rate": 0.00020193087496324068,
	"loss": 3.6016,
	"step": 1035
	},
	{
	"epoch": 0.9017992629525254,
	"grad_norm": 0.46356273931086533,
	"learning_rate": 0.00020086410362672608,
	"loss": 3.5906,
	"step": 1040
	},
	{
	"epoch": 0.9061348363321049,
	"grad_norm": 1.1143119522475413,
	"learning_rate": 0.00019979441746261007,
	"loss": 3.6533,
	"step": 1045
	},
	{
	"epoch": 0.9104704097116844,
	"grad_norm": 0.9967538144738599,
	"learning_rate": 0.0001987218777705231,
	"loss": 3.6323,
	"step": 1050
	},
	{
	"epoch": 0.9148059830912638,
	"grad_norm": 0.44096052107987527,
	"learning_rate": 0.0001976465460136204,
	"loss": 3.5632,
	"step": 1055
	},
	{
	"epoch": 0.9191415564708433,
	"grad_norm": 0.2828790472438776,
	"learning_rate": 0.0001965684838150598,
	"loss": 3.5499,
	"step": 1060
	},
	{
	"epoch": 0.9234771298504227,
	"grad_norm": 0.3974061570448302,
	"learning_rate": 0.00019548775295447047,
	"loss": 3.5173,
	"step": 1065
	},
	{
	"epoch": 0.9278127032300022,
	"grad_norm": 0.33203900964680516,
	"learning_rate": 0.00019440441536441202,
	"loss": 3.514,
	"step": 1070
	},
	{
	"epoch": 0.9321482766095817,
	"grad_norm": 0.5937750161188399,
	"learning_rate": 0.00019331853312682613,
	"loss": 3.4923,
	"step": 1075
	},
	{
	"epoch": 0.9364838499891611,
	"grad_norm": 0.45882557948133224,
	"learning_rate": 0.00019223016846947843,
	"loss": 3.4693,
	"step": 1080
	},
	{
	"epoch": 0.9408194233687405,
	"grad_norm": 0.49337347425087247,
	"learning_rate": 0.00019113938376239247,
	"loss": 3.4604,
	"step": 1085
	},
	{
	"epoch": 0.9451549967483199,
	"grad_norm": 0.35941699726534343,
	"learning_rate": 0.00019004624151427568,
	"loss": 3.4682,
	"step": 1090
	},
	{
	"epoch": 0.9494905701278994,
	"grad_norm": 0.30818796537571425,
	"learning_rate": 0.0001889508043689372,
	"loss": 3.4252,
	"step": 1095
	},
	{
	"epoch": 0.9538261435074789,
	"grad_norm": 0.7001199109738344,
	"learning_rate": 0.00018785313510169782,
	"loss": 3.4065,
	"step": 1100
	},
	{
	"epoch": 0.9581617168870583,
	"grad_norm": 0.9768195615514486,
	"learning_rate": 0.0001867532966157929,
	"loss": 3.4084,
	"step": 1105
	},
	{
	"epoch": 0.9624972902666378,
	"grad_norm": 0.5379630797492526,
	"learning_rate": 0.0001856513519387673,
	"loss": 3.4402,
	"step": 1110
	},
	{
	"epoch": 0.9668328636462172,
	"grad_norm": 0.6853314266411482,
	"learning_rate": 0.0001845473642188637,
	"loss": 3.411,
	"step": 1115
	},
	{
	"epoch": 0.9711684370257967,
	"grad_norm": 0.28464215705198403,
	"learning_rate": 0.00018344139672140384,
	"loss": 3.396,
	"step": 1120
	},
	{
	"epoch": 0.9755040104053762,
	"grad_norm": 0.3931004534338328,
	"learning_rate": 0.00018233351282516283,
	"loss": 3.3599,
	"step": 1125
	},
	{
	"epoch": 0.9798395837849556,
	"grad_norm": 0.4836933366464829,
	"learning_rate": 0.00018122377601873733,
	"loss": 3.3365,
	"step": 1130
	},
	{
	"epoch": 0.984175157164535,
	"grad_norm": 0.4500537170978018,
	"learning_rate": 0.00018011224989690727,
	"loss": 3.3036,
	"step": 1135
	},
	{
	"epoch": 0.9885107305441144,
	"grad_norm": 0.2859298083164817,
	"learning_rate": 0.00017899899815699134,
	"loss": 3.2616,
	"step": 1140
	},
	{
	"epoch": 0.9928463039236939,
	"grad_norm": 0.7548873266247055,
	"learning_rate": 0.00017788408459519674,
	"loss": 3.2599,
	"step": 1145
	},
	{
	"epoch": 0.9971818773032733,
	"grad_norm": 0.32602384410109714,
	"learning_rate": 0.00017676757310296356,
	"loss": 3.2946,
	"step": 1150
	},
	{
	"epoch": 1.0008671146759158,
	"grad_norm": 1.0724922966955157,
	"learning_rate": 0.00017564952766330308,
	"loss": 3.2325,
	"step": 1155
	},
	{
	"epoch": 1.0052026880554954,
	"grad_norm": 0.3056819985122965,
	"learning_rate": 0.00017453001234713107,
	"loss": 3.2937,
	"step": 1160
	},
	{
	"epoch": 1.0095382614350747,
	"grad_norm": 0.36438507475227383,
	"learning_rate": 0.0001734090913095966,
	"loss": 3.2332,
	"step": 1165
	},
	{
	"epoch": 1.0138738348146543,
	"grad_norm": 0.30915725984980597,
	"learning_rate": 0.00017228682878640508,
	"loss": 3.2364,
	"step": 1170
	},
	{
	"epoch": 1.0182094081942337,
	"grad_norm": 0.33647494500052355,
	"learning_rate": 0.0001711632890901374,
	"loss": 3.2003,
	"step": 1175
	},
	{
	"epoch": 1.0225449815738132,
	"grad_norm": 0.312162857766132,
	"learning_rate": 0.00017003853660656435,
	"loss": 3.1807,
	"step": 1180
	},
	{
	"epoch": 1.0268805549533926,
	"grad_norm": 0.28432133622360134,
	"learning_rate": 0.00016891263579095698,
	"loss": 3.1668,
	"step": 1185
	},
	{
	"epoch": 1.031216128332972,
	"grad_norm": 0.27204342913825097,
	"learning_rate": 0.0001677856511643928,
	"loss": 3.1283,
	"step": 1190
	},
	{
	"epoch": 1.0355517017125515,
	"grad_norm": 0.47073942395246565,
	"learning_rate": 0.00016665764731005838,
	"loss": 3.0741,
	"step": 1195
	},
	{
	"epoch": 1.0398872750921309,
	"grad_norm": 0.48701637427424527,
	"learning_rate": 0.0001655286888695484,
	"loss": 3.079,
	"step": 1200
	},
	{
	"epoch": 1.0442228484717104,
	"grad_norm": 0.43725300587861615,
	"learning_rate": 0.0001643988405391612,
	"loss": 3.1095,
	"step": 1205
	},
	{
	"epoch": 1.0485584218512898,
	"grad_norm": 0.4519430510361337,
	"learning_rate": 0.00016326816706619136,
	"loss": 3.0779,
	"step": 1210
	},
	{
	"epoch": 1.0528939952308694,
	"grad_norm": 0.3697980433575495,
	"learning_rate": 0.00016213673324521913,
	"loss": 3.1321,
	"step": 1215
	},
	{
	"epoch": 1.0572295686104487,
	"grad_norm": 0.3772355822034261,
	"learning_rate": 0.00016100460391439749,
	"loss": 3.0517,
	"step": 1220
	},
	{
	"epoch": 1.0615651419900283,
	"grad_norm": 0.3795892280711555,
	"learning_rate": 0.0001598718439517364,
	"loss": 3.0278,
	"step": 1225
	},
	{
	"epoch": 1.0659007153696076,
	"grad_norm": 0.2889179402680778,
	"learning_rate": 0.0001587385182713849,
	"loss": 3.0402,
	"step": 1230
	},
	{
	"epoch": 1.0702362887491872,
	"grad_norm": 0.3755593221213261,
	"learning_rate": 0.0001576046918199112,
	"loss": 2.994,
	"step": 1235
	},
	{
	"epoch": 1.0745718621287665,
	"grad_norm": 0.3476317696753179,
	"learning_rate": 0.0001564704295725808,
	"loss": 3.0468,
	"step": 1240
	},
	{
	"epoch": 1.078907435508346,
	"grad_norm": 0.32852407166347947,
	"learning_rate": 0.00015533579652963288,
	"loss": 2.9539,
	"step": 1245
	},
	{
	"epoch": 1.0832430088879255,
	"grad_norm": 0.1822141394179994,
	"learning_rate": 0.00015420085771255566,
	"loss": 3.0026,
	"step": 1250
	},
	{
	"epoch": 1.0875785822675048,
	"grad_norm": 0.270319630849222,
	"learning_rate": 0.00015306567816036006,
	"loss": 2.976,
	"step": 1255
	},
	{
	"epoch": 1.0919141556470844,
	"grad_norm": 0.5149999760979279,
	"learning_rate": 0.00015193032292585247,
	"loss": 2.9326,
	"step": 1260
	},
	{
	"epoch": 1.0962497290266637,
	"grad_norm": 0.4445856562229245,
	"learning_rate": 0.00015079485707190717,
	"loss": 2.9483,
	"step": 1265
	},
	{
	"epoch": 1.1005853024062433,
	"grad_norm": 0.5660752187512902,
	"learning_rate": 0.00014965934566773753,
	"loss": 2.9209,
	"step": 1270
	},
	{
	"epoch": 1.1049208757858227,
	"grad_norm": 0.36107453692493174,
	"learning_rate": 0.00014852385378516712,
	"loss": 2.9059,
	"step": 1275
	},
	{
	"epoch": 1.1092564491654022,
	"grad_norm": 0.8307960065897146,
	"learning_rate": 0.00014738844649490106,
	"loss": 2.9135,
	"step": 1280
	},
	{
	"epoch": 1.1135920225449816,
	"grad_norm": 0.32930556448154574,
	"learning_rate": 0.0001462531888627966,
	"loss": 2.931,
	"step": 1285
	},
	{
	"epoch": 1.117927595924561,
	"grad_norm": 0.45094251331146196,
	"learning_rate": 0.00014511814594613461,
	"loss": 2.8794,
	"step": 1290
	},
	{
	"epoch": 1.1222631693041405,
	"grad_norm": 1.1023315045514466,
	"learning_rate": 0.00014398338278989167,
	"loss": 2.8964,
	"step": 1295
	},
	{
	"epoch": 1.1265987426837198,
	"grad_norm": 0.6884577647184886,
	"learning_rate": 0.00014284896442301218,
	"loss": 2.9186,
	"step": 1300
	},
	{
	"epoch": 1.1309343160632994,
	"grad_norm": 0.6853011714731221,
	"learning_rate": 0.00014171495585468195,
	"loss": 2.9093,
	"step": 1305
	},
	{
	"epoch": 1.1352698894428788,
	"grad_norm": 0.4444521764738651,
	"learning_rate": 0.000140581422070603,
	"loss": 2.8949,
	"step": 1310
	},
	{
	"epoch": 1.1396054628224583,
	"grad_norm": 0.36607451431757926,
	"learning_rate": 0.00013944842802926904,
	"loss": 2.8727,
	"step": 1315
	},
	{
	"epoch": 1.1439410362020377,
	"grad_norm": 0.20621050239222513,
	"learning_rate": 0.00013831603865824328,
	"loss": 2.8068,
	"step": 1320
	},
	{
	"epoch": 1.1482766095816173,
	"grad_norm": 0.29548591941866714,
	"learning_rate": 0.00013718431885043772,
	"loss": 2.8033,
	"step": 1325
	},
	{
	"epoch": 1.1526121829611966,
	"grad_norm": 0.3480007759133749,
	"learning_rate": 0.000136053333460394,
	"loss": 2.8303,
	"step": 1330
	},
	{
	"epoch": 1.156947756340776,
	"grad_norm": 0.2962266371943945,
	"learning_rate": 0.0001349231473005673,
	"loss": 2.7893,
	"step": 1335
	},
	{
	"epoch": 1.1612833297203555,
	"grad_norm": 0.23448406684507436,
	"learning_rate": 0.00013379382513761175,
	"loss": 2.7797,
	"step": 1340
	},
	{
	"epoch": 1.1656189030999349,
	"grad_norm": 0.3234043699614117,
	"learning_rate": 0.00013266543168866934,
	"loss": 2.7607,
	"step": 1345
	},
	{
	"epoch": 1.1699544764795144,
	"grad_norm": 0.3404947812121631,
	"learning_rate": 0.0001315380316176609,
	"loss": 2.7567,
	"step": 1350
	},
	{
	"epoch": 1.1742900498590938,
	"grad_norm": 0.6066048669028199,
	"learning_rate": 0.0001304116895315805,
	"loss": 2.7501,
	"step": 1355
	},
	{
	"epoch": 1.1786256232386734,
	"grad_norm": 0.44548332421799974,
	"learning_rate": 0.00012928646997679326,
	"loss": 2.7475,
	"step": 1360
	},
	{
	"epoch": 1.1829611966182527,
	"grad_norm": 0.3939467687702201,
	"learning_rate": 0.00012816243743533624,
	"loss": 2.7117,
	"step": 1365
	},
	{
	"epoch": 1.1872967699978323,
	"grad_norm": 0.3011307288220261,
	"learning_rate": 0.00012703965632122327,
	"loss": 2.7543,
	"step": 1370
	},
	{
	"epoch": 1.1916323433774116,
	"grad_norm": 0.22501315848677994,
	"learning_rate": 0.00012591819097675382,
	"loss": 2.7462,
	"step": 1375
	},
	{
	"epoch": 1.1959679167569912,
	"grad_norm": 0.32722976515069685,
	"learning_rate": 0.0001247981056688254,
	"loss": 2.6968,
	"step": 1380
	},
	{
	"epoch": 1.2003034901365706,
	"grad_norm": 0.1590488680202715,
	"learning_rate": 0.00012367946458525099,
	"loss": 2.7045,
	"step": 1385
	},
	{
	"epoch": 1.20463906351615,
	"grad_norm": 0.3152582769975424,
	"learning_rate": 0.00012256233183108068,
	"loss": 2.6789,
	"step": 1390
	},
	{
	"epoch": 1.2089746368957295,
	"grad_norm": 0.22965781079535302,
	"learning_rate": 0.00012144677142492789,
	"loss": 2.7101,
	"step": 1395
	},
	{
	"epoch": 1.2133102102753088,
	"grad_norm": 0.4684583447317611,
	"learning_rate": 0.00012033284729530057,
	"loss": 2.6259,
	"step": 1400
	},
	{
	"epoch": 1.2176457836548884,
	"grad_norm": 0.22363991138693204,
	"learning_rate": 0.00011922062327693832,
	"loss": 2.6717,
	"step": 1405
	},
	{
	"epoch": 1.2219813570344678,
	"grad_norm": 0.33497001761272166,
	"learning_rate": 0.00011811016310715355,
	"loss": 2.6517,
	"step": 1410
	},
	{
	"epoch": 1.2263169304140473,
	"grad_norm": 0.20548859646502277,
	"learning_rate": 0.00011700153042217931,
	"loss": 2.6677,
	"step": 1415
	},
	{
	"epoch": 1.2306525037936267,
	"grad_norm": 0.2652083246967948,
	"learning_rate": 0.00011589478875352255,
	"loss": 2.6543,
	"step": 1420
	},
	{
	"epoch": 1.2349880771732062,
	"grad_norm": 0.2529645672839692,
	"learning_rate": 0.00011479000152432319,
	"loss": 2.6205,
	"step": 1425
	},
	{
	"epoch": 1.2393236505527856,
	"grad_norm": 0.2601375038926653,
	"learning_rate": 0.0001136872320457197,
	"loss": 2.6102,
	"step": 1430
	},
	{
	"epoch": 1.2436592239323652,
	"grad_norm": 0.19250161537810334,
	"learning_rate": 0.00011258654351322107,
	"loss": 2.631,
	"step": 1435
	},
	{
	"epoch": 1.2479947973119445,
	"grad_norm": 0.35217150816617415,
	"learning_rate": 0.00011148799900308509,
	"loss": 2.6013,
	"step": 1440
	},
	{
	"epoch": 1.2523303706915239,
	"grad_norm": 0.8877189979150436,
	"learning_rate": 0.00011039166146870383,
	"loss": 2.6335,
	"step": 1445
	},
	{
	"epoch": 1.2566659440711034,
	"grad_norm": 0.6027781279490154,
	"learning_rate": 0.00010929759373699613,
	"loss": 2.6011,
	"step": 1450
	},
	{
	"epoch": 1.2610015174506828,
	"grad_norm": 0.29684477637886336,
	"learning_rate": 0.00010820585850480696,
	"loss": 2.6083,
	"step": 1455
	},
	{
	"epoch": 1.2653370908302624,
	"grad_norm": 0.22866123103951785,
	"learning_rate": 0.00010711651833531463,
	"loss": 2.6249,
	"step": 1460
	},
	{
	"epoch": 1.2696726642098417,
	"grad_norm": 0.2570183068878416,
	"learning_rate": 0.00010602963565444577,
	"loss": 2.5858,
	"step": 1465
	},
	{
	"epoch": 1.2740082375894213,
	"grad_norm": 0.31391058369721064,
	"learning_rate": 0.00010494527274729748,
	"loss": 2.5606,
	"step": 1470
	},
	{
	"epoch": 1.2783438109690006,
	"grad_norm": 0.3203458432202096,
	"learning_rate": 0.00010386349175456825,
	"loss": 2.5637,
	"step": 1475
	},
	{
	"epoch": 1.28267938434858,
	"grad_norm": 0.30834075039079006,
	"learning_rate": 0.00010278435466899714,
	"loss": 2.6011,
	"step": 1480
	},
	{
	"epoch": 1.2870149577281595,
	"grad_norm": 0.22399943173892975,
	"learning_rate": 0.00010170792333181084,
	"loss": 2.5288,
	"step": 1485
	},
	{
	"epoch": 1.2913505311077391,
	"grad_norm": 0.3319547375893817,
	"learning_rate": 0.00010063425942917974,
	"loss": 2.5375,
	"step": 1490
	},
	{
	"epoch": 1.2956861044873185,
	"grad_norm": 0.3315527934802732,
	"learning_rate": 9.956342448868354e-05,
	"loss": 2.5274,
	"step": 1495
	},
	{
	"epoch": 1.3000216778668978,
	"grad_norm": 0.3580645974138616,
	"learning_rate": 9.849547987578457e-05,
	"loss": 2.5585,
	"step": 1500
	},
	{
	"epoch": 1.3043572512464774,
	"grad_norm": 0.2780635499992022,
	"learning_rate": 9.743048679031163e-05,
	"loss": 2.5291,
	"step": 1505
	},
	{
	"epoch": 1.3086928246260567,
	"grad_norm": 0.40375989395133016,
	"learning_rate": 9.636850626295282e-05,
	"loss": 2.517,
	"step": 1510
	},
	{
	"epoch": 1.3130283980056363,
	"grad_norm": 0.3527800248976021,
	"learning_rate": 9.530959915175796e-05,
	"loss": 2.5277,
	"step": 1515
	},
	{
	"epoch": 1.3173639713852157,
	"grad_norm": 0.23822673694395258,
	"learning_rate": 9.425382613865107e-05,
	"loss": 2.5014,
	"step": 1520
	},
	{
	"epoch": 1.3216995447647952,
	"grad_norm": 0.1747138201174964,
	"learning_rate": 9.32012477259531e-05,
	"loss": 2.4866,
	"step": 1525
	},
	{
	"epoch": 1.3260351181443746,
	"grad_norm": 0.1954668050935581,
	"learning_rate": 9.215192423291463e-05,
	"loss": 2.5021,
	"step": 1530
	},
	{
	"epoch": 1.330370691523954,
	"grad_norm": 0.19057547870092642,
	"learning_rate": 9.110591579225906e-05,
	"loss": 2.5044,
	"step": 1535
	},
	{
	"epoch": 1.3347062649035335,
	"grad_norm": 0.2745708957809259,
	"learning_rate": 9.006328234673701e-05,
	"loss": 2.5073,
	"step": 1540
	},
	{
	"epoch": 1.339041838283113,
	"grad_norm": 0.20139794408374664,
	"learning_rate": 8.90240836456909e-05,
	"loss": 2.5033,
	"step": 1545
	},
	{
	"epoch": 1.3433774116626924,
	"grad_norm": 0.201183788959332,
	"learning_rate": 8.798837924163098e-05,
	"loss": 2.4782,
	"step": 1550
	},
	{
	"epoch": 1.3477129850422718,
	"grad_norm": 0.3799911989499351,
	"learning_rate": 8.695622848682291e-05,
	"loss": 2.4951,
	"step": 1555
	},
	{
	"epoch": 1.3520485584218513,
	"grad_norm": 0.1990146960863876,
	"learning_rate": 8.592769052988607e-05,
	"loss": 2.4901,
	"step": 1560
	},
	{
	"epoch": 1.3563841318014307,
	"grad_norm": 0.34068891992062217,
	"learning_rate": 8.490282431240416e-05,
	"loss": 2.4522,
	"step": 1565
	},
	{
	"epoch": 1.3607197051810103,
	"grad_norm": 0.2291955529635031,
	"learning_rate": 8.388168856554777e-05,
	"loss": 2.4203,
	"step": 1570
	},
	{
	"epoch": 1.3650552785605896,
	"grad_norm": 0.3248337694954652,
	"learning_rate": 8.286434180670822e-05,
	"loss": 2.4868,
	"step": 1575
	},
	{
	"epoch": 1.3693908519401692,
	"grad_norm": 0.2990054213661462,
	"learning_rate": 8.185084233614444e-05,
	"loss": 2.4363,
	"step": 1580
	},
	{
	"epoch": 1.3737264253197485,
	"grad_norm": 0.233583205490779,
	"learning_rate": 8.084124823364204e-05,
	"loss": 2.4807,
	"step": 1585
	},
	{
	"epoch": 1.3780619986993279,
	"grad_norm": 0.2518607909224173,
	"learning_rate": 7.983561735518474e-05,
	"loss": 2.4358,
	"step": 1590
	},
	{
	"epoch": 1.3823975720789075,
	"grad_norm": 0.19984297609600038,
	"learning_rate": 7.883400732963913e-05,
	"loss": 2.478,
	"step": 1595
	},
	{
	"epoch": 1.3867331454584868,
	"grad_norm": 0.1648080690690456,
	"learning_rate": 7.783647555545217e-05,
	"loss": 2.442,
	"step": 1600
	},
	{
	"epoch": 1.3910687188380664,
	"grad_norm": 0.17610648998979445,
	"learning_rate": 7.684307919736158e-05,
	"loss": 2.41,
	"step": 1605
	},
	{
	"epoch": 1.3954042922176457,
	"grad_norm": 0.14818666921811272,
	"learning_rate": 7.585387518312028e-05,
	"loss": 2.4206,
	"step": 1610
	},
	{
	"epoch": 1.3997398655972253,
	"grad_norm": 0.2001322045633342,
	"learning_rate": 7.486892020023406e-05,
	"loss": 2.3821,
	"step": 1615
	},
	{
	"epoch": 1.4040754389768046,
	"grad_norm": 0.2200377253653553,
	"learning_rate": 7.388827069271276e-05,
	"loss": 2.4257,
	"step": 1620
	},
	{
	"epoch": 1.408411012356384,
	"grad_norm": 0.1844230292041018,
	"learning_rate": 7.291198285783602e-05,
	"loss": 2.4135,
	"step": 1625
	},
	{
	"epoch": 1.4127465857359636,
	"grad_norm": 0.1929745133150067,
	"learning_rate": 7.194011264293254e-05,
	"loss": 2.3777,
	"step": 1630
	},
	{
	"epoch": 1.4170821591155431,
	"grad_norm": 0.2915968829982784,
	"learning_rate": 7.097271574217421e-05,
	"loss": 2.4181,
	"step": 1635
	},
	{
	"epoch": 1.4214177324951225,
	"grad_norm": 0.269578671519446,
	"learning_rate": 7.000984759338422e-05,
	"loss": 2.3788,
	"step": 1640
	},
	{
	"epoch": 1.4257533058747018,
	"grad_norm": 0.19512593934978045,
	"learning_rate": 6.905156337486045e-05,
	"loss": 2.391,
	"step": 1645
	},
	{
	"epoch": 1.4300888792542814,
	"grad_norm": 0.2593023962861574,
	"learning_rate": 6.809791800221313e-05,
	"loss": 2.3963,
	"step": 1650
	},
	{
	"epoch": 1.4344244526338608,
	"grad_norm": 0.14901754063689115,
	"learning_rate": 6.714896612521794e-05,
	"loss": 2.3976,
	"step": 1655
	},
	{
	"epoch": 1.4387600260134403,
	"grad_norm": 0.302187906502475,
	"learning_rate": 6.620476212468424e-05,
	"loss": 2.4194,
	"step": 1660
	},
	{
	"epoch": 1.4430955993930197,
	"grad_norm": 0.24180384264466487,
	"learning_rate": 6.526536010933874e-05,
	"loss": 2.4295,
	"step": 1665
	},
	{
	"epoch": 1.4474311727725993,
	"grad_norm": 0.22169225675339646,
	"learning_rate": 6.433081391272467e-05,
	"loss": 2.3976,
	"step": 1670
	},
	{
	"epoch": 1.4517667461521786,
	"grad_norm": 0.2799481789977155,
	"learning_rate": 6.340117709011693e-05,
	"loss": 2.392,
	"step": 1675
	},
	{
	"epoch": 1.456102319531758,
	"grad_norm": 0.28103864837065845,
	"learning_rate": 6.247650291545287e-05,
	"loss": 2.3708,
	"step": 1680
	},
	{
	"epoch": 1.4604378929113375,
	"grad_norm": 0.24593789213337805,
	"learning_rate": 6.155684437827931e-05,
	"loss": 2.4043,
	"step": 1685
	},
	{
	"epoch": 1.464773466290917,
	"grad_norm": 0.19968974812237159,
	"learning_rate": 6.064225418071632e-05,
	"loss": 2.3784,
	"step": 1690
	},
	{
	"epoch": 1.4691090396704964,
	"grad_norm": 0.2665198920246072,
	"learning_rate": 5.9732784734436554e-05,
	"loss": 2.387,
	"step": 1695
	},
	{
	"epoch": 1.4734446130500758,
	"grad_norm": 0.33954513870533093,
	"learning_rate": 5.882848815766189e-05,
	"loss": 2.3659,
	"step": 1700
	},
	{
	"epoch": 1.4777801864296554,
	"grad_norm": 0.3174285529770626,
	"learning_rate": 5.792941627217707e-05,
	"loss": 2.3703,
	"step": 1705
	},
	{
	"epoch": 1.4821157598092347,
	"grad_norm": 0.21514280209891976,
	"learning_rate": 5.703562060035951e-05,
	"loss": 2.3311,
	"step": 1710
	},
	{
	"epoch": 1.4864513331888143,
	"grad_norm": 0.26026170716900454,
	"learning_rate": 5.614715236222702e-05,
	"loss": 2.3534,
	"step": 1715
	},
	{
	"epoch": 1.4907869065683936,
	"grad_norm": 0.2072827021307388,
	"learning_rate": 5.52640624725026e-05,
	"loss": 2.362,
	"step": 1720
	},
	{
	"epoch": 1.4951224799479732,
	"grad_norm": 0.18636459137372047,
	"learning_rate": 5.4386401537696536e-05,
	"loss": 2.367,
	"step": 1725
	},
	{
	"epoch": 1.4994580533275526,
	"grad_norm": 0.2616321440338591,
	"learning_rate": 5.3514219853206464e-05,
	"loss": 2.3517,
	"step": 1730
	},
	{
	"epoch": 1.503793626707132,
	"grad_norm": 0.17660365833901004,
	"learning_rate": 5.264756740043511e-05,
	"loss": 2.3366,
	"step": 1735
	},
	{
	"epoch": 1.5081292000867115,
	"grad_norm": 0.14325753486785228,
	"learning_rate": 5.178649384392603e-05,
	"loss": 2.3628,
	"step": 1740
	},
	{
	"epoch": 1.512464773466291,
	"grad_norm": 0.16306886697377787,
	"learning_rate": 5.093104852851749e-05,
	"loss": 2.3403,
	"step": 1745
	},
	{
	"epoch": 1.5168003468458704,
	"grad_norm": 0.17105852766007526,
	"learning_rate": 5.008128047651488e-05,
	"loss": 2.3193,
	"step": 1750
	},
	{
	"epoch": 1.5211359202254497,
	"grad_norm": 0.20749830784985143,
	"learning_rate": 4.923723838488117e-05,
	"loss": 2.3519,
	"step": 1755
	},
	{
	"epoch": 1.5254714936050293,
	"grad_norm": 0.3157660095405772,
	"learning_rate": 4.839897062244638e-05,
	"loss": 2.3197,
	"step": 1760
	},
	{
	"epoch": 1.5298070669846087,
	"grad_norm": 0.18219178823449922,
	"learning_rate": 4.756652522713599e-05,
	"loss": 2.3279,
	"step": 1765
	},
	{
	"epoch": 1.534142640364188,
	"grad_norm": 0.12524649727104128,
	"learning_rate": 4.673994990321752e-05,
	"loss": 2.3019,
	"step": 1770
	},
	{
	"epoch": 1.5384782137437676,
	"grad_norm": 0.1636956452865002,
	"learning_rate": 4.591929201856727e-05,
	"loss": 2.2859,
	"step": 1775
	},
	{
	"epoch": 1.5428137871233472,
	"grad_norm": 0.21967450962811522,
	"learning_rate": 4.5104598601955805e-05,
	"loss": 2.3095,
	"step": 1780
	},
	{
	"epoch": 1.5471493605029265,
	"grad_norm": 0.19863296073280773,
	"learning_rate": 4.4295916340352625e-05,
	"loss": 2.2826,
	"step": 1785
	},
	{
	"epoch": 1.5514849338825059,
	"grad_norm": 0.15602204927659435,
	"learning_rate": 4.349329157625088e-05,
	"loss": 2.3522,
	"step": 1790
	},
	{
	"epoch": 1.5558205072620854,
	"grad_norm": 0.15284396668890557,
	"learning_rate": 4.269677030501184e-05,
	"loss": 2.3546,
	"step": 1795
	},
	{
	"epoch": 1.560156080641665,
	"grad_norm": 0.16000621000672735,
	"learning_rate": 4.1906398172228704e-05,
	"loss": 2.3456,
	"step": 1800
	},
	{
	"epoch": 1.5644916540212443,
	"grad_norm": 0.5401953444913549,
	"learning_rate": 4.112222047111111e-05,
	"loss": 2.3475,
	"step": 1805
	},
	{
	"epoch": 1.5688272274008237,
	"grad_norm": 0.18490516183802747,
	"learning_rate": 4.034428213988946e-05,
	"loss": 2.3064,
	"step": 1810
	},
	{
	"epoch": 1.5731628007804033,
	"grad_norm": 0.2648705938773556,
	"learning_rate": 3.957262775923969e-05,
	"loss": 2.3087,
	"step": 1815
	},
	{
	"epoch": 1.5774983741599826,
	"grad_norm": 0.20317358607574193,
	"learning_rate": 3.8807301549728435e-05,
	"loss": 2.292,
	"step": 1820
	},
	{
	"epoch": 1.581833947539562,
	"grad_norm": 0.18781915869958946,
	"learning_rate": 3.804834736927918e-05,
	"loss": 2.3321,
	"step": 1825
	},
	{
	"epoch": 1.5861695209191415,
	"grad_norm": 0.22963664052911378,
	"learning_rate": 3.7295808710658594e-05,
	"loss": 2.3105,
	"step": 1830
	},
	{
	"epoch": 1.5905050942987211,
	"grad_norm": 0.16547609467569466,
	"learning_rate": 3.654972869898435e-05,
	"loss": 2.3441,
	"step": 1835
	},
	{
	"epoch": 1.5948406676783005,
	"grad_norm": 0.15450897850919312,
	"learning_rate": 3.581015008925367e-05,
	"loss": 2.2963,
	"step": 1840
	},
	{
	"epoch": 1.5991762410578798,
	"grad_norm": 0.2368783078996937,
	"learning_rate": 3.507711526389331e-05,
	"loss": 2.2701,
	"step": 1845
	},
	{
	"epoch": 1.6035118144374594,
	"grad_norm": 0.23275669114568637,
	"learning_rate": 3.4350666230330684e-05,
	"loss": 2.3027,
	"step": 1850
	},
	{
	"epoch": 1.607847387817039,
	"grad_norm": 0.23123161162094558,
	"learning_rate": 3.363084461858659e-05,
	"loss": 2.3271,
	"step": 1855
	},
	{
	"epoch": 1.6121829611966183,
	"grad_norm": 0.19114205349654592,
	"learning_rate": 3.291769167888971e-05,
	"loss": 2.3085,
	"step": 1860
	},
	{
	"epoch": 1.6165185345761977,
	"grad_norm": 0.19601739480919383,
	"learning_rate": 3.221124827931248e-05,
	"loss": 2.297,
	"step": 1865
	},
	{
	"epoch": 1.6208541079557772,
	"grad_norm": 0.14221216745928258,
	"learning_rate": 3.151155490342917e-05,
	"loss": 2.2855,
	"step": 1870
	},
	{
	"epoch": 1.6251896813353566,
	"grad_norm": 0.1584865862659709,
	"learning_rate": 3.081865164799613e-05,
	"loss": 2.2614,
	"step": 1875
	},
	{
	"epoch": 1.629525254714936,
	"grad_norm": 0.1414839158508025,
	"learning_rate": 3.0132578220653648e-05,
	"loss": 2.2795,
	"step": 1880
	},
	{
	"epoch": 1.6338608280945155,
	"grad_norm": 0.1254646077472122,
	"learning_rate": 2.9453373937650664e-05,
	"loss": 2.2965,
	"step": 1885
	},
	{
	"epoch": 1.638196401474095,
	"grad_norm": 0.16882648715438078,
	"learning_rate": 2.8781077721591828e-05,
	"loss": 2.3278,
	"step": 1890
	},
	{
	"epoch": 1.6425319748536744,
	"grad_norm": 0.18395517918844081,
	"learning_rate": 2.811572809920669e-05,
	"loss": 2.2801,
	"step": 1895
	},
	{
	"epoch": 1.6468675482332538,
	"grad_norm": 0.1309521536420322,
	"learning_rate": 2.7457363199142062e-05,
	"loss": 2.2852,
	"step": 1900
	},
	{
	"epoch": 1.6512031216128333,
	"grad_norm": 0.12473429715301326,
	"learning_rate": 2.680602074977708e-05,
	"loss": 2.259,
	"step": 1905
	},
	{
	"epoch": 1.655538694992413,
	"grad_norm": 0.1312047736460762,
	"learning_rate": 2.6161738077060924e-05,
	"loss": 2.2868,
	"step": 1910
	},
	{
	"epoch": 1.659874268371992,
	"grad_norm": 0.14567444941618224,
	"learning_rate": 2.552455210237398e-05,
	"loss": 2.2633,
	"step": 1915
	},
	{
	"epoch": 1.6642098417515716,
	"grad_norm": 0.13883443962415717,
	"learning_rate": 2.4894499340411968e-05,
	"loss": 2.2541,
	"step": 1920
	},
	{
	"epoch": 1.6685454151311512,
	"grad_norm": 0.15369994803840648,
	"learning_rate": 2.427161589709337e-05,
	"loss": 2.2996,
	"step": 1925
	},
	{
	"epoch": 1.6728809885107305,
	"grad_norm": 0.21447874396163935,
	"learning_rate": 2.365593746749041e-05,
	"loss": 2.2679,
	"step": 1930
	},
	{
	"epoch": 1.6772165618903099,
	"grad_norm": 0.18513858979140632,
	"learning_rate": 2.3047499333783558e-05,
	"loss": 2.2658,
	"step": 1935
	},
	{
	"epoch": 1.6815521352698894,
	"grad_norm": 0.18391090938011884,
	"learning_rate": 2.244633636323946e-05,
	"loss": 2.2907,
	"step": 1940
	},
	{
	"epoch": 1.685887708649469,
	"grad_norm": 0.16891631837991977,
	"learning_rate": 2.1852483006212978e-05,
	"loss": 2.2478,
	"step": 1945
	},
	{
	"epoch": 1.6902232820290484,
	"grad_norm": 0.1518091020243819,
	"learning_rate": 2.126597329417293e-05,
	"loss": 2.2473,
	"step": 1950
	},
	{
	"epoch": 1.6945588554086277,
	"grad_norm": 0.17161647974253239,
	"learning_rate": 2.068684083775185e-05,
	"loss": 2.2537,
	"step": 1955
	},
	{
	"epoch": 1.6988944287882073,
	"grad_norm": 0.14187218785526223,
	"learning_rate": 2.0115118824819914e-05,
	"loss": 2.2616,
	"step": 1960
	},
	{
	"epoch": 1.7032300021677866,
	"grad_norm": 0.11929928350263867,
	"learning_rate": 1.9550840018583153e-05,
	"loss": 2.2694,
	"step": 1965
	},
	{
	"epoch": 1.707565575547366,
	"grad_norm": 0.1245533165549466,
	"learning_rate": 1.899403675570576e-05,
	"loss": 2.2595,
	"step": 1970
	},
	{
	"epoch": 1.7119011489269456,
	"grad_norm": 0.11773193996812116,
	"learning_rate": 1.844474094445705e-05,
	"loss": 2.2604,
	"step": 1975
	},
	{
	"epoch": 1.7162367223065251,
	"grad_norm": 0.1419568607634185,
	"learning_rate": 1.7902984062883053e-05,
	"loss": 2.2311,
	"step": 1980
	},
	{
	"epoch": 1.7205722956861045,
	"grad_norm": 0.16983875746382313,
	"learning_rate": 1.736879715700243e-05,
	"loss": 2.2403,
	"step": 1985
	},
	{
	"epoch": 1.7249078690656838,
	"grad_norm": 0.12131945112331936,
	"learning_rate": 1.684221083902746e-05,
	"loss": 2.2474,
	"step": 1990
	},
	{
	"epoch": 1.7292434424452634,
	"grad_norm": 0.44071395908424116,
	"learning_rate": 1.6323255285609722e-05,
	"loss": 2.2337,
	"step": 1995
	},
	{
	"epoch": 1.733579015824843,
	"grad_norm": 0.23334817695713936,
	"learning_rate": 1.5811960236110855e-05,
	"loss": 2.2489,
	"step": 2000
	},
	{
	"epoch": 1.7379145892044223,
	"grad_norm": 0.2111669535853138,
	"learning_rate": 1.530835499089821e-05,
	"loss": 2.2269,
	"step": 2005
	},
	{
	"epoch": 1.7422501625840017,
	"grad_norm": 0.18179903995116767,
	"learning_rate": 1.4812468409665884e-05,
	"loss": 2.2706,
	"step": 2010
	},
	{
	"epoch": 1.7465857359635812,
	"grad_norm": 0.12994276828633272,
	"learning_rate": 1.432432890978074e-05,
	"loss": 2.2688,
	"step": 2015
	},
	{
	"epoch": 1.7509213093431606,
	"grad_norm": 0.20415942563901335,
	"learning_rate": 1.3843964464654018e-05,
	"loss": 2.2725,
	"step": 2020
	},
	{
	"epoch": 1.75525688272274,
	"grad_norm": 0.13423972154083932,
	"learning_rate": 1.3371402602138242e-05,
	"loss": 2.2614,
	"step": 2025
	},
	{
	"epoch": 1.7595924561023195,
	"grad_norm": 0.21592839787669263,
	"learning_rate": 1.2906670402949703e-05,
	"loss": 2.2278,
	"step": 2030
	},
	{
	"epoch": 1.763928029481899,
	"grad_norm": 0.1195430112602107,
	"learning_rate": 1.2449794499116567e-05,
	"loss": 2.2434,
	"step": 2035
	},
	{
	"epoch": 1.7682636028614784,
	"grad_norm": 0.1200861082736604,
	"learning_rate": 1.200080107245278e-05,
	"loss": 2.2547,
	"step": 2040
	},
	{
	"epoch": 1.7725991762410578,
	"grad_norm": 0.11672129617620956,
	"learning_rate": 1.1559715853057516e-05,
	"loss": 2.2196,
	"step": 2045
	},
	{
	"epoch": 1.7769347496206374,
	"grad_norm": 0.11729537916907379,
	"learning_rate": 1.1126564117840819e-05,
	"loss": 2.2613,
	"step": 2050
	},
	{
	"epoch": 1.781270323000217,
	"grad_norm": 0.10450327625927365,
	"learning_rate": 1.0701370689075094e-05,
	"loss": 2.244,
	"step": 2055
	},
	{
	"epoch": 1.7856058963797963,
	"grad_norm": 0.13649256070362986,
	"learning_rate": 1.0284159932972524e-05,
	"loss": 2.2222,
	"step": 2060
	},
	{
	"epoch": 1.7899414697593756,
	"grad_norm": 0.11456259112458032,
	"learning_rate": 9.87495575828875e-06,
	"loss": 2.2401,
	"step": 2065
	},
	{
	"epoch": 1.7942770431389552,
	"grad_norm": 0.12074570004540981,
	"learning_rate": 9.473781614952918e-06,
	"loss": 2.2401,
	"step": 2070
	},
	{
	"epoch": 1.7986126165185345,
	"grad_norm": 0.12686179535370362,
	"learning_rate": 9.080660492723663e-06,
	"loss": 2.2295,
	"step": 2075
	},
	{
	"epoch": 1.802948189898114,
	"grad_norm": 0.1300450179470363,
	"learning_rate": 8.695614919871679e-06,
	"loss": 2.2569,
	"step": 2080
	},
	{
	"epoch": 1.8072837632776935,
	"grad_norm": 0.11937907719387332,
	"learning_rate": 8.31866696188887e-06,
	"loss": 2.2294,
	"step": 2085
	},
	{
	"epoch": 1.811619336657273,
	"grad_norm": 0.11764431526486717,
	"learning_rate": 7.949838220223664e-06,
	"loss": 2.217,
	"step": 2090
	},
	{
	"epoch": 1.8159549100368524,
	"grad_norm": 0.1234907525541496,
	"learning_rate": 7.589149831043212e-06,
	"loss": 2.217,
	"step": 2095
	},
	{
	"epoch": 1.8202904834164317,
	"grad_norm": 0.1517422441513512,
	"learning_rate": 7.236622464022151e-06,
	"loss": 2.2453,
	"step": 2100
	},
	{
	"epoch": 1.8246260567960113,
	"grad_norm": 0.33341778139897915,
	"learning_rate": 6.892276321158058e-06,
	"loss": 2.2356,
	"step": 2105
	},
	{
	"epoch": 1.8289616301755909,
	"grad_norm": 0.11642132397770094,
	"learning_rate": 6.556131135613818e-06,
	"loss": 2.2423,
	"step": 2110
	},
	{
	"epoch": 1.83329720355517,
	"grad_norm": 0.1407587899536127,
	"learning_rate": 6.2282061705868025e-06,
	"loss": 2.203,
	"step": 2115
	},
	{
	"epoch": 1.8376327769347496,
	"grad_norm": 0.13035967664280043,
	"learning_rate": 5.908520218204832e-06,
	"loss": 2.1993,
	"step": 2120
	},
	{
	"epoch": 1.8419683503143292,
	"grad_norm": 0.09453247400951749,
	"learning_rate": 5.597091598449438e-06,
	"loss": 2.228,
	"step": 2125
	},
	{
	"epoch": 1.8463039236939085,
	"grad_norm": 0.12255843625223094,
	"learning_rate": 5.293938158105904e-06,
	"loss": 2.2373,
	"step": 2130
	},
	{
	"epoch": 1.8506394970734878,
	"grad_norm": 0.10290208504992138,
	"learning_rate": 4.999077269740581e-06,
	"loss": 2.1896,
	"step": 2135
	},
	{
	"epoch": 1.8549750704530674,
	"grad_norm": 0.10229541966122209,
	"learning_rate": 4.712525830705338e-06,
	"loss": 2.2202,
	"step": 2140
	},
	{
	"epoch": 1.859310643832647,
	"grad_norm": 0.1058407353264288,
	"learning_rate": 4.4343002621692155e-06,
	"loss": 2.2105,
	"step": 2145
	},
	{
	"epoch": 1.8636462172122263,
	"grad_norm": 0.12091080320995722,
	"learning_rate": 4.164416508177398e-06,
	"loss": 2.2192,
	"step": 2150
	},
	{
	"epoch": 1.8679817905918057,
	"grad_norm": 0.11922564089206397,
	"learning_rate": 3.902890034737527e-06,
	"loss": 2.2558,
	"step": 2155
	},
	{
	"epoch": 1.8723173639713853,
	"grad_norm": 0.09787488554546948,
	"learning_rate": 3.649735828933409e-06,
	"loss": 2.1973,
	"step": 2160
	},
	{
	"epoch": 1.8766529373509646,
	"grad_norm": 0.12237194203335397,
	"learning_rate": 3.4049683980661214e-06,
	"loss": 2.2213,
	"step": 2165
	},
	{
	"epoch": 1.880988510730544,
	"grad_norm": 0.09606403673967055,
	"learning_rate": 3.168601768822726e-06,
	"loss": 2.1992,
	"step": 2170
	},
	{
	"epoch": 1.8853240841101235,
	"grad_norm": 0.09953286517322664,
	"learning_rate": 2.940649486472396e-06,
	"loss": 2.2528,
	"step": 2175
	},
	{
	"epoch": 1.889659657489703,
	"grad_norm": 0.10835068342395951,
	"learning_rate": 2.72112461409022e-06,
	"loss": 2.2531,
	"step": 2180
	},
	{
	"epoch": 1.8939952308692825,
	"grad_norm": 0.10266855095126044,
	"learning_rate": 2.510039731808533e-06,
	"loss": 2.269,
	"step": 2185
	},
	{
	"epoch": 1.8983308042488618,
	"grad_norm": 0.10341900472056524,
	"learning_rate": 2.3074069360961623e-06,
	"loss": 2.2062,
	"step": 2190
	},
	{
	"epoch": 1.9026663776284414,
	"grad_norm": 0.10842551877471102,
	"learning_rate": 2.1132378390650463e-06,
	"loss": 2.2534,
	"step": 2195
	},
	{
	"epoch": 1.907001951008021,
	"grad_norm": 0.10059763675561238,
	"learning_rate": 1.9275435678048845e-06,
	"loss": 2.2473,
	"step": 2200
	},
	{
	"epoch": 1.9113375243876003,
	"grad_norm": 0.10768116633333848,
	"learning_rate": 1.7503347637454479e-06,
	"loss": 2.2552,
	"step": 2205
	},
	{
	"epoch": 1.9156730977671796,
	"grad_norm": 0.09414809031667026,
	"learning_rate": 1.5816215820467992e-06,
	"loss": 2.2367,
	"step": 2210
	},
	{
	"epoch": 1.9200086711467592,
	"grad_norm": 0.10690488271519041,
	"learning_rate": 1.4214136910172925e-06,
	"loss": 2.2253,
	"step": 2215
	},
	{
	"epoch": 1.9243442445263386,
	"grad_norm": 0.10872884844513397,
	"learning_rate": 1.2697202715595822e-06,
	"loss": 2.2289,
	"step": 2220
	},
	{
	"epoch": 1.928679817905918,
	"grad_norm": 0.1254620474939429,
	"learning_rate": 1.126550016644412e-06,
	"loss": 2.2164,
	"step": 2225
	},
	{
	"epoch": 1.9330153912854975,
	"grad_norm": 0.1025587696285709,
	"learning_rate": 9.919111308125449e-07,
	"loss": 2.2039,
	"step": 2230
	},
	{
	"epoch": 1.937350964665077,
	"grad_norm": 0.09872117993630683,
	"learning_rate": 8.65811329704541e-07,
	"loss": 2.2492,
	"step": 2235
	},
	{
	"epoch": 1.9416865380446564,
	"grad_norm": 0.1085639607949179,
	"learning_rate": 7.482578396185934e-07,
	"loss": 2.2449,
	"step": 2240
	},
	{
	"epoch": 1.9460221114242358,
	"grad_norm": 0.09973275488637519,
	"learning_rate": 6.392573970964432e-07,
	"loss": 2.2074,
	"step": 2245
	},
	{
	"epoch": 1.9503576848038153,
	"grad_norm": 0.11503330375288269,
	"learning_rate": 5.388162485373548e-07,
	"loss": 2.2473,
	"step": 2250
	},
	{
	"epoch": 1.954693258183395,
	"grad_norm": 0.11928896227233268,
	"learning_rate": 4.4694014984010264e-07,
	"loss": 2.2128,
	"step": 2255
	},
	{
	"epoch": 1.9590288315629742,
	"grad_norm": 0.08668925207942389,
	"learning_rate": 3.6363436607313446e-07,
	"loss": 2.2183,
	"step": 2260
	},
	{
	"epoch": 1.9633644049425536,
	"grad_norm": 0.0953840596497321,
	"learning_rate": 2.889036711729298e-07,
	"loss": 2.2397,
	"step": 2265
	},
	{
	"epoch": 1.9676999783221332,
	"grad_norm": 0.10418411546023475,
	"learning_rate": 2.2275234767030193e-07,
	"loss": 2.2146,
	"step": 2270
	},
	{
	"epoch": 1.9720355517017125,
	"grad_norm": 0.09712806974011044,
	"learning_rate": 1.6518418644507758e-07,
	"loss": 2.2166,
	"step": 2275
	},
	{
	"epoch": 1.9763711250812919,
	"grad_norm": 0.12331447239619826,
	"learning_rate": 1.1620248650878739e-07,
	"loss": 2.2371,
	"step": 2280
	},
	{
	"epoch": 1.9807066984608714,
	"grad_norm": 0.09998286807181965,
	"learning_rate": 7.581005481566704e-08,
	"loss": 2.2271,
	"step": 2285
	},
	{
	"epoch": 1.985042271840451,
	"grad_norm": 0.09866409081999304,
	"learning_rate": 4.4009206101786043e-08,
	"loss": 2.2148,
	"step": 2290
	},
	{
	"epoch": 1.9893778452200304,
	"grad_norm": 0.10987887336557695,
	"learning_rate": 2.0801762752387097e-08,
	"loss": 2.2046,
	"step": 2295
	},
	{
	"epoch": 1.9937134185996097,
	"grad_norm": 0.10003495023127681,
	"learning_rate": 6.189054697436357e-09,
	"loss": 2.1954,
	"step": 2300
	},
	{
	"epoch": 1.9980489919791893,
	"grad_norm": 0.09752064885234579,
	"learning_rate": 1.7191933545102067e-10,
	"loss": 2.2409,
	"step": 2305
	},
	{
	"epoch": 1.998916106655105,
	"step": 2306,
	"total_flos": 1.542232840692197e+19,
	"train_loss": 3.6333630210094006,
	"train_runtime": 27233.3224,
	"train_samples_per_second": 2.71,
	"train_steps_per_second": 0.085
	}
	],
	"logging_steps": 5,
	"max_steps": 2306,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.542232840692197e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}