tower-7b-translate-ro-rup-en / trainer_state.json

Upload folder using huggingface_hub

1c0af83 verified 7 months ago

42.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9898162809361648,
	"eval_steps": 300,
	"global_step": 5764,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00034704899898054355,
	"eval_loss": 3.3464338779449463,
	"eval_runtime": 18.8384,
	"eval_samples_per_second": 23.357,
	"eval_steps_per_second": 23.357,
	"step": 1
	},
	{
	"epoch": 0.00867622497451359,
	"grad_norm": 11.25,
	"learning_rate": 5e-06,
	"loss": 2.9137,
	"step": 25
	},
	{
	"epoch": 0.01735244994902718,
	"grad_norm": 5.46875,
	"learning_rate": 1e-05,
	"loss": 2.2899,
	"step": 50
	},
	{
	"epoch": 0.026028674923540766,
	"grad_norm": 6.90625,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 1.8283,
	"step": 75
	},
	{
	"epoch": 0.03470489989805436,
	"grad_norm": 5.09375,
	"learning_rate": 2e-05,
	"loss": 1.5934,
	"step": 100
	},
	{
	"epoch": 0.04338112487256795,
	"grad_norm": 5.125,
	"learning_rate": 1.9999763673911112e-05,
	"loss": 1.4074,
	"step": 125
	},
	{
	"epoch": 0.05205734984708153,
	"grad_norm": 4.28125,
	"learning_rate": 1.9999054706814453e-05,
	"loss": 1.3029,
	"step": 150
	},
	{
	"epoch": 0.060733574821595124,
	"grad_norm": 4.375,
	"learning_rate": 1.9997873132219502e-05,
	"loss": 1.2048,
	"step": 175
	},
	{
	"epoch": 0.06940979979610871,
	"grad_norm": 4.21875,
	"learning_rate": 1.9996219005973644e-05,
	"loss": 1.1517,
	"step": 200
	},
	{
	"epoch": 0.0780860247706223,
	"grad_norm": 4.25,
	"learning_rate": 1.9994092406259516e-05,
	"loss": 1.1061,
	"step": 225
	},
	{
	"epoch": 0.0867622497451359,
	"grad_norm": 4.09375,
	"learning_rate": 1.9991493433591315e-05,
	"loss": 1.0597,
	"step": 250
	},
	{
	"epoch": 0.09543847471964947,
	"grad_norm": 4.25,
	"learning_rate": 1.998842221081005e-05,
	"loss": 1.0366,
	"step": 275
	},
	{
	"epoch": 0.10411469969416307,
	"grad_norm": 4.21875,
	"learning_rate": 1.998487888307774e-05,
	"loss": 1.0176,
	"step": 300
	},
	{
	"epoch": 0.10411469969416307,
	"eval_loss": 1.072221279144287,
	"eval_runtime": 19.1563,
	"eval_samples_per_second": 22.969,
	"eval_steps_per_second": 22.969,
	"step": 300
	},
	{
	"epoch": 0.11279092466867666,
	"grad_norm": 4.03125,
	"learning_rate": 1.998086361787053e-05,
	"loss": 0.9971,
	"step": 325
	},
	{
	"epoch": 0.12146714964319025,
	"grad_norm": 3.984375,
	"learning_rate": 1.9976376604970818e-05,
	"loss": 0.965,
	"step": 350
	},
	{
	"epoch": 0.13014337461770384,
	"grad_norm": 3.875,
	"learning_rate": 1.997141805645824e-05,
	"loss": 0.941,
	"step": 375
	},
	{
	"epoch": 0.13881959959221743,
	"grad_norm": 3.625,
	"learning_rate": 1.996598820669967e-05,
	"loss": 0.9471,
	"step": 400
	},
	{
	"epoch": 0.14749582456673102,
	"grad_norm": 3.75,
	"learning_rate": 1.9960087312338138e-05,
	"loss": 0.9273,
	"step": 425
	},
	{
	"epoch": 0.1561720495412446,
	"grad_norm": 3.265625,
	"learning_rate": 1.995371565228071e-05,
	"loss": 0.8989,
	"step": 450
	},
	{
	"epoch": 0.1648482745157582,
	"grad_norm": 3.515625,
	"learning_rate": 1.994687352768527e-05,
	"loss": 0.8921,
	"step": 475
	},
	{
	"epoch": 0.1735244994902718,
	"grad_norm": 3.265625,
	"learning_rate": 1.9939561261946343e-05,
	"loss": 0.8718,
	"step": 500
	},
	{
	"epoch": 0.18220072446478539,
	"grad_norm": 3.46875,
	"learning_rate": 1.9931779200679754e-05,
	"loss": 0.8735,
	"step": 525
	},
	{
	"epoch": 0.19087694943929895,
	"grad_norm": 3.53125,
	"learning_rate": 1.992352771170633e-05,
	"loss": 0.8747,
	"step": 550
	},
	{
	"epoch": 0.19955317441381254,
	"grad_norm": 3.734375,
	"learning_rate": 1.9914807185034483e-05,
	"loss": 0.8315,
	"step": 575
	},
	{
	"epoch": 0.20822939938832613,
	"grad_norm": 3.390625,
	"learning_rate": 1.9905618032841812e-05,
	"loss": 0.8365,
	"step": 600
	},
	{
	"epoch": 0.20822939938832613,
	"eval_loss": 0.9373729228973389,
	"eval_runtime": 18.8365,
	"eval_samples_per_second": 23.359,
	"eval_steps_per_second": 23.359,
	"step": 600
	},
	{
	"epoch": 0.21690562436283972,
	"grad_norm": 3.5625,
	"learning_rate": 1.9895960689455598e-05,
	"loss": 0.8469,
	"step": 625
	},
	{
	"epoch": 0.2255818493373533,
	"grad_norm": 3.390625,
	"learning_rate": 1.9885835611332278e-05,
	"loss": 0.8306,
	"step": 650
	},
	{
	"epoch": 0.2342580743118669,
	"grad_norm": 3.171875,
	"learning_rate": 1.987524327703587e-05,
	"loss": 0.7991,
	"step": 675
	},
	{
	"epoch": 0.2429342992863805,
	"grad_norm": 3.1875,
	"learning_rate": 1.986418418721537e-05,
	"loss": 0.8085,
	"step": 700
	},
	{
	"epoch": 0.2516105242608941,
	"grad_norm": 3.25,
	"learning_rate": 1.9852658864581063e-05,
	"loss": 0.7983,
	"step": 725
	},
	{
	"epoch": 0.2602867492354077,
	"grad_norm": 2.984375,
	"learning_rate": 1.9840667853879827e-05,
	"loss": 0.7847,
	"step": 750
	},
	{
	"epoch": 0.26896297420992127,
	"grad_norm": 3.234375,
	"learning_rate": 1.9828211721869404e-05,
	"loss": 0.7744,
	"step": 775
	},
	{
	"epoch": 0.27763919918443486,
	"grad_norm": 3.171875,
	"learning_rate": 1.9815291057291583e-05,
	"loss": 0.7846,
	"step": 800
	},
	{
	"epoch": 0.28631542415894845,
	"grad_norm": 3.21875,
	"learning_rate": 1.980190647084438e-05,
	"loss": 0.7874,
	"step": 825
	},
	{
	"epoch": 0.29499164913346204,
	"grad_norm": 3.28125,
	"learning_rate": 1.9788058595153202e-05,
	"loss": 0.7744,
	"step": 850
	},
	{
	"epoch": 0.30366787410797563,
	"grad_norm": 3.28125,
	"learning_rate": 1.97737480847409e-05,
	"loss": 0.7565,
	"step": 875
	},
	{
	"epoch": 0.3123440990824892,
	"grad_norm": 3.15625,
	"learning_rate": 1.9758975615996874e-05,
	"loss": 0.7477,
	"step": 900
	},
	{
	"epoch": 0.3123440990824892,
	"eval_loss": 0.8618763089179993,
	"eval_runtime": 39.106,
	"eval_samples_per_second": 11.251,
	"eval_steps_per_second": 11.251,
	"step": 900
	},
	{
	"epoch": 0.3210203240570028,
	"grad_norm": 2.9375,
	"learning_rate": 1.9743741887145067e-05,
	"loss": 0.7589,
	"step": 925
	},
	{
	"epoch": 0.3296965490315164,
	"grad_norm": 2.96875,
	"learning_rate": 1.9728047618210995e-05,
	"loss": 0.7397,
	"step": 950
	},
	{
	"epoch": 0.33837277400603,
	"grad_norm": 3.140625,
	"learning_rate": 1.9711893550987696e-05,
	"loss": 0.7504,
	"step": 975
	},
	{
	"epoch": 0.3470489989805436,
	"grad_norm": 3.34375,
	"learning_rate": 1.969528044900068e-05,
	"loss": 0.7365,
	"step": 1000
	},
	{
	"epoch": 0.3557252239550572,
	"grad_norm": 2.921875,
	"learning_rate": 1.967820909747182e-05,
	"loss": 0.7463,
	"step": 1025
	},
	{
	"epoch": 0.36440144892957077,
	"grad_norm": 3.546875,
	"learning_rate": 1.9660680303282273e-05,
	"loss": 0.7175,
	"step": 1050
	},
	{
	"epoch": 0.3730776739040843,
	"grad_norm": 3.515625,
	"learning_rate": 1.964269489493431e-05,
	"loss": 0.7475,
	"step": 1075
	},
	{
	"epoch": 0.3817538988785979,
	"grad_norm": 2.953125,
	"learning_rate": 1.9624253722512174e-05,
	"loss": 0.7255,
	"step": 1100
	},
	{
	"epoch": 0.3904301238531115,
	"grad_norm": 2.953125,
	"learning_rate": 1.9605357657641896e-05,
	"loss": 0.7322,
	"step": 1125
	},
	{
	"epoch": 0.3991063488276251,
	"grad_norm": 3.0,
	"learning_rate": 1.9586007593450098e-05,
	"loss": 0.7329,
	"step": 1150
	},
	{
	"epoch": 0.40778257380213867,
	"grad_norm": 2.875,
	"learning_rate": 1.9566204444521776e-05,
	"loss": 0.7143,
	"step": 1175
	},
	{
	"epoch": 0.41645879877665226,
	"grad_norm": 3.4375,
	"learning_rate": 1.954594914685708e-05,
	"loss": 0.702,
	"step": 1200
	},
	{
	"epoch": 0.41645879877665226,
	"eval_loss": 0.8318689465522766,
	"eval_runtime": 18.8241,
	"eval_samples_per_second": 23.374,
	"eval_steps_per_second": 23.374,
	"step": 1200
	},
	{
	"epoch": 0.42513502375116585,
	"grad_norm": 3.15625,
	"learning_rate": 1.9525242657827063e-05,
	"loss": 0.7272,
	"step": 1225
	},
	{
	"epoch": 0.43381124872567944,
	"grad_norm": 3.375,
	"learning_rate": 1.9504085956128437e-05,
	"loss": 0.7043,
	"step": 1250
	},
	{
	"epoch": 0.44248747370019303,
	"grad_norm": 2.9375,
	"learning_rate": 1.9482480041737312e-05,
	"loss": 0.7123,
	"step": 1275
	},
	{
	"epoch": 0.4511636986747066,
	"grad_norm": 2.890625,
	"learning_rate": 1.946042593586195e-05,
	"loss": 0.693,
	"step": 1300
	},
	{
	"epoch": 0.4598399236492202,
	"grad_norm": 2.9375,
	"learning_rate": 1.9437924680894456e-05,
	"loss": 0.7004,
	"step": 1325
	},
	{
	"epoch": 0.4685161486237338,
	"grad_norm": 3.1875,
	"learning_rate": 1.941497734036155e-05,
	"loss": 0.6827,
	"step": 1350
	},
	{
	"epoch": 0.4771923735982474,
	"grad_norm": 3.15625,
	"learning_rate": 1.939158499887428e-05,
	"loss": 0.6949,
	"step": 1375
	},
	{
	"epoch": 0.485868598572761,
	"grad_norm": 3.328125,
	"learning_rate": 1.936774876207676e-05,
	"loss": 0.7027,
	"step": 1400
	},
	{
	"epoch": 0.4945448235472746,
	"grad_norm": 2.953125,
	"learning_rate": 1.9343469756593915e-05,
	"loss": 0.7069,
	"step": 1425
	},
	{
	"epoch": 0.5032210485217882,
	"grad_norm": 2.609375,
	"learning_rate": 1.9318749129978225e-05,
	"loss": 0.6873,
	"step": 1450
	},
	{
	"epoch": 0.5118972734963018,
	"grad_norm": 2.734375,
	"learning_rate": 1.9293588050655492e-05,
	"loss": 0.6733,
	"step": 1475
	},
	{
	"epoch": 0.5205734984708154,
	"grad_norm": 2.828125,
	"learning_rate": 1.9267987707869605e-05,
	"loss": 0.6779,
	"step": 1500
	},
	{
	"epoch": 0.5205734984708154,
	"eval_loss": 0.7879548072814941,
	"eval_runtime": 18.8786,
	"eval_samples_per_second": 23.307,
	"eval_steps_per_second": 23.307,
	"step": 1500
	},
	{
	"epoch": 0.529249723445329,
	"grad_norm": 3.265625,
	"learning_rate": 1.924194931162635e-05,
	"loss": 0.6733,
	"step": 1525
	},
	{
	"epoch": 0.5379259484198425,
	"grad_norm": 2.84375,
	"learning_rate": 1.9215474092636187e-05,
	"loss": 0.6681,
	"step": 1550
	},
	{
	"epoch": 0.5466021733943561,
	"grad_norm": 2.859375,
	"learning_rate": 1.918856330225611e-05,
	"loss": 0.6771,
	"step": 1575
	},
	{
	"epoch": 0.5552783983688697,
	"grad_norm": 3.296875,
	"learning_rate": 1.916121821243049e-05,
	"loss": 0.6582,
	"step": 1600
	},
	{
	"epoch": 0.5639546233433833,
	"grad_norm": 3.015625,
	"learning_rate": 1.9133440115630953e-05,
	"loss": 0.6551,
	"step": 1625
	},
	{
	"epoch": 0.5726308483178969,
	"grad_norm": 3.125,
	"learning_rate": 1.910523032479529e-05,
	"loss": 0.6631,
	"step": 1650
	},
	{
	"epoch": 0.5813070732924105,
	"grad_norm": 3.0,
	"learning_rate": 1.9076590173265406e-05,
	"loss": 0.6593,
	"step": 1675
	},
	{
	"epoch": 0.5899832982669241,
	"grad_norm": 2.84375,
	"learning_rate": 1.9047521014724303e-05,
	"loss": 0.6439,
	"step": 1700
	},
	{
	"epoch": 0.5986595232414377,
	"grad_norm": 2.953125,
	"learning_rate": 1.9018024223132096e-05,
	"loss": 0.6538,
	"step": 1725
	},
	{
	"epoch": 0.6073357482159513,
	"grad_norm": 3.171875,
	"learning_rate": 1.8988101192661057e-05,
	"loss": 0.6662,
	"step": 1750
	},
	{
	"epoch": 0.6160119731904649,
	"grad_norm": 2.796875,
	"learning_rate": 1.895775333762974e-05,
	"loss": 0.6467,
	"step": 1775
	},
	{
	"epoch": 0.6246881981649784,
	"grad_norm": 2.796875,
	"learning_rate": 1.8926982092436117e-05,
	"loss": 0.643,
	"step": 1800
	},
	{
	"epoch": 0.6246881981649784,
	"eval_loss": 0.7786636352539062,
	"eval_runtime": 19.0872,
	"eval_samples_per_second": 23.052,
	"eval_steps_per_second": 23.052,
	"step": 1800
	},
	{
	"epoch": 0.633364423139492,
	"grad_norm": 2.84375,
	"learning_rate": 1.88957889114898e-05,
	"loss": 0.6471,
	"step": 1825
	},
	{
	"epoch": 0.6420406481140056,
	"grad_norm": 2.53125,
	"learning_rate": 1.8864175269143275e-05,
	"loss": 0.6413,
	"step": 1850
	},
	{
	"epoch": 0.6507168730885192,
	"grad_norm": 2.984375,
	"learning_rate": 1.8832142659622236e-05,
	"loss": 0.6424,
	"step": 1875
	},
	{
	"epoch": 0.6593930980630328,
	"grad_norm": 3.203125,
	"learning_rate": 1.8799692596954947e-05,
	"loss": 0.6405,
	"step": 1900
	},
	{
	"epoch": 0.6680693230375464,
	"grad_norm": 2.6875,
	"learning_rate": 1.8766826614900687e-05,
	"loss": 0.6307,
	"step": 1925
	},
	{
	"epoch": 0.67674554801206,
	"grad_norm": 2.828125,
	"learning_rate": 1.8733546266877254e-05,
	"loss": 0.6151,
	"step": 1950
	},
	{
	"epoch": 0.6854217729865736,
	"grad_norm": 2.921875,
	"learning_rate": 1.8699853125887543e-05,
	"loss": 0.6442,
	"step": 1975
	},
	{
	"epoch": 0.6940979979610872,
	"grad_norm": 2.671875,
	"learning_rate": 1.8665748784445206e-05,
	"loss": 0.6104,
	"step": 2000
	},
	{
	"epoch": 0.7027742229356008,
	"grad_norm": 2.8125,
	"learning_rate": 1.8631234854499365e-05,
	"loss": 0.6213,
	"step": 2025
	},
	{
	"epoch": 0.7114504479101144,
	"grad_norm": 2.84375,
	"learning_rate": 1.8596312967358436e-05,
	"loss": 0.6198,
	"step": 2050
	},
	{
	"epoch": 0.720126672884628,
	"grad_norm": 3.140625,
	"learning_rate": 1.856098477361302e-05,
	"loss": 0.6263,
	"step": 2075
	},
	{
	"epoch": 0.7288028978591415,
	"grad_norm": 2.6875,
	"learning_rate": 1.8525251943057884e-05,
	"loss": 0.6201,
	"step": 2100
	},
	{
	"epoch": 0.7288028978591415,
	"eval_loss": 0.7636004090309143,
	"eval_runtime": 18.8162,
	"eval_samples_per_second": 23.384,
	"eval_steps_per_second": 23.384,
	"step": 2100
	},
	{
	"epoch": 0.7374791228336551,
	"grad_norm": 2.953125,
	"learning_rate": 1.8489116164613053e-05,
	"loss": 0.6182,
	"step": 2125
	},
	{
	"epoch": 0.7461553478081686,
	"grad_norm": 2.859375,
	"learning_rate": 1.845257914624396e-05,
	"loss": 0.6252,
	"step": 2150
	},
	{
	"epoch": 0.7548315727826822,
	"grad_norm": 2.796875,
	"learning_rate": 1.841564261488074e-05,
	"loss": 0.6067,
	"step": 2175
	},
	{
	"epoch": 0.7635077977571958,
	"grad_norm": 2.8125,
	"learning_rate": 1.8378308316336585e-05,
	"loss": 0.6172,
	"step": 2200
	},
	{
	"epoch": 0.7721840227317094,
	"grad_norm": 3.015625,
	"learning_rate": 1.834057801522525e-05,
	"loss": 0.6064,
	"step": 2225
	},
	{
	"epoch": 0.780860247706223,
	"grad_norm": 2.703125,
	"learning_rate": 1.8302453494877635e-05,
	"loss": 0.6131,
	"step": 2250
	},
	{
	"epoch": 0.7895364726807366,
	"grad_norm": 2.6875,
	"learning_rate": 1.8263936557257496e-05,
	"loss": 0.6197,
	"step": 2275
	},
	{
	"epoch": 0.7982126976552502,
	"grad_norm": 2.796875,
	"learning_rate": 1.8225029022876275e-05,
	"loss": 0.6128,
	"step": 2300
	},
	{
	"epoch": 0.8068889226297637,
	"grad_norm": 2.84375,
	"learning_rate": 1.818573273070706e-05,
	"loss": 0.5884,
	"step": 2325
	},
	{
	"epoch": 0.8155651476042773,
	"grad_norm": 3.015625,
	"learning_rate": 1.8146049538097662e-05,
	"loss": 0.6053,
	"step": 2350
	},
	{
	"epoch": 0.8242413725787909,
	"grad_norm": 2.84375,
	"learning_rate": 1.8105981320682815e-05,
	"loss": 0.6103,
	"step": 2375
	},
	{
	"epoch": 0.8329175975533045,
	"grad_norm": 2.546875,
	"learning_rate": 1.8065529972295545e-05,
	"loss": 0.6053,
	"step": 2400
	},
	{
	"epoch": 0.8329175975533045,
	"eval_loss": 0.738046407699585,
	"eval_runtime": 18.7861,
	"eval_samples_per_second": 23.422,
	"eval_steps_per_second": 23.422,
	"step": 2400
	},
	{
	"epoch": 0.8415938225278181,
	"grad_norm": 3.078125,
	"learning_rate": 1.802469740487764e-05,
	"loss": 0.5852,
	"step": 2425
	},
	{
	"epoch": 0.8502700475023317,
	"grad_norm": 2.921875,
	"learning_rate": 1.7983485548389293e-05,
	"loss": 0.5995,
	"step": 2450
	},
	{
	"epoch": 0.8589462724768453,
	"grad_norm": 2.796875,
	"learning_rate": 1.794189635071788e-05,
	"loss": 0.5924,
	"step": 2475
	},
	{
	"epoch": 0.8676224974513589,
	"grad_norm": 2.609375,
	"learning_rate": 1.789993177758588e-05,
	"loss": 0.5757,
	"step": 2500
	},
	{
	"epoch": 0.8762987224258725,
	"grad_norm": 2.734375,
	"learning_rate": 1.7857593812457985e-05,
	"loss": 0.5869,
	"step": 2525
	},
	{
	"epoch": 0.8849749474003861,
	"grad_norm": 2.875,
	"learning_rate": 1.7814884456447337e-05,
	"loss": 0.6001,
	"step": 2550
	},
	{
	"epoch": 0.8936511723748997,
	"grad_norm": 3.0625,
	"learning_rate": 1.7771805728220942e-05,
	"loss": 0.5996,
	"step": 2575
	},
	{
	"epoch": 0.9023273973494133,
	"grad_norm": 2.890625,
	"learning_rate": 1.772835966390428e-05,
	"loss": 0.578,
	"step": 2600
	},
	{
	"epoch": 0.9110036223239268,
	"grad_norm": 2.734375,
	"learning_rate": 1.7684548316985043e-05,
	"loss": 0.5959,
	"step": 2625
	},
	{
	"epoch": 0.9196798472984404,
	"grad_norm": 2.84375,
	"learning_rate": 1.7640373758216075e-05,
	"loss": 0.5728,
	"step": 2650
	},
	{
	"epoch": 0.928356072272954,
	"grad_norm": 2.78125,
	"learning_rate": 1.7595838075517523e-05,
	"loss": 0.5762,
	"step": 2675
	},
	{
	"epoch": 0.9370322972474676,
	"grad_norm": 2.609375,
	"learning_rate": 1.755094337387813e-05,
	"loss": 0.5801,
	"step": 2700
	},
	{
	"epoch": 0.9370322972474676,
	"eval_loss": 0.7330707907676697,
	"eval_runtime": 18.9063,
	"eval_samples_per_second": 23.273,
	"eval_steps_per_second": 23.273,
	"step": 2700
	},
	{
	"epoch": 0.9457085222219812,
	"grad_norm": 3.265625,
	"learning_rate": 1.7505691775255744e-05,
	"loss": 0.5517,
	"step": 2725
	},
	{
	"epoch": 0.9543847471964948,
	"grad_norm": 2.765625,
	"learning_rate": 1.7460085418477025e-05,
	"loss": 0.5622,
	"step": 2750
	},
	{
	"epoch": 0.9630609721710084,
	"grad_norm": 2.609375,
	"learning_rate": 1.7414126459136365e-05,
	"loss": 0.5664,
	"step": 2775
	},
	{
	"epoch": 0.971737197145522,
	"grad_norm": 2.84375,
	"learning_rate": 1.736781706949398e-05,
	"loss": 0.5676,
	"step": 2800
	},
	{
	"epoch": 0.9804134221200356,
	"grad_norm": 2.875,
	"learning_rate": 1.732115943837326e-05,
	"loss": 0.5925,
	"step": 2825
	},
	{
	"epoch": 0.9890896470945492,
	"grad_norm": 3.078125,
	"learning_rate": 1.7274155771057302e-05,
	"loss": 0.5673,
	"step": 2850
	},
	{
	"epoch": 0.9977658720690628,
	"grad_norm": 2.84375,
	"learning_rate": 1.7226808289184673e-05,
	"loss": 0.5745,
	"step": 2875
	},
	{
	"epoch": 1.0064420970435763,
	"grad_norm": 2.578125,
	"learning_rate": 1.717911923064442e-05,
	"loss": 0.5659,
	"step": 2900
	},
	{
	"epoch": 1.0045441728304014,
	"grad_norm": 2.640625,
	"learning_rate": 1.713109084947028e-05,
	"loss": 0.4966,
	"step": 2925
	},
	{
	"epoch": 1.013220397804915,
	"grad_norm": 2.546875,
	"learning_rate": 1.7082725415734145e-05,
	"loss": 0.4426,
	"step": 2950
	},
	{
	"epoch": 1.0218966227794286,
	"grad_norm": 2.546875,
	"learning_rate": 1.7034025215438776e-05,
	"loss": 0.4382,
	"step": 2975
	},
	{
	"epoch": 1.0305728477539422,
	"grad_norm": 2.640625,
	"learning_rate": 1.6984992550409747e-05,
	"loss": 0.4414,
	"step": 3000
	},
	{
	"epoch": 1.0305728477539422,
	"eval_loss": 0.7384564280509949,
	"eval_runtime": 18.8395,
	"eval_samples_per_second": 23.355,
	"eval_steps_per_second": 23.355,
	"step": 3000
	},
	{
	"epoch": 1.0392490727284558,
	"grad_norm": 2.890625,
	"learning_rate": 1.6935629738186646e-05,
	"loss": 0.4454,
	"step": 3025
	},
	{
	"epoch": 1.0479252977029694,
	"grad_norm": 2.84375,
	"learning_rate": 1.6885939111913544e-05,
	"loss": 0.4334,
	"step": 3050
	},
	{
	"epoch": 1.056601522677483,
	"grad_norm": 2.8125,
	"learning_rate": 1.6835923020228714e-05,
	"loss": 0.4293,
	"step": 3075
	},
	{
	"epoch": 1.0652777476519966,
	"grad_norm": 2.5,
	"learning_rate": 1.678558382715362e-05,
	"loss": 0.4502,
	"step": 3100
	},
	{
	"epoch": 1.0739539726265102,
	"grad_norm": 2.90625,
	"learning_rate": 1.6734923911981188e-05,
	"loss": 0.437,
	"step": 3125
	},
	{
	"epoch": 1.0826301976010237,
	"grad_norm": 2.78125,
	"learning_rate": 1.668394566916334e-05,
	"loss": 0.4442,
	"step": 3150
	},
	{
	"epoch": 1.0913064225755373,
	"grad_norm": 2.546875,
	"learning_rate": 1.6632651508197827e-05,
	"loss": 0.4448,
	"step": 3175
	},
	{
	"epoch": 1.099982647550051,
	"grad_norm": 2.703125,
	"learning_rate": 1.6581043853514335e-05,
	"loss": 0.4358,
	"step": 3200
	},
	{
	"epoch": 1.1086588725245645,
	"grad_norm": 2.765625,
	"learning_rate": 1.6529125144359902e-05,
	"loss": 0.4561,
	"step": 3225
	},
	{
	"epoch": 1.1173350974990781,
	"grad_norm": 2.8125,
	"learning_rate": 1.647689783468362e-05,
	"loss": 0.4294,
	"step": 3250
	},
	{
	"epoch": 1.1260113224735917,
	"grad_norm": 2.9375,
	"learning_rate": 1.642436439302066e-05,
	"loss": 0.4316,
	"step": 3275
	},
	{
	"epoch": 1.1346875474481053,
	"grad_norm": 2.71875,
	"learning_rate": 1.637152730237558e-05,
	"loss": 0.4455,
	"step": 3300
	},
	{
	"epoch": 1.1346875474481053,
	"eval_loss": 0.7258099913597107,
	"eval_runtime": 18.9376,
	"eval_samples_per_second": 23.234,
	"eval_steps_per_second": 23.234,
	"step": 3300
	},
	{
	"epoch": 1.1433637724226189,
	"grad_norm": 2.984375,
	"learning_rate": 1.631838906010498e-05,
	"loss": 0.4332,
	"step": 3325
	},
	{
	"epoch": 1.1520399973971325,
	"grad_norm": 2.828125,
	"learning_rate": 1.6264952177799446e-05,
	"loss": 0.4303,
	"step": 3350
	},
	{
	"epoch": 1.160716222371646,
	"grad_norm": 2.8125,
	"learning_rate": 1.6211219181164864e-05,
	"loss": 0.4498,
	"step": 3375
	},
	{
	"epoch": 1.1693924473461597,
	"grad_norm": 2.71875,
	"learning_rate": 1.6157192609903017e-05,
	"loss": 0.445,
	"step": 3400
	},
	{
	"epoch": 1.1780686723206732,
	"grad_norm": 3.015625,
	"learning_rate": 1.6102875017591566e-05,
	"loss": 0.4471,
	"step": 3425
	},
	{
	"epoch": 1.1867448972951868,
	"grad_norm": 3.109375,
	"learning_rate": 1.6048268971563337e-05,
	"loss": 0.4449,
	"step": 3450
	},
	{
	"epoch": 1.1954211222697004,
	"grad_norm": 2.53125,
	"learning_rate": 1.5993377052784988e-05,
	"loss": 0.4333,
	"step": 3475
	},
	{
	"epoch": 1.204097347244214,
	"grad_norm": 3.015625,
	"learning_rate": 1.5938201855735017e-05,
	"loss": 0.4307,
	"step": 3500
	},
	{
	"epoch": 1.2127735722187276,
	"grad_norm": 2.6875,
	"learning_rate": 1.588274598828113e-05,
	"loss": 0.4251,
	"step": 3525
	},
	{
	"epoch": 1.2214497971932412,
	"grad_norm": 3.0625,
	"learning_rate": 1.582701207155697e-05,
	"loss": 0.4227,
	"step": 3550
	},
	{
	"epoch": 1.2301260221677548,
	"grad_norm": 2.875,
	"learning_rate": 1.577100273983826e-05,
	"loss": 0.4401,
	"step": 3575
	},
	{
	"epoch": 1.2388022471422684,
	"grad_norm": 2.9375,
	"learning_rate": 1.5714720640418252e-05,
	"loss": 0.4333,
	"step": 3600
	},
	{
	"epoch": 1.2388022471422684,
	"eval_loss": 0.713193416595459,
	"eval_runtime": 18.8026,
	"eval_samples_per_second": 23.401,
	"eval_steps_per_second": 23.401,
	"step": 3600
	},
	{
	"epoch": 1.247478472116782,
	"grad_norm": 2.75,
	"learning_rate": 1.5658168433482637e-05,
	"loss": 0.432,
	"step": 3625
	},
	{
	"epoch": 1.2561546970912956,
	"grad_norm": 2.84375,
	"learning_rate": 1.560134879198379e-05,
	"loss": 0.429,
	"step": 3650
	},
	{
	"epoch": 1.2648309220658092,
	"grad_norm": 3.015625,
	"learning_rate": 1.554426440151444e-05,
	"loss": 0.4378,
	"step": 3675
	},
	{
	"epoch": 1.2735071470403228,
	"grad_norm": 2.703125,
	"learning_rate": 1.5486917960180742e-05,
	"loss": 0.4278,
	"step": 3700
	},
	{
	"epoch": 1.2821833720148363,
	"grad_norm": 2.625,
	"learning_rate": 1.542931217847472e-05,
	"loss": 0.429,
	"step": 3725
	},
	{
	"epoch": 1.29085959698935,
	"grad_norm": 2.921875,
	"learning_rate": 1.5371449779146205e-05,
	"loss": 0.4289,
	"step": 3750
	},
	{
	"epoch": 1.2995358219638635,
	"grad_norm": 2.671875,
	"learning_rate": 1.5313333497074094e-05,
	"loss": 0.4271,
	"step": 3775
	},
	{
	"epoch": 1.3082120469383771,
	"grad_norm": 2.546875,
	"learning_rate": 1.5254966079137118e-05,
	"loss": 0.4239,
	"step": 3800
	},
	{
	"epoch": 1.3168882719128907,
	"grad_norm": 2.953125,
	"learning_rate": 1.5196350284083999e-05,
	"loss": 0.4291,
	"step": 3825
	},
	{
	"epoch": 1.3255644968874043,
	"grad_norm": 2.796875,
	"learning_rate": 1.513748888240305e-05,
	"loss": 0.429,
	"step": 3850
	},
	{
	"epoch": 1.3342407218619179,
	"grad_norm": 3.125,
	"learning_rate": 1.507838465619125e-05,
	"loss": 0.4232,
	"step": 3875
	},
	{
	"epoch": 1.3429169468364315,
	"grad_norm": 2.578125,
	"learning_rate": 1.5019040399022711e-05,
	"loss": 0.4237,
	"step": 3900
	},
	{
	"epoch": 1.3429169468364315,
	"eval_loss": 0.7250744700431824,
	"eval_runtime": 18.82,
	"eval_samples_per_second": 23.379,
	"eval_steps_per_second": 23.379,
	"step": 3900
	},
	{
	"epoch": 1.351593171810945,
	"grad_norm": 3.296875,
	"learning_rate": 1.4959458915816681e-05,
	"loss": 0.4297,
	"step": 3925
	},
	{
	"epoch": 1.3602693967854587,
	"grad_norm": 2.875,
	"learning_rate": 1.489964302270493e-05,
	"loss": 0.4331,
	"step": 3950
	},
	{
	"epoch": 1.3689456217599723,
	"grad_norm": 2.734375,
	"learning_rate": 1.483959554689868e-05,
	"loss": 0.43,
	"step": 3975
	},
	{
	"epoch": 1.3776218467344858,
	"grad_norm": 2.796875,
	"learning_rate": 1.4779319326554953e-05,
	"loss": 0.4165,
	"step": 4000
	},
	{
	"epoch": 1.3862980717089994,
	"grad_norm": 2.84375,
	"learning_rate": 1.4718817210642427e-05,
	"loss": 0.4325,
	"step": 4025
	},
	{
	"epoch": 1.394974296683513,
	"grad_norm": 2.921875,
	"learning_rate": 1.4658092058806783e-05,
	"loss": 0.4225,
	"step": 4050
	},
	{
	"epoch": 1.4036505216580266,
	"grad_norm": 3.125,
	"learning_rate": 1.4597146741235554e-05,
	"loss": 0.4137,
	"step": 4075
	},
	{
	"epoch": 1.4123267466325402,
	"grad_norm": 2.75,
	"learning_rate": 1.4535984138522442e-05,
	"loss": 0.4075,
	"step": 4100
	},
	{
	"epoch": 1.4210029716070538,
	"grad_norm": 2.796875,
	"learning_rate": 1.447460714153119e-05,
	"loss": 0.4228,
	"step": 4125
	},
	{
	"epoch": 1.4296791965815674,
	"grad_norm": 2.90625,
	"learning_rate": 1.4413018651258922e-05,
	"loss": 0.4215,
	"step": 4150
	},
	{
	"epoch": 1.438355421556081,
	"grad_norm": 2.984375,
	"learning_rate": 1.4351221578699045e-05,
	"loss": 0.4203,
	"step": 4175
	},
	{
	"epoch": 1.4470316465305946,
	"grad_norm": 2.8125,
	"learning_rate": 1.4289218844703654e-05,
	"loss": 0.4068,
	"step": 4200
	},
	{
	"epoch": 1.4470316465305946,
	"eval_loss": 0.7109268307685852,
	"eval_runtime": 19.0434,
	"eval_samples_per_second": 23.105,
	"eval_steps_per_second": 23.105,
	"step": 4200
	},
	{
	"epoch": 1.4557078715051082,
	"grad_norm": 3.171875,
	"learning_rate": 1.4227013379845471e-05,
	"loss": 0.4169,
	"step": 4225
	},
	{
	"epoch": 1.4643840964796218,
	"grad_norm": 2.75,
	"learning_rate": 1.4164608124279337e-05,
	"loss": 0.407,
	"step": 4250
	},
	{
	"epoch": 1.4730603214541353,
	"grad_norm": 2.671875,
	"learning_rate": 1.4102006027603255e-05,
	"loss": 0.4349,
	"step": 4275
	},
	{
	"epoch": 1.481736546428649,
	"grad_norm": 3.125,
	"learning_rate": 1.403921004871895e-05,
	"loss": 0.4077,
	"step": 4300
	},
	{
	"epoch": 1.4904127714031625,
	"grad_norm": 3.140625,
	"learning_rate": 1.3976223155692047e-05,
	"loss": 0.4234,
	"step": 4325
	},
	{
	"epoch": 1.4990889963776761,
	"grad_norm": 2.9375,
	"learning_rate": 1.391304832561175e-05,
	"loss": 0.4177,
	"step": 4350
	},
	{
	"epoch": 1.5077652213521897,
	"grad_norm": 2.90625,
	"learning_rate": 1.3849688544450176e-05,
	"loss": 0.4027,
	"step": 4375
	},
	{
	"epoch": 1.5164414463267033,
	"grad_norm": 2.765625,
	"learning_rate": 1.3786146806921166e-05,
	"loss": 0.4125,
	"step": 4400
	},
	{
	"epoch": 1.525117671301217,
	"grad_norm": 2.9375,
	"learning_rate": 1.3722426116338792e-05,
	"loss": 0.4019,
	"step": 4425
	},
	{
	"epoch": 1.5337938962757305,
	"grad_norm": 2.671875,
	"learning_rate": 1.3658529484475369e-05,
	"loss": 0.4175,
	"step": 4450
	},
	{
	"epoch": 1.5424701212502439,
	"grad_norm": 2.796875,
	"learning_rate": 1.3594459931419112e-05,
	"loss": 0.4136,
	"step": 4475
	},
	{
	"epoch": 1.5511463462247574,
	"grad_norm": 2.71875,
	"learning_rate": 1.3530220485431405e-05,
	"loss": 0.3997,
	"step": 4500
	},
	{
	"epoch": 1.5511463462247574,
	"eval_loss": 0.706421434879303,
	"eval_runtime": 19.0141,
	"eval_samples_per_second": 23.141,
	"eval_steps_per_second": 23.141,
	"step": 4500
	},
	{
	"epoch": 1.559822571199271,
	"grad_norm": 2.875,
	"learning_rate": 1.3465814182803653e-05,
	"loss": 0.422,
	"step": 4525
	},
	{
	"epoch": 1.5684987961737846,
	"grad_norm": 2.875,
	"learning_rate": 1.340124406771377e-05,
	"loss": 0.4171,
	"step": 4550
	},
	{
	"epoch": 1.5771750211482982,
	"grad_norm": 2.984375,
	"learning_rate": 1.3336513192082316e-05,
	"loss": 0.4085,
	"step": 4575
	},
	{
	"epoch": 1.5858512461228118,
	"grad_norm": 2.90625,
	"learning_rate": 1.3271624615428218e-05,
	"loss": 0.4088,
	"step": 4600
	},
	{
	"epoch": 1.5945274710973254,
	"grad_norm": 2.6875,
	"learning_rate": 1.3206581404724185e-05,
	"loss": 0.3976,
	"step": 4625
	},
	{
	"epoch": 1.603203696071839,
	"grad_norm": 3.34375,
	"learning_rate": 1.3141386634251736e-05,
	"loss": 0.404,
	"step": 4650
	},
	{
	"epoch": 1.6118799210463526,
	"grad_norm": 2.78125,
	"learning_rate": 1.3076043385455894e-05,
	"loss": 0.4128,
	"step": 4675
	},
	{
	"epoch": 1.6205561460208662,
	"grad_norm": 2.890625,
	"learning_rate": 1.3010554746799544e-05,
	"loss": 0.3959,
	"step": 4700
	},
	{
	"epoch": 1.6292323709953798,
	"grad_norm": 2.8125,
	"learning_rate": 1.2944923813617458e-05,
	"loss": 0.3978,
	"step": 4725
	},
	{
	"epoch": 1.6379085959698934,
	"grad_norm": 2.859375,
	"learning_rate": 1.2879153687969984e-05,
	"loss": 0.4009,
	"step": 4750
	},
	{
	"epoch": 1.646584820944407,
	"grad_norm": 3.34375,
	"learning_rate": 1.2813247478496428e-05,
	"loss": 0.3974,
	"step": 4775
	},
	{
	"epoch": 1.6552610459189205,
	"grad_norm": 3.03125,
	"learning_rate": 1.274720830026814e-05,
	"loss": 0.3967,
	"step": 4800
	},
	{
	"epoch": 1.6552610459189205,
	"eval_loss": 0.7064741253852844,
	"eval_runtime": 19.1066,
	"eval_samples_per_second": 23.029,
	"eval_steps_per_second": 23.029,
	"step": 4800
	},
	{
	"epoch": 1.6639372708934341,
	"grad_norm": 2.65625,
	"learning_rate": 1.2681039274641261e-05,
	"loss": 0.4103,
	"step": 4825
	},
	{
	"epoch": 1.6726134958679477,
	"grad_norm": 2.890625,
	"learning_rate": 1.261474352910919e-05,
	"loss": 0.4044,
	"step": 4850
	},
	{
	"epoch": 1.6812897208424613,
	"grad_norm": 2.828125,
	"learning_rate": 1.2548324197154788e-05,
	"loss": 0.3968,
	"step": 4875
	},
	{
	"epoch": 1.689965945816975,
	"grad_norm": 2.75,
	"learning_rate": 1.248178441810224e-05,
	"loss": 0.3955,
	"step": 4900
	},
	{
	"epoch": 1.6986421707914885,
	"grad_norm": 2.6875,
	"learning_rate": 1.2415127336968691e-05,
	"loss": 0.3903,
	"step": 4925
	},
	{
	"epoch": 1.707318395766002,
	"grad_norm": 3.15625,
	"learning_rate": 1.23483561043156e-05,
	"loss": 0.3897,
	"step": 4950
	},
	{
	"epoch": 1.7159946207405157,
	"grad_norm": 2.796875,
	"learning_rate": 1.2281473876099822e-05,
	"loss": 0.3981,
	"step": 4975
	},
	{
	"epoch": 1.7246708457150293,
	"grad_norm": 2.953125,
	"learning_rate": 1.2214483813524429e-05,
	"loss": 0.4172,
	"step": 5000
	},
	{
	"epoch": 1.7333470706895429,
	"grad_norm": 2.875,
	"learning_rate": 1.2147389082889328e-05,
	"loss": 0.398,
	"step": 5025
	},
	{
	"epoch": 1.7420232956640564,
	"grad_norm": 2.921875,
	"learning_rate": 1.2080192855441572e-05,
	"loss": 0.3901,
	"step": 5050
	},
	{
	"epoch": 1.75069952063857,
	"grad_norm": 2.84375,
	"learning_rate": 1.2012898307225482e-05,
	"loss": 0.3865,
	"step": 5075
	},
	{
	"epoch": 1.7593757456130836,
	"grad_norm": 3.203125,
	"learning_rate": 1.1945508618932537e-05,
	"loss": 0.3904,
	"step": 5100
	},
	{
	"epoch": 1.7593757456130836,
	"eval_loss": 0.707400918006897,
	"eval_runtime": 18.7714,
	"eval_samples_per_second": 23.44,
	"eval_steps_per_second": 23.44,
	"step": 5100
	},
	{
	"epoch": 1.7680519705875972,
	"grad_norm": 2.5625,
	"learning_rate": 1.1878026975751033e-05,
	"loss": 0.3987,
	"step": 5125
	},
	{
	"epoch": 1.7767281955621108,
	"grad_norm": 3.109375,
	"learning_rate": 1.1810456567215525e-05,
	"loss": 0.3977,
	"step": 5150
	},
	{
	"epoch": 1.7854044205366244,
	"grad_norm": 2.984375,
	"learning_rate": 1.1742800587056092e-05,
	"loss": 0.3913,
	"step": 5175
	},
	{
	"epoch": 1.794080645511138,
	"grad_norm": 2.984375,
	"learning_rate": 1.1675062233047365e-05,
	"loss": 0.3835,
	"step": 5200
	},
	{
	"epoch": 1.8027568704856516,
	"grad_norm": 2.96875,
	"learning_rate": 1.1607244706857404e-05,
	"loss": 0.3856,
	"step": 5225
	},
	{
	"epoch": 1.8114330954601652,
	"grad_norm": 2.65625,
	"learning_rate": 1.1539351213896352e-05,
	"loss": 0.3835,
	"step": 5250
	},
	{
	"epoch": 1.8201093204346788,
	"grad_norm": 2.8125,
	"learning_rate": 1.147138496316494e-05,
	"loss": 0.3901,
	"step": 5275
	},
	{
	"epoch": 1.8287855454091924,
	"grad_norm": 3.0,
	"learning_rate": 1.1403349167102806e-05,
	"loss": 0.3953,
	"step": 5300
	},
	{
	"epoch": 1.837461770383706,
	"grad_norm": 3.234375,
	"learning_rate": 1.1335247041436674e-05,
	"loss": 0.3911,
	"step": 5325
	},
	{
	"epoch": 1.8461379953582195,
	"grad_norm": 2.875,
	"learning_rate": 1.126708180502834e-05,
	"loss": 0.3765,
	"step": 5350
	},
	{
	"epoch": 1.8548142203327331,
	"grad_norm": 2.9375,
	"learning_rate": 1.1198856679722548e-05,
	"loss": 0.3862,
	"step": 5375
	},
	{
	"epoch": 1.8634904453072467,
	"grad_norm": 2.75,
	"learning_rate": 1.1130574890194706e-05,
	"loss": 0.3838,
	"step": 5400
	},
	{
	"epoch": 1.8634904453072467,
	"eval_loss": 0.7026991248130798,
	"eval_runtime": 18.7531,
	"eval_samples_per_second": 23.463,
	"eval_steps_per_second": 23.463,
	"step": 5400
	},
	{
	"epoch": 1.8721666702817603,
	"grad_norm": 2.828125,
	"learning_rate": 1.1062239663798466e-05,
	"loss": 0.3843,
	"step": 5425
	},
	{
	"epoch": 1.880842895256274,
	"grad_norm": 2.78125,
	"learning_rate": 1.0993854230413183e-05,
	"loss": 0.3971,
	"step": 5450
	},
	{
	"epoch": 1.8895191202307875,
	"grad_norm": 3.0625,
	"learning_rate": 1.092542182229126e-05,
	"loss": 0.378,
	"step": 5475
	},
	{
	"epoch": 1.898195345205301,
	"grad_norm": 2.953125,
	"learning_rate": 1.085694567390537e-05,
	"loss": 0.3764,
	"step": 5500
	},
	{
	"epoch": 1.9068715701798147,
	"grad_norm": 2.96875,
	"learning_rate": 1.0788429021795582e-05,
	"loss": 0.3705,
	"step": 5525
	},
	{
	"epoch": 1.9155477951543283,
	"grad_norm": 2.859375,
	"learning_rate": 1.0719875104416373e-05,
	"loss": 0.3723,
	"step": 5550
	},
	{
	"epoch": 1.9242240201288419,
	"grad_norm": 2.875,
	"learning_rate": 1.0651287161983583e-05,
	"loss": 0.3778,
	"step": 5575
	},
	{
	"epoch": 1.9329002451033555,
	"grad_norm": 2.796875,
	"learning_rate": 1.0582668436321244e-05,
	"loss": 0.3773,
	"step": 5600
	},
	{
	"epoch": 1.941576470077869,
	"grad_norm": 3.140625,
	"learning_rate": 1.0514022170708374e-05,
	"loss": 0.3662,
	"step": 5625
	},
	{
	"epoch": 1.9502526950523826,
	"grad_norm": 3.1875,
	"learning_rate": 1.044535160972566e-05,
	"loss": 0.3777,
	"step": 5650
	},
	{
	"epoch": 1.9589289200268962,
	"grad_norm": 3.078125,
	"learning_rate": 1.0376659999102125e-05,
	"loss": 0.3775,
	"step": 5675
	},
	{
	"epoch": 1.9676051450014098,
	"grad_norm": 2.6875,
	"learning_rate": 1.0307950585561705e-05,
	"loss": 0.3714,
	"step": 5700
	},
	{
	"epoch": 1.9676051450014098,
	"eval_loss": 0.7053300142288208,
	"eval_runtime": 19.1384,
	"eval_samples_per_second": 22.99,
	"eval_steps_per_second": 22.99,
	"step": 5700
	},
	{
	"epoch": 1.9762813699759234,
	"grad_norm": 2.875,
	"learning_rate": 1.0239226616669792e-05,
	"loss": 0.375,
	"step": 5725
	},
	{
	"epoch": 1.984957594950437,
	"grad_norm": 2.765625,
	"learning_rate": 1.0170491340679744e-05,
	"loss": 0.3704,
	"step": 5750
	}
	],
	"logging_steps": 25,
	"max_steps": 11524,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 1441,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.495938899681739e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}