BERT_ALL_README / trainer_state.json

Upload 15 files

bd574ed verified 3 months ago

26.1 kB

	{
	"best_metric": 0.5185972369819342,
	"best_model_checkpoint": "./results_bert-base-uncased_combined_lr1e-05_seed45/checkpoint-1200",
	"epoch": 39.34426229508197,
	"eval_steps": 500,
	"global_step": 1200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.6557377049180327,
	"grad_norm": 7.196445941925049,
	"learning_rate": 1.5833333333333333e-06,
	"loss": 1.8973,
	"step": 20
	},
	{
	"epoch": 0.9836065573770492,
	"eval_accuracy": 0.12964930924548354,
	"eval_f1": 0.06598924045051528,
	"eval_loss": 1.80304753780365,
	"eval_precision": 0.06377482620857301,
	"eval_recall": 0.12964930924548354,
	"eval_runtime": 0.2953,
	"eval_samples_per_second": 3186.127,
	"eval_steps_per_second": 16.929,
	"step": 30
	},
	{
	"epoch": 1.3114754098360657,
	"grad_norm": 7.820695400238037,
	"learning_rate": 3.2500000000000002e-06,
	"loss": 1.8091,
	"step": 40
	},
	{
	"epoch": 1.9672131147540983,
	"grad_norm": 5.692554950714111,
	"learning_rate": 4.9166666666666665e-06,
	"loss": 1.7275,
	"step": 60
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.2731137088204038,
	"eval_f1": 0.22275890306102614,
	"eval_loss": 1.6800185441970825,
	"eval_precision": 0.21610225983181644,
	"eval_recall": 0.2731137088204038,
	"eval_runtime": 0.2824,
	"eval_samples_per_second": 3332.104,
	"eval_steps_per_second": 17.705,
	"step": 61
	},
	{
	"epoch": 2.6229508196721314,
	"grad_norm": 5.084521770477295,
	"learning_rate": 6.5000000000000004e-06,
	"loss": 1.6714,
	"step": 80
	},
	{
	"epoch": 2.9836065573770494,
	"eval_accuracy": 0.38257173219978746,
	"eval_f1": 0.33377079740961235,
	"eval_loss": 1.5590412616729736,
	"eval_precision": 0.405931226928208,
	"eval_recall": 0.38257173219978746,
	"eval_runtime": 0.2862,
	"eval_samples_per_second": 3287.384,
	"eval_steps_per_second": 17.468,
	"step": 91
	},
	{
	"epoch": 3.278688524590164,
	"grad_norm": 7.280013084411621,
	"learning_rate": 8.166666666666668e-06,
	"loss": 1.5947,
	"step": 100
	},
	{
	"epoch": 3.9344262295081966,
	"grad_norm": 7.112355709075928,
	"learning_rate": 9.833333333333333e-06,
	"loss": 1.5347,
	"step": 120
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.4059511158342189,
	"eval_f1": 0.36712885756401803,
	"eval_loss": 1.4780991077423096,
	"eval_precision": 0.4071133651031437,
	"eval_recall": 0.4059511158342189,
	"eval_runtime": 0.2834,
	"eval_samples_per_second": 3320.842,
	"eval_steps_per_second": 17.645,
	"step": 122
	},
	{
	"epoch": 4.590163934426229,
	"grad_norm": 4.6436381340026855,
	"learning_rate": 9.833333333333333e-06,
	"loss": 1.4907,
	"step": 140
	},
	{
	"epoch": 4.983606557377049,
	"eval_accuracy": 0.4261424017003188,
	"eval_f1": 0.3946275379809259,
	"eval_loss": 1.4262386560440063,
	"eval_precision": 0.39385114675841176,
	"eval_recall": 0.4261424017003188,
	"eval_runtime": 0.3059,
	"eval_samples_per_second": 3075.844,
	"eval_steps_per_second": 16.343,
	"step": 152
	},
	{
	"epoch": 5.245901639344262,
	"grad_norm": 6.875060081481934,
	"learning_rate": 9.64814814814815e-06,
	"loss": 1.4561,
	"step": 160
	},
	{
	"epoch": 5.901639344262295,
	"grad_norm": 4.790427207946777,
	"learning_rate": 9.472222222222223e-06,
	"loss": 1.4254,
	"step": 180
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.45483528161530284,
	"eval_f1": 0.4291814703075595,
	"eval_loss": 1.3784066438674927,
	"eval_precision": 0.4185165606426249,
	"eval_recall": 0.45483528161530284,
	"eval_runtime": 0.295,
	"eval_samples_per_second": 3189.291,
	"eval_steps_per_second": 16.946,
	"step": 183
	},
	{
	"epoch": 6.557377049180328,
	"grad_norm": 5.400150299072266,
	"learning_rate": 9.296296296296296e-06,
	"loss": 1.4031,
	"step": 200
	},
	{
	"epoch": 6.983606557377049,
	"eval_accuracy": 0.46865037194473963,
	"eval_f1": 0.44252499417149155,
	"eval_loss": 1.3631744384765625,
	"eval_precision": 0.49440104417651237,
	"eval_recall": 0.46865037194473963,
	"eval_runtime": 0.2976,
	"eval_samples_per_second": 3161.889,
	"eval_steps_per_second": 16.801,
	"step": 213
	},
	{
	"epoch": 7.213114754098361,
	"grad_norm": 10.320267677307129,
	"learning_rate": 9.111111111111112e-06,
	"loss": 1.3894,
	"step": 220
	},
	{
	"epoch": 7.868852459016393,
	"grad_norm": 8.646105766296387,
	"learning_rate": 8.925925925925927e-06,
	"loss": 1.3661,
	"step": 240
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.46971307120085015,
	"eval_f1": 0.4568042833868587,
	"eval_loss": 1.3476293087005615,
	"eval_precision": 0.47237771275946455,
	"eval_recall": 0.46971307120085015,
	"eval_runtime": 0.294,
	"eval_samples_per_second": 3200.359,
	"eval_steps_per_second": 17.005,
	"step": 244
	},
	{
	"epoch": 8.524590163934427,
	"grad_norm": 4.57098388671875,
	"learning_rate": 8.740740740740741e-06,
	"loss": 1.3528,
	"step": 260
	},
	{
	"epoch": 8.98360655737705,
	"eval_accuracy": 0.4707757704569607,
	"eval_f1": 0.4585472022799805,
	"eval_loss": 1.3285961151123047,
	"eval_precision": 0.47091141121713276,
	"eval_recall": 0.4707757704569607,
	"eval_runtime": 0.2823,
	"eval_samples_per_second": 3333.381,
	"eval_steps_per_second": 17.712,
	"step": 274
	},
	{
	"epoch": 9.180327868852459,
	"grad_norm": 5.434332370758057,
	"learning_rate": 8.555555555555556e-06,
	"loss": 1.3438,
	"step": 280
	},
	{
	"epoch": 9.836065573770492,
	"grad_norm": 6.4954938888549805,
	"learning_rate": 8.37037037037037e-06,
	"loss": 1.309,
	"step": 300
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.46865037194473963,
	"eval_f1": 0.4568412527812332,
	"eval_loss": 1.332553505897522,
	"eval_precision": 0.46992953260701664,
	"eval_recall": 0.46865037194473963,
	"eval_runtime": 0.2864,
	"eval_samples_per_second": 3285.515,
	"eval_steps_per_second": 17.458,
	"step": 305
	},
	{
	"epoch": 10.491803278688524,
	"grad_norm": 6.318108081817627,
	"learning_rate": 8.185185185185187e-06,
	"loss": 1.3036,
	"step": 320
	},
	{
	"epoch": 10.98360655737705,
	"eval_accuracy": 0.4622741764080765,
	"eval_f1": 0.45324041357026684,
	"eval_loss": 1.3212019205093384,
	"eval_precision": 0.47221675701090976,
	"eval_recall": 0.4622741764080765,
	"eval_runtime": 0.3006,
	"eval_samples_per_second": 3130.452,
	"eval_steps_per_second": 16.634,
	"step": 335
	},
	{
	"epoch": 11.147540983606557,
	"grad_norm": 8.44897174835205,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.3046,
	"step": 340
	},
	{
	"epoch": 11.80327868852459,
	"grad_norm": 6.639650821685791,
	"learning_rate": 7.814814814814816e-06,
	"loss": 1.2737,
	"step": 360
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.5143464399574921,
	"eval_f1": 0.5059771351474103,
	"eval_loss": 1.300374984741211,
	"eval_precision": 0.5130157529201715,
	"eval_recall": 0.5143464399574921,
	"eval_runtime": 0.2984,
	"eval_samples_per_second": 3153.083,
	"eval_steps_per_second": 16.754,
	"step": 366
	},
	{
	"epoch": 12.459016393442623,
	"grad_norm": 5.371426582336426,
	"learning_rate": 7.62962962962963e-06,
	"loss": 1.2642,
	"step": 380
	},
	{
	"epoch": 12.98360655737705,
	"eval_accuracy": 0.48884165781083955,
	"eval_f1": 0.48178502839341597,
	"eval_loss": 1.315968632698059,
	"eval_precision": 0.4952118784240597,
	"eval_recall": 0.48884165781083955,
	"eval_runtime": 0.3,
	"eval_samples_per_second": 3136.49,
	"eval_steps_per_second": 16.666,
	"step": 396
	},
	{
	"epoch": 13.114754098360656,
	"grad_norm": 6.083697319030762,
	"learning_rate": 7.444444444444445e-06,
	"loss": 1.2688,
	"step": 400
	},
	{
	"epoch": 13.770491803278688,
	"grad_norm": 7.939155101776123,
	"learning_rate": 7.2592592592592605e-06,
	"loss": 1.2395,
	"step": 420
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.5058448459086079,
	"eval_f1": 0.5012340867825481,
	"eval_loss": 1.3054472208023071,
	"eval_precision": 0.5059260195308296,
	"eval_recall": 0.5058448459086079,
	"eval_runtime": 0.2951,
	"eval_samples_per_second": 3189.098,
	"eval_steps_per_second": 16.945,
	"step": 427
	},
	{
	"epoch": 14.426229508196721,
	"grad_norm": 5.19802188873291,
	"learning_rate": 7.074074074074074e-06,
	"loss": 1.2324,
	"step": 440
	},
	{
	"epoch": 14.98360655737705,
	"eval_accuracy": 0.4909670563230606,
	"eval_f1": 0.48389179664553195,
	"eval_loss": 1.3174266815185547,
	"eval_precision": 0.4974190684341335,
	"eval_recall": 0.4909670563230606,
	"eval_runtime": 0.2911,
	"eval_samples_per_second": 3232.523,
	"eval_steps_per_second": 17.176,
	"step": 457
	},
	{
	"epoch": 15.081967213114755,
	"grad_norm": 14.863390922546387,
	"learning_rate": 6.88888888888889e-06,
	"loss": 1.2294,
	"step": 460
	},
	{
	"epoch": 15.737704918032787,
	"grad_norm": 6.973830699920654,
	"learning_rate": 6.703703703703704e-06,
	"loss": 1.2043,
	"step": 480
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.5079702444208289,
	"eval_f1": 0.5009933439562343,
	"eval_loss": 1.301389217376709,
	"eval_precision": 0.5133376615246589,
	"eval_recall": 0.5079702444208289,
	"eval_runtime": 0.2897,
	"eval_samples_per_second": 3248.415,
	"eval_steps_per_second": 17.26,
	"step": 488
	},
	{
	"epoch": 16.39344262295082,
	"grad_norm": 4.816354751586914,
	"learning_rate": 6.51851851851852e-06,
	"loss": 1.1878,
	"step": 500
	},
	{
	"epoch": 16.983606557377048,
	"eval_accuracy": 0.5047821466524973,
	"eval_f1": 0.5026293126534545,
	"eval_loss": 1.3040825128555298,
	"eval_precision": 0.5084106817664226,
	"eval_recall": 0.5047821466524973,
	"eval_runtime": 0.2972,
	"eval_samples_per_second": 3166.554,
	"eval_steps_per_second": 16.825,
	"step": 518
	},
	{
	"epoch": 17.049180327868854,
	"grad_norm": 9.227392196655273,
	"learning_rate": 6.333333333333333e-06,
	"loss": 1.185,
	"step": 520
	},
	{
	"epoch": 17.704918032786885,
	"grad_norm": 8.637321472167969,
	"learning_rate": 6.148148148148149e-06,
	"loss": 1.1744,
	"step": 540
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.49415515409139216,
	"eval_f1": 0.4884746258823515,
	"eval_loss": 1.3026150465011597,
	"eval_precision": 0.4988838007681139,
	"eval_recall": 0.49415515409139216,
	"eval_runtime": 0.2868,
	"eval_samples_per_second": 3280.605,
	"eval_steps_per_second": 17.431,
	"step": 549
	},
	{
	"epoch": 18.360655737704917,
	"grad_norm": 10.460613250732422,
	"learning_rate": 5.962962962962963e-06,
	"loss": 1.1621,
	"step": 560
	},
	{
	"epoch": 18.983606557377048,
	"eval_accuracy": 0.5026567481402763,
	"eval_f1": 0.49433902872030766,
	"eval_loss": 1.3115041255950928,
	"eval_precision": 0.5064079316801127,
	"eval_recall": 0.5026567481402763,
	"eval_runtime": 0.2887,
	"eval_samples_per_second": 3259.021,
	"eval_steps_per_second": 17.317,
	"step": 579
	},
	{
	"epoch": 19.016393442622952,
	"grad_norm": 9.569828033447266,
	"learning_rate": 5.777777777777778e-06,
	"loss": 1.1794,
	"step": 580
	},
	{
	"epoch": 19.672131147540984,
	"grad_norm": 9.484976768493652,
	"learning_rate": 5.5925925925925926e-06,
	"loss": 1.1453,
	"step": 600
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.49946865037194477,
	"eval_f1": 0.4947569022574746,
	"eval_loss": 1.3135700225830078,
	"eval_precision": 0.5051709468240039,
	"eval_recall": 0.49946865037194477,
	"eval_runtime": 0.284,
	"eval_samples_per_second": 3313.863,
	"eval_steps_per_second": 17.608,
	"step": 610
	},
	{
	"epoch": 20.327868852459016,
	"grad_norm": 6.509533405303955,
	"learning_rate": 5.407407407407408e-06,
	"loss": 1.1435,
	"step": 620
	},
	{
	"epoch": 20.983606557377048,
	"grad_norm": 6.100685119628906,
	"learning_rate": 5.2222222222222226e-06,
	"loss": 1.1546,
	"step": 640
	},
	{
	"epoch": 20.983606557377048,
	"eval_accuracy": 0.49309245483528164,
	"eval_f1": 0.4888614092606576,
	"eval_loss": 1.3327937126159668,
	"eval_precision": 0.5027325713159697,
	"eval_recall": 0.49309245483528164,
	"eval_runtime": 0.288,
	"eval_samples_per_second": 3267.438,
	"eval_steps_per_second": 17.362,
	"step": 640
	},
	{
	"epoch": 21.639344262295083,
	"grad_norm": 10.228110313415527,
	"learning_rate": 5.037037037037037e-06,
	"loss": 1.1118,
	"step": 660
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.5037194473963869,
	"eval_f1": 0.49935836644717385,
	"eval_loss": 1.3201266527175903,
	"eval_precision": 0.5068092491618498,
	"eval_recall": 0.5037194473963869,
	"eval_runtime": 0.2806,
	"eval_samples_per_second": 3353.599,
	"eval_steps_per_second": 17.819,
	"step": 671
	},
	{
	"epoch": 22.295081967213115,
	"grad_norm": 4.691425800323486,
	"learning_rate": 4.851851851851852e-06,
	"loss": 1.121,
	"step": 680
	},
	{
	"epoch": 22.950819672131146,
	"grad_norm": 5.896801471710205,
	"learning_rate": 4.666666666666667e-06,
	"loss": 1.1013,
	"step": 700
	},
	{
	"epoch": 22.983606557377048,
	"eval_accuracy": 0.5079702444208289,
	"eval_f1": 0.5056149574862951,
	"eval_loss": 1.3185617923736572,
	"eval_precision": 0.5104193389071094,
	"eval_recall": 0.5079702444208289,
	"eval_runtime": 0.2841,
	"eval_samples_per_second": 3312.06,
	"eval_steps_per_second": 17.599,
	"step": 701
	},
	{
	"epoch": 23.60655737704918,
	"grad_norm": 9.211535453796387,
	"learning_rate": 4.481481481481482e-06,
	"loss": 1.0909,
	"step": 720
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.5047821466524973,
	"eval_f1": 0.5027837397043571,
	"eval_loss": 1.3096483945846558,
	"eval_precision": 0.5132526138930299,
	"eval_recall": 0.5047821466524973,
	"eval_runtime": 0.3019,
	"eval_samples_per_second": 3116.922,
	"eval_steps_per_second": 16.562,
	"step": 732
	},
	{
	"epoch": 24.262295081967213,
	"grad_norm": 5.588741302490234,
	"learning_rate": 4.296296296296296e-06,
	"loss": 1.0904,
	"step": 740
	},
	{
	"epoch": 24.918032786885245,
	"grad_norm": 7.369673728942871,
	"learning_rate": 4.111111111111111e-06,
	"loss": 1.0765,
	"step": 760
	},
	{
	"epoch": 24.983606557377048,
	"eval_accuracy": 0.5079702444208289,
	"eval_f1": 0.504151686335666,
	"eval_loss": 1.3278100490570068,
	"eval_precision": 0.5111957998187558,
	"eval_recall": 0.5079702444208289,
	"eval_runtime": 0.2837,
	"eval_samples_per_second": 3316.497,
	"eval_steps_per_second": 17.622,
	"step": 762
	},
	{
	"epoch": 25.57377049180328,
	"grad_norm": 9.449226379394531,
	"learning_rate": 3.925925925925926e-06,
	"loss": 1.0687,
	"step": 780
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.5037194473963869,
	"eval_f1": 0.501835797044231,
	"eval_loss": 1.3304780721664429,
	"eval_precision": 0.5109551773238672,
	"eval_recall": 0.5037194473963869,
	"eval_runtime": 0.2896,
	"eval_samples_per_second": 3249.747,
	"eval_steps_per_second": 17.268,
	"step": 793
	},
	{
	"epoch": 26.229508196721312,
	"grad_norm": 5.422854423522949,
	"learning_rate": 3.740740740740741e-06,
	"loss": 1.0579,
	"step": 800
	},
	{
	"epoch": 26.885245901639344,
	"grad_norm": 5.668990612030029,
	"learning_rate": 3.555555555555556e-06,
	"loss": 1.0544,
	"step": 820
	},
	{
	"epoch": 26.983606557377048,
	"eval_accuracy": 0.5175345377258236,
	"eval_f1": 0.5164541262908391,
	"eval_loss": 1.318372130393982,
	"eval_precision": 0.5223443720891333,
	"eval_recall": 0.5175345377258236,
	"eval_runtime": 0.302,
	"eval_samples_per_second": 3115.635,
	"eval_steps_per_second": 16.555,
	"step": 823
	},
	{
	"epoch": 27.540983606557376,
	"grad_norm": 10.203471183776855,
	"learning_rate": 3.3703703703703705e-06,
	"loss": 1.0577,
	"step": 840
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.5069075451647184,
	"eval_f1": 0.5033442589921326,
	"eval_loss": 1.3318045139312744,
	"eval_precision": 0.5084800819821859,
	"eval_recall": 0.5069075451647184,
	"eval_runtime": 0.2944,
	"eval_samples_per_second": 3196.236,
	"eval_steps_per_second": 16.983,
	"step": 854
	},
	{
	"epoch": 28.19672131147541,
	"grad_norm": 6.67368221282959,
	"learning_rate": 3.1851851851851855e-06,
	"loss": 1.0434,
	"step": 860
	},
	{
	"epoch": 28.852459016393443,
	"grad_norm": 6.8327765464782715,
	"learning_rate": 3e-06,
	"loss": 1.0475,
	"step": 880
	},
	{
	"epoch": 28.983606557377048,
	"eval_accuracy": 0.51009564293305,
	"eval_f1": 0.5074698366226925,
	"eval_loss": 1.3202146291732788,
	"eval_precision": 0.5157834747082791,
	"eval_recall": 0.51009564293305,
	"eval_runtime": 0.2822,
	"eval_samples_per_second": 3334.68,
	"eval_steps_per_second": 17.719,
	"step": 884
	},
	{
	"epoch": 29.508196721311474,
	"grad_norm": 10.031432151794434,
	"learning_rate": 2.814814814814815e-06,
	"loss": 1.0312,
	"step": 900
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.5090329436769394,
	"eval_f1": 0.5059785444183024,
	"eval_loss": 1.343613862991333,
	"eval_precision": 0.5104547305202234,
	"eval_recall": 0.5090329436769394,
	"eval_runtime": 0.2901,
	"eval_samples_per_second": 3244.1,
	"eval_steps_per_second": 17.238,
	"step": 915
	},
	{
	"epoch": 30.16393442622951,
	"grad_norm": 5.074967861175537,
	"learning_rate": 2.6296296296296297e-06,
	"loss": 1.0248,
	"step": 920
	},
	{
	"epoch": 30.81967213114754,
	"grad_norm": 7.508426189422607,
	"learning_rate": 2.4444444444444447e-06,
	"loss": 1.0231,
	"step": 940
	},
	{
	"epoch": 30.983606557377048,
	"eval_accuracy": 0.5143464399574921,
	"eval_f1": 0.5128246980549828,
	"eval_loss": 1.3461003303527832,
	"eval_precision": 0.5172606351162928,
	"eval_recall": 0.5143464399574921,
	"eval_runtime": 0.298,
	"eval_samples_per_second": 3157.909,
	"eval_steps_per_second": 16.78,
	"step": 945
	},
	{
	"epoch": 31.475409836065573,
	"grad_norm": 12.130611419677734,
	"learning_rate": 2.2592592592592592e-06,
	"loss": 1.0185,
	"step": 960
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.5090329436769394,
	"eval_f1": 0.5062984065924716,
	"eval_loss": 1.3429207801818848,
	"eval_precision": 0.5110311107411546,
	"eval_recall": 0.5090329436769394,
	"eval_runtime": 0.2991,
	"eval_samples_per_second": 3145.81,
	"eval_steps_per_second": 16.715,
	"step": 976
	},
	{
	"epoch": 32.131147540983605,
	"grad_norm": 7.62930154800415,
	"learning_rate": 2.0740740740740742e-06,
	"loss": 0.9978,
	"step": 980
	},
	{
	"epoch": 32.78688524590164,
	"grad_norm": 6.595398902893066,
	"learning_rate": 1.888888888888889e-06,
	"loss": 1.0102,
	"step": 1000
	},
	{
	"epoch": 32.98360655737705,
	"eval_accuracy": 0.5143464399574921,
	"eval_f1": 0.5128260191462034,
	"eval_loss": 1.3501225709915161,
	"eval_precision": 0.5164523478379722,
	"eval_recall": 0.5143464399574921,
	"eval_runtime": 0.2862,
	"eval_samples_per_second": 3287.538,
	"eval_steps_per_second": 17.468,
	"step": 1006
	},
	{
	"epoch": 33.442622950819676,
	"grad_norm": 14.922042846679688,
	"learning_rate": 1.7037037037037038e-06,
	"loss": 1.0024,
	"step": 1020
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.5132837407013815,
	"eval_f1": 0.5115794743472372,
	"eval_loss": 1.3449465036392212,
	"eval_precision": 0.518258292844791,
	"eval_recall": 0.5132837407013815,
	"eval_runtime": 0.2827,
	"eval_samples_per_second": 3328.625,
	"eval_steps_per_second": 17.687,
	"step": 1037
	},
	{
	"epoch": 34.09836065573771,
	"grad_norm": 8.07007122039795,
	"learning_rate": 1.5185185185185186e-06,
	"loss": 0.997,
	"step": 1040
	},
	{
	"epoch": 34.75409836065574,
	"grad_norm": 6.781075477600098,
	"learning_rate": 1.3333333333333334e-06,
	"loss": 0.9991,
	"step": 1060
	},
	{
	"epoch": 34.98360655737705,
	"eval_accuracy": 0.5143464399574921,
	"eval_f1": 0.5114723136353695,
	"eval_loss": 1.3471170663833618,
	"eval_precision": 0.5158292841288152,
	"eval_recall": 0.5143464399574921,
	"eval_runtime": 0.288,
	"eval_samples_per_second": 3267.384,
	"eval_steps_per_second": 17.361,
	"step": 1067
	},
	{
	"epoch": 35.40983606557377,
	"grad_norm": 11.607426643371582,
	"learning_rate": 1.1481481481481482e-06,
	"loss": 0.983,
	"step": 1080
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.5079702444208289,
	"eval_f1": 0.504843217181714,
	"eval_loss": 1.3585803508758545,
	"eval_precision": 0.509438648352314,
	"eval_recall": 0.5079702444208289,
	"eval_runtime": 0.2932,
	"eval_samples_per_second": 3209.163,
	"eval_steps_per_second": 17.052,
	"step": 1098
	},
	{
	"epoch": 36.0655737704918,
	"grad_norm": 7.522489547729492,
	"learning_rate": 9.62962962962963e-07,
	"loss": 0.9771,
	"step": 1100
	},
	{
	"epoch": 36.721311475409834,
	"grad_norm": 6.985760688781738,
	"learning_rate": 7.777777777777779e-07,
	"loss": 0.9827,
	"step": 1120
	},
	{
	"epoch": 36.98360655737705,
	"eval_accuracy": 0.5058448459086079,
	"eval_f1": 0.5029473061894668,
	"eval_loss": 1.3584290742874146,
	"eval_precision": 0.5075082082551082,
	"eval_recall": 0.5058448459086079,
	"eval_runtime": 0.286,
	"eval_samples_per_second": 3289.897,
	"eval_steps_per_second": 17.481,
	"step": 1128
	},
	{
	"epoch": 37.377049180327866,
	"grad_norm": 15.159732818603516,
	"learning_rate": 5.925925925925927e-07,
	"loss": 0.9807,
	"step": 1140
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.5154091392136025,
	"eval_f1": 0.5134611936291602,
	"eval_loss": 1.3536242246627808,
	"eval_precision": 0.5189235103268454,
	"eval_recall": 0.5154091392136025,
	"eval_runtime": 0.2878,
	"eval_samples_per_second": 3269.755,
	"eval_steps_per_second": 17.374,
	"step": 1159
	},
	{
	"epoch": 38.032786885245905,
	"grad_norm": 8.501507759094238,
	"learning_rate": 4.074074074074075e-07,
	"loss": 0.9819,
	"step": 1160
	},
	{
	"epoch": 38.68852459016394,
	"grad_norm": 7.350555419921875,
	"learning_rate": 2.2222222222222224e-07,
	"loss": 0.9698,
	"step": 1180
	},
	{
	"epoch": 38.98360655737705,
	"eval_accuracy": 0.5143464399574921,
	"eval_f1": 0.5126916822770045,
	"eval_loss": 1.3546310663223267,
	"eval_precision": 0.5184421351153233,
	"eval_recall": 0.5143464399574921,
	"eval_runtime": 0.2918,
	"eval_samples_per_second": 3225.014,
	"eval_steps_per_second": 17.136,
	"step": 1189
	},
	{
	"epoch": 39.34426229508197,
	"grad_norm": 13.357161521911621,
	"learning_rate": 3.703703703703704e-08,
	"loss": 0.9792,
	"step": 1200
	},
	{
	"epoch": 39.34426229508197,
	"eval_accuracy": 0.5185972369819342,
	"eval_f1": 0.516675376095624,
	"eval_loss": 1.353948950767517,
	"eval_precision": 0.5216418875507168,
	"eval_recall": 0.5185972369819342,
	"eval_runtime": 0.2709,
	"eval_samples_per_second": 3473.833,
	"eval_steps_per_second": 18.458,
	"step": 1200
	}
	],
	"logging_steps": 20,
	"max_steps": 1200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.515574105997312e+16,
	"train_batch_size": 24,
	"trial_name": null,
	"trial_params": null
	}