Samuel J. Huskey

add: model files

0f68ee2 about 2 months ago

60.1 kB

	{
	"best_metric": 0.9499685377695699,
	"best_model_checkpoint": "./distilbert-finetuned/checkpoint-30520",
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 30520,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0655307994757536,
	"grad_norm": 1.8972834348678589,
	"learning_rate": 4.983617300131062e-05,
	"loss": 8.0585,
	"step": 100
	},
	{
	"epoch": 0.1310615989515072,
	"grad_norm": 1.7784675359725952,
	"learning_rate": 4.9672346002621236e-05,
	"loss": 8.0566,
	"step": 200
	},
	{
	"epoch": 0.1965923984272608,
	"grad_norm": 2.920842409133911,
	"learning_rate": 4.950851900393185e-05,
	"loss": 8.0383,
	"step": 300
	},
	{
	"epoch": 0.2621231979030144,
	"grad_norm": 3.6251978874206543,
	"learning_rate": 4.934469200524246e-05,
	"loss": 7.9945,
	"step": 400
	},
	{
	"epoch": 0.32765399737876805,
	"grad_norm": 4.245726585388184,
	"learning_rate": 4.918086500655309e-05,
	"loss": 7.8561,
	"step": 500
	},
	{
	"epoch": 0.3931847968545216,
	"grad_norm": 4.707456111907959,
	"learning_rate": 4.90170380078637e-05,
	"loss": 7.7312,
	"step": 600
	},
	{
	"epoch": 0.45871559633027525,
	"grad_norm": 5.121094703674316,
	"learning_rate": 4.8853211009174314e-05,
	"loss": 7.5316,
	"step": 700
	},
	{
	"epoch": 0.5242463958060288,
	"grad_norm": 5.974259376525879,
	"learning_rate": 4.868938401048493e-05,
	"loss": 7.3433,
	"step": 800
	},
	{
	"epoch": 0.5897771952817824,
	"grad_norm": 5.776278972625732,
	"learning_rate": 4.852555701179555e-05,
	"loss": 7.0775,
	"step": 900
	},
	{
	"epoch": 0.6553079947575361,
	"grad_norm": 6.829719543457031,
	"learning_rate": 4.836173001310616e-05,
	"loss": 6.8544,
	"step": 1000
	},
	{
	"epoch": 0.7208387942332897,
	"grad_norm": 7.138682842254639,
	"learning_rate": 4.819790301441678e-05,
	"loss": 6.6293,
	"step": 1100
	},
	{
	"epoch": 0.7863695937090432,
	"grad_norm": 6.803562641143799,
	"learning_rate": 4.803407601572739e-05,
	"loss": 6.3618,
	"step": 1200
	},
	{
	"epoch": 0.8519003931847968,
	"grad_norm": 7.9476752281188965,
	"learning_rate": 4.787024901703801e-05,
	"loss": 6.0285,
	"step": 1300
	},
	{
	"epoch": 0.9174311926605505,
	"grad_norm": 9.059676170349121,
	"learning_rate": 4.7706422018348626e-05,
	"loss": 5.7603,
	"step": 1400
	},
	{
	"epoch": 0.9829619921363041,
	"grad_norm": 8.36684513092041,
	"learning_rate": 4.754259501965924e-05,
	"loss": 5.4373,
	"step": 1500
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.3351490825688073,
	"eval_f1": 0.2757507443104033,
	"eval_loss": 4.97554874420166,
	"eval_runtime": 0.9115,
	"eval_samples_per_second": 3826.458,
	"eval_steps_per_second": 60.337,
	"step": 1526
	},
	{
	"epoch": 1.0484927916120577,
	"grad_norm": 9.069089889526367,
	"learning_rate": 4.737876802096986e-05,
	"loss": 4.6364,
	"step": 1600
	},
	{
	"epoch": 1.1140235910878113,
	"grad_norm": 9.420051574707031,
	"learning_rate": 4.7214941022280476e-05,
	"loss": 4.1063,
	"step": 1700
	},
	{
	"epoch": 1.1795543905635648,
	"grad_norm": 9.825067520141602,
	"learning_rate": 4.705111402359109e-05,
	"loss": 3.7956,
	"step": 1800
	},
	{
	"epoch": 1.2450851900393185,
	"grad_norm": 11.169500350952148,
	"learning_rate": 4.68872870249017e-05,
	"loss": 3.5422,
	"step": 1900
	},
	{
	"epoch": 1.310615989515072,
	"grad_norm": 10.43234920501709,
	"learning_rate": 4.672346002621232e-05,
	"loss": 3.2258,
	"step": 2000
	},
	{
	"epoch": 1.3761467889908257,
	"grad_norm": 9.745192527770996,
	"learning_rate": 4.655963302752294e-05,
	"loss": 2.9775,
	"step": 2100
	},
	{
	"epoch": 1.4416775884665793,
	"grad_norm": 11.521934509277344,
	"learning_rate": 4.6395806028833554e-05,
	"loss": 2.8164,
	"step": 2200
	},
	{
	"epoch": 1.5072083879423328,
	"grad_norm": 10.573694229125977,
	"learning_rate": 4.623197903014417e-05,
	"loss": 2.5647,
	"step": 2300
	},
	{
	"epoch": 1.5727391874180865,
	"grad_norm": 11.856453895568848,
	"learning_rate": 4.606815203145479e-05,
	"loss": 2.3067,
	"step": 2400
	},
	{
	"epoch": 1.6382699868938402,
	"grad_norm": 13.598255157470703,
	"learning_rate": 4.59043250327654e-05,
	"loss": 2.2179,
	"step": 2500
	},
	{
	"epoch": 1.7038007863695936,
	"grad_norm": 9.973114013671875,
	"learning_rate": 4.5740498034076015e-05,
	"loss": 1.9873,
	"step": 2600
	},
	{
	"epoch": 1.7693315858453473,
	"grad_norm": 11.870305061340332,
	"learning_rate": 4.557667103538664e-05,
	"loss": 1.844,
	"step": 2700
	},
	{
	"epoch": 1.834862385321101,
	"grad_norm": 12.496658325195312,
	"learning_rate": 4.541284403669725e-05,
	"loss": 1.7231,
	"step": 2800
	},
	{
	"epoch": 1.9003931847968545,
	"grad_norm": 9.312653541564941,
	"learning_rate": 4.5249017038007866e-05,
	"loss": 1.5158,
	"step": 2900
	},
	{
	"epoch": 1.9659239842726082,
	"grad_norm": 12.817119598388672,
	"learning_rate": 4.508519003931848e-05,
	"loss": 1.4242,
	"step": 3000
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.7577408256880734,
	"eval_f1": 0.7301710983333689,
	"eval_loss": 1.4731484651565552,
	"eval_runtime": 0.8691,
	"eval_samples_per_second": 4013.239,
	"eval_steps_per_second": 63.282,
	"step": 3052
	},
	{
	"epoch": 2.031454783748362,
	"grad_norm": 10.233814239501953,
	"learning_rate": 4.49213630406291e-05,
	"loss": 1.1832,
	"step": 3100
	},
	{
	"epoch": 2.0969855832241153,
	"grad_norm": 12.700181007385254,
	"learning_rate": 4.475753604193971e-05,
	"loss": 0.941,
	"step": 3200
	},
	{
	"epoch": 2.162516382699869,
	"grad_norm": 12.155367851257324,
	"learning_rate": 4.459370904325033e-05,
	"loss": 0.9038,
	"step": 3300
	},
	{
	"epoch": 2.2280471821756227,
	"grad_norm": 12.641743659973145,
	"learning_rate": 4.4429882044560943e-05,
	"loss": 0.8846,
	"step": 3400
	},
	{
	"epoch": 2.293577981651376,
	"grad_norm": 11.405875205993652,
	"learning_rate": 4.426605504587156e-05,
	"loss": 0.8371,
	"step": 3500
	},
	{
	"epoch": 2.3591087811271296,
	"grad_norm": 9.20864200592041,
	"learning_rate": 4.410222804718218e-05,
	"loss": 0.737,
	"step": 3600
	},
	{
	"epoch": 2.4246395806028835,
	"grad_norm": 15.105806350708008,
	"learning_rate": 4.3938401048492794e-05,
	"loss": 0.7328,
	"step": 3700
	},
	{
	"epoch": 2.490170380078637,
	"grad_norm": 7.7599310874938965,
	"learning_rate": 4.3774574049803404e-05,
	"loss": 0.7012,
	"step": 3800
	},
	{
	"epoch": 2.5557011795543905,
	"grad_norm": 10.58204460144043,
	"learning_rate": 4.361074705111403e-05,
	"loss": 0.6169,
	"step": 3900
	},
	{
	"epoch": 2.621231979030144,
	"grad_norm": 9.051236152648926,
	"learning_rate": 4.344692005242464e-05,
	"loss": 0.6348,
	"step": 4000
	},
	{
	"epoch": 2.686762778505898,
	"grad_norm": 5.441799640655518,
	"learning_rate": 4.3283093053735255e-05,
	"loss": 0.5538,
	"step": 4100
	},
	{
	"epoch": 2.7522935779816513,
	"grad_norm": 9.519750595092773,
	"learning_rate": 4.311926605504588e-05,
	"loss": 0.5626,
	"step": 4200
	},
	{
	"epoch": 2.8178243774574048,
	"grad_norm": 6.30112886428833,
	"learning_rate": 4.295543905635649e-05,
	"loss": 0.5072,
	"step": 4300
	},
	{
	"epoch": 2.8833551769331587,
	"grad_norm": 11.238988876342773,
	"learning_rate": 4.2791612057667106e-05,
	"loss": 0.482,
	"step": 4400
	},
	{
	"epoch": 2.948885976408912,
	"grad_norm": 8.047210693359375,
	"learning_rate": 4.262778505897772e-05,
	"loss": 0.5018,
	"step": 4500
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8847477064220184,
	"eval_f1": 0.8750008035415145,
	"eval_loss": 0.6360189318656921,
	"eval_runtime": 0.9139,
	"eval_samples_per_second": 3816.692,
	"eval_steps_per_second": 60.183,
	"step": 4578
	},
	{
	"epoch": 3.0144167758846656,
	"grad_norm": 5.651986598968506,
	"learning_rate": 4.246395806028834e-05,
	"loss": 0.4096,
	"step": 4600
	},
	{
	"epoch": 3.0799475753604195,
	"grad_norm": 4.4963274002075195,
	"learning_rate": 4.230013106159895e-05,
	"loss": 0.2835,
	"step": 4700
	},
	{
	"epoch": 3.145478374836173,
	"grad_norm": 3.222943067550659,
	"learning_rate": 4.2136304062909573e-05,
	"loss": 0.2747,
	"step": 4800
	},
	{
	"epoch": 3.2110091743119265,
	"grad_norm": 9.179097175598145,
	"learning_rate": 4.1972477064220184e-05,
	"loss": 0.2935,
	"step": 4900
	},
	{
	"epoch": 3.2765399737876804,
	"grad_norm": 6.673375606536865,
	"learning_rate": 4.18086500655308e-05,
	"loss": 0.2708,
	"step": 5000
	},
	{
	"epoch": 3.342070773263434,
	"grad_norm": 6.3241400718688965,
	"learning_rate": 4.164482306684142e-05,
	"loss": 0.2805,
	"step": 5100
	},
	{
	"epoch": 3.4076015727391873,
	"grad_norm": 3.614450216293335,
	"learning_rate": 4.1480996068152034e-05,
	"loss": 0.2383,
	"step": 5200
	},
	{
	"epoch": 3.473132372214941,
	"grad_norm": 1.6470447778701782,
	"learning_rate": 4.1317169069462644e-05,
	"loss": 0.205,
	"step": 5300
	},
	{
	"epoch": 3.5386631716906947,
	"grad_norm": 3.095306873321533,
	"learning_rate": 4.115334207077327e-05,
	"loss": 0.2245,
	"step": 5400
	},
	{
	"epoch": 3.604193971166448,
	"grad_norm": 2.1946816444396973,
	"learning_rate": 4.0989515072083885e-05,
	"loss": 0.2159,
	"step": 5500
	},
	{
	"epoch": 3.669724770642202,
	"grad_norm": 4.0140886306762695,
	"learning_rate": 4.0825688073394495e-05,
	"loss": 0.2264,
	"step": 5600
	},
	{
	"epoch": 3.7352555701179555,
	"grad_norm": 4.582081317901611,
	"learning_rate": 4.066186107470511e-05,
	"loss": 0.2393,
	"step": 5700
	},
	{
	"epoch": 3.800786369593709,
	"grad_norm": 3.2640044689178467,
	"learning_rate": 4.049803407601573e-05,
	"loss": 0.1792,
	"step": 5800
	},
	{
	"epoch": 3.866317169069463,
	"grad_norm": 4.081344127655029,
	"learning_rate": 4.0334207077326346e-05,
	"loss": 0.1883,
	"step": 5900
	},
	{
	"epoch": 3.9318479685452163,
	"grad_norm": 7.787130355834961,
	"learning_rate": 4.017038007863696e-05,
	"loss": 0.2032,
	"step": 6000
	},
	{
	"epoch": 3.99737876802097,
	"grad_norm": 10.889232635498047,
	"learning_rate": 4.000655307994758e-05,
	"loss": 0.1863,
	"step": 6100
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9208715596330275,
	"eval_f1": 0.91669118025196,
	"eval_loss": 0.4279778301715851,
	"eval_runtime": 0.9015,
	"eval_samples_per_second": 3869.286,
	"eval_steps_per_second": 61.012,
	"step": 6104
	},
	{
	"epoch": 4.062909567496724,
	"grad_norm": 3.0653154850006104,
	"learning_rate": 3.984272608125819e-05,
	"loss": 0.1164,
	"step": 6200
	},
	{
	"epoch": 4.128440366972477,
	"grad_norm": 4.659291744232178,
	"learning_rate": 3.967889908256881e-05,
	"loss": 0.1092,
	"step": 6300
	},
	{
	"epoch": 4.193971166448231,
	"grad_norm": 1.27858567237854,
	"learning_rate": 3.9515072083879424e-05,
	"loss": 0.1057,
	"step": 6400
	},
	{
	"epoch": 4.259501965923985,
	"grad_norm": 1.6424704790115356,
	"learning_rate": 3.935124508519004e-05,
	"loss": 0.1048,
	"step": 6500
	},
	{
	"epoch": 4.325032765399738,
	"grad_norm": 2.527622938156128,
	"learning_rate": 3.918741808650066e-05,
	"loss": 0.1116,
	"step": 6600
	},
	{
	"epoch": 4.3905635648754915,
	"grad_norm": 2.611750364303589,
	"learning_rate": 3.9023591087811274e-05,
	"loss": 0.1106,
	"step": 6700
	},
	{
	"epoch": 4.456094364351245,
	"grad_norm": 3.4234442710876465,
	"learning_rate": 3.885976408912189e-05,
	"loss": 0.0898,
	"step": 6800
	},
	{
	"epoch": 4.521625163826998,
	"grad_norm": 0.4667866826057434,
	"learning_rate": 3.86959370904325e-05,
	"loss": 0.0793,
	"step": 6900
	},
	{
	"epoch": 4.587155963302752,
	"grad_norm": 4.575076580047607,
	"learning_rate": 3.8532110091743125e-05,
	"loss": 0.0811,
	"step": 7000
	},
	{
	"epoch": 4.652686762778506,
	"grad_norm": 0.7901601195335388,
	"learning_rate": 3.8368283093053735e-05,
	"loss": 0.0871,
	"step": 7100
	},
	{
	"epoch": 4.718217562254259,
	"grad_norm": 2.668879270553589,
	"learning_rate": 3.820445609436435e-05,
	"loss": 0.0834,
	"step": 7200
	},
	{
	"epoch": 4.783748361730013,
	"grad_norm": 6.539068698883057,
	"learning_rate": 3.804062909567497e-05,
	"loss": 0.0755,
	"step": 7300
	},
	{
	"epoch": 4.849279161205767,
	"grad_norm": 2.785691738128662,
	"learning_rate": 3.7876802096985586e-05,
	"loss": 0.0869,
	"step": 7400
	},
	{
	"epoch": 4.91480996068152,
	"grad_norm": 1.0723165273666382,
	"learning_rate": 3.7712975098296196e-05,
	"loss": 0.1016,
	"step": 7500
	},
	{
	"epoch": 4.980340760157274,
	"grad_norm": 7.655533790588379,
	"learning_rate": 3.754914809960682e-05,
	"loss": 0.082,
	"step": 7600
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9323394495412844,
	"eval_f1": 0.9303857696202881,
	"eval_loss": 0.3835083246231079,
	"eval_runtime": 0.8868,
	"eval_samples_per_second": 3933.101,
	"eval_steps_per_second": 62.019,
	"step": 7630
	},
	{
	"epoch": 5.045871559633028,
	"grad_norm": 6.8434882164001465,
	"learning_rate": 3.738532110091743e-05,
	"loss": 0.0531,
	"step": 7700
	},
	{
	"epoch": 5.111402359108781,
	"grad_norm": 11.0233736038208,
	"learning_rate": 3.722149410222805e-05,
	"loss": 0.0401,
	"step": 7800
	},
	{
	"epoch": 5.176933158584535,
	"grad_norm": 1.0623722076416016,
	"learning_rate": 3.7057667103538664e-05,
	"loss": 0.0497,
	"step": 7900
	},
	{
	"epoch": 5.242463958060289,
	"grad_norm": 0.9341715574264526,
	"learning_rate": 3.689384010484928e-05,
	"loss": 0.0384,
	"step": 8000
	},
	{
	"epoch": 5.307994757536042,
	"grad_norm": 0.4840922951698303,
	"learning_rate": 3.67300131061599e-05,
	"loss": 0.0419,
	"step": 8100
	},
	{
	"epoch": 5.373525557011796,
	"grad_norm": 1.7515119314193726,
	"learning_rate": 3.6566186107470514e-05,
	"loss": 0.0467,
	"step": 8200
	},
	{
	"epoch": 5.43905635648755,
	"grad_norm": 0.6603133082389832,
	"learning_rate": 3.640235910878113e-05,
	"loss": 0.0437,
	"step": 8300
	},
	{
	"epoch": 5.504587155963303,
	"grad_norm": 3.0891926288604736,
	"learning_rate": 3.623853211009174e-05,
	"loss": 0.048,
	"step": 8400
	},
	{
	"epoch": 5.5701179554390565,
	"grad_norm": 0.4996233582496643,
	"learning_rate": 3.6074705111402365e-05,
	"loss": 0.0444,
	"step": 8500
	},
	{
	"epoch": 5.6356487549148095,
	"grad_norm": 2.793330430984497,
	"learning_rate": 3.5910878112712975e-05,
	"loss": 0.0458,
	"step": 8600
	},
	{
	"epoch": 5.7011795543905635,
	"grad_norm": 0.8790336847305298,
	"learning_rate": 3.574705111402359e-05,
	"loss": 0.0491,
	"step": 8700
	},
	{
	"epoch": 5.766710353866317,
	"grad_norm": 0.37869125604629517,
	"learning_rate": 3.558322411533421e-05,
	"loss": 0.0322,
	"step": 8800
	},
	{
	"epoch": 5.832241153342071,
	"grad_norm": 0.6503167152404785,
	"learning_rate": 3.5419397116644826e-05,
	"loss": 0.051,
	"step": 8900
	},
	{
	"epoch": 5.897771952817824,
	"grad_norm": 0.16301073133945465,
	"learning_rate": 3.5255570117955436e-05,
	"loss": 0.0492,
	"step": 9000
	},
	{
	"epoch": 5.963302752293578,
	"grad_norm": 0.3980591893196106,
	"learning_rate": 3.509174311926606e-05,
	"loss": 0.038,
	"step": 9100
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9352064220183486,
	"eval_f1": 0.9317561038604617,
	"eval_loss": 0.3840370178222656,
	"eval_runtime": 0.8822,
	"eval_samples_per_second": 3953.595,
	"eval_steps_per_second": 62.342,
	"step": 9156
	},
	{
	"epoch": 6.028833551769331,
	"grad_norm": 0.24182792007923126,
	"learning_rate": 3.492791612057667e-05,
	"loss": 0.0335,
	"step": 9200
	},
	{
	"epoch": 6.094364351245085,
	"grad_norm": 0.41973385214805603,
	"learning_rate": 3.476408912188729e-05,
	"loss": 0.0226,
	"step": 9300
	},
	{
	"epoch": 6.159895150720839,
	"grad_norm": 0.933502197265625,
	"learning_rate": 3.460026212319791e-05,
	"loss": 0.0268,
	"step": 9400
	},
	{
	"epoch": 6.225425950196592,
	"grad_norm": 2.3950750827789307,
	"learning_rate": 3.443643512450852e-05,
	"loss": 0.0253,
	"step": 9500
	},
	{
	"epoch": 6.290956749672346,
	"grad_norm": 0.6362214088439941,
	"learning_rate": 3.427260812581914e-05,
	"loss": 0.0205,
	"step": 9600
	},
	{
	"epoch": 6.3564875491481,
	"grad_norm": 0.22217431664466858,
	"learning_rate": 3.4108781127129755e-05,
	"loss": 0.0214,
	"step": 9700
	},
	{
	"epoch": 6.422018348623853,
	"grad_norm": 0.2135070413351059,
	"learning_rate": 3.394495412844037e-05,
	"loss": 0.0268,
	"step": 9800
	},
	{
	"epoch": 6.487549148099607,
	"grad_norm": 5.583222389221191,
	"learning_rate": 3.378112712975098e-05,
	"loss": 0.0236,
	"step": 9900
	},
	{
	"epoch": 6.553079947575361,
	"grad_norm": 0.9507617354393005,
	"learning_rate": 3.3617300131061605e-05,
	"loss": 0.0285,
	"step": 10000
	},
	{
	"epoch": 6.618610747051114,
	"grad_norm": 3.5924887657165527,
	"learning_rate": 3.3453473132372215e-05,
	"loss": 0.0196,
	"step": 10100
	},
	{
	"epoch": 6.684141546526868,
	"grad_norm": 0.3054388463497162,
	"learning_rate": 3.328964613368283e-05,
	"loss": 0.0162,
	"step": 10200
	},
	{
	"epoch": 6.749672346002622,
	"grad_norm": 0.09917047619819641,
	"learning_rate": 3.312581913499345e-05,
	"loss": 0.0203,
	"step": 10300
	},
	{
	"epoch": 6.815203145478375,
	"grad_norm": 10.647476196289062,
	"learning_rate": 3.2961992136304066e-05,
	"loss": 0.0293,
	"step": 10400
	},
	{
	"epoch": 6.8807339449541285,
	"grad_norm": 0.5372545123100281,
	"learning_rate": 3.2798165137614676e-05,
	"loss": 0.0157,
	"step": 10500
	},
	{
	"epoch": 6.946264744429882,
	"grad_norm": 0.11427264660596848,
	"learning_rate": 3.26343381389253e-05,
	"loss": 0.0254,
	"step": 10600
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9386467889908257,
	"eval_f1": 0.9363697162292346,
	"eval_loss": 0.3672682046890259,
	"eval_runtime": 0.8719,
	"eval_samples_per_second": 4000.361,
	"eval_steps_per_second": 63.079,
	"step": 10682
	},
	{
	"epoch": 7.011795543905635,
	"grad_norm": 5.333648204803467,
	"learning_rate": 3.247051114023591e-05,
	"loss": 0.0202,
	"step": 10700
	},
	{
	"epoch": 7.077326343381389,
	"grad_norm": 0.7541437149047852,
	"learning_rate": 3.230668414154653e-05,
	"loss": 0.022,
	"step": 10800
	},
	{
	"epoch": 7.142857142857143,
	"grad_norm": 0.06409142166376114,
	"learning_rate": 3.2142857142857144e-05,
	"loss": 0.0134,
	"step": 10900
	},
	{
	"epoch": 7.208387942332896,
	"grad_norm": 6.461215972900391,
	"learning_rate": 3.197903014416776e-05,
	"loss": 0.0163,
	"step": 11000
	},
	{
	"epoch": 7.27391874180865,
	"grad_norm": 0.5002973675727844,
	"learning_rate": 3.181520314547838e-05,
	"loss": 0.0131,
	"step": 11100
	},
	{
	"epoch": 7.339449541284404,
	"grad_norm": 0.16848881542682648,
	"learning_rate": 3.1651376146788995e-05,
	"loss": 0.0139,
	"step": 11200
	},
	{
	"epoch": 7.404980340760157,
	"grad_norm": 0.32861247658729553,
	"learning_rate": 3.148754914809961e-05,
	"loss": 0.019,
	"step": 11300
	},
	{
	"epoch": 7.470511140235911,
	"grad_norm": 1.0504356622695923,
	"learning_rate": 3.132372214941022e-05,
	"loss": 0.0112,
	"step": 11400
	},
	{
	"epoch": 7.536041939711664,
	"grad_norm": 0.2850879430770874,
	"learning_rate": 3.115989515072084e-05,
	"loss": 0.0164,
	"step": 11500
	},
	{
	"epoch": 7.601572739187418,
	"grad_norm": 0.8835840225219727,
	"learning_rate": 3.0996068152031456e-05,
	"loss": 0.0195,
	"step": 11600
	},
	{
	"epoch": 7.667103538663172,
	"grad_norm": 0.16748446226119995,
	"learning_rate": 3.083224115334207e-05,
	"loss": 0.0143,
	"step": 11700
	},
	{
	"epoch": 7.732634338138926,
	"grad_norm": 0.5115922689437866,
	"learning_rate": 3.066841415465269e-05,
	"loss": 0.0195,
	"step": 11800
	},
	{
	"epoch": 7.798165137614679,
	"grad_norm": 0.17508633434772491,
	"learning_rate": 3.0504587155963303e-05,
	"loss": 0.0124,
	"step": 11900
	},
	{
	"epoch": 7.863695937090433,
	"grad_norm": 0.06938499212265015,
	"learning_rate": 3.0340760157273916e-05,
	"loss": 0.0151,
	"step": 12000
	},
	{
	"epoch": 7.929226736566186,
	"grad_norm": 1.1097829341888428,
	"learning_rate": 3.0176933158584537e-05,
	"loss": 0.0162,
	"step": 12100
	},
	{
	"epoch": 7.99475753604194,
	"grad_norm": 0.474563866853714,
	"learning_rate": 3.0013106159895154e-05,
	"loss": 0.0142,
	"step": 12200
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9369266055045872,
	"eval_f1": 0.9333123982923296,
	"eval_loss": 0.39479872584342957,
	"eval_runtime": 0.8765,
	"eval_samples_per_second": 3979.645,
	"eval_steps_per_second": 62.752,
	"step": 12208
	},
	{
	"epoch": 8.060288335517694,
	"grad_norm": 2.1137709617614746,
	"learning_rate": 2.9849279161205767e-05,
	"loss": 0.0087,
	"step": 12300
	},
	{
	"epoch": 8.125819134993447,
	"grad_norm": 0.14595501124858856,
	"learning_rate": 2.9685452162516387e-05,
	"loss": 0.0097,
	"step": 12400
	},
	{
	"epoch": 8.191349934469201,
	"grad_norm": 0.038920313119888306,
	"learning_rate": 2.9521625163826998e-05,
	"loss": 0.0132,
	"step": 12500
	},
	{
	"epoch": 8.256880733944953,
	"grad_norm": 0.03425636142492294,
	"learning_rate": 2.9357798165137618e-05,
	"loss": 0.0073,
	"step": 12600
	},
	{
	"epoch": 8.322411533420707,
	"grad_norm": 0.23988936841487885,
	"learning_rate": 2.919397116644823e-05,
	"loss": 0.0091,
	"step": 12700
	},
	{
	"epoch": 8.387942332896461,
	"grad_norm": 0.10584782809019089,
	"learning_rate": 2.9030144167758848e-05,
	"loss": 0.0083,
	"step": 12800
	},
	{
	"epoch": 8.453473132372215,
	"grad_norm": 0.09316133707761765,
	"learning_rate": 2.8866317169069462e-05,
	"loss": 0.0107,
	"step": 12900
	},
	{
	"epoch": 8.51900393184797,
	"grad_norm": 0.6492702960968018,
	"learning_rate": 2.8702490170380082e-05,
	"loss": 0.012,
	"step": 13000
	},
	{
	"epoch": 8.584534731323721,
	"grad_norm": 0.19327221810817719,
	"learning_rate": 2.8538663171690692e-05,
	"loss": 0.0087,
	"step": 13100
	},
	{
	"epoch": 8.650065530799475,
	"grad_norm": 0.13705046474933624,
	"learning_rate": 2.8374836173001313e-05,
	"loss": 0.0082,
	"step": 13200
	},
	{
	"epoch": 8.715596330275229,
	"grad_norm": 0.16649670898914337,
	"learning_rate": 2.8211009174311926e-05,
	"loss": 0.0083,
	"step": 13300
	},
	{
	"epoch": 8.781127129750983,
	"grad_norm": 0.4147738218307495,
	"learning_rate": 2.8047182175622543e-05,
	"loss": 0.0099,
	"step": 13400
	},
	{
	"epoch": 8.846657929226737,
	"grad_norm": 0.2398168295621872,
	"learning_rate": 2.7883355176933163e-05,
	"loss": 0.0039,
	"step": 13500
	},
	{
	"epoch": 8.91218872870249,
	"grad_norm": 2.4962239265441895,
	"learning_rate": 2.7719528178243777e-05,
	"loss": 0.0173,
	"step": 13600
	},
	{
	"epoch": 8.977719528178245,
	"grad_norm": 0.03992962837219238,
	"learning_rate": 2.7555701179554394e-05,
	"loss": 0.0103,
	"step": 13700
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9409403669724771,
	"eval_f1": 0.939672650552811,
	"eval_loss": 0.3894253671169281,
	"eval_runtime": 0.8797,
	"eval_samples_per_second": 3965.161,
	"eval_steps_per_second": 62.524,
	"step": 13734
	},
	{
	"epoch": 9.043250327653997,
	"grad_norm": 0.19869303703308105,
	"learning_rate": 2.7391874180865007e-05,
	"loss": 0.0061,
	"step": 13800
	},
	{
	"epoch": 9.10878112712975,
	"grad_norm": 0.08110935240983963,
	"learning_rate": 2.7228047182175624e-05,
	"loss": 0.0086,
	"step": 13900
	},
	{
	"epoch": 9.174311926605505,
	"grad_norm": 3.7491238117218018,
	"learning_rate": 2.7064220183486238e-05,
	"loss": 0.0092,
	"step": 14000
	},
	{
	"epoch": 9.239842726081259,
	"grad_norm": 0.04541350528597832,
	"learning_rate": 2.6900393184796858e-05,
	"loss": 0.0125,
	"step": 14100
	},
	{
	"epoch": 9.305373525557012,
	"grad_norm": 0.02239099144935608,
	"learning_rate": 2.673656618610747e-05,
	"loss": 0.007,
	"step": 14200
	},
	{
	"epoch": 9.370904325032765,
	"grad_norm": 0.5650951862335205,
	"learning_rate": 2.657273918741809e-05,
	"loss": 0.0047,
	"step": 14300
	},
	{
	"epoch": 9.436435124508519,
	"grad_norm": 0.012850129045546055,
	"learning_rate": 2.6408912188728702e-05,
	"loss": 0.0107,
	"step": 14400
	},
	{
	"epoch": 9.501965923984272,
	"grad_norm": 0.015726063400506973,
	"learning_rate": 2.624508519003932e-05,
	"loss": 0.0156,
	"step": 14500
	},
	{
	"epoch": 9.567496723460026,
	"grad_norm": 0.0906534269452095,
	"learning_rate": 2.6081258191349932e-05,
	"loss": 0.0079,
	"step": 14600
	},
	{
	"epoch": 9.63302752293578,
	"grad_norm": 0.23419497907161713,
	"learning_rate": 2.5917431192660553e-05,
	"loss": 0.0051,
	"step": 14700
	},
	{
	"epoch": 9.698558322411534,
	"grad_norm": 0.0450860969722271,
	"learning_rate": 2.575360419397117e-05,
	"loss": 0.008,
	"step": 14800
	},
	{
	"epoch": 9.764089121887286,
	"grad_norm": 3.0917110443115234,
	"learning_rate": 2.5589777195281783e-05,
	"loss": 0.0044,
	"step": 14900
	},
	{
	"epoch": 9.82961992136304,
	"grad_norm": 1.0102367401123047,
	"learning_rate": 2.5425950196592403e-05,
	"loss": 0.0081,
	"step": 15000
	},
	{
	"epoch": 9.895150720838794,
	"grad_norm": 0.39359351992607117,
	"learning_rate": 2.5262123197903013e-05,
	"loss": 0.0061,
	"step": 15100
	},
	{
	"epoch": 9.960681520314548,
	"grad_norm": 0.03703628107905388,
	"learning_rate": 2.5098296199213634e-05,
	"loss": 0.0074,
	"step": 15200
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9423738532110092,
	"eval_f1": 0.9400918780505937,
	"eval_loss": 0.39878183603286743,
	"eval_runtime": 0.8893,
	"eval_samples_per_second": 3922.19,
	"eval_steps_per_second": 61.846,
	"step": 15260
	},
	{
	"epoch": 10.026212319790302,
	"grad_norm": 0.055755846202373505,
	"learning_rate": 2.4934469200524247e-05,
	"loss": 0.0079,
	"step": 15300
	},
	{
	"epoch": 10.091743119266056,
	"grad_norm": 0.21388879418373108,
	"learning_rate": 2.4770642201834864e-05,
	"loss": 0.0015,
	"step": 15400
	},
	{
	"epoch": 10.157273918741808,
	"grad_norm": 0.05140744522213936,
	"learning_rate": 2.460681520314548e-05,
	"loss": 0.0081,
	"step": 15500
	},
	{
	"epoch": 10.222804718217562,
	"grad_norm": 0.1071576178073883,
	"learning_rate": 2.4442988204456098e-05,
	"loss": 0.0109,
	"step": 15600
	},
	{
	"epoch": 10.288335517693316,
	"grad_norm": 0.037079449743032455,
	"learning_rate": 2.427916120576671e-05,
	"loss": 0.0025,
	"step": 15700
	},
	{
	"epoch": 10.35386631716907,
	"grad_norm": 0.08620253950357437,
	"learning_rate": 2.411533420707733e-05,
	"loss": 0.0067,
	"step": 15800
	},
	{
	"epoch": 10.419397116644824,
	"grad_norm": 0.053181178867816925,
	"learning_rate": 2.3951507208387945e-05,
	"loss": 0.003,
	"step": 15900
	},
	{
	"epoch": 10.484927916120578,
	"grad_norm": 0.019558211788535118,
	"learning_rate": 2.378768020969856e-05,
	"loss": 0.0015,
	"step": 16000
	},
	{
	"epoch": 10.55045871559633,
	"grad_norm": 0.5422232151031494,
	"learning_rate": 2.3623853211009176e-05,
	"loss": 0.0182,
	"step": 16100
	},
	{
	"epoch": 10.615989515072084,
	"grad_norm": 0.15415391325950623,
	"learning_rate": 2.3460026212319793e-05,
	"loss": 0.0043,
	"step": 16200
	},
	{
	"epoch": 10.681520314547837,
	"grad_norm": 0.33526667952537537,
	"learning_rate": 2.3296199213630406e-05,
	"loss": 0.0015,
	"step": 16300
	},
	{
	"epoch": 10.747051114023591,
	"grad_norm": 0.5435523986816406,
	"learning_rate": 2.3132372214941023e-05,
	"loss": 0.002,
	"step": 16400
	},
	{
	"epoch": 10.812581913499345,
	"grad_norm": 0.03789573162794113,
	"learning_rate": 2.296854521625164e-05,
	"loss": 0.0017,
	"step": 16500
	},
	{
	"epoch": 10.8781127129751,
	"grad_norm": 0.46037229895591736,
	"learning_rate": 2.2804718217562254e-05,
	"loss": 0.0047,
	"step": 16600
	},
	{
	"epoch": 10.943643512450851,
	"grad_norm": 0.018136654049158096,
	"learning_rate": 2.264089121887287e-05,
	"loss": 0.0026,
	"step": 16700
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9412270642201835,
	"eval_f1": 0.9393162647749803,
	"eval_loss": 0.3977106511592865,
	"eval_runtime": 0.8728,
	"eval_samples_per_second": 3996.231,
	"eval_steps_per_second": 63.014,
	"step": 16786
	},
	{
	"epoch": 11.009174311926605,
	"grad_norm": 0.029348287731409073,
	"learning_rate": 2.2477064220183487e-05,
	"loss": 0.0071,
	"step": 16800
	},
	{
	"epoch": 11.07470511140236,
	"grad_norm": 0.030079521238803864,
	"learning_rate": 2.2313237221494104e-05,
	"loss": 0.0051,
	"step": 16900
	},
	{
	"epoch": 11.140235910878113,
	"grad_norm": 0.014014150016009808,
	"learning_rate": 2.214941022280472e-05,
	"loss": 0.0047,
	"step": 17000
	},
	{
	"epoch": 11.205766710353867,
	"grad_norm": 0.028272485360503197,
	"learning_rate": 2.1985583224115335e-05,
	"loss": 0.0027,
	"step": 17100
	},
	{
	"epoch": 11.271297509829619,
	"grad_norm": 0.008005212992429733,
	"learning_rate": 2.182175622542595e-05,
	"loss": 0.0021,
	"step": 17200
	},
	{
	"epoch": 11.336828309305373,
	"grad_norm": 0.18947385251522064,
	"learning_rate": 2.165792922673657e-05,
	"loss": 0.0021,
	"step": 17300
	},
	{
	"epoch": 11.402359108781127,
	"grad_norm": 0.021595077589154243,
	"learning_rate": 2.1494102228047182e-05,
	"loss": 0.0112,
	"step": 17400
	},
	{
	"epoch": 11.46788990825688,
	"grad_norm": 0.10984991490840912,
	"learning_rate": 2.13302752293578e-05,
	"loss": 0.0023,
	"step": 17500
	},
	{
	"epoch": 11.533420707732635,
	"grad_norm": 0.04003112018108368,
	"learning_rate": 2.1166448230668416e-05,
	"loss": 0.0069,
	"step": 17600
	},
	{
	"epoch": 11.598951507208389,
	"grad_norm": 0.03961130604147911,
	"learning_rate": 2.100262123197903e-05,
	"loss": 0.0045,
	"step": 17700
	},
	{
	"epoch": 11.66448230668414,
	"grad_norm": 1.8393652439117432,
	"learning_rate": 2.0838794233289646e-05,
	"loss": 0.0074,
	"step": 17800
	},
	{
	"epoch": 11.730013106159895,
	"grad_norm": 0.05228583887219429,
	"learning_rate": 2.0674967234600263e-05,
	"loss": 0.0074,
	"step": 17900
	},
	{
	"epoch": 11.795543905635649,
	"grad_norm": 0.06190050393342972,
	"learning_rate": 2.0511140235910877e-05,
	"loss": 0.0017,
	"step": 18000
	},
	{
	"epoch": 11.861074705111402,
	"grad_norm": 0.06853855401277542,
	"learning_rate": 2.0347313237221497e-05,
	"loss": 0.0065,
	"step": 18100
	},
	{
	"epoch": 11.926605504587156,
	"grad_norm": 0.13988357782363892,
	"learning_rate": 2.018348623853211e-05,
	"loss": 0.0027,
	"step": 18200
	},
	{
	"epoch": 11.99213630406291,
	"grad_norm": 0.13300713896751404,
	"learning_rate": 2.0019659239842727e-05,
	"loss": 0.0006,
	"step": 18300
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.9463876146788991,
	"eval_f1": 0.9448165287184782,
	"eval_loss": 0.37657901644706726,
	"eval_runtime": 0.8735,
	"eval_samples_per_second": 3992.99,
	"eval_steps_per_second": 62.963,
	"step": 18312
	},
	{
	"epoch": 12.057667103538662,
	"grad_norm": 0.021236807107925415,
	"learning_rate": 1.9855832241153344e-05,
	"loss": 0.0056,
	"step": 18400
	},
	{
	"epoch": 12.123197903014416,
	"grad_norm": 0.03615666553378105,
	"learning_rate": 1.9692005242463958e-05,
	"loss": 0.0061,
	"step": 18500
	},
	{
	"epoch": 12.18872870249017,
	"grad_norm": 0.045921873301267624,
	"learning_rate": 1.9528178243774575e-05,
	"loss": 0.0007,
	"step": 18600
	},
	{
	"epoch": 12.254259501965924,
	"grad_norm": 0.023187097162008286,
	"learning_rate": 1.9364351245085192e-05,
	"loss": 0.0006,
	"step": 18700
	},
	{
	"epoch": 12.319790301441678,
	"grad_norm": 0.007863562554121017,
	"learning_rate": 1.9200524246395805e-05,
	"loss": 0.0027,
	"step": 18800
	},
	{
	"epoch": 12.385321100917432,
	"grad_norm": 0.028795627877116203,
	"learning_rate": 1.9036697247706422e-05,
	"loss": 0.0076,
	"step": 18900
	},
	{
	"epoch": 12.450851900393184,
	"grad_norm": 0.030297929421067238,
	"learning_rate": 1.887287024901704e-05,
	"loss": 0.0009,
	"step": 19000
	},
	{
	"epoch": 12.516382699868938,
	"grad_norm": 1.041812777519226,
	"learning_rate": 1.8709043250327653e-05,
	"loss": 0.0009,
	"step": 19100
	},
	{
	"epoch": 12.581913499344692,
	"grad_norm": 0.04054298996925354,
	"learning_rate": 1.854521625163827e-05,
	"loss": 0.0084,
	"step": 19200
	},
	{
	"epoch": 12.647444298820446,
	"grad_norm": 0.019086740911006927,
	"learning_rate": 1.8381389252948886e-05,
	"loss": 0.0011,
	"step": 19300
	},
	{
	"epoch": 12.7129750982962,
	"grad_norm": 0.04095865413546562,
	"learning_rate": 1.82175622542595e-05,
	"loss": 0.0009,
	"step": 19400
	},
	{
	"epoch": 12.778505897771954,
	"grad_norm": 0.021935787051916122,
	"learning_rate": 1.805373525557012e-05,
	"loss": 0.0005,
	"step": 19500
	},
	{
	"epoch": 12.844036697247706,
	"grad_norm": 0.1897253543138504,
	"learning_rate": 1.7889908256880737e-05,
	"loss": 0.0019,
	"step": 19600
	},
	{
	"epoch": 12.90956749672346,
	"grad_norm": 0.07480347901582718,
	"learning_rate": 1.772608125819135e-05,
	"loss": 0.0013,
	"step": 19700
	},
	{
	"epoch": 12.975098296199214,
	"grad_norm": 0.00786515325307846,
	"learning_rate": 1.7562254259501968e-05,
	"loss": 0.0005,
	"step": 19800
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9463876146788991,
	"eval_f1": 0.9448447433682525,
	"eval_loss": 0.40437009930610657,
	"eval_runtime": 0.8642,
	"eval_samples_per_second": 4036.236,
	"eval_steps_per_second": 63.645,
	"step": 19838
	},
	{
	"epoch": 13.040629095674968,
	"grad_norm": 0.26656442880630493,
	"learning_rate": 1.7398427260812584e-05,
	"loss": 0.0039,
	"step": 19900
	},
	{
	"epoch": 13.106159895150721,
	"grad_norm": 0.015545975416898727,
	"learning_rate": 1.7234600262123198e-05,
	"loss": 0.0006,
	"step": 20000
	},
	{
	"epoch": 13.171690694626474,
	"grad_norm": 0.012939069420099258,
	"learning_rate": 1.7070773263433815e-05,
	"loss": 0.0009,
	"step": 20100
	},
	{
	"epoch": 13.237221494102227,
	"grad_norm": 0.013902663253247738,
	"learning_rate": 1.6906946264744432e-05,
	"loss": 0.001,
	"step": 20200
	},
	{
	"epoch": 13.302752293577981,
	"grad_norm": 0.12842603027820587,
	"learning_rate": 1.6743119266055045e-05,
	"loss": 0.0007,
	"step": 20300
	},
	{
	"epoch": 13.368283093053735,
	"grad_norm": 0.01566697470843792,
	"learning_rate": 1.6579292267365662e-05,
	"loss": 0.0017,
	"step": 20400
	},
	{
	"epoch": 13.43381389252949,
	"grad_norm": 0.028622334823012352,
	"learning_rate": 1.641546526867628e-05,
	"loss": 0.0005,
	"step": 20500
	},
	{
	"epoch": 13.499344692005243,
	"grad_norm": 0.01282609160989523,
	"learning_rate": 1.6251638269986893e-05,
	"loss": 0.0007,
	"step": 20600
	},
	{
	"epoch": 13.564875491480995,
	"grad_norm": 0.0726955458521843,
	"learning_rate": 1.608781127129751e-05,
	"loss": 0.0004,
	"step": 20700
	},
	{
	"epoch": 13.63040629095675,
	"grad_norm": 0.0037081395275890827,
	"learning_rate": 1.5923984272608126e-05,
	"loss": 0.0035,
	"step": 20800
	},
	{
	"epoch": 13.695937090432503,
	"grad_norm": 0.11256258934736252,
	"learning_rate": 1.5760157273918743e-05,
	"loss": 0.0009,
	"step": 20900
	},
	{
	"epoch": 13.761467889908257,
	"grad_norm": 0.012089048512279987,
	"learning_rate": 1.559633027522936e-05,
	"loss": 0.0004,
	"step": 21000
	},
	{
	"epoch": 13.82699868938401,
	"grad_norm": 0.008633548393845558,
	"learning_rate": 1.5432503276539974e-05,
	"loss": 0.0049,
	"step": 21100
	},
	{
	"epoch": 13.892529488859765,
	"grad_norm": 0.012773215770721436,
	"learning_rate": 1.526867627785059e-05,
	"loss": 0.0051,
	"step": 21200
	},
	{
	"epoch": 13.958060288335517,
	"grad_norm": 0.5564557909965515,
	"learning_rate": 1.5104849279161206e-05,
	"loss": 0.0026,
	"step": 21300
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9475344036697247,
	"eval_f1": 0.9462485272118298,
	"eval_loss": 0.3972223997116089,
	"eval_runtime": 0.8884,
	"eval_samples_per_second": 3926.295,
	"eval_steps_per_second": 61.911,
	"step": 21364
	},
	{
	"epoch": 14.02359108781127,
	"grad_norm": 0.014650699682533741,
	"learning_rate": 1.4941022280471823e-05,
	"loss": 0.0004,
	"step": 21400
	},
	{
	"epoch": 14.089121887287025,
	"grad_norm": 0.7793611288070679,
	"learning_rate": 1.4777195281782438e-05,
	"loss": 0.0004,
	"step": 21500
	},
	{
	"epoch": 14.154652686762779,
	"grad_norm": 0.27260562777519226,
	"learning_rate": 1.4613368283093053e-05,
	"loss": 0.0003,
	"step": 21600
	},
	{
	"epoch": 14.220183486238533,
	"grad_norm": 0.0209233146160841,
	"learning_rate": 1.444954128440367e-05,
	"loss": 0.0004,
	"step": 21700
	},
	{
	"epoch": 14.285714285714286,
	"grad_norm": 0.009809763170778751,
	"learning_rate": 1.4285714285714285e-05,
	"loss": 0.0009,
	"step": 21800
	},
	{
	"epoch": 14.351245085190039,
	"grad_norm": 0.004338541068136692,
	"learning_rate": 1.41218872870249e-05,
	"loss": 0.001,
	"step": 21900
	},
	{
	"epoch": 14.416775884665793,
	"grad_norm": 0.05535097420215607,
	"learning_rate": 1.3958060288335518e-05,
	"loss": 0.0003,
	"step": 22000
	},
	{
	"epoch": 14.482306684141546,
	"grad_norm": 0.013605128042399883,
	"learning_rate": 1.3794233289646136e-05,
	"loss": 0.0007,
	"step": 22100
	},
	{
	"epoch": 14.5478374836173,
	"grad_norm": 0.05343281850218773,
	"learning_rate": 1.3630406290956751e-05,
	"loss": 0.0076,
	"step": 22200
	},
	{
	"epoch": 14.613368283093054,
	"grad_norm": 0.03259427472949028,
	"learning_rate": 1.3466579292267367e-05,
	"loss": 0.0006,
	"step": 22300
	},
	{
	"epoch": 14.678899082568808,
	"grad_norm": 0.01491202600300312,
	"learning_rate": 1.3302752293577984e-05,
	"loss": 0.0003,
	"step": 22400
	},
	{
	"epoch": 14.74442988204456,
	"grad_norm": 0.04238777980208397,
	"learning_rate": 1.3138925294888599e-05,
	"loss": 0.0048,
	"step": 22500
	},
	{
	"epoch": 14.809960681520314,
	"grad_norm": 0.07502109557390213,
	"learning_rate": 1.2975098296199214e-05,
	"loss": 0.0003,
	"step": 22600
	},
	{
	"epoch": 14.875491480996068,
	"grad_norm": 0.013529137708246708,
	"learning_rate": 1.281127129750983e-05,
	"loss": 0.0003,
	"step": 22700
	},
	{
	"epoch": 14.941022280471822,
	"grad_norm": 0.005839935038238764,
	"learning_rate": 1.2647444298820446e-05,
	"loss": 0.0046,
	"step": 22800
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9489678899082569,
	"eval_f1": 0.947361701117435,
	"eval_loss": 0.3973062038421631,
	"eval_runtime": 0.8841,
	"eval_samples_per_second": 3945.29,
	"eval_steps_per_second": 62.211,
	"step": 22890
	},
	{
	"epoch": 15.006553079947576,
	"grad_norm": 0.017636075615882874,
	"learning_rate": 1.2483617300131061e-05,
	"loss": 0.0024,
	"step": 22900
	},
	{
	"epoch": 15.07208387942333,
	"grad_norm": 0.022421281784772873,
	"learning_rate": 1.2319790301441678e-05,
	"loss": 0.0031,
	"step": 23000
	},
	{
	"epoch": 15.137614678899082,
	"grad_norm": 0.01283260341733694,
	"learning_rate": 1.2155963302752295e-05,
	"loss": 0.0003,
	"step": 23100
	},
	{
	"epoch": 15.203145478374836,
	"grad_norm": 0.007434241008013487,
	"learning_rate": 1.199213630406291e-05,
	"loss": 0.0061,
	"step": 23200
	},
	{
	"epoch": 15.26867627785059,
	"grad_norm": 0.02019626460969448,
	"learning_rate": 1.1828309305373527e-05,
	"loss": 0.0003,
	"step": 23300
	},
	{
	"epoch": 15.334207077326344,
	"grad_norm": 0.010890827514231205,
	"learning_rate": 1.1664482306684142e-05,
	"loss": 0.0002,
	"step": 23400
	},
	{
	"epoch": 15.399737876802098,
	"grad_norm": 0.016969241201877594,
	"learning_rate": 1.1500655307994758e-05,
	"loss": 0.0075,
	"step": 23500
	},
	{
	"epoch": 15.46526867627785,
	"grad_norm": 0.02037014067173004,
	"learning_rate": 1.1336828309305373e-05,
	"loss": 0.0007,
	"step": 23600
	},
	{
	"epoch": 15.530799475753604,
	"grad_norm": 0.00850609689950943,
	"learning_rate": 1.117300131061599e-05,
	"loss": 0.0002,
	"step": 23700
	},
	{
	"epoch": 15.596330275229358,
	"grad_norm": 0.003405163995921612,
	"learning_rate": 1.1009174311926607e-05,
	"loss": 0.0024,
	"step": 23800
	},
	{
	"epoch": 15.661861074705111,
	"grad_norm": 0.013705270364880562,
	"learning_rate": 1.0845347313237222e-05,
	"loss": 0.0002,
	"step": 23900
	},
	{
	"epoch": 15.727391874180865,
	"grad_norm": 0.00401644641533494,
	"learning_rate": 1.0681520314547839e-05,
	"loss": 0.0002,
	"step": 24000
	},
	{
	"epoch": 15.79292267365662,
	"grad_norm": 0.06715580821037292,
	"learning_rate": 1.0517693315858454e-05,
	"loss": 0.0068,
	"step": 24100
	},
	{
	"epoch": 15.858453473132371,
	"grad_norm": 0.007226752582937479,
	"learning_rate": 1.035386631716907e-05,
	"loss": 0.0003,
	"step": 24200
	},
	{
	"epoch": 15.923984272608125,
	"grad_norm": 0.07869122177362442,
	"learning_rate": 1.0190039318479686e-05,
	"loss": 0.0016,
	"step": 24300
	},
	{
	"epoch": 15.98951507208388,
	"grad_norm": 0.010308779776096344,
	"learning_rate": 1.0026212319790301e-05,
	"loss": 0.0001,
	"step": 24400
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9492545871559633,
	"eval_f1": 0.9480250779419357,
	"eval_loss": 0.40250906348228455,
	"eval_runtime": 0.885,
	"eval_samples_per_second": 3941.411,
	"eval_steps_per_second": 62.15,
	"step": 24416
	},
	{
	"epoch": 16.05504587155963,
	"grad_norm": 0.011048965156078339,
	"learning_rate": 9.862385321100918e-06,
	"loss": 0.0002,
	"step": 24500
	},
	{
	"epoch": 16.120576671035387,
	"grad_norm": 0.005700926296412945,
	"learning_rate": 9.698558322411533e-06,
	"loss": 0.001,
	"step": 24600
	},
	{
	"epoch": 16.18610747051114,
	"grad_norm": 0.00868783425539732,
	"learning_rate": 9.53473132372215e-06,
	"loss": 0.0002,
	"step": 24700
	},
	{
	"epoch": 16.251638269986895,
	"grad_norm": 0.003008009400218725,
	"learning_rate": 9.370904325032766e-06,
	"loss": 0.0002,
	"step": 24800
	},
	{
	"epoch": 16.317169069462647,
	"grad_norm": 0.039118170738220215,
	"learning_rate": 9.20707732634338e-06,
	"loss": 0.0017,
	"step": 24900
	},
	{
	"epoch": 16.382699868938403,
	"grad_norm": 0.003417972009629011,
	"learning_rate": 9.043250327653998e-06,
	"loss": 0.0002,
	"step": 25000
	},
	{
	"epoch": 16.448230668414155,
	"grad_norm": 0.012208909727633,
	"learning_rate": 8.879423328964615e-06,
	"loss": 0.0002,
	"step": 25100
	},
	{
	"epoch": 16.513761467889907,
	"grad_norm": 0.015429310500621796,
	"learning_rate": 8.71559633027523e-06,
	"loss": 0.0001,
	"step": 25200
	},
	{
	"epoch": 16.579292267365663,
	"grad_norm": 0.007409450598061085,
	"learning_rate": 8.551769331585847e-06,
	"loss": 0.0004,
	"step": 25300
	},
	{
	"epoch": 16.644823066841415,
	"grad_norm": 0.009294740855693817,
	"learning_rate": 8.387942332896462e-06,
	"loss": 0.0002,
	"step": 25400
	},
	{
	"epoch": 16.71035386631717,
	"grad_norm": 0.0043761348351836205,
	"learning_rate": 8.224115334207077e-06,
	"loss": 0.0033,
	"step": 25500
	},
	{
	"epoch": 16.775884665792923,
	"grad_norm": 0.017104586586356163,
	"learning_rate": 8.060288335517694e-06,
	"loss": 0.0002,
	"step": 25600
	},
	{
	"epoch": 16.841415465268675,
	"grad_norm": 0.0103053729981184,
	"learning_rate": 7.89646133682831e-06,
	"loss": 0.0002,
	"step": 25700
	},
	{
	"epoch": 16.90694626474443,
	"grad_norm": 0.008107037283480167,
	"learning_rate": 7.732634338138926e-06,
	"loss": 0.0002,
	"step": 25800
	},
	{
	"epoch": 16.972477064220183,
	"grad_norm": 0.025965586304664612,
	"learning_rate": 7.568807339449542e-06,
	"loss": 0.0003,
	"step": 25900
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.950401376146789,
	"eval_f1": 0.949057083016372,
	"eval_loss": 0.3941075801849365,
	"eval_runtime": 0.8787,
	"eval_samples_per_second": 3969.396,
	"eval_steps_per_second": 62.591,
	"step": 25942
	},
	{
	"epoch": 17.03800786369594,
	"grad_norm": 0.0071102771908044815,
	"learning_rate": 7.4049803407601575e-06,
	"loss": 0.0001,
	"step": 26000
	},
	{
	"epoch": 17.10353866317169,
	"grad_norm": 0.0024903868325054646,
	"learning_rate": 7.241153342070774e-06,
	"loss": 0.0003,
	"step": 26100
	},
	{
	"epoch": 17.169069462647446,
	"grad_norm": 0.00496539194136858,
	"learning_rate": 7.07732634338139e-06,
	"loss": 0.0001,
	"step": 26200
	},
	{
	"epoch": 17.234600262123198,
	"grad_norm": 0.005121257156133652,
	"learning_rate": 6.913499344692005e-06,
	"loss": 0.0001,
	"step": 26300
	},
	{
	"epoch": 17.30013106159895,
	"grad_norm": 0.0038872575387358665,
	"learning_rate": 6.749672346002621e-06,
	"loss": 0.0001,
	"step": 26400
	},
	{
	"epoch": 17.365661861074706,
	"grad_norm": 0.0026088629383593798,
	"learning_rate": 6.585845347313238e-06,
	"loss": 0.0001,
	"step": 26500
	},
	{
	"epoch": 17.431192660550458,
	"grad_norm": 0.0027847271412611008,
	"learning_rate": 6.422018348623854e-06,
	"loss": 0.0004,
	"step": 26600
	},
	{
	"epoch": 17.496723460026214,
	"grad_norm": 0.010283850133419037,
	"learning_rate": 6.25819134993447e-06,
	"loss": 0.0001,
	"step": 26700
	},
	{
	"epoch": 17.562254259501966,
	"grad_norm": 0.0012891000369563699,
	"learning_rate": 6.094364351245085e-06,
	"loss": 0.0004,
	"step": 26800
	},
	{
	"epoch": 17.627785058977718,
	"grad_norm": 0.0068209609016776085,
	"learning_rate": 5.930537352555701e-06,
	"loss": 0.0001,
	"step": 26900
	},
	{
	"epoch": 17.693315858453474,
	"grad_norm": 0.012583351694047451,
	"learning_rate": 5.766710353866317e-06,
	"loss": 0.0001,
	"step": 27000
	},
	{
	"epoch": 17.758846657929226,
	"grad_norm": 0.014517087489366531,
	"learning_rate": 5.602883355176933e-06,
	"loss": 0.0053,
	"step": 27100
	},
	{
	"epoch": 17.82437745740498,
	"grad_norm": 0.003594920039176941,
	"learning_rate": 5.4390563564875494e-06,
	"loss": 0.0001,
	"step": 27200
	},
	{
	"epoch": 17.889908256880734,
	"grad_norm": 0.014988411217927933,
	"learning_rate": 5.2752293577981655e-06,
	"loss": 0.0003,
	"step": 27300
	},
	{
	"epoch": 17.955439056356486,
	"grad_norm": 0.00935112964361906,
	"learning_rate": 5.1114023591087816e-06,
	"loss": 0.0001,
	"step": 27400
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9501146788990825,
	"eval_f1": 0.948460314214328,
	"eval_loss": 0.40203723311424255,
	"eval_runtime": 0.9031,
	"eval_samples_per_second": 3862.373,
	"eval_steps_per_second": 60.903,
	"step": 27468
	},
	{
	"epoch": 18.02096985583224,
	"grad_norm": 0.0007160278619267046,
	"learning_rate": 4.947575360419398e-06,
	"loss": 0.0001,
	"step": 27500
	},
	{
	"epoch": 18.086500655307994,
	"grad_norm": 0.0028267614543437958,
	"learning_rate": 4.783748361730013e-06,
	"loss": 0.0001,
	"step": 27600
	},
	{
	"epoch": 18.15203145478375,
	"grad_norm": 0.010204290971159935,
	"learning_rate": 4.61992136304063e-06,
	"loss": 0.0001,
	"step": 27700
	},
	{
	"epoch": 18.2175622542595,
	"grad_norm": 0.005847644526511431,
	"learning_rate": 4.456094364351245e-06,
	"loss": 0.0001,
	"step": 27800
	},
	{
	"epoch": 18.283093053735257,
	"grad_norm": 0.018655648455023766,
	"learning_rate": 4.292267365661861e-06,
	"loss": 0.0001,
	"step": 27900
	},
	{
	"epoch": 18.34862385321101,
	"grad_norm": 0.0011456008069217205,
	"learning_rate": 4.128440366972477e-06,
	"loss": 0.0006,
	"step": 28000
	},
	{
	"epoch": 18.41415465268676,
	"grad_norm": 0.0034626726992428303,
	"learning_rate": 3.964613368283093e-06,
	"loss": 0.0001,
	"step": 28100
	},
	{
	"epoch": 18.479685452162517,
	"grad_norm": 0.015080388635396957,
	"learning_rate": 3.800786369593709e-06,
	"loss": 0.0001,
	"step": 28200
	},
	{
	"epoch": 18.54521625163827,
	"grad_norm": 0.020128346979618073,
	"learning_rate": 3.6369593709043257e-06,
	"loss": 0.0031,
	"step": 28300
	},
	{
	"epoch": 18.610747051114025,
	"grad_norm": 0.011367076076567173,
	"learning_rate": 3.4731323722149413e-06,
	"loss": 0.0001,
	"step": 28400
	},
	{
	"epoch": 18.676277850589777,
	"grad_norm": 0.0023978736717253923,
	"learning_rate": 3.309305373525557e-06,
	"loss": 0.0001,
	"step": 28500
	},
	{
	"epoch": 18.74180865006553,
	"grad_norm": 0.0030761794187128544,
	"learning_rate": 3.145478374836173e-06,
	"loss": 0.0025,
	"step": 28600
	},
	{
	"epoch": 18.807339449541285,
	"grad_norm": 0.001883818069472909,
	"learning_rate": 2.981651376146789e-06,
	"loss": 0.0001,
	"step": 28700
	},
	{
	"epoch": 18.872870249017037,
	"grad_norm": 0.00347805954515934,
	"learning_rate": 2.817824377457405e-06,
	"loss": 0.0001,
	"step": 28800
	},
	{
	"epoch": 18.938401048492793,
	"grad_norm": 0.004366457927972078,
	"learning_rate": 2.6539973787680212e-06,
	"loss": 0.0001,
	"step": 28900
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9509747706422018,
	"eval_f1": 0.9494461116737494,
	"eval_loss": 0.3973633944988251,
	"eval_runtime": 0.8752,
	"eval_samples_per_second": 3985.248,
	"eval_steps_per_second": 62.841,
	"step": 28994
	},
	{
	"epoch": 19.003931847968545,
	"grad_norm": 0.004239593632519245,
	"learning_rate": 2.490170380078637e-06,
	"loss": 0.0001,
	"step": 29000
	},
	{
	"epoch": 19.0694626474443,
	"grad_norm": 0.051923561841249466,
	"learning_rate": 2.326343381389253e-06,
	"loss": 0.0001,
	"step": 29100
	},
	{
	"epoch": 19.134993446920053,
	"grad_norm": 0.01663641817867756,
	"learning_rate": 2.1625163826998694e-06,
	"loss": 0.001,
	"step": 29200
	},
	{
	"epoch": 19.200524246395805,
	"grad_norm": 0.006036526523530483,
	"learning_rate": 1.998689384010485e-06,
	"loss": 0.0001,
	"step": 29300
	},
	{
	"epoch": 19.26605504587156,
	"grad_norm": 0.004666994791477919,
	"learning_rate": 1.8348623853211011e-06,
	"loss": 0.0001,
	"step": 29400
	},
	{
	"epoch": 19.331585845347313,
	"grad_norm": 0.0010127611458301544,
	"learning_rate": 1.671035386631717e-06,
	"loss": 0.0001,
	"step": 29500
	},
	{
	"epoch": 19.39711664482307,
	"grad_norm": 0.0074880653992295265,
	"learning_rate": 1.507208387942333e-06,
	"loss": 0.0001,
	"step": 29600
	},
	{
	"epoch": 19.46264744429882,
	"grad_norm": 0.0026892530731856823,
	"learning_rate": 1.3433813892529489e-06,
	"loss": 0.0014,
	"step": 29700
	},
	{
	"epoch": 19.528178243774573,
	"grad_norm": 0.0020644895266741514,
	"learning_rate": 1.179554390563565e-06,
	"loss": 0.0001,
	"step": 29800
	},
	{
	"epoch": 19.59370904325033,
	"grad_norm": 0.0029051878955215216,
	"learning_rate": 1.0157273918741808e-06,
	"loss": 0.0001,
	"step": 29900
	},
	{
	"epoch": 19.65923984272608,
	"grad_norm": 0.005995690356940031,
	"learning_rate": 8.51900393184797e-07,
	"loss": 0.0001,
	"step": 30000
	},
	{
	"epoch": 19.724770642201836,
	"grad_norm": 0.006156248040497303,
	"learning_rate": 6.880733944954129e-07,
	"loss": 0.0001,
	"step": 30100
	},
	{
	"epoch": 19.790301441677588,
	"grad_norm": 0.0009661901276558638,
	"learning_rate": 5.242463958060289e-07,
	"loss": 0.0001,
	"step": 30200
	},
	{
	"epoch": 19.855832241153344,
	"grad_norm": 0.007489080540835857,
	"learning_rate": 3.6041939711664483e-07,
	"loss": 0.0001,
	"step": 30300
	},
	{
	"epoch": 19.921363040629096,
	"grad_norm": 0.006394806317985058,
	"learning_rate": 1.9659239842726081e-07,
	"loss": 0.0004,
	"step": 30400
	},
	{
	"epoch": 19.986893840104848,
	"grad_norm": 0.007664592005312443,
	"learning_rate": 3.2765399737876805e-08,
	"loss": 0.0001,
	"step": 30500
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9515481651376146,
	"eval_f1": 0.9499685377695699,
	"eval_loss": 0.398087739944458,
	"eval_runtime": 0.9372,
	"eval_samples_per_second": 3721.91,
	"eval_steps_per_second": 58.688,
	"step": 30520
	}
	],
	"logging_steps": 100,
	"max_steps": 30520,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2534266005283680.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}