End of training

Browse files

Files changed (6) hide show

all_results.json +25 -0
eval_results.json +12 -0
predict_results.json +10 -0
predictions.txt +0 -0
train_results.json +8 -0
trainer_state.json +1639 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+    "epoch": 120.0,
+    "eval_accuracy": 0.8046732017950711,
+    "eval_f1": 0.6398059560706104,
+    "eval_loss": 1.7624890804290771,
+    "eval_precision": 0.6042249936370577,
+    "eval_recall": 0.6798396334478809,
+    "eval_runtime": 2.8827,
+    "eval_samples": 1112,
+    "eval_samples_per_second": 385.751,
+    "eval_steps_per_second": 6.244,
+    "predict_accuracy": 0.8020527140897511,
+    "predict_f1": 0.6292738631020353,
+    "predict_loss": 1.8004062175750732,
+    "predict_precision": 0.5881466599698644,
+    "predict_recall": 0.676585295392171,
+    "predict_runtime": 5.922,
+    "predict_samples_per_second": 375.715,
+    "predict_steps_per_second": 5.91,
+    "train_loss": 0.10161643302465072,
+    "train_runtime": 6791.1484,
+    "train_samples": 7785,
+    "train_samples_per_second": 137.561,
+    "train_steps_per_second": 2.156
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 120.0,
+    "eval_accuracy": 0.8046732017950711,
+    "eval_f1": 0.6398059560706104,
+    "eval_loss": 1.7624890804290771,
+    "eval_precision": 0.6042249936370577,
+    "eval_recall": 0.6798396334478809,
+    "eval_runtime": 2.8827,
+    "eval_samples": 1112,
+    "eval_samples_per_second": 385.751,
+    "eval_steps_per_second": 6.244
+}

predict_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "predict_accuracy": 0.8020527140897511,
+    "predict_f1": 0.6292738631020353,
+    "predict_loss": 1.8004062175750732,
+    "predict_precision": 0.5881466599698644,
+    "predict_recall": 0.676585295392171,
+    "predict_runtime": 5.922,
+    "predict_samples_per_second": 375.715,
+    "predict_steps_per_second": 5.91
+}

predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 120.0,
+    "train_loss": 0.10161643302465072,
+    "train_runtime": 6791.1484,
+    "train_samples": 7785,
+    "train_samples_per_second": 137.561,
+    "train_steps_per_second": 2.156
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1639 @@

+{
+  "best_metric": 0.6398059560706104,
+  "best_model_checkpoint": "/tmp/test-ner1_roberta/checkpoint-13786",
+  "epoch": 120.0,
+  "global_step": 14640,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6466768621355329,
+      "eval_f1": 0.2566238574569015,
+      "eval_loss": 1.1791669130325317,
+      "eval_precision": 0.21529800038827412,
+      "eval_recall": 0.31758304696449025,
+      "eval_runtime": 2.9054,
+      "eval_samples_per_second": 382.73,
+      "eval_steps_per_second": 6.195,
+      "step": 122
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7298117181036428,
+      "eval_f1": 0.40685328185328185,
+      "eval_loss": 0.9055529236793518,
+      "eval_precision": 0.35154295246038364,
+      "eval_recall": 0.48281786941580757,
+      "eval_runtime": 2.852,
+      "eval_samples_per_second": 389.9,
+      "eval_steps_per_second": 6.311,
+      "step": 244
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7447037882016697,
+      "eval_f1": 0.4581746714162879,
+      "eval_loss": 0.8212449550628662,
+      "eval_precision": 0.401161540116154,
+      "eval_recall": 0.534077892325315,
+      "eval_runtime": 2.8628,
+      "eval_samples_per_second": 388.43,
+      "eval_steps_per_second": 6.288,
+      "step": 366
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7637576152631184,
+      "eval_f1": 0.48680641183723805,
+      "eval_loss": 0.7602469325065613,
+      "eval_precision": 0.4274577739281074,
+      "eval_recall": 0.5652920962199313,
+      "eval_runtime": 2.8995,
+      "eval_samples_per_second": 383.518,
+      "eval_steps_per_second": 6.208,
+      "step": 488
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 2.8975409836065577e-05,
+      "loss": 1.0934,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7645849524907865,
+      "eval_f1": 0.49326599326599335,
+      "eval_loss": 0.7660626769065857,
+      "eval_precision": 0.42516583747927034,
+      "eval_recall": 0.5873424971363116,
+      "eval_runtime": 2.8913,
+      "eval_samples_per_second": 384.608,
+      "eval_steps_per_second": 6.226,
+      "step": 610
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7731090330182766,
+      "eval_f1": 0.5357728706624606,
+      "eval_loss": 0.7474268674850464,
+      "eval_precision": 0.47890818858560796,
+      "eval_recall": 0.6079610538373424,
+      "eval_runtime": 2.8539,
+      "eval_samples_per_second": 389.638,
+      "eval_steps_per_second": 6.307,
+      "step": 732
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7785494020608218,
+      "eval_f1": 0.5398138572905895,
+      "eval_loss": 0.7386994957923889,
+      "eval_precision": 0.49198868991517436,
+      "eval_recall": 0.5979381443298969,
+      "eval_runtime": 2.8557,
+      "eval_samples_per_second": 389.403,
+      "eval_steps_per_second": 6.303,
+      "step": 854
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7813573344698774,
+      "eval_f1": 0.547186587069732,
+      "eval_loss": 0.7481865882873535,
+      "eval_precision": 0.4916685688199041,
+      "eval_recall": 0.6168384879725086,
+      "eval_runtime": 2.8531,
+      "eval_samples_per_second": 389.752,
+      "eval_steps_per_second": 6.309,
+      "step": 976
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 2.795081967213115e-05,
+      "loss": 0.5404,
+      "step": 1000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7782234813347707,
+      "eval_f1": 0.5538539425389192,
+      "eval_loss": 0.7774013876914978,
+      "eval_precision": 0.4962576547970061,
+      "eval_recall": 0.6265750286368843,
+      "eval_runtime": 3.061,
+      "eval_samples_per_second": 363.279,
+      "eval_steps_per_second": 5.88,
+      "step": 1098
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7801790056910773,
+      "eval_f1": 0.5599486521181001,
+      "eval_loss": 0.7820373177528381,
+      "eval_precision": 0.5074453234062355,
+      "eval_recall": 0.6245704467353952,
+      "eval_runtime": 2.9062,
+      "eval_samples_per_second": 382.636,
+      "eval_steps_per_second": 6.194,
+      "step": 1220
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7816832551959285,
+      "eval_f1": 0.5656822810590632,
+      "eval_loss": 0.7769992351531982,
+      "eval_precision": 0.5091659028414299,
+      "eval_recall": 0.63631156930126,
+      "eval_runtime": 2.8301,
+      "eval_samples_per_second": 392.925,
+      "eval_steps_per_second": 6.36,
+      "step": 1342
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7849173916313585,
+      "eval_f1": 0.5781455214079328,
+      "eval_loss": 0.8044845461845398,
+      "eval_precision": 0.5339640950994663,
+      "eval_recall": 0.6302978235967927,
+      "eval_runtime": 2.9058,
+      "eval_samples_per_second": 382.688,
+      "eval_steps_per_second": 6.195,
+      "step": 1464
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 2.6926229508196725e-05,
+      "loss": 0.3509,
+      "step": 1500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7871486950635546,
+      "eval_f1": 0.585631067961165,
+      "eval_loss": 0.8087980151176453,
+      "eval_precision": 0.5343727852586818,
+      "eval_recall": 0.647766323024055,
+      "eval_runtime": 2.8915,
+      "eval_samples_per_second": 384.581,
+      "eval_steps_per_second": 6.225,
+      "step": 1586
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7768195151302429,
+      "eval_f1": 0.565743073047859,
+      "eval_loss": 0.84703528881073,
+      "eval_precision": 0.5049460431654677,
+      "eval_recall": 0.643184421534937,
+      "eval_runtime": 2.8567,
+      "eval_samples_per_second": 389.267,
+      "eval_steps_per_second": 6.301,
+      "step": 1708
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.7845914709053075,
+      "eval_f1": 0.5803108808290157,
+      "eval_loss": 0.835796058177948,
+      "eval_precision": 0.5298013245033113,
+      "eval_recall": 0.6414662084765178,
+      "eval_runtime": 2.9498,
+      "eval_samples_per_second": 376.98,
+      "eval_steps_per_second": 6.102,
+      "step": 1830
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7889287236442951,
+      "eval_f1": 0.5734914904589995,
+      "eval_loss": 0.8826290369033813,
+      "eval_precision": 0.5215759849906192,
+      "eval_recall": 0.6368843069873997,
+      "eval_runtime": 2.818,
+      "eval_samples_per_second": 394.606,
+      "eval_steps_per_second": 6.388,
+      "step": 1952
+    },
+    {
+      "epoch": 16.39,
+      "learning_rate": 2.5901639344262294e-05,
+      "loss": 0.2458,
+      "step": 2000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.7903577606739037,
+      "eval_f1": 0.590254852766407,
+      "eval_loss": 0.8949980735778809,
+      "eval_precision": 0.5476598872825288,
+      "eval_recall": 0.6400343642611683,
+      "eval_runtime": 2.8918,
+      "eval_samples_per_second": 384.538,
+      "eval_steps_per_second": 6.225,
+      "step": 2074
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7900067691227718,
+      "eval_f1": 0.5787797732772896,
+      "eval_loss": 0.8845651745796204,
+      "eval_precision": 0.5212204634090388,
+      "eval_recall": 0.6506300114547537,
+      "eval_runtime": 2.8519,
+      "eval_samples_per_second": 389.916,
+      "eval_steps_per_second": 6.312,
+      "step": 2196
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.7903577606739037,
+      "eval_f1": 0.5841648308928341,
+      "eval_loss": 0.88877934217453,
+      "eval_precision": 0.533491124260355,
+      "eval_recall": 0.645475372279496,
+      "eval_runtime": 2.9333,
+      "eval_samples_per_second": 379.09,
+      "eval_steps_per_second": 6.136,
+      "step": 2318
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7915360894527039,
+      "eval_f1": 0.5802566116784498,
+      "eval_loss": 0.893390953540802,
+      "eval_precision": 0.5344910757356488,
+      "eval_recall": 0.6345933562428407,
+      "eval_runtime": 2.8278,
+      "eval_samples_per_second": 393.243,
+      "eval_steps_per_second": 6.365,
+      "step": 2440
+    },
+    {
+      "epoch": 20.49,
+      "learning_rate": 2.487704918032787e-05,
+      "loss": 0.1765,
+      "step": 2500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.7933411888585253,
+      "eval_f1": 0.5913089142707102,
+      "eval_loss": 0.9481694102287292,
+      "eval_precision": 0.545939393939394,
+      "eval_recall": 0.6449026345933563,
+      "eval_runtime": 2.8849,
+      "eval_samples_per_second": 385.458,
+      "eval_steps_per_second": 6.239,
+      "step": 2562
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.7958984130167723,
+      "eval_f1": 0.5927963326784546,
+      "eval_loss": 0.9498738646507263,
+      "eval_precision": 0.5462225440502052,
+      "eval_recall": 0.6480526918671249,
+      "eval_runtime": 2.8695,
+      "eval_samples_per_second": 387.521,
+      "eval_steps_per_second": 6.273,
+      "step": 2684
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.7868729159876652,
+      "eval_f1": 0.5899986735641332,
+      "eval_loss": 0.9826343059539795,
+      "eval_precision": 0.5495428712626637,
+      "eval_recall": 0.6368843069873997,
+      "eval_runtime": 2.8977,
+      "eval_samples_per_second": 383.754,
+      "eval_steps_per_second": 6.212,
+      "step": 2806
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.7972522375711385,
+      "eval_f1": 0.607061350516848,
+      "eval_loss": 0.9814818501472473,
+      "eval_precision": 0.5713924690422036,
+      "eval_recall": 0.6474799541809851,
+      "eval_runtime": 2.8607,
+      "eval_samples_per_second": 388.722,
+      "eval_steps_per_second": 6.292,
+      "step": 2928
+    },
+    {
+      "epoch": 24.59,
+      "learning_rate": 2.3852459016393442e-05,
+      "loss": 0.1273,
+      "step": 3000
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.7970516709704917,
+      "eval_f1": 0.6025760191209667,
+      "eval_loss": 1.007980227470398,
+      "eval_precision": 0.5617727160188165,
+      "eval_recall": 0.6497709049255441,
+      "eval_runtime": 2.9873,
+      "eval_samples_per_second": 372.236,
+      "eval_steps_per_second": 6.025,
+      "step": 3050
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.7940431719607892,
+      "eval_f1": 0.5959833072509129,
+      "eval_loss": 1.0463485717773438,
+      "eval_precision": 0.5471743295019157,
+      "eval_recall": 0.6543528064146621,
+      "eval_runtime": 2.8597,
+      "eval_samples_per_second": 388.851,
+      "eval_steps_per_second": 6.294,
+      "step": 3172
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.7965753252939555,
+      "eval_f1": 0.5990990990990992,
+      "eval_loss": 1.0348948240280151,
+      "eval_precision": 0.5574457593688363,
+      "eval_recall": 0.6474799541809851,
+      "eval_runtime": 2.8692,
+      "eval_samples_per_second": 387.57,
+      "eval_steps_per_second": 6.274,
+      "step": 3294
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7898312733472058,
+      "eval_f1": 0.596569333507922,
+      "eval_loss": 1.0559194087982178,
+      "eval_precision": 0.549577804583836,
+      "eval_recall": 0.652348224513173,
+      "eval_runtime": 2.8607,
+      "eval_samples_per_second": 388.718,
+      "eval_steps_per_second": 6.292,
+      "step": 3416
+    },
+    {
+      "epoch": 28.69,
+      "learning_rate": 2.2827868852459018e-05,
+      "loss": 0.0951,
+      "step": 3500
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.7917867977035125,
+      "eval_f1": 0.592843201040989,
+      "eval_loss": 1.0900899171829224,
+      "eval_precision": 0.5432864297638922,
+      "eval_recall": 0.652348224513173,
+      "eval_runtime": 2.9162,
+      "eval_samples_per_second": 381.323,
+      "eval_steps_per_second": 6.173,
+      "step": 3538
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.7840649835786095,
+      "eval_f1": 0.5850218004616569,
+      "eval_loss": 1.1399974822998047,
+      "eval_precision": 0.5297259637714816,
+      "eval_recall": 0.6532073310423826,
+      "eval_runtime": 2.8324,
+      "eval_samples_per_second": 392.593,
+      "eval_steps_per_second": 6.355,
+      "step": 3660
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.7916113019279465,
+      "eval_f1": 0.59593375521745,
+      "eval_loss": 1.1601282358169556,
+      "eval_precision": 0.5623888182973317,
+      "eval_recall": 0.6337342497136311,
+      "eval_runtime": 2.8109,
+      "eval_samples_per_second": 395.6,
+      "eval_steps_per_second": 6.404,
+      "step": 3782
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7882768821921929,
+      "eval_f1": 0.5970422719539328,
+      "eval_loss": 1.135899305343628,
+      "eval_precision": 0.549771029163654,
+      "eval_recall": 0.6532073310423826,
+      "eval_runtime": 2.8146,
+      "eval_samples_per_second": 395.088,
+      "eval_steps_per_second": 6.395,
+      "step": 3904
+    },
+    {
+      "epoch": 32.79,
+      "learning_rate": 2.180327868852459e-05,
+      "loss": 0.0717,
+      "step": 4000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.7965001128187129,
+      "eval_f1": 0.6057882912647021,
+      "eval_loss": 1.1268887519836426,
+      "eval_precision": 0.5624539877300614,
+      "eval_recall": 0.6563573883161512,
+      "eval_runtime": 2.8737,
+      "eval_samples_per_second": 386.952,
+      "eval_steps_per_second": 6.264,
+      "step": 4026
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.7966756085942789,
+      "eval_f1": 0.6037027099543869,
+      "eval_loss": 1.1757946014404297,
+      "eval_precision": 0.5678950025239778,
+      "eval_recall": 0.6443298969072165,
+      "eval_runtime": 2.8674,
+      "eval_samples_per_second": 387.814,
+      "eval_steps_per_second": 6.278,
+      "step": 4148
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.7897811316970441,
+      "eval_f1": 0.5957000524383849,
+      "eval_loss": 1.1870158910751343,
+      "eval_precision": 0.5493230174081238,
+      "eval_recall": 0.6506300114547537,
+      "eval_runtime": 2.9346,
+      "eval_samples_per_second": 378.932,
+      "eval_steps_per_second": 6.134,
+      "step": 4270
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7928397723569083,
+      "eval_f1": 0.5987710811870832,
+      "eval_loss": 1.129560947418213,
+      "eval_precision": 0.5508780370459466,
+      "eval_recall": 0.6557846506300115,
+      "eval_runtime": 2.9245,
+      "eval_samples_per_second": 380.236,
+      "eval_steps_per_second": 6.155,
+      "step": 4392
+    },
+    {
+      "epoch": 36.89,
+      "learning_rate": 2.0778688524590166e-05,
+      "loss": 0.0552,
+      "step": 4500
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.790307619023742,
+      "eval_f1": 0.5933980582524273,
+      "eval_loss": 1.2164160013198853,
+      "eval_precision": 0.5414599574769667,
+      "eval_recall": 0.6563573883161512,
+      "eval_runtime": 2.8667,
+      "eval_samples_per_second": 387.897,
+      "eval_steps_per_second": 6.279,
+      "step": 4514
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.7943440218617595,
+      "eval_f1": 0.6001566988769914,
+      "eval_loss": 1.2046586275100708,
+      "eval_precision": 0.5516082573211714,
+      "eval_recall": 0.6580756013745704,
+      "eval_runtime": 2.8635,
+      "eval_samples_per_second": 388.332,
+      "eval_steps_per_second": 6.286,
+      "step": 4636
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.7949206508386191,
+      "eval_f1": 0.6084432717678101,
+      "eval_loss": 1.2363812923431396,
+      "eval_precision": 0.5640900195694716,
+      "eval_recall": 0.6603665521191294,
+      "eval_runtime": 2.8842,
+      "eval_samples_per_second": 385.555,
+      "eval_steps_per_second": 6.241,
+      "step": 4758
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.7944693759871637,
+      "eval_f1": 0.6042486231313926,
+      "eval_loss": 1.248107671737671,
+      "eval_precision": 0.5573294629898403,
+      "eval_recall": 0.6597938144329897,
+      "eval_runtime": 2.9808,
+      "eval_samples_per_second": 373.05,
+      "eval_steps_per_second": 6.039,
+      "step": 4880
+    },
+    {
+      "epoch": 40.98,
+      "learning_rate": 1.975409836065574e-05,
+      "loss": 0.0432,
+      "step": 5000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.7926141349311806,
+      "eval_f1": 0.6043454935622318,
+      "eval_loss": 1.276792287826538,
+      "eval_precision": 0.5683652875882946,
+      "eval_recall": 0.6451890034364262,
+      "eval_runtime": 2.8846,
+      "eval_samples_per_second": 385.494,
+      "eval_steps_per_second": 6.24,
+      "step": 5002
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.7957981297164489,
+      "eval_f1": 0.6079725448785638,
+      "eval_loss": 1.2605416774749756,
+      "eval_precision": 0.5639079333986288,
+      "eval_recall": 0.6595074455899198,
+      "eval_runtime": 2.8333,
+      "eval_samples_per_second": 392.474,
+      "eval_steps_per_second": 6.353,
+      "step": 5124
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.7974528041717853,
+      "eval_f1": 0.6125862984599043,
+      "eval_loss": 1.249541163444519,
+      "eval_precision": 0.571039603960396,
+      "eval_recall": 0.6606529209621993,
+      "eval_runtime": 2.8379,
+      "eval_samples_per_second": 391.839,
+      "eval_steps_per_second": 6.343,
+      "step": 5246
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.7954722089903978,
+      "eval_f1": 0.6102653913512056,
+      "eval_loss": 1.2717816829681396,
+      "eval_precision": 0.5761892648181124,
+      "eval_recall": 0.6486254295532646,
+      "eval_runtime": 2.8387,
+      "eval_samples_per_second": 391.732,
+      "eval_steps_per_second": 6.341,
+      "step": 5368
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.8003108782310026,
+      "eval_f1": 0.6093247588424437,
+      "eval_loss": 1.2998257875442505,
+      "eval_precision": 0.5725075528700906,
+      "eval_recall": 0.6512027491408935,
+      "eval_runtime": 2.8997,
+      "eval_samples_per_second": 383.49,
+      "eval_steps_per_second": 6.208,
+      "step": 5490
+    },
+    {
+      "epoch": 45.08,
+      "learning_rate": 1.872950819672131e-05,
+      "loss": 0.0331,
+      "step": 5500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.7945696592874871,
+      "eval_f1": 0.6008263361322138,
+      "eval_loss": 1.3468672037124634,
+      "eval_precision": 0.5619546247818499,
+      "eval_recall": 0.645475372279496,
+      "eval_runtime": 2.896,
+      "eval_samples_per_second": 383.974,
+      "eval_steps_per_second": 6.215,
+      "step": 5612
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.8010128613332664,
+      "eval_f1": 0.6131348045732518,
+      "eval_loss": 1.3357452154159546,
+      "eval_precision": 0.5722084367245658,
+      "eval_recall": 0.6603665521191294,
+      "eval_runtime": 2.8883,
+      "eval_samples_per_second": 384.996,
+      "eval_steps_per_second": 6.232,
+      "step": 5734
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7936420387594956,
+      "eval_f1": 0.6039968445963714,
+      "eval_loss": 1.3576422929763794,
+      "eval_precision": 0.5583373845405931,
+      "eval_recall": 0.6577892325315006,
+      "eval_runtime": 2.8265,
+      "eval_samples_per_second": 393.421,
+      "eval_steps_per_second": 6.368,
+      "step": 5856
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.7985057788251811,
+      "eval_f1": 0.6147880732718278,
+      "eval_loss": 1.3396836519241333,
+      "eval_precision": 0.5766240280912968,
+      "eval_recall": 0.6583619702176403,
+      "eval_runtime": 2.908,
+      "eval_samples_per_second": 382.397,
+      "eval_steps_per_second": 6.19,
+      "step": 5978
+    },
+    {
+      "epoch": 49.18,
+      "learning_rate": 1.7704918032786887e-05,
+      "loss": 0.0265,
+      "step": 6000
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.7961240504425,
+      "eval_f1": 0.6078405315614618,
+      "eval_loss": 1.3641352653503418,
+      "eval_precision": 0.5670716588147781,
+      "eval_recall": 0.6549255441008018,
+      "eval_runtime": 2.9731,
+      "eval_samples_per_second": 374.026,
+      "eval_steps_per_second": 6.054,
+      "step": 6100
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.7937924637099807,
+      "eval_f1": 0.6058036305816881,
+      "eval_loss": 1.3726739883422852,
+      "eval_precision": 0.5637484586929716,
+      "eval_recall": 0.654639175257732,
+      "eval_runtime": 2.8737,
+      "eval_samples_per_second": 386.957,
+      "eval_steps_per_second": 6.264,
+      "step": 6222
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.7926642765813423,
+      "eval_f1": 0.6081809811916349,
+      "eval_loss": 1.4024547338485718,
+      "eval_precision": 0.5623935782048164,
+      "eval_recall": 0.6620847651775487,
+      "eval_runtime": 2.8503,
+      "eval_samples_per_second": 390.136,
+      "eval_steps_per_second": 6.315,
+      "step": 6344
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.7915862311028656,
+      "eval_f1": 0.6084185367149118,
+      "eval_loss": 1.399110198020935,
+      "eval_precision": 0.5672196088140629,
+      "eval_recall": 0.6560710194730813,
+      "eval_runtime": 2.9033,
+      "eval_samples_per_second": 383.006,
+      "eval_steps_per_second": 6.2,
+      "step": 6466
+    },
+    {
+      "epoch": 53.28,
+      "learning_rate": 1.668032786885246e-05,
+      "loss": 0.0212,
+      "step": 6500
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.7953217840399127,
+      "eval_f1": 0.6119815668202765,
+      "eval_loss": 1.4267858266830444,
+      "eval_precision": 0.5664148184255423,
+      "eval_recall": 0.6655211912943871,
+      "eval_runtime": 2.9191,
+      "eval_samples_per_second": 380.935,
+      "eval_steps_per_second": 6.166,
+      "step": 6588
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.7943690926868403,
+      "eval_f1": 0.6073173953242637,
+      "eval_loss": 1.4376713037490845,
+      "eval_precision": 0.5636185339544005,
+      "eval_recall": 0.6583619702176403,
+      "eval_runtime": 3.0593,
+      "eval_samples_per_second": 363.477,
+      "eval_steps_per_second": 5.884,
+      "step": 6710
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.795271642389751,
+      "eval_f1": 0.6113687557970054,
+      "eval_loss": 1.4307470321655273,
+      "eval_precision": 0.5689272503082614,
+      "eval_recall": 0.6606529209621993,
+      "eval_runtime": 2.9231,
+      "eval_samples_per_second": 380.418,
+      "eval_steps_per_second": 6.158,
+      "step": 6832
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.7917115852282699,
+      "eval_f1": 0.6049250535331906,
+      "eval_loss": 1.4772576093673706,
+      "eval_precision": 0.5678391959798995,
+      "eval_recall": 0.6471935853379153,
+      "eval_runtime": 2.9801,
+      "eval_samples_per_second": 373.136,
+      "eval_steps_per_second": 6.04,
+      "step": 6954
+    },
+    {
+      "epoch": 57.38,
+      "learning_rate": 1.5655737704918035e-05,
+      "loss": 0.0171,
+      "step": 7000
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.7976032291222704,
+      "eval_f1": 0.6215258855585831,
+      "eval_loss": 1.46255362033844,
+      "eval_precision": 0.5927754677754677,
+      "eval_recall": 0.6532073310423826,
+      "eval_runtime": 2.8727,
+      "eval_samples_per_second": 387.093,
+      "eval_steps_per_second": 6.266,
+      "step": 7076
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.7991074786271216,
+      "eval_f1": 0.6118965057348627,
+      "eval_loss": 1.4488873481750488,
+      "eval_precision": 0.5726410384423365,
+      "eval_recall": 0.656930126002291,
+      "eval_runtime": 2.9083,
+      "eval_samples_per_second": 382.356,
+      "eval_steps_per_second": 6.189,
+      "step": 7198
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8010379321583473,
+      "eval_f1": 0.6189835977413283,
+      "eval_loss": 1.447924017906189,
+      "eval_precision": 0.5833755701976685,
+      "eval_recall": 0.6592210767468499,
+      "eval_runtime": 2.8818,
+      "eval_samples_per_second": 385.865,
+      "eval_steps_per_second": 6.246,
+      "step": 7320
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.7975530874721087,
+      "eval_f1": 0.6155924875016889,
+      "eval_loss": 1.464934229850769,
+      "eval_precision": 0.5827577385520594,
+      "eval_recall": 0.652348224513173,
+      "eval_runtime": 3.0162,
+      "eval_samples_per_second": 368.671,
+      "eval_steps_per_second": 5.968,
+      "step": 7442
+    },
+    {
+      "epoch": 61.48,
+      "learning_rate": 1.4631147540983607e-05,
+      "loss": 0.0142,
+      "step": 7500
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.8005866573068919,
+      "eval_f1": 0.617394747261449,
+      "eval_loss": 1.5170141458511353,
+      "eval_precision": 0.5725826193390453,
+      "eval_recall": 0.6698167239404352,
+      "eval_runtime": 2.8537,
+      "eval_samples_per_second": 389.666,
+      "eval_steps_per_second": 6.308,
+      "step": 7564
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.798530849650262,
+      "eval_f1": 0.6186992951190318,
+      "eval_loss": 1.486588478088379,
+      "eval_precision": 0.5776011919543084,
+      "eval_recall": 0.6660939289805269,
+      "eval_runtime": 2.9317,
+      "eval_samples_per_second": 379.306,
+      "eval_steps_per_second": 6.14,
+      "step": 7686
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.8009877905081856,
+      "eval_f1": 0.6169074371321562,
+      "eval_loss": 1.544573426246643,
+      "eval_precision": 0.5788152610441767,
+      "eval_recall": 0.6603665521191294,
+      "eval_runtime": 2.9763,
+      "eval_samples_per_second": 373.624,
+      "eval_steps_per_second": 6.048,
+      "step": 7808
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.7935166846340913,
+      "eval_f1": 0.6111037498343711,
+      "eval_loss": 1.5565959215164185,
+      "eval_precision": 0.5686806411837237,
+      "eval_recall": 0.6603665521191294,
+      "eval_runtime": 2.8561,
+      "eval_samples_per_second": 389.345,
+      "eval_steps_per_second": 6.302,
+      "step": 7930
+    },
+    {
+      "epoch": 65.57,
+      "learning_rate": 1.3606557377049181e-05,
+      "loss": 0.0114,
+      "step": 8000
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.795948554666934,
+      "eval_f1": 0.6242587601078167,
+      "eval_loss": 1.5454256534576416,
+      "eval_precision": 0.5896130346232179,
+      "eval_recall": 0.6632302405498282,
+      "eval_runtime": 2.9632,
+      "eval_samples_per_second": 375.274,
+      "eval_steps_per_second": 6.075,
+      "step": 8052
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.7998345325544663,
+      "eval_f1": 0.6325366648560564,
+      "eval_loss": 1.5341241359710693,
+      "eval_precision": 0.6014979338842975,
+      "eval_recall": 0.6669530355097365,
+      "eval_runtime": 2.8476,
+      "eval_samples_per_second": 390.501,
+      "eval_steps_per_second": 6.321,
+      "step": 8174
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.7963246170431469,
+      "eval_f1": 0.6196650459211237,
+      "eval_loss": 1.5298110246658325,
+      "eval_precision": 0.58640081799591,
+      "eval_recall": 0.656930126002291,
+      "eval_runtime": 2.9457,
+      "eval_samples_per_second": 377.495,
+      "eval_steps_per_second": 6.111,
+      "step": 8296
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.7943941635119212,
+      "eval_f1": 0.617556946849607,
+      "eval_loss": 1.5693646669387817,
+      "eval_precision": 0.57733499377335,
+      "eval_recall": 0.6638029782359679,
+      "eval_runtime": 2.8694,
+      "eval_samples_per_second": 387.533,
+      "eval_steps_per_second": 6.273,
+      "step": 8418
+    },
+    {
+      "epoch": 69.67,
+      "learning_rate": 1.2581967213114756e-05,
+      "loss": 0.0101,
+      "step": 8500
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.7977285832476747,
+      "eval_f1": 0.6197596795727636,
+      "eval_loss": 1.591435432434082,
+      "eval_precision": 0.5805402701350675,
+      "eval_recall": 0.6646620847651775,
+      "eval_runtime": 2.9323,
+      "eval_samples_per_second": 379.23,
+      "eval_steps_per_second": 6.139,
+      "step": 8540
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.7956978464161255,
+      "eval_f1": 0.6129676474504061,
+      "eval_loss": 1.568572998046875,
+      "eval_precision": 0.5727792983329186,
+      "eval_recall": 0.6592210767468499,
+      "eval_runtime": 2.9544,
+      "eval_samples_per_second": 376.394,
+      "eval_steps_per_second": 6.093,
+      "step": 8662
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.7949206508386191,
+      "eval_f1": 0.6126834381551364,
+      "eval_loss": 1.6199277639389038,
+      "eval_precision": 0.5647342995169082,
+      "eval_recall": 0.6695303550973654,
+      "eval_runtime": 2.9153,
+      "eval_samples_per_second": 381.436,
+      "eval_steps_per_second": 6.174,
+      "step": 8784
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.7943941635119212,
+      "eval_f1": 0.623042954636692,
+      "eval_loss": 1.634416103363037,
+      "eval_precision": 0.584777694046722,
+      "eval_recall": 0.6666666666666666,
+      "eval_runtime": 2.8778,
+      "eval_samples_per_second": 386.41,
+      "eval_steps_per_second": 6.255,
+      "step": 8906
+    },
+    {
+      "epoch": 73.77,
+      "learning_rate": 1.1557377049180328e-05,
+      "loss": 0.0079,
+      "step": 9000
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.7969513876701683,
+      "eval_f1": 0.6292225201072386,
+      "eval_loss": 1.557986855506897,
+      "eval_precision": 0.5914818548387096,
+      "eval_recall": 0.6721076746849943,
+      "eval_runtime": 2.8737,
+      "eval_samples_per_second": 386.956,
+      "eval_steps_per_second": 6.264,
+      "step": 9028
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.8006117281319728,
+      "eval_f1": 0.6340199154276359,
+      "eval_loss": 1.6272269487380981,
+      "eval_precision": 0.6053659807241469,
+      "eval_recall": 0.6655211912943871,
+      "eval_runtime": 2.8776,
+      "eval_samples_per_second": 386.439,
+      "eval_steps_per_second": 6.255,
+      "step": 9150
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.7967758918946023,
+      "eval_f1": 0.6184052357419527,
+      "eval_loss": 1.6266722679138184,
+      "eval_precision": 0.5794743429286608,
+      "eval_recall": 0.6629438717067583,
+      "eval_runtime": 2.9302,
+      "eval_samples_per_second": 379.493,
+      "eval_steps_per_second": 6.143,
+      "step": 9272
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.7958984130167723,
+      "eval_f1": 0.6194760518655729,
+      "eval_loss": 1.6500694751739502,
+      "eval_precision": 0.5757501229709788,
+      "eval_recall": 0.670389461626575,
+      "eval_runtime": 2.8781,
+      "eval_samples_per_second": 386.368,
+      "eval_steps_per_second": 6.254,
+      "step": 9394
+    },
+    {
+      "epoch": 77.87,
+      "learning_rate": 1.0532786885245902e-05,
+      "loss": 0.0065,
+      "step": 9500
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.7995336826534961,
+      "eval_f1": 0.630329195898543,
+      "eval_loss": 1.6222110986709595,
+      "eval_precision": 0.5959183673469388,
+      "eval_recall": 0.6689576174112256,
+      "eval_runtime": 2.9051,
+      "eval_samples_per_second": 382.773,
+      "eval_steps_per_second": 6.196,
+      "step": 9516
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.7965502544688746,
+      "eval_f1": 0.6257701580498258,
+      "eval_loss": 1.6543381214141846,
+      "eval_precision": 0.587820835430297,
+      "eval_recall": 0.6689576174112256,
+      "eval_runtime": 2.9225,
+      "eval_samples_per_second": 380.492,
+      "eval_steps_per_second": 6.159,
+      "step": 9638
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.8008875072078622,
+      "eval_f1": 0.6276252019386107,
+      "eval_loss": 1.605409026145935,
+      "eval_precision": 0.5922256097560976,
+      "eval_recall": 0.6675257731958762,
+      "eval_runtime": 2.8935,
+      "eval_samples_per_second": 384.305,
+      "eval_steps_per_second": 6.221,
+      "step": 9760
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.8007872239075388,
+      "eval_f1": 0.6293103448275862,
+      "eval_loss": 1.6386600732803345,
+      "eval_precision": 0.5940996948118006,
+      "eval_recall": 0.6689576174112256,
+      "eval_runtime": 2.9359,
+      "eval_samples_per_second": 378.763,
+      "eval_steps_per_second": 6.131,
+      "step": 9882
+    },
+    {
+      "epoch": 81.97,
+      "learning_rate": 9.508196721311476e-06,
+      "loss": 0.0053,
+      "step": 10000
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.8047233434452328,
+      "eval_f1": 0.6390403489640131,
+      "eval_loss": 1.6452571153640747,
+      "eval_precision": 0.6097814776274714,
+      "eval_recall": 0.6712485681557846,
+      "eval_runtime": 2.9102,
+      "eval_samples_per_second": 382.104,
+      "eval_steps_per_second": 6.185,
+      "step": 10004
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.8004613031814877,
+      "eval_f1": 0.6212403513441574,
+      "eval_loss": 1.679402232170105,
+      "eval_precision": 0.5803083043262058,
+      "eval_recall": 0.6683848797250859,
+      "eval_runtime": 2.9425,
+      "eval_samples_per_second": 377.908,
+      "eval_steps_per_second": 6.117,
+      "step": 10126
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.7990322661518791,
+      "eval_f1": 0.6314366806325179,
+      "eval_loss": 1.700645923614502,
+      "eval_precision": 0.5979012029690299,
+      "eval_recall": 0.6689576174112256,
+      "eval_runtime": 2.8808,
+      "eval_samples_per_second": 386.008,
+      "eval_steps_per_second": 6.248,
+      "step": 10248
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.7989069120264748,
+      "eval_f1": 0.6296992481203008,
+      "eval_loss": 1.682008147239685,
+      "eval_precision": 0.5927704752275025,
+      "eval_recall": 0.6715349369988545,
+      "eval_runtime": 2.8543,
+      "eval_samples_per_second": 389.584,
+      "eval_steps_per_second": 6.306,
+      "step": 10370
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.7983052122245343,
+      "eval_f1": 0.6285100094048098,
+      "eval_loss": 1.6995329856872559,
+      "eval_precision": 0.5920020248038471,
+      "eval_recall": 0.6698167239404352,
+      "eval_runtime": 3.0037,
+      "eval_samples_per_second": 370.211,
+      "eval_steps_per_second": 5.993,
+      "step": 10492
+    },
+    {
+      "epoch": 86.07,
+      "learning_rate": 8.483606557377049e-06,
+      "loss": 0.0045,
+      "step": 10500
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.8004863740065685,
+      "eval_f1": 0.6253886710828714,
+      "eval_loss": 1.6652146577835083,
+      "eval_precision": 0.5923175416133163,
+      "eval_recall": 0.6623711340206185,
+      "eval_runtime": 2.9086,
+      "eval_samples_per_second": 382.312,
+      "eval_steps_per_second": 6.189,
+      "step": 10614
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.7990824078020408,
+      "eval_f1": 0.6266846361185983,
+      "eval_loss": 1.7196266651153564,
+      "eval_precision": 0.5919042769857433,
+      "eval_recall": 0.665807560137457,
+      "eval_runtime": 2.8941,
+      "eval_samples_per_second": 384.232,
+      "eval_steps_per_second": 6.22,
+      "step": 10736
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 0.805375184897335,
+      "eval_f1": 0.6272862755724156,
+      "eval_loss": 1.6730009317398071,
+      "eval_precision": 0.5952687066083826,
+      "eval_recall": 0.6629438717067583,
+      "eval_runtime": 2.9839,
+      "eval_samples_per_second": 372.672,
+      "eval_steps_per_second": 6.032,
+      "step": 10858
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.8023165442374709,
+      "eval_f1": 0.6332482193253596,
+      "eval_loss": 1.709200143814087,
+      "eval_precision": 0.5966067358825019,
+      "eval_recall": 0.6746849942726232,
+      "eval_runtime": 2.9784,
+      "eval_samples_per_second": 373.352,
+      "eval_steps_per_second": 6.043,
+      "step": 10980
+    },
+    {
+      "epoch": 90.16,
+      "learning_rate": 7.459016393442623e-06,
+      "loss": 0.0037,
+      "step": 11000
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 0.8009627196831047,
+      "eval_f1": 0.6340402392604676,
+      "eval_loss": 1.7260353565216064,
+      "eval_precision": 0.6035196687370601,
+      "eval_recall": 0.6678121420389461,
+      "eval_runtime": 2.8928,
+      "eval_samples_per_second": 384.405,
+      "eval_steps_per_second": 6.222,
+      "step": 11102
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.8030185273397348,
+      "eval_f1": 0.631593220338983,
+      "eval_loss": 1.71060311794281,
+      "eval_precision": 0.5997939737316508,
+      "eval_recall": 0.6669530355097365,
+      "eval_runtime": 2.9325,
+      "eval_samples_per_second": 379.201,
+      "eval_steps_per_second": 6.138,
+      "step": 11224
+    },
+    {
+      "epoch": 93.0,
+      "eval_accuracy": 0.8027928899140071,
+      "eval_f1": 0.6377910124526259,
+      "eval_loss": 1.709562063217163,
+      "eval_precision": 0.6047227926078029,
+      "eval_recall": 0.6746849942726232,
+      "eval_runtime": 2.929,
+      "eval_samples_per_second": 379.651,
+      "eval_steps_per_second": 6.145,
+      "step": 11346
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 0.8009627196831047,
+      "eval_f1": 0.6353984679478566,
+      "eval_loss": 1.721982717514038,
+      "eval_precision": 0.5986325652063814,
+      "eval_recall": 0.6769759450171822,
+      "eval_runtime": 2.8786,
+      "eval_samples_per_second": 386.296,
+      "eval_steps_per_second": 6.253,
+      "step": 11468
+    },
+    {
+      "epoch": 94.26,
+      "learning_rate": 6.434426229508197e-06,
+      "loss": 0.0032,
+      "step": 11500
+    },
+    {
+      "epoch": 95.0,
+      "eval_accuracy": 0.7994333993531727,
+      "eval_f1": 0.6351459951781409,
+      "eval_loss": 1.7394192218780518,
+      "eval_precision": 0.5966280825364871,
+      "eval_recall": 0.6789805269186713,
+      "eval_runtime": 2.9637,
+      "eval_samples_per_second": 375.209,
+      "eval_steps_per_second": 6.074,
+      "step": 11590
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.8004613031814877,
+      "eval_f1": 0.6391640656805537,
+      "eval_loss": 1.7256627082824707,
+      "eval_precision": 0.6074284240392056,
+      "eval_recall": 0.6743986254295533,
+      "eval_runtime": 2.9246,
+      "eval_samples_per_second": 380.221,
+      "eval_steps_per_second": 6.155,
+      "step": 11712
+    },
+    {
+      "epoch": 97.0,
+      "eval_accuracy": 0.8039461478677263,
+      "eval_f1": 0.635028555887952,
+      "eval_loss": 1.700808048248291,
+      "eval_precision": 0.6046090108751943,
+      "eval_recall": 0.6686712485681557,
+      "eval_runtime": 2.8758,
+      "eval_samples_per_second": 386.673,
+      "eval_steps_per_second": 6.259,
+      "step": 11834
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 0.8032190939403816,
+      "eval_f1": 0.6355140186915889,
+      "eval_loss": 1.7482486963272095,
+      "eval_precision": 0.6029298380878951,
+      "eval_recall": 0.6718213058419243,
+      "eval_runtime": 2.927,
+      "eval_samples_per_second": 379.912,
+      "eval_steps_per_second": 6.15,
+      "step": 11956
+    },
+    {
+      "epoch": 98.36,
+      "learning_rate": 5.409836065573771e-06,
+      "loss": 0.0028,
+      "step": 12000
+    },
+    {
+      "epoch": 99.0,
+      "eval_accuracy": 0.8030435981648156,
+      "eval_f1": 0.6319491410793994,
+      "eval_loss": 1.7569934129714966,
+      "eval_precision": 0.598820815175596,
+      "eval_recall": 0.6689576174112256,
+      "eval_runtime": 2.8862,
+      "eval_samples_per_second": 385.277,
+      "eval_steps_per_second": 6.236,
+      "step": 12078
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.8026173941384411,
+      "eval_f1": 0.6335353535353535,
+      "eval_loss": 1.733221411705017,
+      "eval_precision": 0.5980167810831426,
+      "eval_recall": 0.6735395189003437,
+      "eval_runtime": 2.9532,
+      "eval_samples_per_second": 376.543,
+      "eval_steps_per_second": 6.095,
+      "step": 12200
+    },
+    {
+      "epoch": 101.0,
+      "eval_accuracy": 0.8011131446335898,
+      "eval_f1": 0.6279817743232377,
+      "eval_loss": 1.749053955078125,
+      "eval_precision": 0.590176322418136,
+      "eval_recall": 0.6709621993127147,
+      "eval_runtime": 2.8456,
+      "eval_samples_per_second": 390.774,
+      "eval_steps_per_second": 6.325,
+      "step": 12322
+    },
+    {
+      "epoch": 102.0,
+      "eval_accuracy": 0.8033444480657859,
+      "eval_f1": 0.6348178137651822,
+      "eval_loss": 1.754211664199829,
+      "eval_precision": 0.6003062787136294,
+      "eval_recall": 0.6735395189003437,
+      "eval_runtime": 3.0603,
+      "eval_samples_per_second": 363.358,
+      "eval_steps_per_second": 5.882,
+      "step": 12444
+    },
+    {
+      "epoch": 102.46,
+      "learning_rate": 4.385245901639344e-06,
+      "loss": 0.0021,
+      "step": 12500
+    },
+    {
+      "epoch": 103.0,
+      "eval_accuracy": 0.8040464311680497,
+      "eval_f1": 0.6305431998921687,
+      "eval_loss": 1.7371126413345337,
+      "eval_precision": 0.5956200662083015,
+      "eval_recall": 0.6698167239404352,
+      "eval_runtime": 2.9206,
+      "eval_samples_per_second": 380.743,
+      "eval_steps_per_second": 6.163,
+      "step": 12566
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.800737082257377,
+      "eval_f1": 0.6273032952252858,
+      "eval_loss": 1.771882176399231,
+      "eval_precision": 0.5914278468171443,
+      "eval_recall": 0.6678121420389461,
+      "eval_runtime": 2.9022,
+      "eval_samples_per_second": 383.156,
+      "eval_steps_per_second": 6.202,
+      "step": 12688
+    },
+    {
+      "epoch": 105.0,
+      "eval_accuracy": 0.804522776844586,
+      "eval_f1": 0.6305525460455038,
+      "eval_loss": 1.7473387718200684,
+      "eval_precision": 0.5981500513874615,
+      "eval_recall": 0.6666666666666666,
+      "eval_runtime": 2.8767,
+      "eval_samples_per_second": 386.556,
+      "eval_steps_per_second": 6.257,
+      "step": 12810
+    },
+    {
+      "epoch": 106.0,
+      "eval_accuracy": 0.803996289517888,
+      "eval_f1": 0.6361556064073227,
+      "eval_loss": 1.7518253326416016,
+      "eval_precision": 0.6002032004064008,
+      "eval_recall": 0.6766895761741123,
+      "eval_runtime": 2.9045,
+      "eval_samples_per_second": 382.852,
+      "eval_steps_per_second": 6.197,
+      "step": 12932
+    },
+    {
+      "epoch": 106.56,
+      "learning_rate": 3.3606557377049183e-06,
+      "loss": 0.0019,
+      "step": 13000
+    },
+    {
+      "epoch": 107.0,
+      "eval_accuracy": 0.804848697570637,
+      "eval_f1": 0.6358241165362828,
+      "eval_loss": 1.7628158330917358,
+      "eval_precision": 0.6009688934217237,
+      "eval_recall": 0.6749713631156931,
+      "eval_runtime": 2.8942,
+      "eval_samples_per_second": 384.222,
+      "eval_steps_per_second": 6.219,
+      "step": 13054
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.7964750419936321,
+      "eval_f1": 0.6344605475040258,
+      "eval_loss": 1.8080339431762695,
+      "eval_precision": 0.5969696969696969,
+      "eval_recall": 0.6769759450171822,
+      "eval_runtime": 2.9081,
+      "eval_samples_per_second": 382.377,
+      "eval_steps_per_second": 6.19,
+      "step": 13176
+    },
+    {
+      "epoch": 109.0,
+      "eval_accuracy": 0.7985809913004237,
+      "eval_f1": 0.6338519313304721,
+      "eval_loss": 1.8027576208114624,
+      "eval_precision": 0.5961150353178607,
+      "eval_recall": 0.6766895761741123,
+      "eval_runtime": 2.8859,
+      "eval_samples_per_second": 385.324,
+      "eval_steps_per_second": 6.237,
+      "step": 13298
+    },
+    {
+      "epoch": 110.0,
+      "eval_accuracy": 0.8029683856895731,
+      "eval_f1": 0.6342911102117901,
+      "eval_loss": 1.781972050666809,
+      "eval_precision": 0.5995919408314205,
+      "eval_recall": 0.6732531500572738,
+      "eval_runtime": 2.9186,
+      "eval_samples_per_second": 380.999,
+      "eval_steps_per_second": 6.167,
+      "step": 13420
+    },
+    {
+      "epoch": 110.66,
+      "learning_rate": 2.336065573770492e-06,
+      "loss": 0.0015,
+      "step": 13500
+    },
+    {
+      "epoch": 111.0,
+      "eval_accuracy": 0.8029934565146539,
+      "eval_f1": 0.6372588695534872,
+      "eval_loss": 1.7890208959579468,
+      "eval_precision": 0.6023973476154042,
+      "eval_recall": 0.6764032073310424,
+      "eval_runtime": 2.8911,
+      "eval_samples_per_second": 384.624,
+      "eval_steps_per_second": 6.226,
+      "step": 13542
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.8039712186928072,
+      "eval_f1": 0.6397507112857337,
+      "eval_loss": 1.7686277627944946,
+      "eval_precision": 0.6070969400874261,
+      "eval_recall": 0.6761168384879725,
+      "eval_runtime": 2.9181,
+      "eval_samples_per_second": 381.073,
+      "eval_steps_per_second": 6.168,
+      "step": 13664
+    },
+    {
+      "epoch": 113.0,
+      "eval_accuracy": 0.8046732017950711,
+      "eval_f1": 0.6398059560706104,
+      "eval_loss": 1.7624890804290771,
+      "eval_precision": 0.6042249936370577,
+      "eval_recall": 0.6798396334478809,
+      "eval_runtime": 2.9383,
+      "eval_samples_per_second": 378.455,
+      "eval_steps_per_second": 6.126,
+      "step": 13786
+    },
+    {
+      "epoch": 114.0,
+      "eval_accuracy": 0.8038960062175646,
+      "eval_f1": 0.637657584383896,
+      "eval_loss": 1.7636594772338867,
+      "eval_precision": 0.6054054054054054,
+      "eval_recall": 0.6735395189003437,
+      "eval_runtime": 2.886,
+      "eval_samples_per_second": 385.312,
+      "eval_steps_per_second": 6.237,
+      "step": 13908
+    },
+    {
+      "epoch": 114.75,
+      "learning_rate": 1.3114754098360657e-06,
+      "loss": 0.0013,
+      "step": 14000
+    },
+    {
+      "epoch": 115.0,
+      "eval_accuracy": 0.8037957229172412,
+      "eval_f1": 0.638487508440243,
+      "eval_loss": 1.7679991722106934,
+      "eval_precision": 0.6041400460005111,
+      "eval_recall": 0.6769759450171822,
+      "eval_runtime": 2.8755,
+      "eval_samples_per_second": 386.709,
+      "eval_steps_per_second": 6.26,
+      "step": 14030
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.8028931732143305,
+      "eval_f1": 0.6367303038451196,
+      "eval_loss": 1.783056616783142,
+      "eval_precision": 0.6001013684744044,
+      "eval_recall": 0.6781214203894617,
+      "eval_runtime": 2.9247,
+      "eval_samples_per_second": 380.207,
+      "eval_steps_per_second": 6.154,
+      "step": 14152
+    },
+    {
+      "epoch": 117.0,
+      "eval_accuracy": 0.8021159776368241,
+      "eval_f1": 0.6353479606945753,
+      "eval_loss": 1.7854276895523071,
+      "eval_precision": 0.5994411988823978,
+      "eval_recall": 0.6758304696449027,
+      "eval_runtime": 2.8934,
+      "eval_samples_per_second": 384.319,
+      "eval_steps_per_second": 6.221,
+      "step": 14274
+    },
+    {
+      "epoch": 118.0,
+      "eval_accuracy": 0.8034447313661093,
+      "eval_f1": 0.6355291576673866,
+      "eval_loss": 1.7762141227722168,
+      "eval_precision": 0.601123595505618,
+      "eval_recall": 0.6741122565864834,
+      "eval_runtime": 3.1021,
+      "eval_samples_per_second": 358.473,
+      "eval_steps_per_second": 5.803,
+      "step": 14396
+    },
+    {
+      "epoch": 118.85,
+      "learning_rate": 2.8688524590163937e-07,
+      "loss": 0.0012,
+      "step": 14500
+    },
+    {
+      "epoch": 119.0,
+      "eval_accuracy": 0.8027928899140071,
+      "eval_f1": 0.635909888034534,
+      "eval_loss": 1.7778316736221313,
+      "eval_precision": 0.6011221627135934,
+      "eval_recall": 0.6749713631156931,
+      "eval_runtime": 2.8654,
+      "eval_samples_per_second": 388.078,
+      "eval_steps_per_second": 6.282,
+      "step": 14518
+    },
+    {
+      "epoch": 120.0,
+      "eval_accuracy": 0.8029182440394114,
+      "eval_f1": 0.6360691144708422,
+      "eval_loss": 1.777363896369934,
+      "eval_precision": 0.6016343207354443,
+      "eval_recall": 0.6746849942726232,
+      "eval_runtime": 2.9475,
+      "eval_samples_per_second": 377.274,
+      "eval_steps_per_second": 6.107,
+      "step": 14640
+    },
+    {
+      "epoch": 120.0,
+      "step": 14640,
+      "total_flos": 1.220726808511488e+17,
+      "train_loss": 0.10161643302465072,
+      "train_runtime": 6791.1484,
+      "train_samples_per_second": 137.561,
+      "train_steps_per_second": 2.156
+    }
+  ],
+  "max_steps": 14640,
+  "num_train_epochs": 120,
+  "total_flos": 1.220726808511488e+17,
+  "trial_name": null,
+  "trial_params": null
+}