Training in progress, step 500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +256 -1152
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c9034410e5c44ae53ee39943d0d46a588b2f8308dbacb9dc41c0c51a0d39ce8
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ea69c0b38350140bde6045847eb3aca83bc4627c14f15f7070c9ce872395853
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e79b61a658f2496e97786f7ae65fbc66307dd72333e9bca0e4fa1586b41d49d
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:549062bd70f44cd72a6e19af8c66126dbfad4947544c75c576ccc4ad90e84829
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14adbcbce1223b5a099a3709608bcf53afc941da0b326e5ac06d6eb4ace007ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:90887233ddb5f52291b6e282e00383caf7e27642579529b0c9362e1fd1793cd4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4998ff19bc2a57fe43e2a9357966a972f204d14870a58bd87d2ccd74bb06708a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d2328d0ebba1a4f73f30ce024a73fa11c5a0fee7ecde6e6f0d609cf0ddc5dcd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1312 +1,416 @@
 {
-  "best_metric": 0.28794920444488525,
-  "best_model_checkpoint": "./results/checkpoint-1580",
-  "epoch": 5.0,
   "eval_steps": 20,
-  "global_step": 1630,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06134969325153374,
-      "grad_norm": 19.388469696044922,
-      "learning_rate": 1.9754601226993868e-05,
-      "loss": 0.6203,
       "step": 20
     },
     {
-      "epoch": 0.06134969325153374,
-      "eval_accuracy": 0.8266666666666667,
-      "eval_loss": 0.41478750109672546,
-      "eval_runtime": 14.6221,
-      "eval_samples_per_second": 10.258,
       "eval_steps_per_second": 2.599,
       "step": 20
     },
     {
-      "epoch": 0.12269938650306748,
-      "grad_norm": 0.11853759735822678,
-      "learning_rate": 1.9509202453987733e-05,
-      "loss": 0.3246,
       "step": 40
     },
     {
-      "epoch": 0.12269938650306748,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.8804938793182373,
-      "eval_runtime": 13.7109,
-      "eval_samples_per_second": 10.94,
-      "eval_steps_per_second": 2.772,
       "step": 40
     },
     {
-      "epoch": 0.18404907975460122,
-      "grad_norm": 4.925828456878662,
-      "learning_rate": 1.9263803680981596e-05,
-      "loss": 0.5453,
       "step": 60
     },
     {
-      "epoch": 0.18404907975460122,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.3734719455242157,
-      "eval_runtime": 14.0469,
-      "eval_samples_per_second": 10.679,
-      "eval_steps_per_second": 2.705,
       "step": 60
     },
     {
-      "epoch": 0.24539877300613497,
-      "grad_norm": 26.985097885131836,
-      "learning_rate": 1.9018404907975462e-05,
-      "loss": 0.4513,
       "step": 80
     },
     {
-      "epoch": 0.24539877300613497,
-      "eval_accuracy": 0.8866666666666667,
-      "eval_loss": 0.4391363561153412,
-      "eval_runtime": 13.908,
-      "eval_samples_per_second": 10.785,
-      "eval_steps_per_second": 2.732,
       "step": 80
     },
     {
-      "epoch": 0.3067484662576687,
-      "grad_norm": 20.28040313720703,
-      "learning_rate": 1.8773006134969328e-05,
-      "loss": 0.7729,
       "step": 100
     },
     {
-      "epoch": 0.3067484662576687,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.4406740367412567,
-      "eval_runtime": 13.9693,
-      "eval_samples_per_second": 10.738,
-      "eval_steps_per_second": 2.72,
       "step": 100
     },
     {
-      "epoch": 0.36809815950920244,
-      "grad_norm": 4.190227508544922,
-      "learning_rate": 1.852760736196319e-05,
-      "loss": 0.5867,
       "step": 120
     },
     {
-      "epoch": 0.36809815950920244,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_loss": 0.4012812077999115,
-      "eval_runtime": 14.0243,
-      "eval_samples_per_second": 10.696,
-      "eval_steps_per_second": 2.71,
       "step": 120
     },
     {
-      "epoch": 0.4294478527607362,
-      "grad_norm": 30.759397506713867,
-      "learning_rate": 1.828220858895706e-05,
-      "loss": 0.4073,
       "step": 140
     },
     {
-      "epoch": 0.4294478527607362,
-      "eval_accuracy": 0.86,
-      "eval_loss": 0.5396913886070251,
-      "eval_runtime": 14.0011,
-      "eval_samples_per_second": 10.713,
-      "eval_steps_per_second": 2.714,
       "step": 140
     },
     {
-      "epoch": 0.49079754601226994,
-      "grad_norm": 0.0347176231443882,
-      "learning_rate": 1.8036809815950922e-05,
-      "loss": 0.1883,
       "step": 160
     },
     {
-      "epoch": 0.49079754601226994,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.7619786262512207,
-      "eval_runtime": 13.9621,
-      "eval_samples_per_second": 10.743,
-      "eval_steps_per_second": 2.722,
       "step": 160
     },
     {
-      "epoch": 0.5521472392638037,
-      "grad_norm": 21.25457000732422,
-      "learning_rate": 1.7791411042944788e-05,
-      "loss": 0.4166,
       "step": 180
     },
     {
-      "epoch": 0.5521472392638037,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.6516555547714233,
-      "eval_runtime": 13.9236,
-      "eval_samples_per_second": 10.773,
-      "eval_steps_per_second": 2.729,
       "step": 180
     },
     {
-      "epoch": 0.6134969325153374,
-      "grad_norm": 58.568397521972656,
-      "learning_rate": 1.7546012269938654e-05,
-      "loss": 0.4672,
       "step": 200
     },
     {
-      "epoch": 0.6134969325153374,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.6162886619567871,
-      "eval_runtime": 13.8921,
-      "eval_samples_per_second": 10.798,
-      "eval_steps_per_second": 2.735,
       "step": 200
     },
     {
-      "epoch": 0.6748466257668712,
-      "grad_norm": 10.332137107849121,
-      "learning_rate": 1.7300613496932516e-05,
-      "loss": 0.6858,
       "step": 220
     },
     {
-      "epoch": 0.6748466257668712,
-      "eval_accuracy": 0.8666666666666667,
-      "eval_loss": 0.34837964177131653,
-      "eval_runtime": 13.9136,
-      "eval_samples_per_second": 10.781,
-      "eval_steps_per_second": 2.731,
       "step": 220
     },
     {
-      "epoch": 0.7361963190184049,
-      "grad_norm": 9.148821830749512,
-      "learning_rate": 1.7055214723926382e-05,
-      "loss": 0.335,
       "step": 240
     },
     {
-      "epoch": 0.7361963190184049,
-      "eval_accuracy": 0.8533333333333334,
-      "eval_loss": 0.6031299829483032,
-      "eval_runtime": 13.8966,
-      "eval_samples_per_second": 10.794,
-      "eval_steps_per_second": 2.734,
       "step": 240
     },
     {
-      "epoch": 0.7975460122699386,
-      "grad_norm": 89.65196990966797,
-      "learning_rate": 1.6809815950920248e-05,
-      "loss": 0.4525,
       "step": 260
     },
     {
-      "epoch": 0.7975460122699386,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.6940794587135315,
-      "eval_runtime": 13.9694,
-      "eval_samples_per_second": 10.738,
-      "eval_steps_per_second": 2.72,
       "step": 260
     },
     {
-      "epoch": 0.8588957055214724,
-      "grad_norm": 0.10030411928892136,
-      "learning_rate": 1.656441717791411e-05,
-      "loss": 0.2385,
       "step": 280
     },
     {
-      "epoch": 0.8588957055214724,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.5617706179618835,
-      "eval_runtime": 13.903,
-      "eval_samples_per_second": 10.789,
-      "eval_steps_per_second": 2.733,
       "step": 280
     },
     {
-      "epoch": 0.9202453987730062,
-      "grad_norm": 30.757007598876953,
-      "learning_rate": 1.6319018404907976e-05,
-      "loss": 0.4256,
       "step": 300
     },
     {
-      "epoch": 0.9202453987730062,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.5899408459663391,
-      "eval_runtime": 13.9176,
-      "eval_samples_per_second": 10.778,
-      "eval_steps_per_second": 2.73,
       "step": 300
     },
     {
-      "epoch": 0.9815950920245399,
-      "grad_norm": 0.14852426946163177,
-      "learning_rate": 1.6073619631901842e-05,
-      "loss": 0.4934,
       "step": 320
     },
     {
-      "epoch": 0.9815950920245399,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.32885366678237915,
-      "eval_runtime": 13.8601,
-      "eval_samples_per_second": 10.822,
-      "eval_steps_per_second": 2.742,
       "step": 320
     },
     {
-      "epoch": 1.0429447852760736,
-      "grad_norm": 0.03950159251689911,
-      "learning_rate": 1.5828220858895708e-05,
-      "loss": 0.277,
       "step": 340
     },
     {
-      "epoch": 1.0429447852760736,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.5671255588531494,
-      "eval_runtime": 13.9952,
-      "eval_samples_per_second": 10.718,
-      "eval_steps_per_second": 2.715,
       "step": 340
     },
     {
-      "epoch": 1.1042944785276074,
-      "grad_norm": 102.0758056640625,
-      "learning_rate": 1.5582822085889574e-05,
-      "loss": 0.5097,
       "step": 360
     },
     {
-      "epoch": 1.1042944785276074,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.5247181057929993,
-      "eval_runtime": 13.9127,
-      "eval_samples_per_second": 10.782,
-      "eval_steps_per_second": 2.731,
       "step": 360
     },
     {
-      "epoch": 1.165644171779141,
-      "grad_norm": 66.37150573730469,
-      "learning_rate": 1.5337423312883436e-05,
-      "loss": 0.105,
       "step": 380
     },
     {
-      "epoch": 1.165644171779141,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.4810061752796173,
-      "eval_runtime": 13.9613,
-      "eval_samples_per_second": 10.744,
-      "eval_steps_per_second": 2.722,
       "step": 380
     },
     {
-      "epoch": 1.2269938650306749,
-      "grad_norm": 0.07957366853952408,
-      "learning_rate": 1.50920245398773e-05,
-      "loss": 0.3976,
       "step": 400
     },
     {
-      "epoch": 1.2269938650306749,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.4561574161052704,
-      "eval_runtime": 13.9722,
-      "eval_samples_per_second": 10.736,
-      "eval_steps_per_second": 2.72,
       "step": 400
     },
     {
-      "epoch": 1.2883435582822087,
-      "grad_norm": 0.059787213802337646,
-      "learning_rate": 1.4846625766871168e-05,
-      "loss": 0.3506,
       "step": 420
     },
     {
-      "epoch": 1.2883435582822087,
-      "eval_accuracy": 0.8866666666666667,
-      "eval_loss": 0.39426499605178833,
-      "eval_runtime": 13.8699,
-      "eval_samples_per_second": 10.815,
-      "eval_steps_per_second": 2.74,
       "step": 420
     },
     {
-      "epoch": 1.3496932515337423,
-      "grad_norm": 71.3404769897461,
-      "learning_rate": 1.4601226993865032e-05,
-      "loss": 0.2057,
       "step": 440
     },
     {
-      "epoch": 1.3496932515337423,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.4943837523460388,
-      "eval_runtime": 13.9123,
-      "eval_samples_per_second": 10.782,
-      "eval_steps_per_second": 2.731,
       "step": 440
     },
     {
-      "epoch": 1.4110429447852761,
-      "grad_norm": 33.41196823120117,
-      "learning_rate": 1.4355828220858897e-05,
-      "loss": 0.2788,
       "step": 460
     },
     {
-      "epoch": 1.4110429447852761,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.47179239988327026,
-      "eval_runtime": 13.9654,
-      "eval_samples_per_second": 10.741,
-      "eval_steps_per_second": 2.721,
       "step": 460
     },
     {
-      "epoch": 1.4723926380368098,
-      "grad_norm": 0.22530166804790497,
-      "learning_rate": 1.4110429447852763e-05,
-      "loss": 0.4049,
       "step": 480
     },
     {
-      "epoch": 1.4723926380368098,
-      "eval_accuracy": 0.88,
-      "eval_loss": 0.5067029595375061,
-      "eval_runtime": 13.9898,
-      "eval_samples_per_second": 10.722,
-      "eval_steps_per_second": 2.716,
       "step": 480
     },
     {
-      "epoch": 1.5337423312883436,
-      "grad_norm": 0.0230709258466959,
-      "learning_rate": 1.3865030674846627e-05,
-      "loss": 0.415,
       "step": 500
     },
     {
-      "epoch": 1.5337423312883436,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.43952545523643494,
-      "eval_runtime": 13.9297,
-      "eval_samples_per_second": 10.768,
-      "eval_steps_per_second": 2.728,
       "step": 500
-    },
-    {
-      "epoch": 1.5950920245398774,
-      "grad_norm": 0.12642166018486023,
-      "learning_rate": 1.3619631901840491e-05,
-      "loss": 0.3565,
-      "step": 520
-    },
-    {
-      "epoch": 1.5950920245398774,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.36820870637893677,
-      "eval_runtime": 14.3754,
-      "eval_samples_per_second": 10.434,
-      "eval_steps_per_second": 2.643,
-      "step": 520
-    },
-    {
-      "epoch": 1.656441717791411,
-      "grad_norm": 3.1343636512756348,
-      "learning_rate": 1.3374233128834357e-05,
-      "loss": 0.3111,
-      "step": 540
-    },
-    {
-      "epoch": 1.656441717791411,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.32980188727378845,
-      "eval_runtime": 14.0656,
-      "eval_samples_per_second": 10.664,
-      "eval_steps_per_second": 2.702,
-      "step": 540
-    },
-    {
-      "epoch": 1.7177914110429446,
-      "grad_norm": 0.2962506115436554,
-      "learning_rate": 1.3128834355828221e-05,
-      "loss": 0.4191,
-      "step": 560
-    },
-    {
-      "epoch": 1.7177914110429446,
-      "eval_accuracy": 0.8733333333333333,
-      "eval_loss": 0.4493354856967926,
-      "eval_runtime": 14.0611,
-      "eval_samples_per_second": 10.668,
-      "eval_steps_per_second": 2.702,
-      "step": 560
-    },
-    {
-      "epoch": 1.7791411042944785,
-      "grad_norm": 0.14546217024326324,
-      "learning_rate": 1.2883435582822085e-05,
-      "loss": 0.2731,
-      "step": 580
-    },
-    {
-      "epoch": 1.7791411042944785,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3831864297389984,
-      "eval_runtime": 13.9539,
-      "eval_samples_per_second": 10.75,
-      "eval_steps_per_second": 2.723,
-      "step": 580
-    },
-    {
-      "epoch": 1.8404907975460123,
-      "grad_norm": 0.022235451266169548,
-      "learning_rate": 1.2638036809815953e-05,
-      "loss": 0.1803,
-      "step": 600
-    },
-    {
-      "epoch": 1.8404907975460123,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.4403243958950043,
-      "eval_runtime": 13.8915,
-      "eval_samples_per_second": 10.798,
-      "eval_steps_per_second": 2.735,
-      "step": 600
-    },
-    {
-      "epoch": 1.9018404907975461,
-      "grad_norm": 0.10121641308069229,
-      "learning_rate": 1.2392638036809817e-05,
-      "loss": 0.4462,
-      "step": 620
-    },
-    {
-      "epoch": 1.9018404907975461,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.38436785340309143,
-      "eval_runtime": 14.0,
-      "eval_samples_per_second": 10.714,
-      "eval_steps_per_second": 2.714,
-      "step": 620
-    },
-    {
-      "epoch": 1.9631901840490797,
-      "grad_norm": 0.05252746492624283,
-      "learning_rate": 1.2147239263803683e-05,
-      "loss": 0.0025,
-      "step": 640
-    },
-    {
-      "epoch": 1.9631901840490797,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.4562518894672394,
-      "eval_runtime": 13.9613,
-      "eval_samples_per_second": 10.744,
-      "eval_steps_per_second": 2.722,
-      "step": 640
-    },
-    {
-      "epoch": 2.0245398773006134,
-      "grad_norm": 0.007440468296408653,
-      "learning_rate": 1.1901840490797547e-05,
-      "loss": 0.1574,
-      "step": 660
-    },
-    {
-      "epoch": 2.0245398773006134,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.5508309006690979,
-      "eval_runtime": 13.9141,
-      "eval_samples_per_second": 10.78,
-      "eval_steps_per_second": 2.731,
-      "step": 660
-    },
-    {
-      "epoch": 2.085889570552147,
-      "grad_norm": 0.11675461381673813,
-      "learning_rate": 1.1656441717791411e-05,
-      "loss": 0.0927,
-      "step": 680
-    },
-    {
-      "epoch": 2.085889570552147,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.5528630018234253,
-      "eval_runtime": 13.8779,
-      "eval_samples_per_second": 10.809,
-      "eval_steps_per_second": 2.738,
-      "step": 680
-    },
-    {
-      "epoch": 2.147239263803681,
-      "grad_norm": 185.11602783203125,
-      "learning_rate": 1.1411042944785277e-05,
-      "loss": 0.184,
-      "step": 700
-    },
-    {
-      "epoch": 2.147239263803681,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.5161141753196716,
-      "eval_runtime": 13.8694,
-      "eval_samples_per_second": 10.815,
-      "eval_steps_per_second": 2.74,
-      "step": 700
-    },
-    {
-      "epoch": 2.208588957055215,
-      "grad_norm": 110.4225082397461,
-      "learning_rate": 1.1165644171779141e-05,
-      "loss": 0.2446,
-      "step": 720
-    },
-    {
-      "epoch": 2.208588957055215,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.5063968896865845,
-      "eval_runtime": 13.9289,
-      "eval_samples_per_second": 10.769,
-      "eval_steps_per_second": 2.728,
-      "step": 720
-    },
-    {
-      "epoch": 2.2699386503067487,
-      "grad_norm": 1.8425345420837402,
-      "learning_rate": 1.0920245398773005e-05,
-      "loss": 0.2498,
-      "step": 740
-    },
-    {
-      "epoch": 2.2699386503067487,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.40342533588409424,
-      "eval_runtime": 13.923,
-      "eval_samples_per_second": 10.774,
-      "eval_steps_per_second": 2.729,
-      "step": 740
-    },
-    {
-      "epoch": 2.331288343558282,
-      "grad_norm": 1.4138000011444092,
-      "learning_rate": 1.0674846625766873e-05,
-      "loss": 0.2217,
-      "step": 760
-    },
-    {
-      "epoch": 2.331288343558282,
-      "eval_accuracy": 0.8733333333333333,
-      "eval_loss": 0.5094826221466064,
-      "eval_runtime": 13.9433,
-      "eval_samples_per_second": 10.758,
-      "eval_steps_per_second": 2.725,
-      "step": 760
-    },
-    {
-      "epoch": 2.392638036809816,
-      "grad_norm": 0.02712080627679825,
-      "learning_rate": 1.0429447852760737e-05,
-      "loss": 0.2938,
-      "step": 780
-    },
-    {
-      "epoch": 2.392638036809816,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.37535837292671204,
-      "eval_runtime": 13.9067,
-      "eval_samples_per_second": 10.786,
-      "eval_steps_per_second": 2.732,
-      "step": 780
-    },
-    {
-      "epoch": 2.4539877300613497,
-      "grad_norm": 10.157035827636719,
-      "learning_rate": 1.0184049079754601e-05,
-      "loss": 0.109,
-      "step": 800
-    },
-    {
-      "epoch": 2.4539877300613497,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.4770869314670563,
-      "eval_runtime": 13.9502,
-      "eval_samples_per_second": 10.753,
-      "eval_steps_per_second": 2.724,
-      "step": 800
-    },
-    {
-      "epoch": 2.5153374233128836,
-      "grad_norm": 0.006353612057864666,
-      "learning_rate": 9.938650306748467e-06,
-      "loss": 0.0282,
-      "step": 820
-    },
-    {
-      "epoch": 2.5153374233128836,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.5535228252410889,
-      "eval_runtime": 13.9084,
-      "eval_samples_per_second": 10.785,
-      "eval_steps_per_second": 2.732,
-      "step": 820
-    },
-    {
-      "epoch": 2.5766871165644174,
-      "grad_norm": 0.050232015550136566,
-      "learning_rate": 9.693251533742331e-06,
-      "loss": 0.2455,
-      "step": 840
-    },
-    {
-      "epoch": 2.5766871165644174,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.42059311270713806,
-      "eval_runtime": 13.942,
-      "eval_samples_per_second": 10.759,
-      "eval_steps_per_second": 2.726,
-      "step": 840
-    },
-    {
-      "epoch": 2.638036809815951,
-      "grad_norm": 11.762324333190918,
-      "learning_rate": 9.447852760736197e-06,
-      "loss": 0.4728,
-      "step": 860
-    },
-    {
-      "epoch": 2.638036809815951,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3018172085285187,
-      "eval_runtime": 13.9449,
-      "eval_samples_per_second": 10.757,
-      "eval_steps_per_second": 2.725,
-      "step": 860
-    },
-    {
-      "epoch": 2.6993865030674846,
-      "grad_norm": 0.3914521038532257,
-      "learning_rate": 9.202453987730062e-06,
-      "loss": 0.1145,
-      "step": 880
-    },
-    {
-      "epoch": 2.6993865030674846,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.30533984303474426,
-      "eval_runtime": 13.9197,
-      "eval_samples_per_second": 10.776,
-      "eval_steps_per_second": 2.73,
-      "step": 880
-    },
-    {
-      "epoch": 2.7607361963190185,
-      "grad_norm": 0.5647504329681396,
-      "learning_rate": 8.957055214723927e-06,
-      "loss": 0.1045,
-      "step": 900
-    },
-    {
-      "epoch": 2.7607361963190185,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3431243598461151,
-      "eval_runtime": 13.8904,
-      "eval_samples_per_second": 10.799,
-      "eval_steps_per_second": 2.736,
-      "step": 900
-    },
-    {
-      "epoch": 2.8220858895705523,
-      "grad_norm": 156.81553649902344,
-      "learning_rate": 8.711656441717792e-06,
-      "loss": 0.2207,
-      "step": 920
-    },
-    {
-      "epoch": 2.8220858895705523,
-      "eval_accuracy": 0.86,
-      "eval_loss": 0.648215651512146,
-      "eval_runtime": 13.9076,
-      "eval_samples_per_second": 10.785,
-      "eval_steps_per_second": 2.732,
-      "step": 920
-    },
-    {
-      "epoch": 2.883435582822086,
-      "grad_norm": 0.02706349454820156,
-      "learning_rate": 8.466257668711658e-06,
-      "loss": 0.427,
-      "step": 940
-    },
-    {
-      "epoch": 2.883435582822086,
-      "eval_accuracy": 0.9133333333333333,
-      "eval_loss": 0.43959808349609375,
-      "eval_runtime": 13.9415,
-      "eval_samples_per_second": 10.759,
-      "eval_steps_per_second": 2.726,
-      "step": 940
-    },
-    {
-      "epoch": 2.9447852760736195,
-      "grad_norm": 61.51915740966797,
-      "learning_rate": 8.220858895705522e-06,
-      "loss": 0.1898,
-      "step": 960
-    },
-    {
-      "epoch": 2.9447852760736195,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.3327239453792572,
-      "eval_runtime": 13.9378,
-      "eval_samples_per_second": 10.762,
-      "eval_steps_per_second": 2.726,
-      "step": 960
-    },
-    {
-      "epoch": 3.0061349693251533,
-      "grad_norm": 0.01911596581339836,
-      "learning_rate": 7.975460122699386e-06,
-      "loss": 0.0019,
-      "step": 980
-    },
-    {
-      "epoch": 3.0061349693251533,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.39932945370674133,
-      "eval_runtime": 13.9414,
-      "eval_samples_per_second": 10.759,
-      "eval_steps_per_second": 2.726,
-      "step": 980
-    },
-    {
-      "epoch": 3.067484662576687,
-      "grad_norm": 0.016511617228388786,
-      "learning_rate": 7.730061349693252e-06,
-      "loss": 0.0842,
-      "step": 1000
-    },
-    {
-      "epoch": 3.067484662576687,
-      "eval_accuracy": 0.9266666666666666,
-      "eval_loss": 0.41659799218177795,
-      "eval_runtime": 13.9699,
-      "eval_samples_per_second": 10.737,
-      "eval_steps_per_second": 2.72,
-      "step": 1000
-    },
-    {
-      "epoch": 3.128834355828221,
-      "grad_norm": 0.021293368190526962,
-      "learning_rate": 7.484662576687118e-06,
-      "loss": 0.1619,
-      "step": 1020
-    },
-    {
-      "epoch": 3.128834355828221,
-      "eval_accuracy": 0.9133333333333333,
-      "eval_loss": 0.4180934429168701,
-      "eval_runtime": 14.3308,
-      "eval_samples_per_second": 10.467,
-      "eval_steps_per_second": 2.652,
-      "step": 1020
-    },
-    {
-      "epoch": 3.190184049079755,
-      "grad_norm": 14.229204177856445,
-      "learning_rate": 7.239263803680983e-06,
-      "loss": 0.1849,
-      "step": 1040
-    },
-    {
-      "epoch": 3.190184049079755,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.47268736362457275,
-      "eval_runtime": 13.9315,
-      "eval_samples_per_second": 10.767,
-      "eval_steps_per_second": 2.728,
-      "step": 1040
-    },
-    {
-      "epoch": 3.2515337423312882,
-      "grad_norm": 0.017998775467276573,
-      "learning_rate": 6.993865030674847e-06,
-      "loss": 0.1949,
-      "step": 1060
-    },
-    {
-      "epoch": 3.2515337423312882,
-      "eval_accuracy": 0.8933333333333333,
-      "eval_loss": 0.3345566689968109,
-      "eval_runtime": 14.0413,
-      "eval_samples_per_second": 10.683,
-      "eval_steps_per_second": 2.706,
-      "step": 1060
-    },
-    {
-      "epoch": 3.312883435582822,
-      "grad_norm": 0.020114585757255554,
-      "learning_rate": 6.748466257668712e-06,
-      "loss": 0.1796,
-      "step": 1080
-    },
-    {
-      "epoch": 3.312883435582822,
-      "eval_accuracy": 0.9266666666666666,
-      "eval_loss": 0.3471291661262512,
-      "eval_runtime": 13.9741,
-      "eval_samples_per_second": 10.734,
-      "eval_steps_per_second": 2.719,
-      "step": 1080
-    },
-    {
-      "epoch": 3.374233128834356,
-      "grad_norm": 0.013905039988458157,
-      "learning_rate": 6.503067484662578e-06,
-      "loss": 0.086,
-      "step": 1100
-    },
-    {
-      "epoch": 3.374233128834356,
-      "eval_accuracy": 0.8866666666666667,
-      "eval_loss": 0.4089130759239197,
-      "eval_runtime": 13.9473,
-      "eval_samples_per_second": 10.755,
-      "eval_steps_per_second": 2.725,
-      "step": 1100
-    },
-    {
-      "epoch": 3.4355828220858897,
-      "grad_norm": 0.009700474329292774,
-      "learning_rate": 6.257668711656443e-06,
-      "loss": 0.0187,
-      "step": 1120
-    },
-    {
-      "epoch": 3.4355828220858897,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.3867844045162201,
-      "eval_runtime": 14.013,
-      "eval_samples_per_second": 10.704,
-      "eval_steps_per_second": 2.712,
-      "step": 1120
-    },
-    {
-      "epoch": 3.4969325153374236,
-      "grad_norm": 0.003781616687774658,
-      "learning_rate": 6.012269938650307e-06,
-      "loss": 0.0768,
-      "step": 1140
-    },
-    {
-      "epoch": 3.4969325153374236,
-      "eval_accuracy": 0.9266666666666666,
-      "eval_loss": 0.4095223546028137,
-      "eval_runtime": 13.9902,
-      "eval_samples_per_second": 10.722,
-      "eval_steps_per_second": 2.716,
-      "step": 1140
-    },
-    {
-      "epoch": 3.558282208588957,
-      "grad_norm": 0.21029236912727356,
-      "learning_rate": 5.766871165644172e-06,
-      "loss": 0.0008,
-      "step": 1160
-    },
-    {
-      "epoch": 3.558282208588957,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.3779890835285187,
-      "eval_runtime": 13.9578,
-      "eval_samples_per_second": 10.747,
-      "eval_steps_per_second": 2.722,
-      "step": 1160
-    },
-    {
-      "epoch": 3.6196319018404908,
-      "grad_norm": 0.032502181828022,
-      "learning_rate": 5.521472392638038e-06,
-      "loss": 0.183,
-      "step": 1180
-    },
-    {
-      "epoch": 3.6196319018404908,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.3827475905418396,
-      "eval_runtime": 13.933,
-      "eval_samples_per_second": 10.766,
-      "eval_steps_per_second": 2.727,
-      "step": 1180
-    },
-    {
-      "epoch": 3.6809815950920246,
-      "grad_norm": 0.0289248526096344,
-      "learning_rate": 5.276073619631902e-06,
-      "loss": 0.204,
-      "step": 1200
-    },
-    {
-      "epoch": 3.6809815950920246,
-      "eval_accuracy": 0.9,
-      "eval_loss": 0.5132840871810913,
-      "eval_runtime": 13.9107,
-      "eval_samples_per_second": 10.783,
-      "eval_steps_per_second": 2.732,
-      "step": 1200
-    },
-    {
-      "epoch": 3.7423312883435584,
-      "grad_norm": 1.0068583488464355,
-      "learning_rate": 5.030674846625767e-06,
-      "loss": 0.0758,
-      "step": 1220
-    },
-    {
-      "epoch": 3.7423312883435584,
-      "eval_accuracy": 0.9133333333333333,
-      "eval_loss": 0.4279702305793762,
-      "eval_runtime": 13.8908,
-      "eval_samples_per_second": 10.799,
-      "eval_steps_per_second": 2.736,
-      "step": 1220
-    },
-    {
-      "epoch": 3.8036809815950923,
-      "grad_norm": 0.0101453373208642,
-      "learning_rate": 4.785276073619632e-06,
-      "loss": 0.0237,
-      "step": 1240
-    },
-    {
-      "epoch": 3.8036809815950923,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.3941916823387146,
-      "eval_runtime": 13.8887,
-      "eval_samples_per_second": 10.8,
-      "eval_steps_per_second": 2.736,
-      "step": 1240
-    },
-    {
-      "epoch": 3.8650306748466257,
-      "grad_norm": 182.59510803222656,
-      "learning_rate": 4.539877300613497e-06,
-      "loss": 0.2143,
-      "step": 1260
-    },
-    {
-      "epoch": 3.8650306748466257,
-      "eval_accuracy": 0.9066666666666666,
-      "eval_loss": 0.36801090836524963,
-      "eval_runtime": 13.8946,
-      "eval_samples_per_second": 10.796,
-      "eval_steps_per_second": 2.735,
-      "step": 1260
-    },
-    {
-      "epoch": 3.9263803680981595,
-      "grad_norm": 0.03958132117986679,
-      "learning_rate": 4.294478527607362e-06,
-      "loss": 0.0106,
-      "step": 1280
-    },
-    {
-      "epoch": 3.9263803680981595,
-      "eval_accuracy": 0.8866666666666667,
-      "eval_loss": 0.5633125901222229,
-      "eval_runtime": 13.9747,
-      "eval_samples_per_second": 10.734,
-      "eval_steps_per_second": 2.719,
-      "step": 1280
-    },
-    {
-      "epoch": 3.9877300613496933,
-      "grad_norm": 140.984375,
-      "learning_rate": 4.049079754601227e-06,
-      "loss": 0.2221,
-      "step": 1300
-    },
-    {
-      "epoch": 3.9877300613496933,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.38154712319374084,
-      "eval_runtime": 13.996,
-      "eval_samples_per_second": 10.717,
-      "eval_steps_per_second": 2.715,
-      "step": 1300
-    },
-    {
-      "epoch": 4.049079754601227,
-      "grad_norm": 0.0037327792961150408,
-      "learning_rate": 3.8036809815950928e-06,
-      "loss": 0.0212,
-      "step": 1320
-    },
-    {
-      "epoch": 4.049079754601227,
-      "eval_accuracy": 0.9266666666666666,
-      "eval_loss": 0.4598991274833679,
-      "eval_runtime": 13.9374,
-      "eval_samples_per_second": 10.762,
-      "eval_steps_per_second": 2.726,
-      "step": 1320
-    },
-    {
-      "epoch": 4.110429447852761,
-      "grad_norm": 0.010530122555792332,
-      "learning_rate": 3.5582822085889574e-06,
-      "loss": 0.1678,
-      "step": 1340
-    },
-    {
-      "epoch": 4.110429447852761,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.34579145908355713,
-      "eval_runtime": 13.9042,
-      "eval_samples_per_second": 10.788,
-      "eval_steps_per_second": 2.733,
-      "step": 1340
-    },
-    {
-      "epoch": 4.171779141104294,
-      "grad_norm": 0.015701429918408394,
-      "learning_rate": 3.312883435582822e-06,
-      "loss": 0.1153,
-      "step": 1360
-    },
-    {
-      "epoch": 4.171779141104294,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.3261447250843048,
-      "eval_runtime": 13.9236,
-      "eval_samples_per_second": 10.773,
-      "eval_steps_per_second": 2.729,
-      "step": 1360
-    },
-    {
-      "epoch": 4.233128834355828,
-      "grad_norm": 0.011384344659745693,
-      "learning_rate": 3.0674846625766875e-06,
-      "loss": 0.0006,
-      "step": 1380
-    },
-    {
-      "epoch": 4.233128834355828,
-      "eval_accuracy": 0.9133333333333333,
-      "eval_loss": 0.3404422998428345,
-      "eval_runtime": 13.9552,
-      "eval_samples_per_second": 10.749,
-      "eval_steps_per_second": 2.723,
-      "step": 1380
-    },
-    {
-      "epoch": 4.294478527607362,
-      "grad_norm": 0.08929850906133652,
-      "learning_rate": 2.822085889570552e-06,
-      "loss": 0.0193,
-      "step": 1400
-    },
-    {
-      "epoch": 4.294478527607362,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.3601679503917694,
-      "eval_runtime": 13.9574,
-      "eval_samples_per_second": 10.747,
-      "eval_steps_per_second": 2.723,
-      "step": 1400
-    },
-    {
-      "epoch": 4.355828220858895,
-      "grad_norm": 129.2814483642578,
-      "learning_rate": 2.5766871165644175e-06,
-      "loss": 0.0994,
-      "step": 1420
-    },
-    {
-      "epoch": 4.355828220858895,
-      "eval_accuracy": 0.94,
-      "eval_loss": 0.33025145530700684,
-      "eval_runtime": 13.9627,
-      "eval_samples_per_second": 10.743,
-      "eval_steps_per_second": 2.722,
-      "step": 1420
-    },
-    {
-      "epoch": 4.41717791411043,
-      "grad_norm": 0.024497592821717262,
-      "learning_rate": 2.331288343558282e-06,
-      "loss": 0.0032,
-      "step": 1440
-    },
-    {
-      "epoch": 4.41717791411043,
-      "eval_accuracy": 0.94,
-      "eval_loss": 0.2884907126426697,
-      "eval_runtime": 13.9317,
-      "eval_samples_per_second": 10.767,
-      "eval_steps_per_second": 2.728,
-      "step": 1440
-    },
-    {
-      "epoch": 4.478527607361963,
-      "grad_norm": 0.009228991344571114,
-      "learning_rate": 2.085889570552147e-06,
-      "loss": 0.0008,
-      "step": 1460
-    },
-    {
-      "epoch": 4.478527607361963,
-      "eval_accuracy": 0.92,
-      "eval_loss": 0.31121641397476196,
-      "eval_runtime": 13.9417,
-      "eval_samples_per_second": 10.759,
-      "eval_steps_per_second": 2.726,
-      "step": 1460
-    },
-    {
-      "epoch": 4.539877300613497,
-      "grad_norm": 0.22681556642055511,
-      "learning_rate": 1.8404907975460124e-06,
-      "loss": 0.0823,
-      "step": 1480
-    },
-    {
-      "epoch": 4.539877300613497,
-      "eval_accuracy": 0.9266666666666666,
-      "eval_loss": 0.3145321011543274,
-      "eval_runtime": 13.9075,
-      "eval_samples_per_second": 10.786,
-      "eval_steps_per_second": 2.732,
-      "step": 1480
-    },
-    {
-      "epoch": 4.601226993865031,
-      "grad_norm": 0.010360241867601871,
-      "learning_rate": 1.5950920245398775e-06,
-      "loss": 0.0086,
-      "step": 1500
-    },
-    {
-      "epoch": 4.601226993865031,
-      "eval_accuracy": 0.94,
-      "eval_loss": 0.2954442799091339,
-      "eval_runtime": 14.0025,
-      "eval_samples_per_second": 10.712,
-      "eval_steps_per_second": 2.714,
-      "step": 1500
-    },
-    {
-      "epoch": 4.662576687116564,
-      "grad_norm": 0.00811721384525299,
-      "learning_rate": 1.3496932515337425e-06,
-      "loss": 0.0009,
-      "step": 1520
-    },
-    {
-      "epoch": 4.662576687116564,
-      "eval_accuracy": 0.94,
-      "eval_loss": 0.30819201469421387,
-      "eval_runtime": 14.1712,
-      "eval_samples_per_second": 10.585,
-      "eval_steps_per_second": 2.681,
-      "step": 1520
-    },
-    {
-      "epoch": 4.723926380368098,
-      "grad_norm": 0.028587836772203445,
-      "learning_rate": 1.1042944785276075e-06,
-      "loss": 0.1619,
-      "step": 1540
-    },
-    {
-      "epoch": 4.723926380368098,
-      "eval_accuracy": 0.94,
-      "eval_loss": 0.29277047514915466,
-      "eval_runtime": 14.0163,
-      "eval_samples_per_second": 10.702,
-      "eval_steps_per_second": 2.711,
-      "step": 1540
-    },
-    {
-      "epoch": 4.785276073619632,
-      "grad_norm": 0.009555824100971222,
-      "learning_rate": 8.588957055214725e-07,
-      "loss": 0.0004,
-      "step": 1560
-    },
-    {
-      "epoch": 4.785276073619632,
-      "eval_accuracy": 0.9333333333333333,
-      "eval_loss": 0.2908971905708313,
-      "eval_runtime": 14.0147,
-      "eval_samples_per_second": 10.703,
-      "eval_steps_per_second": 2.711,
-      "step": 1560
-    },
-    {
-      "epoch": 4.846625766871165,
-      "grad_norm": 0.031364671885967255,
-      "learning_rate": 6.134969325153375e-07,
-      "loss": 0.0006,
-      "step": 1580
-    },
-    {
-      "epoch": 4.846625766871165,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.28794920444488525,
-      "eval_runtime": 14.0237,
-      "eval_samples_per_second": 10.696,
-      "eval_steps_per_second": 2.71,
-      "step": 1580
-    },
-    {
-      "epoch": 4.9079754601226995,
-      "grad_norm": 0.005726322531700134,
-      "learning_rate": 3.680981595092025e-07,
-      "loss": 0.0005,
-      "step": 1600
-    },
-    {
-      "epoch": 4.9079754601226995,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.28943532705307007,
-      "eval_runtime": 13.9811,
-      "eval_samples_per_second": 10.729,
-      "eval_steps_per_second": 2.718,
-      "step": 1600
-    },
-    {
-      "epoch": 4.969325153374233,
-      "grad_norm": 0.019030340015888214,
-      "learning_rate": 1.226993865030675e-07,
-      "loss": 0.0559,
-      "step": 1620
-    },
-    {
-      "epoch": 4.969325153374233,
-      "eval_accuracy": 0.9466666666666667,
-      "eval_loss": 0.2903057932853699,
-      "eval_runtime": 14.0064,
-      "eval_samples_per_second": 10.709,
-      "eval_steps_per_second": 2.713,
-      "step": 1620
     }
   ],
   "logging_steps": 20,
-  "max_steps": 1630,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -1317,12 +421,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 5270545106015280.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2986587882041931,
+  "best_model_checkpoint": "./results/checkpoint-180",
+  "epoch": 1.510574018126888,
   "eval_steps": 20,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06042296072507553,
+      "grad_norm": 0.5974797606468201,
+      "learning_rate": 1.97583081570997e-05,
+      "loss": 0.5426,
       "step": 20
     },
     {
+      "epoch": 0.06042296072507553,
+      "eval_accuracy": 0.7450980392156863,
+      "eval_loss": 0.7869178652763367,
+      "eval_runtime": 15.0039,
+      "eval_samples_per_second": 10.197,
       "eval_steps_per_second": 2.599,
       "step": 20
     },
     {
+      "epoch": 0.12084592145015106,
+      "grad_norm": 13.038370132446289,
+      "learning_rate": 1.9516616314199397e-05,
+      "loss": 0.5984,
       "step": 40
     },
     {
+      "epoch": 0.12084592145015106,
+      "eval_accuracy": 0.7908496732026143,
+      "eval_loss": 0.39430469274520874,
+      "eval_runtime": 15.9435,
+      "eval_samples_per_second": 9.596,
+      "eval_steps_per_second": 2.446,
       "step": 40
     },
     {
+      "epoch": 0.18126888217522658,
+      "grad_norm": 0.1351632922887802,
+      "learning_rate": 1.9274924471299096e-05,
+      "loss": 0.4864,
       "step": 60
     },
     {
+      "epoch": 0.18126888217522658,
+      "eval_accuracy": 0.7843137254901961,
+      "eval_loss": 0.9364686608314514,
+      "eval_runtime": 15.2263,
+      "eval_samples_per_second": 10.048,
+      "eval_steps_per_second": 2.561,
       "step": 60
     },
     {
+      "epoch": 0.24169184290030213,
+      "grad_norm": 1.4119517803192139,
+      "learning_rate": 1.9033232628398792e-05,
+      "loss": 0.6039,
       "step": 80
     },
     {
+      "epoch": 0.24169184290030213,
+      "eval_accuracy": 0.7712418300653595,
+      "eval_loss": 0.6580381989479065,
+      "eval_runtime": 15.5472,
+      "eval_samples_per_second": 9.841,
+      "eval_steps_per_second": 2.508,
       "step": 80
     },
     {
+      "epoch": 0.3021148036253776,
+      "grad_norm": 13.04010009765625,
+      "learning_rate": 1.879154078549849e-05,
+      "loss": 0.5741,
       "step": 100
     },
     {
+      "epoch": 0.3021148036253776,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_loss": 0.3454345464706421,
+      "eval_runtime": 15.5082,
+      "eval_samples_per_second": 9.866,
+      "eval_steps_per_second": 2.515,
       "step": 100
     },
     {
+      "epoch": 0.36253776435045315,
+      "grad_norm": 61.882415771484375,
+      "learning_rate": 1.854984894259819e-05,
+      "loss": 0.4276,
       "step": 120
     },
     {
+      "epoch": 0.36253776435045315,
+      "eval_accuracy": 0.8169934640522876,
+      "eval_loss": 0.5421260595321655,
+      "eval_runtime": 15.4627,
+      "eval_samples_per_second": 9.895,
+      "eval_steps_per_second": 2.522,
       "step": 120
     },
     {
+      "epoch": 0.4229607250755287,
+      "grad_norm": 8.9187593460083,
+      "learning_rate": 1.8308157099697886e-05,
+      "loss": 0.4342,
       "step": 140
     },
     {
+      "epoch": 0.4229607250755287,
+      "eval_accuracy": 0.8562091503267973,
+      "eval_loss": 0.4258342981338501,
+      "eval_runtime": 15.4753,
+      "eval_samples_per_second": 9.887,
+      "eval_steps_per_second": 2.52,
       "step": 140
     },
     {
+      "epoch": 0.48338368580060426,
+      "grad_norm": 40.476078033447266,
+      "learning_rate": 1.8066465256797586e-05,
+      "loss": 0.4915,
       "step": 160
     },
     {
+      "epoch": 0.48338368580060426,
+      "eval_accuracy": 0.8300653594771242,
+      "eval_loss": 0.5960604548454285,
+      "eval_runtime": 15.4631,
+      "eval_samples_per_second": 9.895,
+      "eval_steps_per_second": 2.522,
       "step": 160
     },
     {
+      "epoch": 0.5438066465256798,
+      "grad_norm": 3.8627891540527344,
+      "learning_rate": 1.782477341389728e-05,
+      "loss": 0.4127,
       "step": 180
     },
     {
+      "epoch": 0.5438066465256798,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.2986587882041931,
+      "eval_runtime": 15.5147,
+      "eval_samples_per_second": 9.862,
+      "eval_steps_per_second": 2.514,
       "step": 180
     },
     {
+      "epoch": 0.6042296072507553,
+      "grad_norm": 16.525339126586914,
+      "learning_rate": 1.758308157099698e-05,
+      "loss": 0.3166,
       "step": 200
     },
     {
+      "epoch": 0.6042296072507553,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.33075031638145447,
+      "eval_runtime": 15.5417,
+      "eval_samples_per_second": 9.845,
+      "eval_steps_per_second": 2.509,
       "step": 200
     },
     {
+      "epoch": 0.6646525679758308,
+      "grad_norm": 1.5080480575561523,
+      "learning_rate": 1.7341389728096677e-05,
+      "loss": 0.4018,
       "step": 220
     },
     {
+      "epoch": 0.6646525679758308,
+      "eval_accuracy": 0.803921568627451,
+      "eval_loss": 0.5285586714744568,
+      "eval_runtime": 15.4908,
+      "eval_samples_per_second": 9.877,
+      "eval_steps_per_second": 2.518,
       "step": 220
     },
     {
+      "epoch": 0.7250755287009063,
+      "grad_norm": 21.941341400146484,
+      "learning_rate": 1.7099697885196376e-05,
+      "loss": 0.3007,
       "step": 240
     },
     {
+      "epoch": 0.7250755287009063,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_loss": 0.584548830986023,
+      "eval_runtime": 15.5027,
+      "eval_samples_per_second": 9.869,
+      "eval_steps_per_second": 2.516,
       "step": 240
     },
     {
+      "epoch": 0.7854984894259819,
+      "grad_norm": 7.442047119140625,
+      "learning_rate": 1.6858006042296072e-05,
+      "loss": 0.4893,
       "step": 260
     },
     {
+      "epoch": 0.7854984894259819,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_loss": 0.36624589562416077,
+      "eval_runtime": 15.471,
+      "eval_samples_per_second": 9.889,
+      "eval_steps_per_second": 2.521,
       "step": 260
     },
     {
+      "epoch": 0.8459214501510574,
+      "grad_norm": 27.062305450439453,
+      "learning_rate": 1.661631419939577e-05,
+      "loss": 0.274,
       "step": 280
     },
     {
+      "epoch": 0.8459214501510574,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.34829556941986084,
+      "eval_runtime": 15.4719,
+      "eval_samples_per_second": 9.889,
+      "eval_steps_per_second": 2.521,
       "step": 280
     },
     {
+      "epoch": 0.9063444108761329,
+      "grad_norm": 9.517237663269043,
+      "learning_rate": 1.637462235649547e-05,
+      "loss": 0.5741,
       "step": 300
     },
     {
+      "epoch": 0.9063444108761329,
+      "eval_accuracy": 0.8823529411764706,
+      "eval_loss": 0.32800009846687317,
+      "eval_runtime": 15.4828,
+      "eval_samples_per_second": 9.882,
+      "eval_steps_per_second": 2.519,
       "step": 300
     },
     {
+      "epoch": 0.9667673716012085,
+      "grad_norm": 40.94089889526367,
+      "learning_rate": 1.6132930513595166e-05,
+      "loss": 0.3752,
       "step": 320
     },
     {
+      "epoch": 0.9667673716012085,
+      "eval_accuracy": 0.8888888888888888,
+      "eval_loss": 0.5250552296638489,
+      "eval_runtime": 15.485,
+      "eval_samples_per_second": 9.881,
+      "eval_steps_per_second": 2.519,
       "step": 320
     },
     {
+      "epoch": 1.027190332326284,
+      "grad_norm": 0.2767094373703003,
+      "learning_rate": 1.5891238670694865e-05,
+      "loss": 0.2711,
       "step": 340
     },
     {
+      "epoch": 1.027190332326284,
+      "eval_accuracy": 0.8562091503267973,
+      "eval_loss": 0.6096686720848083,
+      "eval_runtime": 15.4954,
+      "eval_samples_per_second": 9.874,
+      "eval_steps_per_second": 2.517,
       "step": 340
     },
     {
+      "epoch": 1.0876132930513596,
+      "grad_norm": 1.7755597829818726,
+      "learning_rate": 1.5649546827794565e-05,
+      "loss": 0.2369,
       "step": 360
     },
     {
+      "epoch": 1.0876132930513596,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.5457373857498169,
+      "eval_runtime": 15.479,
+      "eval_samples_per_second": 9.884,
+      "eval_steps_per_second": 2.52,
       "step": 360
     },
     {
+      "epoch": 1.148036253776435,
+      "grad_norm": 197.30111694335938,
+      "learning_rate": 1.540785498489426e-05,
+      "loss": 0.3756,
       "step": 380
     },
     {
+      "epoch": 1.148036253776435,
+      "eval_accuracy": 0.8758169934640523,
+      "eval_loss": 0.6890403628349304,
+      "eval_runtime": 15.448,
+      "eval_samples_per_second": 9.904,
+      "eval_steps_per_second": 2.525,
       "step": 380
     },
     {
+      "epoch": 1.2084592145015105,
+      "grad_norm": 0.16098028421401978,
+      "learning_rate": 1.516616314199396e-05,
+      "loss": 0.6575,
       "step": 400
     },
     {
+      "epoch": 1.2084592145015105,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.47085481882095337,
+      "eval_runtime": 15.4824,
+      "eval_samples_per_second": 9.882,
+      "eval_steps_per_second": 2.519,
       "step": 400
     },
     {
+      "epoch": 1.2688821752265862,
+      "grad_norm": 0.3975774943828583,
+      "learning_rate": 1.4924471299093657e-05,
+      "loss": 0.3268,
       "step": 420
     },
     {
+      "epoch": 1.2688821752265862,
+      "eval_accuracy": 0.8496732026143791,
+      "eval_loss": 0.5218892693519592,
+      "eval_runtime": 15.4867,
+      "eval_samples_per_second": 9.879,
+      "eval_steps_per_second": 2.518,
       "step": 420
     },
     {
+      "epoch": 1.3293051359516617,
+      "grad_norm": 8.90912914276123,
+      "learning_rate": 1.4682779456193355e-05,
+      "loss": 0.3994,
       "step": 440
     },
     {
+      "epoch": 1.3293051359516617,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.42816421389579773,
+      "eval_runtime": 15.4691,
+      "eval_samples_per_second": 9.891,
+      "eval_steps_per_second": 2.521,
       "step": 440
     },
     {
+      "epoch": 1.3897280966767371,
+      "grad_norm": 93.57767486572266,
+      "learning_rate": 1.4441087613293053e-05,
+      "loss": 0.0879,
       "step": 460
     },
     {
+      "epoch": 1.3897280966767371,
+      "eval_accuracy": 0.8758169934640523,
+      "eval_loss": 0.6293966174125671,
+      "eval_runtime": 15.4702,
+      "eval_samples_per_second": 9.89,
+      "eval_steps_per_second": 2.521,
       "step": 460
     },
     {
+      "epoch": 1.4501510574018126,
+      "grad_norm": 0.061734456568956375,
+      "learning_rate": 1.419939577039275e-05,
+      "loss": 0.2566,
       "step": 480
     },
     {
+      "epoch": 1.4501510574018126,
+      "eval_accuracy": 0.8627450980392157,
+      "eval_loss": 0.7143150568008423,
+      "eval_runtime": 15.449,
+      "eval_samples_per_second": 9.904,
+      "eval_steps_per_second": 2.524,
       "step": 480
     },
     {
+      "epoch": 1.510574018126888,
+      "grad_norm": 0.11357846111059189,
+      "learning_rate": 1.3957703927492448e-05,
+      "loss": 0.2897,
       "step": 500
     },
     {
+      "epoch": 1.510574018126888,
+      "eval_accuracy": 0.869281045751634,
+      "eval_loss": 0.6120204329490662,
+      "eval_runtime": 15.463,
+      "eval_samples_per_second": 9.895,
+      "eval_steps_per_second": 2.522,
       "step": 500
     }
   ],
   "logging_steps": 20,
+  "max_steps": 1655,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1604904119249676.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438cff34c604b5dc30f50f2f1590ada40aa29471eeea18e0b8f071f6312fafe9
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:86f09b33190e89a5f43d415554f33c8d75ab6485f60f2b9e3aec61203e52e1d9
 size 5368