Model save

Browse files

Files changed (6) hide show

README.md +22 -22
all_results.json +8 -8
eval_results.json +4 -4
runs/Nov18_04-50-43_7a59b30c842e/events.out.tfevents.1700286710.7a59b30c842e.54271.1 +3 -0
train_results.json +4 -4
trainer_state.json +284 -284

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [hllj/zephyr-7b-beta-vi-math](https://huggingface.co/hllj/zephyr-7b-beta-vi-math) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4905
 ## Model description
@@ -33,7 +33,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
@@ -48,26 +48,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.42          | 0.19  | 50   | 0.4167          |
-| 0.3769        | 0.37  | 100  | 0.3928          |
-| 0.3502        | 0.56  | 150  | 0.3917          |
-| 0.3151        | 0.74  | 200  | 0.3844          |
-| 0.2859        | 0.93  | 250  | 0.3882          |
-| 0.2749        | 1.12  | 300  | 0.3927          |
-| 0.2447        | 1.3   | 350  | 0.4060          |
-| 0.2176        | 1.49  | 400  | 0.4102          |
-| 0.2095        | 1.67  | 450  | 0.4099          |
-| 0.1732        | 1.86  | 500  | 0.4182          |
-| 0.1545        | 2.04  | 550  | 0.4349          |
-| 0.1546        | 2.23  | 600  | 0.4248          |
-| 0.122         | 2.42  | 650  | 0.4543          |
-| 0.1157        | 2.6   | 700  | 0.4587          |
-| 0.1055        | 2.79  | 750  | 0.4623          |
-| 0.0958        | 2.97  | 800  | 0.4744          |
-| 0.09          | 3.16  | 850  | 0.4796          |
-| 0.0914        | 3.35  | 900  | 0.4880          |
-| 0.0893        | 3.53  | 950  | 0.4895          |
-| 0.0794        | 3.72  | 1000 | 0.4905          |
 ### Framework versions

 This model is a fine-tuned version of [hllj/zephyr-7b-beta-vi-math](https://huggingface.co/hllj/zephyr-7b-beta-vi-math) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3935
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 3e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.6583        | 0.19  | 50   | 0.5998          |
+| 0.4808        | 0.37  | 100  | 0.4464          |
+| 0.4476        | 0.56  | 150  | 0.4201          |
+| 0.4158        | 0.74  | 200  | 0.4091          |
+| 0.4028        | 0.93  | 250  | 0.4018          |
+| 0.4074        | 1.12  | 300  | 0.3965          |
+| 0.388         | 1.3   | 350  | 0.3942          |
+| 0.3699        | 1.49  | 400  | 0.3921          |
+| 0.3699        | 1.67  | 450  | 0.3932          |
+| 0.336         | 1.86  | 500  | 0.3955          |
+| 0.3512        | 2.04  | 550  | 0.3911          |
+| 0.3413        | 2.23  | 600  | 0.3900          |
+| 0.3402        | 2.42  | 650  | 0.3932          |
+| 0.3255        | 2.6   | 700  | 0.3948          |
+| 0.3252        | 2.79  | 750  | 0.3930          |
+| 0.316         | 2.97  | 800  | 0.3946          |
+| 0.305         | 3.16  | 850  | 0.3931          |
+| 0.3248        | 3.35  | 900  | 0.3935          |
+| 0.3363        | 3.53  | 950  | 0.3934          |
+| 0.3032        | 3.72  | 1000 | 0.3935          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.72,
-    "eval_loss": 0.4905177056789398,
-    "eval_runtime": 10.4024,
     "eval_samples": 120,
-    "eval_samples_per_second": 11.536,
-    "eval_steps_per_second": 2.884,
-    "train_loss": 0.21093143409490586,
-    "train_runtime": 3638.7602,
     "train_samples": 1076,
-    "train_samples_per_second": 1.099,
-    "train_steps_per_second": 0.275
 }

 {
     "epoch": 3.72,
+    "eval_loss": 0.3934732675552368,
+    "eval_runtime": 10.335,
     "eval_samples": 120,
+    "eval_samples_per_second": 11.611,
+    "eval_steps_per_second": 2.903,
+    "train_loss": 0.3842643254995346,
+    "train_runtime": 3643.6441,
     "train_samples": 1076,
+    "train_samples_per_second": 1.098,
+    "train_steps_per_second": 0.274
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.72,
-    "eval_loss": 0.4905177056789398,
-    "eval_runtime": 10.4024,
     "eval_samples": 120,
-    "eval_samples_per_second": 11.536,
-    "eval_steps_per_second": 2.884
 }

 {
     "epoch": 3.72,
+    "eval_loss": 0.3934732675552368,
+    "eval_runtime": 10.335,
     "eval_samples": 120,
+    "eval_samples_per_second": 11.611,
+    "eval_steps_per_second": 2.903
 }

runs/Nov18_04-50-43_7a59b30c842e/events.out.tfevents.1700286710.7a59b30c842e.54271.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39ba94ef47f9c1b8d610e80ca3e3d08def27c38b656d0e24800e1d3be0e29e05
+size 359

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.72,
-    "train_loss": 0.21093143409490586,
-    "train_runtime": 3638.7602,
     "train_samples": 1076,
-    "train_samples_per_second": 1.099,
-    "train_steps_per_second": 0.275
 }

 {
     "epoch": 3.72,
+    "train_loss": 0.3842643254995346,
+    "train_runtime": 3643.6441,
     "train_samples": 1076,
+    "train_samples_per_second": 1.098,
+    "train_steps_per_second": 0.274
 }

trainer_state.json CHANGED Viewed

@@ -10,785 +10,785 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 5.999999999999999e-06,
       "loss": 0.9756,
       "step": 1
     },
     {
       "epoch": 0.04,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 0.8426,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 0.6295,
       "step": 20
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 0.4895,
       "step": 30
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 0.4679,
       "step": 40
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0003,
-      "loss": 0.42,
       "step": 50
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.41668352484703064,
-      "eval_runtime": 10.3592,
-      "eval_samples_per_second": 11.584,
-      "eval_steps_per_second": 2.896,
       "step": 50
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0002999179886011389,
-      "loss": 0.4233,
       "step": 60
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.00029967204408281613,
-      "loss": 0.3914,
       "step": 70
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0002992624353817517,
-      "loss": 0.3716,
       "step": 80
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00029868961039904624,
-      "loss": 0.4056,
       "step": 90
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00029795419551040833,
-      "loss": 0.3769,
       "step": 100
     },
     {
       "epoch": 0.37,
-      "eval_loss": 0.39277157187461853,
-      "eval_runtime": 10.3723,
-      "eval_samples_per_second": 11.569,
-      "eval_steps_per_second": 2.892,
       "step": 100
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0002970569948812214,
-      "loss": 0.3592,
       "step": 110
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.0002959989895872009,
-      "loss": 0.3469,
       "step": 120
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0002947813365416023,
-      "loss": 0.3546,
       "step": 130
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.0002934053672301536,
-      "loss": 0.3347,
       "step": 140
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.00029187258625509513,
-      "loss": 0.3502,
       "step": 150
     },
     {
       "epoch": 0.56,
-      "eval_loss": 0.39167603850364685,
-      "eval_runtime": 10.3789,
-      "eval_samples_per_second": 11.562,
-      "eval_steps_per_second": 2.89,
       "step": 150
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.00029036039116586096,
-      "loss": 0.3241,
       "step": 160
     },
     {
       "epoch": 0.63,
-      "learning_rate": 0.00028853442585949227,
-      "loss": 0.3123,
       "step": 170
     },
     {
       "epoch": 0.67,
-      "learning_rate": 0.0002865569751923882,
-      "loss": 0.3092,
       "step": 180
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0002844302014778205,
-      "loss": 0.3223,
       "step": 190
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.0002821564303116212,
-      "loss": 0.3151,
       "step": 200
     },
     {
       "epoch": 0.74,
-      "eval_loss": 0.3844055235385895,
-      "eval_runtime": 10.3763,
-      "eval_samples_per_second": 11.565,
-      "eval_steps_per_second": 2.891,
       "step": 200
     },
     {
       "epoch": 0.78,
-      "learning_rate": 0.00027973814802917727,
-      "loss": 0.3196,
       "step": 210
     },
     {
       "epoch": 0.82,
-      "learning_rate": 0.00027717799898665976,
-      "loss": 0.297,
       "step": 220
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.0002744787826694589,
-      "loss": 0.3007,
       "step": 230
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.000271643450630988,
-      "loss": 0.3022,
       "step": 240
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.00026867510326520326,
-      "loss": 0.2859,
       "step": 250
     },
     {
       "epoch": 0.93,
-      "eval_loss": 0.38817495107650757,
-      "eval_runtime": 10.3807,
-      "eval_samples_per_second": 11.56,
-      "eval_steps_per_second": 2.89,
       "step": 250
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.00026557698641636835,
-      "loss": 0.2823,
       "step": 260
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.0002623524878297714,
-      "loss": 0.2749,
       "step": 270
     },
     {
       "epoch": 1.04,
-      "learning_rate": 0.00025900513344727507,
-      "loss": 0.2709,
       "step": 280
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.0002555385835517515,
-      "loss": 0.2841,
       "step": 290
     },
     {
       "epoch": 1.12,
-      "learning_rate": 0.00025195662876461596,
-      "loss": 0.2749,
       "step": 300
     },
     {
       "epoch": 1.12,
-      "eval_loss": 0.392701655626297,
-      "eval_runtime": 10.3797,
-      "eval_samples_per_second": 11.561,
-      "eval_steps_per_second": 2.89,
       "step": 300
     },
     {
       "epoch": 1.15,
-      "learning_rate": 0.0002482631859008384,
-      "loss": 0.2694,
       "step": 310
     },
     {
       "epoch": 1.19,
-      "learning_rate": 0.00024446229368596387,
-      "loss": 0.2189,
       "step": 320
     },
     {
       "epoch": 1.23,
-      "learning_rate": 0.0002405581083398251,
-      "loss": 0.2456,
       "step": 330
     },
     {
       "epoch": 1.26,
-      "learning_rate": 0.0002365548990317775,
-      "loss": 0.2564,
       "step": 340
     },
     {
       "epoch": 1.3,
-      "learning_rate": 0.00023245704321242492,
-      "loss": 0.2447,
       "step": 350
     },
     {
       "epoch": 1.3,
-      "eval_loss": 0.40599215030670166,
-      "eval_runtime": 10.3832,
-      "eval_samples_per_second": 11.557,
       "eval_steps_per_second": 2.889,
       "step": 350
     },
     {
       "epoch": 1.34,
-      "learning_rate": 0.00022826902182694156,
-      "loss": 0.2386,
       "step": 360
     },
     {
       "epoch": 1.38,
-      "learning_rate": 0.00022399541441522474,
-      "loss": 0.2459,
       "step": 370
     },
     {
       "epoch": 1.41,
-      "learning_rate": 0.00021964089410423456,
-      "loss": 0.2342,
       "step": 380
     },
     {
       "epoch": 1.45,
-      "learning_rate": 0.0002152102224979987,
-      "loss": 0.2318,
       "step": 390
     },
     {
       "epoch": 1.49,
-      "learning_rate": 0.00021070824447086807,
-      "loss": 0.2176,
       "step": 400
     },
     {
       "epoch": 1.49,
-      "eval_loss": 0.41023018956184387,
-      "eval_runtime": 10.3769,
-      "eval_samples_per_second": 11.564,
-      "eval_steps_per_second": 2.891,
       "step": 400
     },
     {
       "epoch": 1.52,
-      "learning_rate": 0.00020613988286971802,
-      "loss": 0.1921,
       "step": 410
     },
     {
       "epoch": 1.56,
-      "learning_rate": 0.00020151013313088746,
-      "loss": 0.1997,
       "step": 420
     },
     {
       "epoch": 1.6,
-      "learning_rate": 0.00019682405781774239,
-      "loss": 0.196,
       "step": 430
     },
     {
       "epoch": 1.64,
-      "learning_rate": 0.00019208678108483746,
-      "loss": 0.2059,
       "step": 440
     },
     {
       "epoch": 1.67,
-      "learning_rate": 0.00018730348307472824,
-      "loss": 0.2095,
       "step": 450
     },
     {
       "epoch": 1.67,
-      "eval_loss": 0.4098932445049286,
-      "eval_runtime": 10.3869,
-      "eval_samples_per_second": 11.553,
-      "eval_steps_per_second": 2.888,
       "step": 450
     },
     {
       "epoch": 1.71,
-      "learning_rate": 0.00018247939425356096,
-      "loss": 0.1969,
       "step": 460
     },
     {
       "epoch": 1.75,
-      "learning_rate": 0.00017761978969163506,
-      "loss": 0.1975,
       "step": 470
     },
     {
       "epoch": 1.78,
-      "learning_rate": 0.00017272998329519103,
-      "loss": 0.1971,
       "step": 480
     },
     {
       "epoch": 1.82,
-      "learning_rate": 0.000167815321995732,
-      "loss": 0.1898,
       "step": 490
     },
     {
       "epoch": 1.86,
-      "learning_rate": 0.00016288117990323256,
-      "loss": 0.1732,
       "step": 500
     },
     {
       "epoch": 1.86,
-      "eval_loss": 0.4181649684906006,
-      "eval_runtime": 10.3784,
-      "eval_samples_per_second": 11.562,
-      "eval_steps_per_second": 2.891,
       "step": 500
     },
     {
       "epoch": 1.9,
-      "learning_rate": 0.0001579329524296285,
-      "loss": 0.1726,
       "step": 510
     },
     {
       "epoch": 1.93,
-      "learning_rate": 0.00015297605038901304,
-      "loss": 0.1774,
       "step": 520
     },
     {
       "epoch": 1.97,
-      "learning_rate": 0.00014801589408099117,
-      "loss": 0.1854,
       "step": 530
     },
     {
       "epoch": 2.01,
-      "learning_rate": 0.00014305790736366135,
-      "loss": 0.168,
       "step": 540
     },
     {
       "epoch": 2.04,
-      "learning_rate": 0.00013810751172270658,
-      "loss": 0.1545,
       "step": 550
     },
     {
       "epoch": 2.04,
-      "eval_loss": 0.4348754286766052,
-      "eval_runtime": 10.3825,
-      "eval_samples_per_second": 11.558,
-      "eval_steps_per_second": 2.889,
       "step": 550
     },
     {
       "epoch": 2.08,
-      "learning_rate": 0.00013317012034307936,
-      "loss": 0.1635,
       "step": 560
     },
     {
       "epoch": 2.12,
-      "learning_rate": 0.0001282511321897631,
-      "loss": 0.1668,
       "step": 570
     },
     {
       "epoch": 2.16,
-      "learning_rate": 0.0001233559261040837,
-      "loss": 0.156,
       "step": 580
     },
     {
       "epoch": 2.19,
-      "learning_rate": 0.00011848985492202512,
-      "loss": 0.1471,
       "step": 590
     },
     {
       "epoch": 2.23,
-      "learning_rate": 0.00011365823962098206,
-      "loss": 0.1546,
       "step": 600
     },
     {
       "epoch": 2.23,
-      "eval_loss": 0.42479971051216125,
-      "eval_runtime": 10.3847,
-      "eval_samples_per_second": 11.556,
-      "eval_steps_per_second": 2.889,
       "step": 600
     },
     {
       "epoch": 2.27,
-      "learning_rate": 0.00010886636350134905,
-      "loss": 0.151,
       "step": 610
     },
     {
       "epoch": 2.3,
-      "learning_rate": 0.00010411946640930938,
-      "loss": 0.1459,
       "step": 620
     },
     {
       "epoch": 2.34,
-      "learning_rate": 9.942273900713996e-05,
-      "loss": 0.1316,
       "step": 630
     },
     {
       "epoch": 2.38,
-      "learning_rate": 9.47813170972983e-05,
-      "loss": 0.1118,
       "step": 640
     },
     {
       "epoch": 2.42,
-      "learning_rate": 9.020027600649824e-05,
-      "loss": 0.122,
       "step": 650
     },
     {
       "epoch": 2.42,
-      "eval_loss": 0.4543386399745941,
-      "eval_runtime": 10.3856,
-      "eval_samples_per_second": 11.555,
       "eval_steps_per_second": 2.889,
       "step": 650
     },
     {
       "epoch": 2.45,
-      "learning_rate": 8.568462503591441e-05,
-      "loss": 0.1073,
       "step": 660
     },
     {
       "epoch": 2.49,
-      "learning_rate": 8.123930198358497e-05,
-      "loss": 0.1176,
       "step": 670
     },
     {
       "epoch": 2.53,
-      "learning_rate": 7.686916774500205e-05,
-      "loss": 0.1219,
       "step": 680
     },
     {
       "epoch": 2.57,
-      "learning_rate": 7.257900099779394e-05,
-      "loss": 0.1063,
       "step": 690
     },
     {
       "epoch": 2.6,
-      "learning_rate": 6.837349297631113e-05,
-      "loss": 0.1157,
       "step": 700
     },
     {
       "epoch": 2.6,
-      "eval_loss": 0.45872315764427185,
-      "eval_runtime": 10.3905,
-      "eval_samples_per_second": 11.549,
       "eval_steps_per_second": 2.887,
       "step": 700
     },
     {
       "epoch": 2.64,
-      "learning_rate": 6.425724234183036e-05,
-      "loss": 0.1195,
       "step": 710
     },
     {
       "epoch": 2.68,
-      "learning_rate": 6.0234750153986346e-05,
-      "loss": 0.1018,
       "step": 720
     },
     {
       "epoch": 2.71,
-      "learning_rate": 5.631041494892882e-05,
-      "loss": 0.1051,
       "step": 730
     },
     {
       "epoch": 2.75,
-      "learning_rate": 5.248852792958801e-05,
-      "loss": 0.1057,
       "step": 740
     },
     {
       "epoch": 2.79,
-      "learning_rate": 4.877326827330719e-05,
-      "loss": 0.1055,
       "step": 750
     },
     {
       "epoch": 2.79,
-      "eval_loss": 0.4623105823993683,
-      "eval_runtime": 10.3899,
-      "eval_samples_per_second": 11.55,
-      "eval_steps_per_second": 2.887,
       "step": 750
     },
     {
       "epoch": 2.83,
-      "learning_rate": 4.516869856197362e-05,
-      "loss": 0.1059,
       "step": 760
     },
     {
       "epoch": 2.86,
-      "learning_rate": 4.1678760339644933e-05,
-      "loss": 0.0999,
       "step": 770
     },
     {
       "epoch": 2.9,
-      "learning_rate": 3.830726980252837e-05,
-      "loss": 0.0962,
       "step": 780
     },
     {
       "epoch": 2.94,
-      "learning_rate": 3.505791362602661e-05,
-      "loss": 0.0932,
       "step": 790
     },
     {
       "epoch": 2.97,
-      "learning_rate": 3.1934244933412124e-05,
-      "loss": 0.0958,
       "step": 800
     },
     {
       "epoch": 2.97,
-      "eval_loss": 0.474372923374176,
-      "eval_runtime": 10.3939,
-      "eval_samples_per_second": 11.545,
-      "eval_steps_per_second": 2.886,
       "step": 800
     },
     {
       "epoch": 3.01,
-      "learning_rate": 2.893967941053898e-05,
-      "loss": 0.102,
       "step": 810
     },
     {
       "epoch": 3.05,
-      "learning_rate": 2.607749157084067e-05,
-      "loss": 0.0836,
       "step": 820
     },
     {
       "epoch": 3.09,
-      "learning_rate": 2.335081117469777e-05,
-      "loss": 0.0974,
       "step": 830
     },
     {
       "epoch": 3.12,
-      "learning_rate": 2.0762619807090657e-05,
-      "loss": 0.1015,
       "step": 840
     },
     {
       "epoch": 3.16,
-      "learning_rate": 1.831574761728038e-05,
-      "loss": 0.09,
       "step": 850
     },
     {
       "epoch": 3.16,
-      "eval_loss": 0.479593425989151,
-      "eval_runtime": 10.3885,
-      "eval_samples_per_second": 11.551,
-      "eval_steps_per_second": 2.888,
       "step": 850
     },
     {
       "epoch": 3.2,
-      "learning_rate": 1.6012870224081877e-05,
-      "loss": 0.0761,
       "step": 860
     },
     {
       "epoch": 3.23,
-      "learning_rate": 1.3856505790114187e-05,
-      "loss": 0.0876,
       "step": 870
     },
     {
       "epoch": 3.27,
-      "learning_rate": 1.1849012268226338e-05,
-      "loss": 0.0902,
       "step": 880
     },
     {
       "epoch": 3.31,
-      "learning_rate": 9.992584823110834e-06,
-      "loss": 0.0871,
       "step": 890
     },
     {
       "epoch": 3.35,
-      "learning_rate": 8.289253430923126e-06,
-      "loss": 0.0914,
       "step": 900
     },
     {
       "epoch": 3.35,
-      "eval_loss": 0.4879765808582306,
-      "eval_runtime": 10.3912,
-      "eval_samples_per_second": 11.548,
-      "eval_steps_per_second": 2.887,
       "step": 900
     },
     {
       "epoch": 3.38,
-      "learning_rate": 6.7408806595324715e-06,
-      "loss": 0.0872,
       "step": 910
     },
     {
       "epoch": 3.42,
-      "learning_rate": 5.349159631831423e-06,
-      "loss": 0.0937,
       "step": 920
     },
     {
       "epoch": 3.46,
-      "learning_rate": 4.1156121743307405e-06,
-      "loss": 0.0819,
       "step": 930
     },
     {
       "epoch": 3.49,
-      "learning_rate": 3.0415871530644233e-06,
-      "loss": 0.0877,
       "step": 940
     },
     {
       "epoch": 3.53,
-      "learning_rate": 2.128258998624549e-06,
-      "loss": 0.0893,
       "step": 950
     },
     {
       "epoch": 3.53,
-      "eval_loss": 0.4895183742046356,
-      "eval_runtime": 10.3915,
-      "eval_samples_per_second": 11.548,
-      "eval_steps_per_second": 2.887,
       "step": 950
     },
     {
       "epoch": 3.57,
-      "learning_rate": 1.3766264219386759e-06,
-      "loss": 0.0867,
       "step": 960
     },
     {
       "epoch": 3.61,
-      "learning_rate": 7.875113221940287e-07,
-      "loss": 0.0913,
       "step": 970
     },
     {
       "epoch": 3.64,
-      "learning_rate": 3.6155788810286467e-07,
-      "loss": 0.0902,
       "step": 980
     },
     {
       "epoch": 3.68,
-      "learning_rate": 9.923189349162475e-08,
-      "loss": 0.0801,
       "step": 990
     },
     {
       "epoch": 3.72,
-      "learning_rate": 8.201879839297986e-10,
-      "loss": 0.0794,
       "step": 1000
     },
     {
       "epoch": 3.72,
-      "eval_loss": 0.49052247405052185,
-      "eval_runtime": 10.3853,
-      "eval_samples_per_second": 11.555,
-      "eval_steps_per_second": 2.889,
       "step": 1000
     },
     {
       "epoch": 3.72,
       "step": 1000,
-      "total_flos": 1.7508659664571597e+17,
-      "train_loss": 0.21093143409490586,
-      "train_runtime": 3638.7602,
-      "train_samples_per_second": 1.099,
-      "train_steps_per_second": 0.275
     }
   ],
   "logging_steps": 10,
   "max_steps": 1000,
   "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 1.7508659664571597e+17,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 6.000000000000001e-07,
       "loss": 0.9756,
       "step": 1
     },
     {
       "epoch": 0.04,
+      "learning_rate": 6e-06,
+      "loss": 0.892,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "learning_rate": 1.2e-05,
+      "loss": 0.852,
       "step": 20
     },
     {
       "epoch": 0.11,
+      "learning_rate": 1.8e-05,
+      "loss": 0.8052,
       "step": 30
     },
     {
       "epoch": 0.15,
+      "learning_rate": 2.4e-05,
+      "loss": 0.762,
       "step": 40
     },
     {
       "epoch": 0.19,
+      "learning_rate": 3e-05,
+      "loss": 0.6583,
       "step": 50
     },
     {
       "epoch": 0.19,
+      "eval_loss": 0.5997987389564514,
+      "eval_runtime": 10.374,
+      "eval_samples_per_second": 11.567,
+      "eval_steps_per_second": 2.892,
       "step": 50
     },
     {
       "epoch": 0.22,
+      "learning_rate": 2.999179886011389e-05,
+      "loss": 0.5995,
       "step": 60
     },
     {
       "epoch": 0.26,
+      "learning_rate": 2.9967204408281618e-05,
+      "loss": 0.5319,
       "step": 70
     },
     {
       "epoch": 0.3,
+      "learning_rate": 2.9926243538175172e-05,
+      "loss": 0.4955,
       "step": 80
     },
     {
       "epoch": 0.33,
+      "learning_rate": 2.9868961039904628e-05,
+      "loss": 0.5063,
       "step": 90
     },
     {
       "epoch": 0.37,
+      "learning_rate": 2.9795419551040836e-05,
+      "loss": 0.4808,
       "step": 100
     },
     {
       "epoch": 0.37,
+      "eval_loss": 0.44642969965934753,
+      "eval_runtime": 10.3848,
+      "eval_samples_per_second": 11.555,
+      "eval_steps_per_second": 2.889,
       "step": 100
     },
     {
       "epoch": 0.41,
+      "learning_rate": 2.970569948812214e-05,
+      "loss": 0.4638,
       "step": 110
     },
     {
       "epoch": 0.45,
+      "learning_rate": 2.9599898958720088e-05,
+      "loss": 0.4424,
       "step": 120
     },
     {
       "epoch": 0.48,
+      "learning_rate": 2.947813365416023e-05,
+      "loss": 0.4506,
       "step": 130
     },
     {
       "epoch": 0.52,
+      "learning_rate": 2.9340536723015367e-05,
+      "loss": 0.4449,
       "step": 140
     },
     {
       "epoch": 0.56,
+      "learning_rate": 2.9187258625509518e-05,
+      "loss": 0.4476,
       "step": 150
     },
     {
       "epoch": 0.56,
+      "eval_loss": 0.4200552701950073,
+      "eval_runtime": 10.3829,
+      "eval_samples_per_second": 11.557,
+      "eval_steps_per_second": 2.889,
       "step": 150
     },
     {
       "epoch": 0.59,
+      "learning_rate": 2.9036039116586097e-05,
+      "loss": 0.4266,
       "step": 160
     },
     {
       "epoch": 0.63,
+      "learning_rate": 2.885344258594923e-05,
+      "loss": 0.4162,
       "step": 170
     },
     {
       "epoch": 0.67,
+      "learning_rate": 2.865569751923882e-05,
+      "loss": 0.4106,
       "step": 180
     },
     {
       "epoch": 0.71,
+      "learning_rate": 2.8443020147782055e-05,
+      "loss": 0.4255,
       "step": 190
     },
     {
       "epoch": 0.74,
+      "learning_rate": 2.821564303116212e-05,
+      "loss": 0.4158,
       "step": 200
     },
     {
       "epoch": 0.74,
+      "eval_loss": 0.4091338515281677,
+      "eval_runtime": 10.3877,
+      "eval_samples_per_second": 11.552,
+      "eval_steps_per_second": 2.888,
       "step": 200
     },
     {
       "epoch": 0.78,
+      "learning_rate": 2.797381480291773e-05,
+      "loss": 0.4362,
       "step": 210
     },
     {
       "epoch": 0.82,
+      "learning_rate": 2.7717799898665977e-05,
+      "loss": 0.4048,
       "step": 220
     },
     {
       "epoch": 0.86,
+      "learning_rate": 2.744787826694589e-05,
+      "loss": 0.4074,
       "step": 230
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.71643450630988e-05,
+      "loss": 0.4273,
       "step": 240
     },
     {
       "epoch": 0.93,
+      "learning_rate": 2.686751032652033e-05,
+      "loss": 0.4028,
       "step": 250
     },
     {
       "epoch": 0.93,
+      "eval_loss": 0.4017806947231293,
+      "eval_runtime": 10.3868,
+      "eval_samples_per_second": 11.553,
+      "eval_steps_per_second": 2.888,
       "step": 250
     },
     {
       "epoch": 0.97,
+      "learning_rate": 2.655769864163684e-05,
+      "loss": 0.409,
       "step": 260
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.623524878297714e-05,
+      "loss": 0.4021,
       "step": 270
     },
     {
       "epoch": 1.04,
+      "learning_rate": 2.590051334472751e-05,
+      "loss": 0.3942,
       "step": 280
     },
     {
       "epoch": 1.08,
+      "learning_rate": 2.5553858355175156e-05,
+      "loss": 0.3821,
       "step": 290
     },
     {
       "epoch": 1.12,
+      "learning_rate": 2.51956628764616e-05,
+      "loss": 0.4074,
       "step": 300
     },
     {
       "epoch": 1.12,
+      "eval_loss": 0.3964887857437134,
+      "eval_runtime": 10.3909,
+      "eval_samples_per_second": 11.549,
+      "eval_steps_per_second": 2.887,
       "step": 300
     },
     {
       "epoch": 1.15,
+      "learning_rate": 2.482631859008384e-05,
+      "loss": 0.3937,
       "step": 310
     },
     {
       "epoch": 1.19,
+      "learning_rate": 2.4446229368596388e-05,
+      "loss": 0.3503,
       "step": 320
     },
     {
       "epoch": 1.23,
+      "learning_rate": 2.4055810833982512e-05,
+      "loss": 0.3724,
       "step": 330
     },
     {
       "epoch": 1.26,
+      "learning_rate": 2.365548990317775e-05,
+      "loss": 0.3733,
       "step": 340
     },
     {
       "epoch": 1.3,
+      "learning_rate": 2.3245704321242494e-05,
+      "loss": 0.388,
       "step": 350
     },
     {
       "epoch": 1.3,
+      "eval_loss": 0.3942064344882965,
+      "eval_runtime": 10.3843,
+      "eval_samples_per_second": 11.556,
       "eval_steps_per_second": 2.889,
       "step": 350
     },
     {
       "epoch": 1.34,
+      "learning_rate": 2.282690218269416e-05,
+      "loss": 0.3713,
       "step": 360
     },
     {
       "epoch": 1.38,
+      "learning_rate": 2.2442649405387632e-05,
+      "loss": 0.3792,
       "step": 370
     },
     {
       "epoch": 1.41,
+      "learning_rate": 2.2007985218000543e-05,
+      "loss": 0.3665,
       "step": 380
     },
     {
       "epoch": 1.45,
+      "learning_rate": 2.1565657901667777e-05,
+      "loss": 0.3529,
       "step": 390
     },
     {
       "epoch": 1.49,
+      "learning_rate": 2.1116151134815555e-05,
+      "loss": 0.3699,
       "step": 400
     },
     {
       "epoch": 1.49,
+      "eval_loss": 0.39205998182296753,
+      "eval_runtime": 10.3869,
+      "eval_samples_per_second": 11.553,
+      "eval_steps_per_second": 2.888,
       "step": 400
     },
     {
       "epoch": 1.52,
+      "learning_rate": 2.065995644649384e-05,
+      "loss": 0.3441,
       "step": 410
     },
     {
       "epoch": 1.56,
+      "learning_rate": 2.0197572678896522e-05,
+      "loss": 0.3399,
       "step": 420
     },
     {
       "epoch": 1.6,
+      "learning_rate": 1.9729505441884825e-05,
+      "loss": 0.3617,
       "step": 430
     },
     {
       "epoch": 1.64,
+      "learning_rate": 1.9256266560110322e-05,
+      "loss": 0.3596,
       "step": 440
     },
     {
       "epoch": 1.67,
+      "learning_rate": 1.8778373513342223e-05,
+      "loss": 0.3699,
       "step": 450
     },
     {
       "epoch": 1.67,
+      "eval_loss": 0.3931977450847626,
+      "eval_runtime": 10.3775,
+      "eval_samples_per_second": 11.564,
+      "eval_steps_per_second": 2.891,
       "step": 450
     },
     {
       "epoch": 1.71,
+      "learning_rate": 1.8296348870610798e-05,
+      "loss": 0.3654,
       "step": 460
     },
     {
       "epoch": 1.75,
+      "learning_rate": 1.781071971878587e-05,
+      "loss": 0.3588,
       "step": 470
     },
     {
       "epoch": 1.78,
+      "learning_rate": 1.7322017086215023e-05,
+      "loss": 0.352,
       "step": 480
     },
     {
       "epoch": 1.82,
+      "learning_rate": 1.6830775362051904e-05,
+      "loss": 0.3639,
       "step": 490
     },
     {
       "epoch": 1.86,
+      "learning_rate": 1.633753171190956e-05,
+      "loss": 0.336,
       "step": 500
     },
     {
       "epoch": 1.86,
+      "eval_loss": 0.3954925537109375,
+      "eval_runtime": 10.3812,
+      "eval_samples_per_second": 11.559,
+      "eval_steps_per_second": 2.89,
       "step": 500
     },
     {
       "epoch": 1.9,
+      "learning_rate": 1.5842825490477683e-05,
+      "loss": 0.3421,
       "step": 510
     },
     {
       "epoch": 1.93,
+      "learning_rate": 1.5347197651746207e-05,
+      "loss": 0.3421,
       "step": 520
     },
     {
       "epoch": 1.97,
+      "learning_rate": 1.4851190157480054e-05,
+      "loss": 0.3547,
       "step": 530
     },
     {
       "epoch": 2.01,
+      "learning_rate": 1.4355345384591894e-05,
+      "loss": 0.3355,
       "step": 540
     },
     {
       "epoch": 2.04,
+      "learning_rate": 1.3860205532060953e-05,
+      "loss": 0.3512,
       "step": 550
     },
     {
       "epoch": 2.04,
+      "eval_loss": 0.3910907804965973,
+      "eval_runtime": 10.3795,
+      "eval_samples_per_second": 11.561,
+      "eval_steps_per_second": 2.89,
       "step": 550
     },
     {
       "epoch": 2.08,
+      "learning_rate": 1.3366312028046412e-05,
+      "loss": 0.3426,
       "step": 560
     },
     {
       "epoch": 2.12,
+      "learning_rate": 1.2874204937843636e-05,
+      "loss": 0.3577,
       "step": 570
     },
     {
       "epoch": 2.16,
+      "learning_rate": 1.2384422373330728e-05,
+      "loss": 0.3308,
       "step": 580
     },
     {
       "epoch": 2.19,
+      "learning_rate": 1.189749990455105e-05,
+      "loss": 0.3464,
       "step": 590
     },
     {
       "epoch": 2.23,
+      "learning_rate": 1.1413969974075299e-05,
+      "loss": 0.3413,
       "step": 600
     },
     {
       "epoch": 2.23,
+      "eval_loss": 0.39001432061195374,
+      "eval_runtime": 10.3775,
+      "eval_samples_per_second": 11.563,
+      "eval_steps_per_second": 2.891,
       "step": 600
     },
     {
       "epoch": 2.27,
+      "learning_rate": 1.0934361314783339e-05,
+      "loss": 0.3535,
       "step": 610
     },
     {
       "epoch": 2.3,
+      "learning_rate": 1.0459198371702553e-05,
+      "loss": 0.3322,
       "step": 620
     },
     {
       "epoch": 2.34,
+      "learning_rate": 9.989000728534936e-06,
+      "loss": 0.347,
       "step": 630
     },
     {
       "epoch": 2.38,
+      "learning_rate": 9.524282539499916e-06,
+      "loss": 0.3088,
       "step": 640
     },
     {
       "epoch": 2.42,
+      "learning_rate": 9.06555196711428e-06,
+      "loss": 0.3402,
       "step": 650
     },
     {
       "epoch": 2.42,
+      "eval_loss": 0.39315077662467957,
+      "eval_runtime": 10.3839,
+      "eval_samples_per_second": 11.556,
       "eval_steps_per_second": 2.889,
       "step": 650
     },
     {
       "epoch": 2.45,
+      "learning_rate": 8.61331062652391e-06,
+      "loss": 0.3123,
       "step": 660
     },
     {
       "epoch": 2.49,
+      "learning_rate": 8.168053036995011e-06,
+      "loss": 0.322,
       "step": 670
     },
     {
       "epoch": 2.53,
+      "learning_rate": 7.73026608116453e-06,
+      "loss": 0.3335,
       "step": 680
     },
     {
       "epoch": 2.57,
+      "learning_rate": 7.3004284726411315e-06,
+      "loss": 0.318,
       "step": 690
     },
     {
       "epoch": 2.6,
+      "learning_rate": 6.87901023253893e-06,
+      "loss": 0.3255,
       "step": 700
     },
     {
       "epoch": 2.6,
+      "eval_loss": 0.3948245942592621,
+      "eval_runtime": 10.39,
+      "eval_samples_per_second": 11.55,
       "eval_steps_per_second": 2.887,
       "step": 700
     },
     {
       "epoch": 2.64,
+      "learning_rate": 6.466472175516284e-06,
+      "loss": 0.3275,
       "step": 710
     },
     {
       "epoch": 2.68,
+      "learning_rate": 6.06326540588171e-06,
+      "loss": 0.3226,
       "step": 720
     },
     {
       "epoch": 2.71,
+      "learning_rate": 5.669830824317992e-06,
+      "loss": 0.3154,
       "step": 730
     },
     {
       "epoch": 2.75,
+      "learning_rate": 5.286598645763718e-06,
+      "loss": 0.3194,
       "step": 740
     },
     {
       "epoch": 2.79,
+      "learning_rate": 4.91398792897958e-06,
+      "loss": 0.3252,
       "step": 750
     },
     {
       "epoch": 2.79,
+      "eval_loss": 0.39301279187202454,
+      "eval_runtime": 10.3855,
+      "eval_samples_per_second": 11.555,
+      "eval_steps_per_second": 2.889,
       "step": 750
     },
     {
       "epoch": 2.83,
+      "learning_rate": 4.552406118313767e-06,
+      "loss": 0.3198,
       "step": 760
     },
     {
       "epoch": 2.86,
+      "learning_rate": 4.202248598167549e-06,
+      "loss": 0.3136,
       "step": 770
     },
     {
       "epoch": 2.9,
+      "learning_rate": 3.8638982606482525e-06,
+      "loss": 0.3179,
       "step": 780
     },
     {
       "epoch": 2.94,
+      "learning_rate": 3.537725086882333e-06,
+      "loss": 0.3196,
       "step": 790
     },
     {
       "epoch": 2.97,
+      "learning_rate": 3.224085742446484e-06,
+      "loss": 0.316,
       "step": 800
     },
     {
       "epoch": 2.97,
+      "eval_loss": 0.3946268558502197,
+      "eval_runtime": 10.3837,
+      "eval_samples_per_second": 11.557,
+      "eval_steps_per_second": 2.889,
       "step": 800
     },
     {
       "epoch": 3.01,
+      "learning_rate": 2.9233231873590445e-06,
+      "loss": 0.3046,
       "step": 810
     },
     {
       "epoch": 3.05,
+      "learning_rate": 2.635766301058241e-06,
+      "loss": 0.3013,
       "step": 820
     },
     {
       "epoch": 3.09,
+      "learning_rate": 2.3617295227773805e-06,
+      "loss": 0.3181,
       "step": 830
     },
     {
       "epoch": 3.12,
+      "learning_rate": 2.101512507710146e-06,
+      "loss": 0.326,
       "step": 840
     },
     {
       "epoch": 3.16,
+      "learning_rate": 1.8553997993420495e-06,
+      "loss": 0.305,
       "step": 850
     },
     {
       "epoch": 3.16,
+      "eval_loss": 0.3930993974208832,
+      "eval_runtime": 10.3853,
+      "eval_samples_per_second": 11.555,
+      "eval_steps_per_second": 2.889,
       "step": 850
     },
     {
       "epoch": 3.2,
+      "learning_rate": 1.623660518306293e-06,
+      "loss": 0.2808,
       "step": 860
     },
     {
       "epoch": 3.23,
+      "learning_rate": 1.4065480681043319e-06,
+      "loss": 0.3079,
       "step": 870
     },
     {
       "epoch": 3.27,
+      "learning_rate": 1.2042998580128488e-06,
+      "loss": 0.3259,
       "step": 880
     },
     {
       "epoch": 3.31,
+      "learning_rate": 1.0171370434802018e-06,
+      "loss": 0.3016,
       "step": 890
     },
     {
       "epoch": 3.35,
+      "learning_rate": 8.452642842961845e-07,
+      "loss": 0.3248,
       "step": 900
     },
     {
       "epoch": 3.35,
+      "eval_loss": 0.393511027097702,
+      "eval_runtime": 10.3784,
+      "eval_samples_per_second": 11.562,
+      "eval_steps_per_second": 2.891,
       "step": 900
     },
     {
       "epoch": 3.38,
+      "learning_rate": 6.888695207995532e-07,
+      "loss": 0.3202,
       "step": 910
     },
     {
       "epoch": 3.42,
+      "learning_rate": 5.481237683680291e-07,
+      "loss": 0.3202,
       "step": 920
     },
     {
       "epoch": 3.46,
+      "learning_rate": 4.231809304154849e-07,
+      "loss": 0.2963,
       "step": 930
     },
     {
       "epoch": 3.49,
+      "learning_rate": 3.1417763010083033e-07,
+      "loss": 0.298,
       "step": 940
     },
     {
       "epoch": 3.53,
+      "learning_rate": 2.2123306093259022e-07,
+      "loss": 0.3363,
       "step": 950
     },
     {
       "epoch": 3.53,
+      "eval_loss": 0.3934156000614166,
+      "eval_runtime": 10.3847,
+      "eval_samples_per_second": 11.556,
+      "eval_steps_per_second": 2.889,
       "step": 950
     },
     {
       "epoch": 3.57,
+      "learning_rate": 1.4444885643255136e-07,
+      "loss": 0.3097,
       "step": 960
     },
     {
       "epoch": 3.61,
+      "learning_rate": 8.390897900099781e-08,
+      "loss": 0.2979,
       "step": 970
     },
     {
       "epoch": 3.64,
+      "learning_rate": 3.9679628105067643e-08,
+      "loss": 0.305,
       "step": 980
     },
     {
       "epoch": 3.68,
+      "learning_rate": 1.1809167890592388e-08,
+      "loss": 0.3314,
       "step": 990
     },
     {
       "epoch": 3.72,
+      "learning_rate": 3.280742966310646e-10,
+      "loss": 0.3032,
       "step": 1000
     },
     {
       "epoch": 3.72,
+      "eval_loss": 0.39346638321876526,
+      "eval_runtime": 10.3788,
+      "eval_samples_per_second": 11.562,
+      "eval_steps_per_second": 2.891,
       "step": 1000
     },
     {
       "epoch": 3.72,
       "step": 1000,
+      "total_flos": 1.7609161899297997e+17,
+      "train_loss": 0.3842643254995346,
+      "train_runtime": 3643.6441,
+      "train_samples_per_second": 1.098,
+      "train_steps_per_second": 0.274
     }
   ],
   "logging_steps": 10,
   "max_steps": 1000,
   "num_train_epochs": 4,
   "save_steps": 500,
+  "total_flos": 1.7609161899297997e+17,
   "trial_name": null,
   "trial_params": null
 }