Model save

Browse files

Files changed (4) hide show

README.md +58 -0
all_results.json +7 -0
train_results.json +7 -0
trainer_state.json +1282 -0

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: Qwen/Qwen2.5-7B
+library_name: transformers
+model_name: Qwen2.5-7B-SFT
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for Qwen2.5-7B-SFT
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="YYT-t/Qwen2.5-7B-SFT", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yifeizuo2029-northwestern-university/BRiTER/runs/ulquktyn)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.15.2
+- Transformers: 4.49.0
+- Pytorch: 2.5.1
+- Datasets: 3.3.2
+- Tokenizers: 0.21.0
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "total_flos": 1.846643377789993e+17,
+    "train_loss": 0.30200490220900506,
+    "train_runtime": 1464.9032,
+    "train_samples_per_second": 6.741,
+    "train_steps_per_second": 0.106
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "total_flos": 1.846643377789993e+17,
+    "train_loss": 0.30200490220900506,
+    "train_runtime": 1464.9032,
+    "train_samples_per_second": 6.741,
+    "train_steps_per_second": 0.106
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1282 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 100,
+  "global_step": 155,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03225806451612903,
+      "grad_norm": 0.16533233225345612,
+      "learning_rate": 1.25e-08,
+      "loss": 0.3288,
+      "mean_token_accuracy": 0.9142395853996277,
+      "step": 1
+    },
+    {
+      "epoch": 0.06451612903225806,
+      "grad_norm": 0.16388170421123505,
+      "learning_rate": 2.5e-08,
+      "loss": 0.3143,
+      "mean_token_accuracy": 0.919180154800415,
+      "step": 2
+    },
+    {
+      "epoch": 0.0967741935483871,
+      "grad_norm": 0.16326533257961273,
+      "learning_rate": 3.75e-08,
+      "loss": 0.3239,
+      "mean_token_accuracy": 0.9184285998344421,
+      "step": 3
+    },
+    {
+      "epoch": 0.12903225806451613,
+      "grad_norm": 0.14039699733257294,
+      "learning_rate": 5e-08,
+      "loss": 0.2934,
+      "mean_token_accuracy": 0.9237579107284546,
+      "step": 4
+    },
+    {
+      "epoch": 0.16129032258064516,
+      "grad_norm": 0.17062482237815857,
+      "learning_rate": 6.25e-08,
+      "loss": 0.3162,
+      "mean_token_accuracy": 0.9196513891220093,
+      "step": 5
+    },
+    {
+      "epoch": 0.1935483870967742,
+      "grad_norm": 0.16192646324634552,
+      "learning_rate": 7.5e-08,
+      "loss": 0.3403,
+      "mean_token_accuracy": 0.9099262356758118,
+      "step": 6
+    },
+    {
+      "epoch": 0.22580645161290322,
+      "grad_norm": 0.14392420649528503,
+      "learning_rate": 8.75e-08,
+      "loss": 0.2809,
+      "mean_token_accuracy": 0.926060140132904,
+      "step": 7
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 0.16454868018627167,
+      "learning_rate": 1e-07,
+      "loss": 0.3227,
+      "mean_token_accuracy": 0.9182868003845215,
+      "step": 8
+    },
+    {
+      "epoch": 0.2903225806451613,
+      "grad_norm": 0.13043281435966492,
+      "learning_rate": 1.125e-07,
+      "loss": 0.2912,
+      "mean_token_accuracy": 0.9230725765228271,
+      "step": 9
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.13768798112869263,
+      "learning_rate": 1.25e-07,
+      "loss": 0.2853,
+      "mean_token_accuracy": 0.9282448291778564,
+      "step": 10
+    },
+    {
+      "epoch": 0.3548387096774194,
+      "grad_norm": 0.1535075604915619,
+      "learning_rate": 1.375e-07,
+      "loss": 0.289,
+      "mean_token_accuracy": 0.9233593940734863,
+      "step": 11
+    },
+    {
+      "epoch": 0.3870967741935484,
+      "grad_norm": 0.174004465341568,
+      "learning_rate": 1.5e-07,
+      "loss": 0.3091,
+      "mean_token_accuracy": 0.9212210774421692,
+      "step": 12
+    },
+    {
+      "epoch": 0.41935483870967744,
+      "grad_norm": 1713721835520.0,
+      "learning_rate": 1.6249999999999998e-07,
+      "loss": 0.2708,
+      "mean_token_accuracy": 0.9274526238441467,
+      "step": 13
+    },
+    {
+      "epoch": 0.45161290322580644,
+      "grad_norm": 0.13813622295856476,
+      "learning_rate": 1.75e-07,
+      "loss": 0.2719,
+      "mean_token_accuracy": 0.9287762641906738,
+      "step": 14
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 0.15647657215595245,
+      "learning_rate": 1.875e-07,
+      "loss": 0.3118,
+      "mean_token_accuracy": 0.9167627692222595,
+      "step": 15
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 0.1404537558555603,
+      "learning_rate": 2e-07,
+      "loss": 0.2887,
+      "mean_token_accuracy": 0.9297909140586853,
+      "step": 16
+    },
+    {
+      "epoch": 0.5483870967741935,
+      "grad_norm": 0.16780979931354523,
+      "learning_rate": 1.9997445995478116e-07,
+      "loss": 0.3192,
+      "mean_token_accuracy": 0.9215397834777832,
+      "step": 17
+    },
+    {
+      "epoch": 0.5806451612903226,
+      "grad_norm": 0.16038931906223297,
+      "learning_rate": 1.998978528650029e-07,
+      "loss": 0.3057,
+      "mean_token_accuracy": 0.9223698377609253,
+      "step": 18
+    },
+    {
+      "epoch": 0.6129032258064516,
+      "grad_norm": 0.15409325063228607,
+      "learning_rate": 1.9977021786163597e-07,
+      "loss": 0.2906,
+      "mean_token_accuracy": 0.9280111193656921,
+      "step": 19
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.13709405064582825,
+      "learning_rate": 1.995916201407555e-07,
+      "loss": 0.2963,
+      "mean_token_accuracy": 0.9227046966552734,
+      "step": 20
+    },
+    {
+      "epoch": 0.6774193548387096,
+      "grad_norm": 0.17100510001182556,
+      "learning_rate": 1.9936215093023882e-07,
+      "loss": 0.3308,
+      "mean_token_accuracy": 0.9156600832939148,
+      "step": 21
+    },
+    {
+      "epoch": 0.7096774193548387,
+      "grad_norm": 0.15652534365653992,
+      "learning_rate": 1.990819274431662e-07,
+      "loss": 0.2952,
+      "mean_token_accuracy": 0.9242802858352661,
+      "step": 22
+    },
+    {
+      "epoch": 0.7419354838709677,
+      "grad_norm": 0.14285646378993988,
+      "learning_rate": 1.9875109281794824e-07,
+      "loss": 0.2787,
+      "mean_token_accuracy": 0.9304314851760864,
+      "step": 23
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 0.13358458876609802,
+      "learning_rate": 1.9836981604521074e-07,
+      "loss": 0.2705,
+      "mean_token_accuracy": 0.9316097497940063,
+      "step": 24
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 0.1293199211359024,
+      "learning_rate": 1.9793829188147403e-07,
+      "loss": 0.2975,
+      "mean_token_accuracy": 0.92156982421875,
+      "step": 25
+    },
+    {
+      "epoch": 0.8387096774193549,
+      "grad_norm": 0.13538742065429688,
+      "learning_rate": 1.9745674074967117e-07,
+      "loss": 0.2847,
+      "mean_token_accuracy": 0.9282350540161133,
+      "step": 26
+    },
+    {
+      "epoch": 0.8709677419354839,
+      "grad_norm": 0.146584153175354,
+      "learning_rate": 1.9692540862655585e-07,
+      "loss": 0.3159,
+      "mean_token_accuracy": 0.9188564419746399,
+      "step": 27
+    },
+    {
+      "epoch": 0.9032258064516129,
+      "grad_norm": 0.15393050014972687,
+      "learning_rate": 1.9634456691705702e-07,
+      "loss": 0.3065,
+      "mean_token_accuracy": 0.9200947284698486,
+      "step": 28
+    },
+    {
+      "epoch": 0.9354838709677419,
+      "grad_norm": 0.14639101922512054,
+      "learning_rate": 1.9571451231564522e-07,
+      "loss": 0.2877,
+      "mean_token_accuracy": 0.9255397319793701,
+      "step": 29
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.14252065122127533,
+      "learning_rate": 1.9503556665478065e-07,
+      "loss": 0.3029,
+      "mean_token_accuracy": 0.9222911596298218,
+      "step": 30
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.1796598732471466,
+      "learning_rate": 1.943080767405209e-07,
+      "loss": 0.3359,
+      "mean_token_accuracy": 0.9132773876190186,
+      "step": 31
+    },
+    {
+      "epoch": 1.032258064516129,
+      "grad_norm": 0.16374877095222473,
+      "learning_rate": 1.9353241417537212e-07,
+      "loss": 0.2893,
+      "mean_token_accuracy": 0.9236128926277161,
+      "step": 32
+    },
+    {
+      "epoch": 1.064516129032258,
+      "grad_norm": 0.1340431421995163,
+      "learning_rate": 1.9270897516847403e-07,
+      "loss": 0.2789,
+      "mean_token_accuracy": 0.9263336658477783,
+      "step": 33
+    },
+    {
+      "epoch": 1.096774193548387,
+      "grad_norm": 0.1781994253396988,
+      "learning_rate": 1.918381803332161e-07,
+      "loss": 0.3213,
+      "mean_token_accuracy": 0.9135346412658691,
+      "step": 34
+    },
+    {
+      "epoch": 1.129032258064516,
+      "grad_norm": 1900.6429443359375,
+      "learning_rate": 1.909204744723877e-07,
+      "loss": 0.2741,
+      "mean_token_accuracy": 0.9303540587425232,
+      "step": 35
+    },
+    {
+      "epoch": 1.1612903225806452,
+      "grad_norm": 0.16974130272865295,
+      "learning_rate": 1.8995632635097247e-07,
+      "loss": 0.3161,
+      "mean_token_accuracy": 0.9215410351753235,
+      "step": 36
+    },
+    {
+      "epoch": 1.1935483870967742,
+      "grad_norm": 0.14828237891197205,
+      "learning_rate": 1.889462284567028e-07,
+      "loss": 0.3141,
+      "mean_token_accuracy": 0.921214759349823,
+      "step": 37
+    },
+    {
+      "epoch": 1.2258064516129032,
+      "grad_norm": 992012608.0,
+      "learning_rate": 1.8789069674849658e-07,
+      "loss": 0.2945,
+      "mean_token_accuracy": 0.9253477454185486,
+      "step": 38
+    },
+    {
+      "epoch": 1.2580645161290323,
+      "grad_norm": 0.15507718920707703,
+      "learning_rate": 1.8679027039290496e-07,
+      "loss": 0.3063,
+      "mean_token_accuracy": 0.9237247705459595,
+      "step": 39
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.118597112596035,
+      "learning_rate": 1.856455114887056e-07,
+      "loss": 0.2595,
+      "mean_token_accuracy": 0.9301245808601379,
+      "step": 40
+    },
+    {
+      "epoch": 1.3225806451612903,
+      "grad_norm": 0.14978240430355072,
+      "learning_rate": 1.8445700477978204e-07,
+      "loss": 0.3051,
+      "mean_token_accuracy": 0.918502926826477,
+      "step": 41
+    },
+    {
+      "epoch": 1.3548387096774195,
+      "grad_norm": 0.14542274177074432,
+      "learning_rate": 1.8322535735643602e-07,
+      "loss": 0.2969,
+      "mean_token_accuracy": 0.91986483335495,
+      "step": 42
+    },
+    {
+      "epoch": 1.3870967741935485,
+      "grad_norm": 0.15233197808265686,
+      "learning_rate": 1.8195119834528532e-07,
+      "loss": 0.3005,
+      "mean_token_accuracy": 0.9208536148071289,
+      "step": 43
+    },
+    {
+      "epoch": 1.4193548387096775,
+      "grad_norm": 0.1700386255979538,
+      "learning_rate": 1.8063517858790515e-07,
+      "loss": 0.2974,
+      "mean_token_accuracy": 0.9260939359664917,
+      "step": 44
+    },
+    {
+      "epoch": 1.4516129032258065,
+      "grad_norm": 0.1596897840499878,
+      "learning_rate": 1.7927797030837767e-07,
+      "loss": 0.3092,
+      "mean_token_accuracy": 0.9239941239356995,
+      "step": 45
+    },
+    {
+      "epoch": 1.4838709677419355,
+      "grad_norm": 0.1388406604528427,
+      "learning_rate": 1.778802667699196e-07,
+      "loss": 0.2999,
+      "mean_token_accuracy": 0.9225243926048279,
+      "step": 46
+    },
+    {
+      "epoch": 1.5161290322580645,
+      "grad_norm": 591844999168.0,
+      "learning_rate": 1.764427819207624e-07,
+      "loss": 0.3303,
+      "mean_token_accuracy": 0.9121381044387817,
+      "step": 47
+    },
+    {
+      "epoch": 1.5483870967741935,
+      "grad_norm": 0.14387820661067963,
+      "learning_rate": 1.74966250029467e-07,
+      "loss": 0.3096,
+      "mean_token_accuracy": 0.9206516146659851,
+      "step": 48
+    },
+    {
+      "epoch": 1.5806451612903225,
+      "grad_norm": 0.1407996267080307,
+      "learning_rate": 1.7345142530985886e-07,
+      "loss": 0.2979,
+      "mean_token_accuracy": 0.9202678203582764,
+      "step": 49
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.13789159059524536,
+      "learning_rate": 1.718990815357747e-07,
+      "loss": 0.2723,
+      "mean_token_accuracy": 0.9288155436515808,
+      "step": 50
+    },
+    {
+      "epoch": 1.6451612903225805,
+      "grad_norm": 0.17413267493247986,
+      "learning_rate": 1.7031001164581827e-07,
+      "loss": 0.3462,
+      "mean_token_accuracy": 0.9114100933074951,
+      "step": 51
+    },
+    {
+      "epoch": 1.6774193548387095,
+      "grad_norm": 0.14843137562274933,
+      "learning_rate": 1.6868502733832642e-07,
+      "loss": 0.2886,
+      "mean_token_accuracy": 0.9235759973526001,
+      "step": 52
+    },
+    {
+      "epoch": 1.7096774193548387,
+      "grad_norm": 0.16399109363555908,
+      "learning_rate": 1.670249586567531e-07,
+      "loss": 0.3172,
+      "mean_token_accuracy": 0.9193130731582642,
+      "step": 53
+    },
+    {
+      "epoch": 1.7419354838709677,
+      "grad_norm": 0.14304129779338837,
+      "learning_rate": 1.6533065356568206e-07,
+      "loss": 0.2986,
+      "mean_token_accuracy": 0.9260614514350891,
+      "step": 54
+    },
+    {
+      "epoch": 1.7741935483870968,
+      "grad_norm": 0.15034537017345428,
+      "learning_rate": 1.636029775176862e-07,
+      "loss": 0.3142,
+      "mean_token_accuracy": 0.920920193195343,
+      "step": 55
+    },
+    {
+      "epoch": 1.8064516129032258,
+      "grad_norm": 0.13884751498699188,
+      "learning_rate": 1.618428130112533e-07,
+      "loss": 0.2859,
+      "mean_token_accuracy": 0.9274208545684814,
+      "step": 56
+    },
+    {
+      "epoch": 1.838709677419355,
+      "grad_norm": 0.14844031631946564,
+      "learning_rate": 1.6005105914000505e-07,
+      "loss": 0.2981,
+      "mean_token_accuracy": 0.9255636930465698,
+      "step": 57
+    },
+    {
+      "epoch": 1.870967741935484,
+      "grad_norm": 0.16273614764213562,
+      "learning_rate": 1.5822863113343934e-07,
+      "loss": 0.3317,
+      "mean_token_accuracy": 0.9183942079544067,
+      "step": 58
+    },
+    {
+      "epoch": 1.903225806451613,
+      "grad_norm": 2596124672.0,
+      "learning_rate": 1.5637645988943006e-07,
+      "loss": 0.3263,
+      "mean_token_accuracy": 0.9169372320175171,
+      "step": 59
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.15882141888141632,
+      "learning_rate": 1.5449549149872375e-07,
+      "loss": 0.2856,
+      "mean_token_accuracy": 0.9287616610527039,
+      "step": 60
+    },
+    {
+      "epoch": 1.967741935483871,
+      "grad_norm": 0.13461528718471527,
+      "learning_rate": 1.5258668676167547e-07,
+      "loss": 0.2996,
+      "mean_token_accuracy": 0.9221404790878296,
+      "step": 61
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.17273001372814178,
+      "learning_rate": 1.5065102069747116e-07,
+      "loss": 0.3115,
+      "mean_token_accuracy": 0.9187781810760498,
+      "step": 62
+    },
+    {
+      "epoch": 2.032258064516129,
+      "grad_norm": 0.13375335931777954,
+      "learning_rate": 1.4868948204608697e-07,
+      "loss": 0.2721,
+      "mean_token_accuracy": 0.9304314851760864,
+      "step": 63
+    },
+    {
+      "epoch": 2.064516129032258,
+      "grad_norm": 0.13471315801143646,
+      "learning_rate": 1.4670307276324006e-07,
+      "loss": 0.299,
+      "mean_token_accuracy": 0.9216856360435486,
+      "step": 64
+    },
+    {
+      "epoch": 2.096774193548387,
+      "grad_norm": 0.12814444303512573,
+      "learning_rate": 1.4469280750858852e-07,
+      "loss": 0.296,
+      "mean_token_accuracy": 0.9213560819625854,
+      "step": 65
+    },
+    {
+      "epoch": 2.129032258064516,
+      "grad_norm": 0.14648547768592834,
+      "learning_rate": 1.4265971312744249e-07,
+      "loss": 0.2833,
+      "mean_token_accuracy": 0.9275593757629395,
+      "step": 66
+    },
+    {
+      "epoch": 2.161290322580645,
+      "grad_norm": 0.1619262844324112,
+      "learning_rate": 1.4060482812625054e-07,
+      "loss": 0.3123,
+      "mean_token_accuracy": 0.9240583181381226,
+      "step": 67
+    },
+    {
+      "epoch": 2.193548387096774,
+      "grad_norm": 0.15138781070709229,
+      "learning_rate": 1.3852920214212964e-07,
+      "loss": 0.3084,
+      "mean_token_accuracy": 0.9199481010437012,
+      "step": 68
+    },
+    {
+      "epoch": 2.225806451612903,
+      "grad_norm": 0.18671105802059174,
+      "learning_rate": 1.3643389540670962e-07,
+      "loss": 0.3394,
+      "mean_token_accuracy": 0.9127894639968872,
+      "step": 69
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.12655843794345856,
+      "learning_rate": 1.3431997820456592e-07,
+      "loss": 0.3004,
+      "mean_token_accuracy": 0.9205244779586792,
+      "step": 70
+    },
+    {
+      "epoch": 2.2903225806451615,
+      "grad_norm": 0.1643962413072586,
+      "learning_rate": 1.3218853032651718e-07,
+      "loss": 0.2982,
+      "mean_token_accuracy": 0.9248165488243103,
+      "step": 71
+    },
+    {
+      "epoch": 2.3225806451612905,
+      "grad_norm": 0.1438770592212677,
+      "learning_rate": 1.300406405180671e-07,
+      "loss": 0.2893,
+      "mean_token_accuracy": 0.9276708960533142,
+      "step": 72
+    },
+    {
+      "epoch": 2.3548387096774195,
+      "grad_norm": 13705685.0,
+      "learning_rate": 1.278774059232723e-07,
+      "loss": 0.2693,
+      "mean_token_accuracy": 0.9281597137451172,
+      "step": 73
+    },
+    {
+      "epoch": 2.3870967741935485,
+      "grad_norm": 0.1379764974117279,
+      "learning_rate": 1.2569993152432026e-07,
+      "loss": 0.3048,
+      "mean_token_accuracy": 0.9185689091682434,
+      "step": 74
+    },
+    {
+      "epoch": 2.4193548387096775,
+      "grad_norm": 0.1545405089855194,
+      "learning_rate": 1.2350932957710321e-07,
+      "loss": 0.2992,
+      "mean_token_accuracy": 0.921677827835083,
+      "step": 75
+    },
+    {
+      "epoch": 2.4516129032258065,
+      "grad_norm": 0.16681832075119019,
+      "learning_rate": 1.213067190430769e-07,
+      "loss": 0.3072,
+      "mean_token_accuracy": 0.9232601523399353,
+      "step": 76
+    },
+    {
+      "epoch": 2.4838709677419355,
+      "grad_norm": 0.16876104474067688,
+      "learning_rate": 1.1909322501769406e-07,
+      "loss": 0.3232,
+      "mean_token_accuracy": 0.9157925844192505,
+      "step": 77
+    },
+    {
+      "epoch": 2.5161290322580645,
+      "grad_norm": 0.14914129674434662,
+      "learning_rate": 1.1686997815570472e-07,
+      "loss": 0.3022,
+      "mean_token_accuracy": 0.9226891994476318,
+      "step": 78
+    },
+    {
+      "epoch": 2.5483870967741935,
+      "grad_norm": 0.12800626456737518,
+      "learning_rate": 1.1463811409361665e-07,
+      "loss": 0.3029,
+      "mean_token_accuracy": 0.9234021902084351,
+      "step": 79
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.16127674281597137,
+      "learning_rate": 1.1239877286961121e-07,
+      "loss": 0.313,
+      "mean_token_accuracy": 0.9184219837188721,
+      "step": 80
+    },
+    {
+      "epoch": 2.6129032258064515,
+      "grad_norm": 397858209792.0,
+      "learning_rate": 1.101530983412108e-07,
+      "loss": 0.3366,
+      "mean_token_accuracy": 0.9118554592132568,
+      "step": 81
+    },
+    {
+      "epoch": 2.6451612903225805,
+      "grad_norm": 107614896128.0,
+      "learning_rate": 1.0790223760099548e-07,
+      "loss": 0.2926,
+      "mean_token_accuracy": 0.92240309715271,
+      "step": 82
+    },
+    {
+      "epoch": 2.6774193548387095,
+      "grad_norm": 0.12381122261285782,
+      "learning_rate": 1.0564734039066698e-07,
+      "loss": 0.2736,
+      "mean_token_accuracy": 0.9273778796195984,
+      "step": 83
+    },
+    {
+      "epoch": 2.709677419354839,
+      "grad_norm": 0.17293043434619904,
+      "learning_rate": 1.0338955851375961e-07,
+      "loss": 0.3302,
+      "mean_token_accuracy": 0.9148573875427246,
+      "step": 84
+    },
+    {
+      "epoch": 2.741935483870968,
+      "grad_norm": 318356848640.0,
+      "learning_rate": 1.0113004524729798e-07,
+      "loss": 0.2887,
+      "mean_token_accuracy": 0.9243521094322205,
+      "step": 85
+    },
+    {
+      "epoch": 2.774193548387097,
+      "grad_norm": 0.13202118873596191,
+      "learning_rate": 9.886995475270203e-08,
+      "loss": 0.2765,
+      "mean_token_accuracy": 0.9281702637672424,
+      "step": 86
+    },
+    {
+      "epoch": 2.806451612903226,
+      "grad_norm": 0.13786709308624268,
+      "learning_rate": 9.661044148624036e-08,
+      "loss": 0.2712,
+      "mean_token_accuracy": 0.9306640625,
+      "step": 87
+    },
+    {
+      "epoch": 2.838709677419355,
+      "grad_norm": 0.1563229262828827,
+      "learning_rate": 9.435265960933302e-08,
+      "loss": 0.2965,
+      "mean_token_accuracy": 0.9226992130279541,
+      "step": 88
+    },
+    {
+      "epoch": 2.870967741935484,
+      "grad_norm": 0.16793645918369293,
+      "learning_rate": 9.209776239900452e-08,
+      "loss": 0.3205,
+      "mean_token_accuracy": 0.9166249632835388,
+      "step": 89
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.19805242121219635,
+      "learning_rate": 8.98469016587892e-08,
+      "loss": 0.3144,
+      "mean_token_accuracy": 0.9230661392211914,
+      "step": 90
+    },
+    {
+      "epoch": 2.935483870967742,
+      "grad_norm": 0.17880718410015106,
+      "learning_rate": 8.76012271303888e-08,
+      "loss": 0.3426,
+      "mean_token_accuracy": 0.9152123332023621,
+      "step": 91
+    },
+    {
+      "epoch": 2.967741935483871,
+      "grad_norm": 0.13014861941337585,
+      "learning_rate": 8.536188590638333e-08,
+      "loss": 0.2849,
+      "mean_token_accuracy": 0.9278050065040588,
+      "step": 92
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 134254736.0,
+      "learning_rate": 8.313002184429528e-08,
+      "loss": 0.3084,
+      "mean_token_accuracy": 0.922960638999939,
+      "step": 93
+    },
+    {
+      "epoch": 3.032258064516129,
+      "grad_norm": 2311489060864.0,
+      "learning_rate": 8.090677498230596e-08,
+      "loss": 0.3011,
+      "mean_token_accuracy": 0.919518232345581,
+      "step": 94
+    },
+    {
+      "epoch": 3.064516129032258,
+      "grad_norm": 0.1483820080757141,
+      "learning_rate": 7.869328095692311e-08,
+      "loss": 0.3036,
+      "mean_token_accuracy": 0.9224164485931396,
+      "step": 95
+    },
+    {
+      "epoch": 3.096774193548387,
+      "grad_norm": 0.1287539154291153,
+      "learning_rate": 7.64906704228968e-08,
+      "loss": 0.3109,
+      "mean_token_accuracy": 0.9177184104919434,
+      "step": 96
+    },
+    {
+      "epoch": 3.129032258064516,
+      "grad_norm": 0.14654560387134552,
+      "learning_rate": 7.43000684756797e-08,
+      "loss": 0.2991,
+      "mean_token_accuracy": 0.9215620756149292,
+      "step": 97
+    },
+    {
+      "epoch": 3.161290322580645,
+      "grad_norm": 0.15880532562732697,
+      "learning_rate": 7.21225940767277e-08,
+      "loss": 0.2717,
+      "mean_token_accuracy": 0.9311442971229553,
+      "step": 98
+    },
+    {
+      "epoch": 3.193548387096774,
+      "grad_norm": 0.15332385897636414,
+      "learning_rate": 6.995935948193294e-08,
+      "loss": 0.2906,
+      "mean_token_accuracy": 0.9262657761573792,
+      "step": 99
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.16386571526527405,
+      "learning_rate": 6.781146967348282e-08,
+      "loss": 0.3087,
+      "mean_token_accuracy": 0.9201537370681763,
+      "step": 100
+    },
+    {
+      "epoch": 3.258064516129032,
+      "grad_norm": 0.1456972062587738,
+      "learning_rate": 6.568002179543408e-08,
+      "loss": 0.2845,
+      "mean_token_accuracy": 0.9251313209533691,
+      "step": 101
+    },
+    {
+      "epoch": 3.2903225806451615,
+      "grad_norm": 0.1516929566860199,
+      "learning_rate": 6.356610459329037e-08,
+      "loss": 0.312,
+      "mean_token_accuracy": 0.9195959568023682,
+      "step": 102
+    },
+    {
+      "epoch": 3.3225806451612905,
+      "grad_norm": 5110276608.0,
+      "learning_rate": 6.147079785787038e-08,
+      "loss": 0.3149,
+      "mean_token_accuracy": 0.9239295125007629,
+      "step": 103
+    },
+    {
+      "epoch": 3.3548387096774195,
+      "grad_norm": 0.14113079011440277,
+      "learning_rate": 5.939517187374949e-08,
+      "loss": 0.31,
+      "mean_token_accuracy": 0.9190698862075806,
+      "step": 104
+    },
+    {
+      "epoch": 3.3870967741935485,
+      "grad_norm": 0.15635834634304047,
+      "learning_rate": 5.7340286872557505e-08,
+      "loss": 0.3075,
+      "mean_token_accuracy": 0.9230503439903259,
+      "step": 105
+    },
+    {
+      "epoch": 3.4193548387096775,
+      "grad_norm": 0.15426763892173767,
+      "learning_rate": 5.530719249141147e-08,
+      "loss": 0.3232,
+      "mean_token_accuracy": 0.919147253036499,
+      "step": 106
+    },
+    {
+      "epoch": 3.4516129032258065,
+      "grad_norm": 0.1907190978527069,
+      "learning_rate": 5.3296927236759934e-08,
+      "loss": 0.3244,
+      "mean_token_accuracy": 0.914537787437439,
+      "step": 107
+    },
+    {
+      "epoch": 3.4838709677419355,
+      "grad_norm": 0.14416781067848206,
+      "learning_rate": 5.131051795391301e-08,
+      "loss": 0.3002,
+      "mean_token_accuracy": 0.924168050289154,
+      "step": 108
+    },
+    {
+      "epoch": 3.5161290322580645,
+      "grad_norm": 0.16144634783267975,
+      "learning_rate": 4.934897930252886e-08,
+      "loss": 0.3025,
+      "mean_token_accuracy": 0.9218240976333618,
+      "step": 109
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.15450312197208405,
+      "learning_rate": 4.741331323832455e-08,
+      "loss": 0.2909,
+      "mean_token_accuracy": 0.924649178981781,
+      "step": 110
+    },
+    {
+      "epoch": 3.5806451612903225,
+      "grad_norm": 0.12900131940841675,
+      "learning_rate": 4.5504508501276254e-08,
+      "loss": 0.2798,
+      "mean_token_accuracy": 0.9257345795631409,
+      "step": 111
+    },
+    {
+      "epoch": 3.6129032258064515,
+      "grad_norm": 0.14584125578403473,
+      "learning_rate": 4.3623540110569934e-08,
+      "loss": 0.308,
+      "mean_token_accuracy": 0.9198503494262695,
+      "step": 112
+    },
+    {
+      "epoch": 3.6451612903225805,
+      "grad_norm": 0.13434411585330963,
+      "learning_rate": 4.1771368866560665e-08,
+      "loss": 0.2937,
+      "mean_token_accuracy": 0.9217662215232849,
+      "step": 113
+    },
+    {
+      "epoch": 3.6774193548387095,
+      "grad_norm": 0.15536189079284668,
+      "learning_rate": 3.9948940859994963e-08,
+      "loss": 0.3124,
+      "mean_token_accuracy": 0.9192003011703491,
+      "step": 114
+    },
+    {
+      "epoch": 3.709677419354839,
+      "grad_norm": 0.16448096930980682,
+      "learning_rate": 3.8157186988746716e-08,
+      "loss": 0.2935,
+      "mean_token_accuracy": 0.927962064743042,
+      "step": 115
+    },
+    {
+      "epoch": 3.741935483870968,
+      "grad_norm": 0.18926770985126495,
+      "learning_rate": 3.63970224823138e-08,
+      "loss": 0.3329,
+      "mean_token_accuracy": 0.9149773716926575,
+      "step": 116
+    },
+    {
+      "epoch": 3.774193548387097,
+      "grad_norm": 0.14664557576179504,
+      "learning_rate": 3.4669346434317946e-08,
+      "loss": 0.2902,
+      "mean_token_accuracy": 0.9280288219451904,
+      "step": 117
+    },
+    {
+      "epoch": 3.806451612903226,
+      "grad_norm": 0.17194537818431854,
+      "learning_rate": 3.297504134324693e-08,
+      "loss": 0.306,
+      "mean_token_accuracy": 0.922054648399353,
+      "step": 118
+    },
+    {
+      "epoch": 3.838709677419355,
+      "grad_norm": 0.13546685874462128,
+      "learning_rate": 3.131497266167357e-08,
+      "loss": 0.2662,
+      "mean_token_accuracy": 0.933337390422821,
+      "step": 119
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 0.15774165093898773,
+      "learning_rate": 2.9689988354181737e-08,
+      "loss": 0.3042,
+      "mean_token_accuracy": 0.9215238094329834,
+      "step": 120
+    },
+    {
+      "epoch": 3.903225806451613,
+      "grad_norm": 11272906080256.0,
+      "learning_rate": 2.81009184642253e-08,
+      "loss": 0.2931,
+      "mean_token_accuracy": 0.9249425530433655,
+      "step": 121
+    },
+    {
+      "epoch": 3.935483870967742,
+      "grad_norm": 0.13712410628795624,
+      "learning_rate": 2.6548574690141122e-08,
+      "loss": 0.291,
+      "mean_token_accuracy": 0.9214818477630615,
+      "step": 122
+    },
+    {
+      "epoch": 3.967741935483871,
+      "grad_norm": 0.1492443084716797,
+      "learning_rate": 2.5033749970533015e-08,
+      "loss": 0.3333,
+      "mean_token_accuracy": 0.91297447681427,
+      "step": 123
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.14738278090953827,
+      "learning_rate": 2.3557218079237607e-08,
+      "loss": 0.3008,
+      "mean_token_accuracy": 0.9269067049026489,
+      "step": 124
+    },
+    {
+      "epoch": 4.032258064516129,
+      "grad_norm": 0.14828868210315704,
+      "learning_rate": 2.2119733230080406e-08,
+      "loss": 0.3025,
+      "mean_token_accuracy": 0.918917179107666,
+      "step": 125
+    },
+    {
+      "epoch": 4.064516129032258,
+      "grad_norm": 0.129131019115448,
+      "learning_rate": 2.0722029691622334e-08,
+      "loss": 0.2981,
+      "mean_token_accuracy": 0.9248138666152954,
+      "step": 126
+    },
+    {
+      "epoch": 4.096774193548387,
+      "grad_norm": 0.16759882867336273,
+      "learning_rate": 1.9364821412094857e-08,
+      "loss": 0.3119,
+      "mean_token_accuracy": 0.9213570952415466,
+      "step": 127
+    },
+    {
+      "epoch": 4.129032258064516,
+      "grad_norm": 0.16001583635807037,
+      "learning_rate": 1.8048801654714683e-08,
+      "loss": 0.3155,
+      "mean_token_accuracy": 0.920055627822876,
+      "step": 128
+    },
+    {
+      "epoch": 4.161290322580645,
+      "grad_norm": 0.14847075939178467,
+      "learning_rate": 1.677464264356395e-08,
+      "loss": 0.3099,
+      "mean_token_accuracy": 0.9192079305648804,
+      "step": 129
+    },
+    {
+      "epoch": 4.193548387096774,
+      "grad_norm": 0.16150416433811188,
+      "learning_rate": 1.554299522021796e-08,
+      "loss": 0.3107,
+      "mean_token_accuracy": 0.9221417903900146,
+      "step": 130
+    },
+    {
+      "epoch": 4.225806451612903,
+      "grad_norm": 0.159551203250885,
+      "learning_rate": 1.4354488511294416e-08,
+      "loss": 0.3024,
+      "mean_token_accuracy": 0.9230970144271851,
+      "step": 131
+    },
+    {
+      "epoch": 4.258064516129032,
+      "grad_norm": 0.13861845433712006,
+      "learning_rate": 1.3209729607095021e-08,
+      "loss": 0.2794,
+      "mean_token_accuracy": 0.9251081347465515,
+      "step": 132
+    },
+    {
+      "epoch": 4.290322580645161,
+      "grad_norm": 0.1300177425146103,
+      "learning_rate": 1.2109303251503433e-08,
+      "loss": 0.2767,
+      "mean_token_accuracy": 0.9269058108329773,
+      "step": 133
+    },
+    {
+      "epoch": 4.32258064516129,
+      "grad_norm": 0.15271711349487305,
+      "learning_rate": 1.1053771543297197e-08,
+      "loss": 0.2833,
+      "mean_token_accuracy": 0.9278181791305542,
+      "step": 134
+    },
+    {
+      "epoch": 4.354838709677419,
+      "grad_norm": 0.15096405148506165,
+      "learning_rate": 1.0043673649027518e-08,
+      "loss": 0.3032,
+      "mean_token_accuracy": 0.9209933876991272,
+      "step": 135
+    },
+    {
+      "epoch": 4.387096774193548,
+      "grad_norm": 0.1546061486005783,
+      "learning_rate": 9.07952552761232e-09,
+      "loss": 0.2895,
+      "mean_token_accuracy": 0.923534095287323,
+      "step": 136
+    },
+    {
+      "epoch": 4.419354838709677,
+      "grad_norm": 0.15047194063663483,
+      "learning_rate": 8.161819666783887e-09,
+      "loss": 0.302,
+      "mean_token_accuracy": 0.9207534790039062,
+      "step": 137
+    },
+    {
+      "epoch": 4.451612903225806,
+      "grad_norm": 0.13835148513317108,
+      "learning_rate": 7.29102483152596e-09,
+      "loss": 0.2829,
+      "mean_token_accuracy": 0.9299312829971313,
+      "step": 138
+    },
+    {
+      "epoch": 4.483870967741936,
+      "grad_norm": 0.14567099511623383,
+      "learning_rate": 6.467585824627886e-09,
+      "loss": 0.3009,
+      "mean_token_accuracy": 0.92234206199646,
+      "step": 139
+    },
+    {
+      "epoch": 4.516129032258064,
+      "grad_norm": 0.14242888987064362,
+      "learning_rate": 5.691923259479092e-09,
+      "loss": 0.2946,
+      "mean_token_accuracy": 0.9222550988197327,
+      "step": 140
+    },
+    {
+      "epoch": 4.548387096774194,
+      "grad_norm": 0.14662319421768188,
+      "learning_rate": 4.964433345219354e-09,
+      "loss": 0.3089,
+      "mean_token_accuracy": 0.9191495180130005,
+      "step": 141
+    },
+    {
+      "epoch": 4.580645161290323,
+      "grad_norm": 0.16040538251399994,
+      "learning_rate": 4.285487684354771e-09,
+      "loss": 0.3086,
+      "mean_token_accuracy": 0.9262273907661438,
+      "step": 142
+    },
+    {
+      "epoch": 4.612903225806452,
+      "grad_norm": 0.17762604355812073,
+      "learning_rate": 3.6554330829429714e-09,
+      "loss": 0.3128,
+      "mean_token_accuracy": 0.9169263243675232,
+      "step": 143
+    },
+    {
+      "epoch": 4.645161290322581,
+      "grad_norm": 0.15534666180610657,
+      "learning_rate": 3.074591373444135e-09,
+      "loss": 0.3014,
+      "mean_token_accuracy": 0.9234717488288879,
+      "step": 144
+    },
+    {
+      "epoch": 4.67741935483871,
+      "grad_norm": 0.13566385209560394,
+      "learning_rate": 2.5432592503287997e-09,
+      "loss": 0.2719,
+      "mean_token_accuracy": 0.9335603713989258,
+      "step": 145
+    },
+    {
+      "epoch": 4.709677419354839,
+      "grad_norm": 0.1675826907157898,
+      "learning_rate": 2.061708118525951e-09,
+      "loss": 0.3175,
+      "mean_token_accuracy": 0.925308108329773,
+      "step": 146
+    },
+    {
+      "epoch": 4.741935483870968,
+      "grad_norm": 0.1770351529121399,
+      "learning_rate": 1.6301839547892327e-09,
+      "loss": 0.3083,
+      "mean_token_accuracy": 0.9258779883384705,
+      "step": 147
+    },
+    {
+      "epoch": 4.774193548387097,
+      "grad_norm": 0.1430787742137909,
+      "learning_rate": 1.2489071820517394e-09,
+      "loss": 0.2772,
+      "mean_token_accuracy": 0.9270695447921753,
+      "step": 148
+    },
+    {
+      "epoch": 4.806451612903226,
+      "grad_norm": 0.1444924771785736,
+      "learning_rate": 9.180725568338043e-10,
+      "loss": 0.3102,
+      "mean_token_accuracy": 0.9180653691291809,
+      "step": 149
+    },
+    {
+      "epoch": 4.838709677419355,
+      "grad_norm": 0.15837052464485168,
+      "learning_rate": 6.37849069761176e-10,
+      "loss": 0.328,
+      "mean_token_accuracy": 0.9148820638656616,
+      "step": 150
+    },
+    {
+      "epoch": 4.870967741935484,
+      "grad_norm": 0.14807510375976562,
+      "learning_rate": 4.083798592444898e-10,
+      "loss": 0.3087,
+      "mean_token_accuracy": 0.9184255003929138,
+      "step": 151
+    },
+    {
+      "epoch": 4.903225806451613,
+      "grad_norm": 0.15544399619102478,
+      "learning_rate": 2.2978213836400973e-10,
+      "loss": 0.2967,
+      "mean_token_accuracy": 0.9193904995918274,
+      "step": 152
+    },
+    {
+      "epoch": 4.935483870967742,
+      "grad_norm": 0.18428154289722443,
+      "learning_rate": 1.0214713499706595e-10,
+      "loss": 0.3394,
+      "mean_token_accuracy": 0.9154376983642578,
+      "step": 153
+    },
+    {
+      "epoch": 4.967741935483871,
+      "grad_norm": 0.13660480082035065,
+      "learning_rate": 2.554004521881925e-11,
+      "loss": 0.2831,
+      "mean_token_accuracy": 0.9276332855224609,
+      "step": 154
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 420961255424.0,
+      "learning_rate": 0.0,
+      "loss": 0.3237,
+      "mean_token_accuracy": 0.9185903668403625,
+      "step": 155
+    },
+    {
+      "epoch": 5.0,
+      "step": 155,
+      "total_flos": 1.846643377789993e+17,
+      "train_loss": 0.30200490220900506,
+      "train_runtime": 1464.9032,
+      "train_samples_per_second": 6.741,
+      "train_steps_per_second": 0.106
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 155,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 1,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.846643377789993e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}