bezir commited on 5 days ago

Commit

d07b4df

verified ·

1 Parent(s): db9a95d

Model save

Browse files

Files changed (19) hide show

.gitattributes +1 -0
README.md +58 -0
added_tokens.json +24 -0
all_results.json +8 -0
config.json +29 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +25 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
train_results.json +8 -0
trainer_state.json +2563 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: Qwen/Qwen2.5-7B-Instruct
+library_name: transformers
+model_name: Qwen2.5-7B-Open-R1-Distill-Turkish
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for Qwen2.5-7B-Open-R1-Distill-Turkish
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="bezir/Qwen2.5-7B-Open-R1-Distill-Turkish", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/bezirglasgow/huggingface/runs/acb76vve)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.16.0.dev0
+- Transformers: 4.50.0.dev0
+- Pytorch: 2.5.1
+- Datasets: 3.2.0
+- Tokenizers: 0.21.0
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 827207983300608.0,
+    "train_loss": 0.6521280055868006,
+    "train_runtime": 235151.6683,
+    "train_samples": 107561,
+    "train_samples_per_second": 1.718,
+    "train_steps_per_second": 0.007
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-7B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0.dev0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.50.0.dev0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:701a82b0a9200ce3ea4e9fdf9126967514b3a797a3e0647b047d2ddc1e65269c
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28ea60c859938b41c604996047b23697afba5083c51a32713db0919c26d24e6e
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11dcc10fe0aaeb7238f18ae695f3e09f348f47d86410ec8ecc56615c3557689b
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c762518ab04a02e0bf4b3ad79e4493b6a21a008fefc8b407dc31595e69315951
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|im_end|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|im_end|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 827207983300608.0,
+    "train_loss": 0.6521280055868006,
+    "train_runtime": 235151.6683,
+    "train_samples": 107561,
+    "train_samples_per_second": 1.718,
+    "train_steps_per_second": 0.007
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2563 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 1578,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0063371356147021544,
+      "grad_norm": 7.199723076955636,
+      "learning_rate": 3.164556962025317e-07,
+      "loss": 1.4397,
+      "mean_token_accuracy": 0.6951015710830688,
+      "step": 5
+    },
+    {
+      "epoch": 0.012674271229404309,
+      "grad_norm": 7.116001217650177,
+      "learning_rate": 6.329113924050634e-07,
+      "loss": 1.4552,
+      "mean_token_accuracy": 0.6930991888046265,
+      "step": 10
+    },
+    {
+      "epoch": 0.019011406844106463,
+      "grad_norm": 4.64551484224683,
+      "learning_rate": 9.493670886075951e-07,
+      "loss": 1.3993,
+      "mean_token_accuracy": 0.6986153647303581,
+      "step": 15
+    },
+    {
+      "epoch": 0.025348542458808618,
+      "grad_norm": 3.0027875956032366,
+      "learning_rate": 1.2658227848101267e-06,
+      "loss": 1.3103,
+      "mean_token_accuracy": 0.7071203991770745,
+      "step": 20
+    },
+    {
+      "epoch": 0.031685678073510776,
+      "grad_norm": 3.1251366551644244,
+      "learning_rate": 1.5822784810126585e-06,
+      "loss": 1.2458,
+      "mean_token_accuracy": 0.7130974352359771,
+      "step": 25
+    },
+    {
+      "epoch": 0.03802281368821293,
+      "grad_norm": 2.289149516732586,
+      "learning_rate": 1.8987341772151901e-06,
+      "loss": 1.1709,
+      "mean_token_accuracy": 0.7238569274544716,
+      "step": 30
+    },
+    {
+      "epoch": 0.044359949302915085,
+      "grad_norm": 2.0282034523858945,
+      "learning_rate": 2.2151898734177215e-06,
+      "loss": 1.1025,
+      "mean_token_accuracy": 0.7365155085921288,
+      "step": 35
+    },
+    {
+      "epoch": 0.050697084917617236,
+      "grad_norm": 1.4393865600169713,
+      "learning_rate": 2.5316455696202535e-06,
+      "loss": 1.0754,
+      "mean_token_accuracy": 0.7417579337954521,
+      "step": 40
+    },
+    {
+      "epoch": 0.057034220532319393,
+      "grad_norm": 0.9968108242787993,
+      "learning_rate": 2.848101265822785e-06,
+      "loss": 1.0382,
+      "mean_token_accuracy": 0.7486504480242729,
+      "step": 45
+    },
+    {
+      "epoch": 0.06337135614702155,
+      "grad_norm": 0.9450280587173171,
+      "learning_rate": 3.164556962025317e-06,
+      "loss": 1.0089,
+      "mean_token_accuracy": 0.7545697376132011,
+      "step": 50
+    },
+    {
+      "epoch": 0.0697084917617237,
+      "grad_norm": 0.9255531790602832,
+      "learning_rate": 3.4810126582278487e-06,
+      "loss": 0.974,
+      "mean_token_accuracy": 0.7610737249255181,
+      "step": 55
+    },
+    {
+      "epoch": 0.07604562737642585,
+      "grad_norm": 0.784862301963824,
+      "learning_rate": 3.7974683544303802e-06,
+      "loss": 0.9446,
+      "mean_token_accuracy": 0.7658546909689903,
+      "step": 60
+    },
+    {
+      "epoch": 0.08238276299112801,
+      "grad_norm": 0.8654366770506445,
+      "learning_rate": 4.113924050632912e-06,
+      "loss": 0.9532,
+      "mean_token_accuracy": 0.764112365245819,
+      "step": 65
+    },
+    {
+      "epoch": 0.08871989860583017,
+      "grad_norm": 0.8440093108811262,
+      "learning_rate": 4.430379746835443e-06,
+      "loss": 0.9019,
+      "mean_token_accuracy": 0.7735387146472931,
+      "step": 70
+    },
+    {
+      "epoch": 0.09505703422053231,
+      "grad_norm": 0.7242515634546599,
+      "learning_rate": 4.746835443037975e-06,
+      "loss": 0.8972,
+      "mean_token_accuracy": 0.7742968738079071,
+      "step": 75
+    },
+    {
+      "epoch": 0.10139416983523447,
+      "grad_norm": 0.7207614994286641,
+      "learning_rate": 5.063291139240507e-06,
+      "loss": 0.8872,
+      "mean_token_accuracy": 0.7761535227298737,
+      "step": 80
+    },
+    {
+      "epoch": 0.10773130544993663,
+      "grad_norm": 0.742791199954622,
+      "learning_rate": 5.379746835443038e-06,
+      "loss": 0.8559,
+      "mean_token_accuracy": 0.7819930538535118,
+      "step": 85
+    },
+    {
+      "epoch": 0.11406844106463879,
+      "grad_norm": 0.7678641716925835,
+      "learning_rate": 5.69620253164557e-06,
+      "loss": 0.8473,
+      "mean_token_accuracy": 0.7834332928061485,
+      "step": 90
+    },
+    {
+      "epoch": 0.12040557667934093,
+      "grad_norm": 0.71180994773894,
+      "learning_rate": 6.012658227848101e-06,
+      "loss": 0.8352,
+      "mean_token_accuracy": 0.7855397373437881,
+      "step": 95
+    },
+    {
+      "epoch": 0.1267427122940431,
+      "grad_norm": 0.7993738785147041,
+      "learning_rate": 6.329113924050634e-06,
+      "loss": 0.8589,
+      "mean_token_accuracy": 0.7812221512198448,
+      "step": 100
+    },
+    {
+      "epoch": 0.13307984790874525,
+      "grad_norm": 0.7568194042750847,
+      "learning_rate": 6.645569620253165e-06,
+      "loss": 0.8431,
+      "mean_token_accuracy": 0.7850423708558083,
+      "step": 105
+    },
+    {
+      "epoch": 0.1394169835234474,
+      "grad_norm": 0.7969657403354691,
+      "learning_rate": 6.962025316455697e-06,
+      "loss": 0.8146,
+      "mean_token_accuracy": 0.7894491747021675,
+      "step": 110
+    },
+    {
+      "epoch": 0.14575411913814956,
+      "grad_norm": 0.7814384559927074,
+      "learning_rate": 7.2784810126582285e-06,
+      "loss": 0.816,
+      "mean_token_accuracy": 0.7893038675189018,
+      "step": 115
+    },
+    {
+      "epoch": 0.1520912547528517,
+      "grad_norm": 0.7970973600599863,
+      "learning_rate": 7.5949367088607605e-06,
+      "loss": 0.8168,
+      "mean_token_accuracy": 0.7892953917384148,
+      "step": 120
+    },
+    {
+      "epoch": 0.15842839036755388,
+      "grad_norm": 0.7289531586042841,
+      "learning_rate": 7.911392405063292e-06,
+      "loss": 0.8036,
+      "mean_token_accuracy": 0.7918314695358276,
+      "step": 125
+    },
+    {
+      "epoch": 0.16476552598225602,
+      "grad_norm": 0.8996289034177167,
+      "learning_rate": 8.227848101265824e-06,
+      "loss": 0.7886,
+      "mean_token_accuracy": 0.7948763906955719,
+      "step": 130
+    },
+    {
+      "epoch": 0.17110266159695817,
+      "grad_norm": 0.9505048466982942,
+      "learning_rate": 8.544303797468356e-06,
+      "loss": 0.7765,
+      "mean_token_accuracy": 0.7972663462162017,
+      "step": 135
+    },
+    {
+      "epoch": 0.17743979721166034,
+      "grad_norm": 0.8547089186827208,
+      "learning_rate": 8.860759493670886e-06,
+      "loss": 0.7778,
+      "mean_token_accuracy": 0.7966541960835457,
+      "step": 140
+    },
+    {
+      "epoch": 0.18377693282636248,
+      "grad_norm": 0.8115832093940138,
+      "learning_rate": 9.177215189873418e-06,
+      "loss": 0.7755,
+      "mean_token_accuracy": 0.7976241648197174,
+      "step": 145
+    },
+    {
+      "epoch": 0.19011406844106463,
+      "grad_norm": 0.7240367508508893,
+      "learning_rate": 9.49367088607595e-06,
+      "loss": 0.7679,
+      "mean_token_accuracy": 0.7988486766815186,
+      "step": 150
+    },
+    {
+      "epoch": 0.1964512040557668,
+      "grad_norm": 0.8604548037210017,
+      "learning_rate": 9.810126582278482e-06,
+      "loss": 0.7666,
+      "mean_token_accuracy": 0.7985615819692612,
+      "step": 155
+    },
+    {
+      "epoch": 0.20278833967046894,
+      "grad_norm": 0.7650650036074902,
+      "learning_rate": 9.99995105342046e-06,
+      "loss": 0.7615,
+      "mean_token_accuracy": 0.8001444712281227,
+      "step": 160
+    },
+    {
+      "epoch": 0.20912547528517111,
+      "grad_norm": 0.7907667013526878,
+      "learning_rate": 9.999400415406145e-06,
+      "loss": 0.7662,
+      "mean_token_accuracy": 0.7991914421319961,
+      "step": 165
+    },
+    {
+      "epoch": 0.21546261089987326,
+      "grad_norm": 0.8483269008499935,
+      "learning_rate": 9.998238023756727e-06,
+      "loss": 0.7597,
+      "mean_token_accuracy": 0.800473365187645,
+      "step": 170
+    },
+    {
+      "epoch": 0.2217997465145754,
+      "grad_norm": 0.8423617289320647,
+      "learning_rate": 9.996464020708734e-06,
+      "loss": 0.7598,
+      "mean_token_accuracy": 0.7996020078659057,
+      "step": 175
+    },
+    {
+      "epoch": 0.22813688212927757,
+      "grad_norm": 0.8057636513151334,
+      "learning_rate": 9.994078623338757e-06,
+      "loss": 0.7566,
+      "mean_token_accuracy": 0.800896917283535,
+      "step": 180
+    },
+    {
+      "epoch": 0.23447401774397972,
+      "grad_norm": 0.8990102449117932,
+      "learning_rate": 9.991082123536902e-06,
+      "loss": 0.7522,
+      "mean_token_accuracy": 0.8013818353414536,
+      "step": 185
+    },
+    {
+      "epoch": 0.24081115335868186,
+      "grad_norm": 0.9698242122380497,
+      "learning_rate": 9.987474887971067e-06,
+      "loss": 0.7463,
+      "mean_token_accuracy": 0.8028701841831207,
+      "step": 190
+    },
+    {
+      "epoch": 0.24714828897338403,
+      "grad_norm": 0.960138107922893,
+      "learning_rate": 9.983257358042076e-06,
+      "loss": 0.7401,
+      "mean_token_accuracy": 0.8041222214698791,
+      "step": 195
+    },
+    {
+      "epoch": 0.2534854245880862,
+      "grad_norm": 0.8305799821436418,
+      "learning_rate": 9.978430049829672e-06,
+      "loss": 0.7601,
+      "mean_token_accuracy": 0.8001280605793,
+      "step": 200
+    },
+    {
+      "epoch": 0.2598225602027883,
+      "grad_norm": 0.7129991697669212,
+      "learning_rate": 9.972993554029357e-06,
+      "loss": 0.7575,
+      "mean_token_accuracy": 0.8003058210015297,
+      "step": 205
+    },
+    {
+      "epoch": 0.2661596958174905,
+      "grad_norm": 0.8819778135317846,
+      "learning_rate": 9.966948535880118e-06,
+      "loss": 0.7444,
+      "mean_token_accuracy": 0.8032929092645645,
+      "step": 210
+    },
+    {
+      "epoch": 0.27249683143219267,
+      "grad_norm": 0.7833769376025013,
+      "learning_rate": 9.960295735083023e-06,
+      "loss": 0.7151,
+      "mean_token_accuracy": 0.8091372177004814,
+      "step": 215
+    },
+    {
+      "epoch": 0.2788339670468948,
+      "grad_norm": 1.2183716099383828,
+      "learning_rate": 9.953035965710707e-06,
+      "loss": 0.7346,
+      "mean_token_accuracy": 0.8045761153101921,
+      "step": 220
+    },
+    {
+      "epoch": 0.28517110266159695,
+      "grad_norm": 0.901875985078722,
+      "learning_rate": 9.945170116107758e-06,
+      "loss": 0.7337,
+      "mean_token_accuracy": 0.805341312289238,
+      "step": 225
+    },
+    {
+      "epoch": 0.2915082382762991,
+      "grad_norm": 0.8010789142797352,
+      "learning_rate": 9.936699148782018e-06,
+      "loss": 0.737,
+      "mean_token_accuracy": 0.8051745280623436,
+      "step": 230
+    },
+    {
+      "epoch": 0.29784537389100124,
+      "grad_norm": 0.7625075089546256,
+      "learning_rate": 9.927624100286795e-06,
+      "loss": 0.7288,
+      "mean_token_accuracy": 0.8064413368701935,
+      "step": 235
+    },
+    {
+      "epoch": 0.3041825095057034,
+      "grad_norm": 0.7665506308733163,
+      "learning_rate": 9.917946081094033e-06,
+      "loss": 0.7001,
+      "mean_token_accuracy": 0.8119662031531334,
+      "step": 240
+    },
+    {
+      "epoch": 0.3105196451204056,
+      "grad_norm": 0.8173005458001997,
+      "learning_rate": 9.907666275458432e-06,
+      "loss": 0.7171,
+      "mean_token_accuracy": 0.8087792381644249,
+      "step": 245
+    },
+    {
+      "epoch": 0.31685678073510776,
+      "grad_norm": 0.7944707699072153,
+      "learning_rate": 9.896785941272524e-06,
+      "loss": 0.7169,
+      "mean_token_accuracy": 0.808886106312275,
+      "step": 250
+    },
+    {
+      "epoch": 0.3231939163498099,
+      "grad_norm": 0.7652270272633694,
+      "learning_rate": 9.885306409912767e-06,
+      "loss": 0.7122,
+      "mean_token_accuracy": 0.8092179223895073,
+      "step": 255
+    },
+    {
+      "epoch": 0.32953105196451205,
+      "grad_norm": 0.8298720811434571,
+      "learning_rate": 9.87322908607661e-06,
+      "loss": 0.7106,
+      "mean_token_accuracy": 0.8099273145198822,
+      "step": 260
+    },
+    {
+      "epoch": 0.3358681875792142,
+      "grad_norm": 0.6635750146125453,
+      "learning_rate": 9.860555447610626e-06,
+      "loss": 0.7205,
+      "mean_token_accuracy": 0.8083759486675263,
+      "step": 265
+    },
+    {
+      "epoch": 0.34220532319391633,
+      "grad_norm": 0.7701167215766528,
+      "learning_rate": 9.847287045329665e-06,
+      "loss": 0.7178,
+      "mean_token_accuracy": 0.8084105476737022,
+      "step": 270
+    },
+    {
+      "epoch": 0.3485424588086185,
+      "grad_norm": 0.8129554147937268,
+      "learning_rate": 9.833425502827087e-06,
+      "loss": 0.7191,
+      "mean_token_accuracy": 0.8078344166278839,
+      "step": 275
+    },
+    {
+      "epoch": 0.3548795944233207,
+      "grad_norm": 0.7153635278024493,
+      "learning_rate": 9.818972516276096e-06,
+      "loss": 0.6973,
+      "mean_token_accuracy": 0.8126269072294235,
+      "step": 280
+    },
+    {
+      "epoch": 0.3612167300380228,
+      "grad_norm": 0.7019835045316667,
+      "learning_rate": 9.803929854222182e-06,
+      "loss": 0.704,
+      "mean_token_accuracy": 0.8114176645874978,
+      "step": 285
+    },
+    {
+      "epoch": 0.36755386565272496,
+      "grad_norm": 0.7615682616292789,
+      "learning_rate": 9.788299357366717e-06,
+      "loss": 0.7089,
+      "mean_token_accuracy": 0.8106587365269661,
+      "step": 290
+    },
+    {
+      "epoch": 0.37389100126742714,
+      "grad_norm": 0.9786947635111585,
+      "learning_rate": 9.772082938341706e-06,
+      "loss": 0.7014,
+      "mean_token_accuracy": 0.8121261984109879,
+      "step": 295
+    },
+    {
+      "epoch": 0.38022813688212925,
+      "grad_norm": 0.8212453521500733,
+      "learning_rate": 9.755282581475769e-06,
+      "loss": 0.7072,
+      "mean_token_accuracy": 0.8106094494462013,
+      "step": 300
+    },
+    {
+      "epoch": 0.3865652724968314,
+      "grad_norm": 0.865055505917381,
+      "learning_rate": 9.7379003425513e-06,
+      "loss": 0.7163,
+      "mean_token_accuracy": 0.8092033118009567,
+      "step": 305
+    },
+    {
+      "epoch": 0.3929024081115336,
+      "grad_norm": 0.6716631342519259,
+      "learning_rate": 9.71993834855293e-06,
+      "loss": 0.7045,
+      "mean_token_accuracy": 0.8109571009874343,
+      "step": 310
+    },
+    {
+      "epoch": 0.39923954372623577,
+      "grad_norm": 0.7649280200479434,
+      "learning_rate": 9.701398797407258e-06,
+      "loss": 0.7044,
+      "mean_token_accuracy": 0.8110996559262276,
+      "step": 315
+    },
+    {
+      "epoch": 0.4055766793409379,
+      "grad_norm": 0.732205588585856,
+      "learning_rate": 9.68228395771388e-06,
+      "loss": 0.6906,
+      "mean_token_accuracy": 0.8138323068618775,
+      "step": 320
+    },
+    {
+      "epoch": 0.41191381495564006,
+      "grad_norm": 0.8349157198044287,
+      "learning_rate": 9.662596168467823e-06,
+      "loss": 0.6963,
+      "mean_token_accuracy": 0.8128764078021049,
+      "step": 325
+    },
+    {
+      "epoch": 0.41825095057034223,
+      "grad_norm": 0.7284163977404773,
+      "learning_rate": 9.6423378387733e-06,
+      "loss": 0.6926,
+      "mean_token_accuracy": 0.8138028383255005,
+      "step": 330
+    },
+    {
+      "epoch": 0.42458808618504434,
+      "grad_norm": 0.6903566919121088,
+      "learning_rate": 9.621511447548946e-06,
+      "loss": 0.6992,
+      "mean_token_accuracy": 0.8125665381550788,
+      "step": 335
+    },
+    {
+      "epoch": 0.4309252217997465,
+      "grad_norm": 0.7031778472809708,
+      "learning_rate": 9.600119543224467e-06,
+      "loss": 0.6935,
+      "mean_token_accuracy": 0.8134042397141457,
+      "step": 340
+    },
+    {
+      "epoch": 0.4372623574144487,
+      "grad_norm": 0.8781454719155253,
+      "learning_rate": 9.578164743428808e-06,
+      "loss": 0.6938,
+      "mean_token_accuracy": 0.8132070809602737,
+      "step": 345
+    },
+    {
+      "epoch": 0.4435994930291508,
+      "grad_norm": 0.8306105321262149,
+      "learning_rate": 9.55564973466984e-06,
+      "loss": 0.6928,
+      "mean_token_accuracy": 0.8133361831307411,
+      "step": 350
+    },
+    {
+      "epoch": 0.449936628643853,
+      "grad_norm": 0.7046997598602632,
+      "learning_rate": 9.532577272005637e-06,
+      "loss": 0.679,
+      "mean_token_accuracy": 0.8159057974815369,
+      "step": 355
+    },
+    {
+      "epoch": 0.45627376425855515,
+      "grad_norm": 0.889929783644245,
+      "learning_rate": 9.508950178707335e-06,
+      "loss": 0.6872,
+      "mean_token_accuracy": 0.8148621737957,
+      "step": 360
+    },
+    {
+      "epoch": 0.46261089987325726,
+      "grad_norm": 0.9776823189593525,
+      "learning_rate": 9.484771345913673e-06,
+      "loss": 0.6902,
+      "mean_token_accuracy": 0.8141683742403985,
+      "step": 365
+    },
+    {
+      "epoch": 0.46894803548795944,
+      "grad_norm": 0.7706175050493524,
+      "learning_rate": 9.460043732277213e-06,
+      "loss": 0.6908,
+      "mean_token_accuracy": 0.8145220652222633,
+      "step": 370
+    },
+    {
+      "epoch": 0.4752851711026616,
+      "grad_norm": 0.6524214668295174,
+      "learning_rate": 9.434770363602307e-06,
+      "loss": 0.6983,
+      "mean_token_accuracy": 0.8123016864061355,
+      "step": 375
+    },
+    {
+      "epoch": 0.4816223067173637,
+      "grad_norm": 0.717843515473759,
+      "learning_rate": 9.408954332474845e-06,
+      "loss": 0.6677,
+      "mean_token_accuracy": 0.8185531318187713,
+      "step": 380
+    },
+    {
+      "epoch": 0.4879594423320659,
+      "grad_norm": 0.7618453217486776,
+      "learning_rate": 9.382598797883811e-06,
+      "loss": 0.6795,
+      "mean_token_accuracy": 0.8164624303579331,
+      "step": 385
+    },
+    {
+      "epoch": 0.49429657794676807,
+      "grad_norm": 0.7324610745032628,
+      "learning_rate": 9.355706984834765e-06,
+      "loss": 0.6836,
+      "mean_token_accuracy": 0.8149291038513183,
+      "step": 390
+    },
+    {
+      "epoch": 0.5006337135614702,
+      "grad_norm": 0.6779242960146721,
+      "learning_rate": 9.328282183955179e-06,
+      "loss": 0.6884,
+      "mean_token_accuracy": 0.8146958678960801,
+      "step": 395
+    },
+    {
+      "epoch": 0.5069708491761724,
+      "grad_norm": 0.827105664596769,
+      "learning_rate": 9.300327751091806e-06,
+      "loss": 0.6873,
+      "mean_token_accuracy": 0.814927139878273,
+      "step": 400
+    },
+    {
+      "epoch": 0.5133079847908745,
+      "grad_norm": 0.6798030291558349,
+      "learning_rate": 9.271847106900022e-06,
+      "loss": 0.6659,
+      "mean_token_accuracy": 0.8187542855739594,
+      "step": 405
+    },
+    {
+      "epoch": 0.5196451204055766,
+      "grad_norm": 0.6549281773308409,
+      "learning_rate": 9.242843736425269e-06,
+      "loss": 0.6749,
+      "mean_token_accuracy": 0.8172334164381028,
+      "step": 410
+    },
+    {
+      "epoch": 0.5259822560202788,
+      "grad_norm": 0.702757870059226,
+      "learning_rate": 9.213321188676595e-06,
+      "loss": 0.6799,
+      "mean_token_accuracy": 0.8162769109010697,
+      "step": 415
+    },
+    {
+      "epoch": 0.532319391634981,
+      "grad_norm": 0.663720096138884,
+      "learning_rate": 9.183283076192386e-06,
+      "loss": 0.6688,
+      "mean_token_accuracy": 0.8184930950403213,
+      "step": 420
+    },
+    {
+      "epoch": 0.5386565272496832,
+      "grad_norm": 0.6874302061015839,
+      "learning_rate": 9.152733074598312e-06,
+      "loss": 0.6742,
+      "mean_token_accuracy": 0.8174020066857338,
+      "step": 425
+    },
+    {
+      "epoch": 0.5449936628643853,
+      "grad_norm": 0.7315428759079102,
+      "learning_rate": 9.121674922157558e-06,
+      "loss": 0.6738,
+      "mean_token_accuracy": 0.817636775970459,
+      "step": 430
+    },
+    {
+      "epoch": 0.5513307984790875,
+      "grad_norm": 0.786643495084509,
+      "learning_rate": 9.090112419313395e-06,
+      "loss": 0.6736,
+      "mean_token_accuracy": 0.817160977423191,
+      "step": 435
+    },
+    {
+      "epoch": 0.5576679340937896,
+      "grad_norm": 0.6591137928729695,
+      "learning_rate": 9.058049428224128e-06,
+      "loss": 0.6617,
+      "mean_token_accuracy": 0.8197388723492622,
+      "step": 440
+    },
+    {
+      "epoch": 0.5640050697084917,
+      "grad_norm": 0.7812371618484959,
+      "learning_rate": 9.025489872290511e-06,
+      "loss": 0.6634,
+      "mean_token_accuracy": 0.8193035304546357,
+      "step": 445
+    },
+    {
+      "epoch": 0.5703422053231939,
+      "grad_norm": 0.6845961589145344,
+      "learning_rate": 8.99243773567565e-06,
+      "loss": 0.6834,
+      "mean_token_accuracy": 0.8159178540110588,
+      "step": 450
+    },
+    {
+      "epoch": 0.5766793409378961,
+      "grad_norm": 0.6657472122738636,
+      "learning_rate": 8.958897062817491e-06,
+      "loss": 0.6892,
+      "mean_token_accuracy": 0.8144657433032989,
+      "step": 455
+    },
+    {
+      "epoch": 0.5830164765525983,
+      "grad_norm": 0.6161660996953076,
+      "learning_rate": 8.924871957933904e-06,
+      "loss": 0.6746,
+      "mean_token_accuracy": 0.8171708762645722,
+      "step": 460
+    },
+    {
+      "epoch": 0.5893536121673004,
+      "grad_norm": 0.702287591616562,
+      "learning_rate": 8.890366584520482e-06,
+      "loss": 0.6696,
+      "mean_token_accuracy": 0.8184025406837463,
+      "step": 465
+    },
+    {
+      "epoch": 0.5956907477820025,
+      "grad_norm": 0.6857028656369465,
+      "learning_rate": 8.855385164841072e-06,
+      "loss": 0.6758,
+      "mean_token_accuracy": 0.8170812010765076,
+      "step": 470
+    },
+    {
+      "epoch": 0.6020278833967047,
+      "grad_norm": 0.6231296442226781,
+      "learning_rate": 8.819931979411107e-06,
+      "loss": 0.6734,
+      "mean_token_accuracy": 0.81716128885746,
+      "step": 475
+    },
+    {
+      "epoch": 0.6083650190114068,
+      "grad_norm": 0.6948180768376443,
+      "learning_rate": 8.78401136647383e-06,
+      "loss": 0.654,
+      "mean_token_accuracy": 0.8216980487108231,
+      "step": 480
+    },
+    {
+      "epoch": 0.614702154626109,
+      "grad_norm": 0.6911375954678098,
+      "learning_rate": 8.747627721469437e-06,
+      "loss": 0.6635,
+      "mean_token_accuracy": 0.8201975762844086,
+      "step": 485
+    },
+    {
+      "epoch": 0.6210392902408112,
+      "grad_norm": 0.7213580744708442,
+      "learning_rate": 8.710785496497226e-06,
+      "loss": 0.6651,
+      "mean_token_accuracy": 0.8194010749459266,
+      "step": 490
+    },
+    {
+      "epoch": 0.6273764258555133,
+      "grad_norm": 0.6543956981962712,
+      "learning_rate": 8.673489199770819e-06,
+      "loss": 0.6607,
+      "mean_token_accuracy": 0.8201611772179603,
+      "step": 495
+    },
+    {
+      "epoch": 0.6337135614702155,
+      "grad_norm": 0.7036498788596002,
+      "learning_rate": 8.635743395066511e-06,
+      "loss": 0.651,
+      "mean_token_accuracy": 0.8222277790307999,
+      "step": 500
+    },
+    {
+      "epoch": 0.6400506970849176,
+      "grad_norm": 0.6168799535449692,
+      "learning_rate": 8.597552701164818e-06,
+      "loss": 0.6592,
+      "mean_token_accuracy": 0.8199419066309929,
+      "step": 505
+    },
+    {
+      "epoch": 0.6463878326996197,
+      "grad_norm": 0.697481072279894,
+      "learning_rate": 8.558921791285304e-06,
+      "loss": 0.6513,
+      "mean_token_accuracy": 0.8216616123914718,
+      "step": 510
+    },
+    {
+      "epoch": 0.6527249683143219,
+      "grad_norm": 0.7978637983888536,
+      "learning_rate": 8.519855392514734e-06,
+      "loss": 0.6469,
+      "mean_token_accuracy": 0.8225123390555382,
+      "step": 515
+    },
+    {
+      "epoch": 0.6590621039290241,
+      "grad_norm": 0.709080907162204,
+      "learning_rate": 8.480358285228648e-06,
+      "loss": 0.6656,
+      "mean_token_accuracy": 0.8191539570689201,
+      "step": 520
+    },
+    {
+      "epoch": 0.6653992395437263,
+      "grad_norm": 0.7897211062263881,
+      "learning_rate": 8.440435302506405e-06,
+      "loss": 0.6412,
+      "mean_token_accuracy": 0.8238195776939392,
+      "step": 525
+    },
+    {
+      "epoch": 0.6717363751584284,
+      "grad_norm": 0.6661911891034582,
+      "learning_rate": 8.400091329539784e-06,
+      "loss": 0.6611,
+      "mean_token_accuracy": 0.8201816022396088,
+      "step": 530
+    },
+    {
+      "epoch": 0.6780735107731305,
+      "grad_norm": 0.6195761512766995,
+      "learning_rate": 8.359331303035205e-06,
+      "loss": 0.6593,
+      "mean_token_accuracy": 0.8203893005847931,
+      "step": 535
+    },
+    {
+      "epoch": 0.6844106463878327,
+      "grad_norm": 0.6310438648482855,
+      "learning_rate": 8.31816021060964e-06,
+      "loss": 0.6634,
+      "mean_token_accuracy": 0.8192948743700981,
+      "step": 540
+    },
+    {
+      "epoch": 0.6907477820025348,
+      "grad_norm": 0.6512895144306936,
+      "learning_rate": 8.276583090180311e-06,
+      "loss": 0.6666,
+      "mean_token_accuracy": 0.8186753287911415,
+      "step": 545
+    },
+    {
+      "epoch": 0.697084917617237,
+      "grad_norm": 0.6124105415248355,
+      "learning_rate": 8.234605029348224e-06,
+      "loss": 0.6511,
+      "mean_token_accuracy": 0.8219994261860848,
+      "step": 550
+    },
+    {
+      "epoch": 0.7034220532319392,
+      "grad_norm": 0.6601442192692848,
+      "learning_rate": 8.192231164775609e-06,
+      "loss": 0.6391,
+      "mean_token_accuracy": 0.8252027094364166,
+      "step": 555
+    },
+    {
+      "epoch": 0.7097591888466414,
+      "grad_norm": 0.7028934088221325,
+      "learning_rate": 8.149466681557384e-06,
+      "loss": 0.6558,
+      "mean_token_accuracy": 0.8209778189659118,
+      "step": 560
+    },
+    {
+      "epoch": 0.7160963244613435,
+      "grad_norm": 0.7857750596740971,
+      "learning_rate": 8.106316812586676e-06,
+      "loss": 0.6486,
+      "mean_token_accuracy": 0.8220974311232567,
+      "step": 565
+    },
+    {
+      "epoch": 0.7224334600760456,
+      "grad_norm": 0.8961234969300941,
+      "learning_rate": 8.062786837914492e-06,
+      "loss": 0.6386,
+      "mean_token_accuracy": 0.824979268014431,
+      "step": 570
+    },
+    {
+      "epoch": 0.7287705956907478,
+      "grad_norm": 0.686280664966789,
+      "learning_rate": 8.01888208410362e-06,
+      "loss": 0.6622,
+      "mean_token_accuracy": 0.8198226556181908,
+      "step": 575
+    },
+    {
+      "epoch": 0.7351077313054499,
+      "grad_norm": 0.8344864616701414,
+      "learning_rate": 7.974607923576859e-06,
+      "loss": 0.6537,
+      "mean_token_accuracy": 0.821578212082386,
+      "step": 580
+    },
+    {
+      "epoch": 0.7414448669201521,
+      "grad_norm": 0.9938826585970929,
+      "learning_rate": 7.9299697739596e-06,
+      "loss": 0.6544,
+      "mean_token_accuracy": 0.8208117336034775,
+      "step": 585
+    },
+    {
+      "epoch": 0.7477820025348543,
+      "grad_norm": 0.6249233717628465,
+      "learning_rate": 7.884973097416908e-06,
+      "loss": 0.6591,
+      "mean_token_accuracy": 0.8208227157592773,
+      "step": 590
+    },
+    {
+      "epoch": 0.7541191381495564,
+      "grad_norm": 0.6761543444596165,
+      "learning_rate": 7.83962339998514e-06,
+      "loss": 0.6439,
+      "mean_token_accuracy": 0.8236203759908676,
+      "step": 595
+    },
+    {
+      "epoch": 0.7604562737642585,
+      "grad_norm": 0.8850862666109794,
+      "learning_rate": 7.793926230898187e-06,
+      "loss": 0.6418,
+      "mean_token_accuracy": 0.8238036289811135,
+      "step": 600
+    },
+    {
+      "epoch": 0.7667934093789607,
+      "grad_norm": 0.6931013119334469,
+      "learning_rate": 7.747887181908464e-06,
+      "loss": 0.6513,
+      "mean_token_accuracy": 0.8221172288060188,
+      "step": 605
+    },
+    {
+      "epoch": 0.7731305449936628,
+      "grad_norm": 0.9142852384539434,
+      "learning_rate": 7.701511886602643e-06,
+      "loss": 0.6522,
+      "mean_token_accuracy": 0.8214233443140984,
+      "step": 610
+    },
+    {
+      "epoch": 0.779467680608365,
+      "grad_norm": 0.693942629552867,
+      "learning_rate": 7.65480601971232e-06,
+      "loss": 0.6555,
+      "mean_token_accuracy": 0.8214162334799766,
+      "step": 615
+    },
+    {
+      "epoch": 0.7858048162230672,
+      "grad_norm": 0.7185534733688809,
+      "learning_rate": 7.6077752964196095e-06,
+      "loss": 0.6514,
+      "mean_token_accuracy": 0.821819719672203,
+      "step": 620
+    },
+    {
+      "epoch": 0.7921419518377694,
+      "grad_norm": 0.7933553753697458,
+      "learning_rate": 7.560425471657814e-06,
+      "loss": 0.6507,
+      "mean_token_accuracy": 0.8215969070792198,
+      "step": 625
+    },
+    {
+      "epoch": 0.7984790874524715,
+      "grad_norm": 0.9942445013974323,
+      "learning_rate": 7.512762339407214e-06,
+      "loss": 0.6426,
+      "mean_token_accuracy": 0.8233709827065467,
+      "step": 630
+    },
+    {
+      "epoch": 0.8048162230671736,
+      "grad_norm": 0.7111122316238967,
+      "learning_rate": 7.464791731986084e-06,
+      "loss": 0.6446,
+      "mean_token_accuracy": 0.8233424022793769,
+      "step": 635
+    },
+    {
+      "epoch": 0.8111533586818758,
+      "grad_norm": 0.6760326829400325,
+      "learning_rate": 7.4165195193370245e-06,
+      "loss": 0.6411,
+      "mean_token_accuracy": 0.8234749510884285,
+      "step": 640
+    },
+    {
+      "epoch": 0.8174904942965779,
+      "grad_norm": 0.7157859491675397,
+      "learning_rate": 7.3679516083086785e-06,
+      "loss": 0.6403,
+      "mean_token_accuracy": 0.8245514526963234,
+      "step": 645
+    },
+    {
+      "epoch": 0.8238276299112801,
+      "grad_norm": 0.6125130117848593,
+      "learning_rate": 7.319093941932941e-06,
+      "loss": 0.648,
+      "mean_token_accuracy": 0.8229272648692131,
+      "step": 650
+    },
+    {
+      "epoch": 0.8301647655259823,
+      "grad_norm": 0.6193392226038144,
+      "learning_rate": 7.269952498697734e-06,
+      "loss": 0.6568,
+      "mean_token_accuracy": 0.8208993718028068,
+      "step": 655
+    },
+    {
+      "epoch": 0.8365019011406845,
+      "grad_norm": 0.5569382668639404,
+      "learning_rate": 7.2205332918154525e-06,
+      "loss": 0.6471,
+      "mean_token_accuracy": 0.8230623930692673,
+      "step": 660
+    },
+    {
+      "epoch": 0.8428390367553865,
+      "grad_norm": 0.6854397276184668,
+      "learning_rate": 7.170842368487145e-06,
+      "loss": 0.6394,
+      "mean_token_accuracy": 0.8240847915410996,
+      "step": 665
+    },
+    {
+      "epoch": 0.8491761723700887,
+      "grad_norm": 0.7247430930413721,
+      "learning_rate": 7.120885809162561e-06,
+      "loss": 0.6496,
+      "mean_token_accuracy": 0.8226393803954124,
+      "step": 670
+    },
+    {
+      "epoch": 0.8555133079847909,
+      "grad_norm": 0.5833185802048395,
+      "learning_rate": 7.070669726796095e-06,
+      "loss": 0.644,
+      "mean_token_accuracy": 0.8238432243466377,
+      "step": 675
+    },
+    {
+      "epoch": 0.861850443599493,
+      "grad_norm": 0.6587621871435737,
+      "learning_rate": 7.020200266098791e-06,
+      "loss": 0.6367,
+      "mean_token_accuracy": 0.8251640364527703,
+      "step": 680
+    },
+    {
+      "epoch": 0.8681875792141952,
+      "grad_norm": 0.9240470458812879,
+      "learning_rate": 6.969483602786429e-06,
+      "loss": 0.6335,
+      "mean_token_accuracy": 0.8250990778207778,
+      "step": 685
+    },
+    {
+      "epoch": 0.8745247148288974,
+      "grad_norm": 0.6647921620988979,
+      "learning_rate": 6.918525942823836e-06,
+      "loss": 0.6358,
+      "mean_token_accuracy": 0.8253032699227333,
+      "step": 690
+    },
+    {
+      "epoch": 0.8808618504435995,
+      "grad_norm": 0.7460235517208977,
+      "learning_rate": 6.8673335216654945e-06,
+      "loss": 0.6364,
+      "mean_token_accuracy": 0.8251613467931748,
+      "step": 695
+    },
+    {
+      "epoch": 0.8871989860583016,
+      "grad_norm": 0.5692165964237054,
+      "learning_rate": 6.815912603492531e-06,
+      "loss": 0.63,
+      "mean_token_accuracy": 0.8269012838602066,
+      "step": 700
+    },
+    {
+      "epoch": 0.8935361216730038,
+      "grad_norm": 0.7678044598257266,
+      "learning_rate": 6.7642694804462026e-06,
+      "loss": 0.641,
+      "mean_token_accuracy": 0.8240568235516548,
+      "step": 705
+    },
+    {
+      "epoch": 0.899873257287706,
+      "grad_norm": 0.6476587911488177,
+      "learning_rate": 6.712410471857955e-06,
+      "loss": 0.6389,
+      "mean_token_accuracy": 0.8243090897798538,
+      "step": 710
+    },
+    {
+      "epoch": 0.9062103929024081,
+      "grad_norm": 0.6996232991940935,
+      "learning_rate": 6.660341923476152e-06,
+      "loss": 0.6309,
+      "mean_token_accuracy": 0.8264057099819183,
+      "step": 715
+    },
+    {
+      "epoch": 0.9125475285171103,
+      "grad_norm": 0.6140056059724183,
+      "learning_rate": 6.608070206689583e-06,
+      "loss": 0.6284,
+      "mean_token_accuracy": 0.826878672838211,
+      "step": 720
+    },
+    {
+      "epoch": 0.9188846641318125,
+      "grad_norm": 0.5994244215051143,
+      "learning_rate": 6.555601717747815e-06,
+      "loss": 0.6469,
+      "mean_token_accuracy": 0.8231760680675506,
+      "step": 725
+    },
+    {
+      "epoch": 0.9252217997465145,
+      "grad_norm": 0.671715865180922,
+      "learning_rate": 6.502942876978524e-06,
+      "loss": 0.626,
+      "mean_token_accuracy": 0.8275385439395905,
+      "step": 730
+    },
+    {
+      "epoch": 0.9315589353612167,
+      "grad_norm": 0.6964725986892187,
+      "learning_rate": 6.450100128001861e-06,
+      "loss": 0.615,
+      "mean_token_accuracy": 0.8296460658311844,
+      "step": 735
+    },
+    {
+      "epoch": 0.9378960709759189,
+      "grad_norm": 0.6643867039068622,
+      "learning_rate": 6.397079936941975e-06,
+      "loss": 0.6425,
+      "mean_token_accuracy": 0.823666226863861,
+      "step": 740
+    },
+    {
+      "epoch": 0.944233206590621,
+      "grad_norm": 0.612108400302355,
+      "learning_rate": 6.343888791635797e-06,
+      "loss": 0.6222,
+      "mean_token_accuracy": 0.8274678066372871,
+      "step": 745
+    },
+    {
+      "epoch": 0.9505703422053232,
+      "grad_norm": 0.5888135214791528,
+      "learning_rate": 6.2905332008391304e-06,
+      "loss": 0.6457,
+      "mean_token_accuracy": 0.8232318565249443,
+      "step": 750
+    },
+    {
+      "epoch": 0.9569074778200254,
+      "grad_norm": 0.6023978340437303,
+      "learning_rate": 6.237019693430227e-06,
+      "loss": 0.6244,
+      "mean_token_accuracy": 0.8275379940867424,
+      "step": 755
+    },
+    {
+      "epoch": 0.9632446134347274,
+      "grad_norm": 0.5860893552553069,
+      "learning_rate": 6.18335481761086e-06,
+      "loss": 0.6258,
+      "mean_token_accuracy": 0.8275753378868103,
+      "step": 760
+    },
+    {
+      "epoch": 0.9695817490494296,
+      "grad_norm": 0.6183329734308459,
+      "learning_rate": 6.1295451401050645e-06,
+      "loss": 0.6487,
+      "mean_token_accuracy": 0.8231626331806183,
+      "step": 765
+    },
+    {
+      "epoch": 0.9759188846641318,
+      "grad_norm": 0.6472859730529533,
+      "learning_rate": 6.075597245355589e-06,
+      "loss": 0.6367,
+      "mean_token_accuracy": 0.8252906337380409,
+      "step": 770
+    },
+    {
+      "epoch": 0.982256020278834,
+      "grad_norm": 0.7048827333728572,
+      "learning_rate": 6.021517734718193e-06,
+      "loss": 0.6331,
+      "mean_token_accuracy": 0.8252324685454369,
+      "step": 775
+    },
+    {
+      "epoch": 0.9885931558935361,
+      "grad_norm": 0.670917489168749,
+      "learning_rate": 5.967313225653863e-06,
+      "loss": 0.6311,
+      "mean_token_accuracy": 0.8262254923582077,
+      "step": 780
+    },
+    {
+      "epoch": 0.9949302915082383,
+      "grad_norm": 0.6294039276801214,
+      "learning_rate": 5.912990350919075e-06,
+      "loss": 0.6366,
+      "mean_token_accuracy": 0.8250793889164925,
+      "step": 785
+    },
+    {
+      "epoch": 1.0012674271229405,
+      "grad_norm": 0.5750660780176277,
+      "learning_rate": 5.85855575775416e-06,
+      "loss": 0.6356,
+      "mean_token_accuracy": 0.8255759388208389,
+      "step": 790
+    },
+    {
+      "epoch": 1.0076045627376427,
+      "grad_norm": 0.5873083803261483,
+      "learning_rate": 5.804016107069922e-06,
+      "loss": 0.5899,
+      "mean_token_accuracy": 0.8365576922893524,
+      "step": 795
+    },
+    {
+      "epoch": 1.0139416983523448,
+      "grad_norm": 0.7245732012982048,
+      "learning_rate": 5.749378072632572e-06,
+      "loss": 0.5924,
+      "mean_token_accuracy": 0.8353384211659431,
+      "step": 800
+    },
+    {
+      "epoch": 1.020278833967047,
+      "grad_norm": 0.5625102045050165,
+      "learning_rate": 5.694648340247087e-06,
+      "loss": 0.5855,
+      "mean_token_accuracy": 0.8365451633930207,
+      "step": 805
+    },
+    {
+      "epoch": 1.026615969581749,
+      "grad_norm": 0.5811796962078384,
+      "learning_rate": 5.639833606939103e-06,
+      "loss": 0.5835,
+      "mean_token_accuracy": 0.8374374285340309,
+      "step": 810
+    },
+    {
+      "epoch": 1.0329531051964511,
+      "grad_norm": 0.6064815307080854,
+      "learning_rate": 5.584940580135423e-06,
+      "loss": 0.5918,
+      "mean_token_accuracy": 0.835510890185833,
+      "step": 815
+    },
+    {
+      "epoch": 1.0392902408111533,
+      "grad_norm": 0.5469353793310435,
+      "learning_rate": 5.529975976843268e-06,
+      "loss": 0.5765,
+      "mean_token_accuracy": 0.839336322247982,
+      "step": 820
+    },
+    {
+      "epoch": 1.0456273764258555,
+      "grad_norm": 0.591194718615289,
+      "learning_rate": 5.474946522828344e-06,
+      "loss": 0.571,
+      "mean_token_accuracy": 0.8397138401865959,
+      "step": 825
+    },
+    {
+      "epoch": 1.0519645120405576,
+      "grad_norm": 0.6529351075330402,
+      "learning_rate": 5.419858951791842e-06,
+      "loss": 0.587,
+      "mean_token_accuracy": 0.8367372244596482,
+      "step": 830
+    },
+    {
+      "epoch": 1.0583016476552598,
+      "grad_norm": 0.5750159656566077,
+      "learning_rate": 5.364720004546467e-06,
+      "loss": 0.5713,
+      "mean_token_accuracy": 0.8396085217595101,
+      "step": 835
+    },
+    {
+      "epoch": 1.064638783269962,
+      "grad_norm": 0.5356356446036812,
+      "learning_rate": 5.3095364281915905e-06,
+      "loss": 0.5743,
+      "mean_token_accuracy": 0.8390779420733452,
+      "step": 840
+    },
+    {
+      "epoch": 1.0709759188846641,
+      "grad_norm": 0.5657627605570825,
+      "learning_rate": 5.254314975287649e-06,
+      "loss": 0.5768,
+      "mean_token_accuracy": 0.8388962477445603,
+      "step": 845
+    },
+    {
+      "epoch": 1.0773130544993663,
+      "grad_norm": 0.5994046834255601,
+      "learning_rate": 5.199062403029851e-06,
+      "loss": 0.5779,
+      "mean_token_accuracy": 0.838576190173626,
+      "step": 850
+    },
+    {
+      "epoch": 1.0836501901140685,
+      "grad_norm": 0.5512378922303693,
+      "learning_rate": 5.143785472421341e-06,
+      "loss": 0.5736,
+      "mean_token_accuracy": 0.8392498835921287,
+      "step": 855
+    },
+    {
+      "epoch": 1.0899873257287707,
+      "grad_norm": 0.6231063067990558,
+      "learning_rate": 5.088490947445884e-06,
+      "loss": 0.5787,
+      "mean_token_accuracy": 0.8382582783699035,
+      "step": 860
+    },
+    {
+      "epoch": 1.0963244613434728,
+      "grad_norm": 0.6258759211004005,
+      "learning_rate": 5.033185594240184e-06,
+      "loss": 0.5867,
+      "mean_token_accuracy": 0.8368578165769577,
+      "step": 865
+    },
+    {
+      "epoch": 1.102661596958175,
+      "grad_norm": 0.5758426513877979,
+      "learning_rate": 4.977876180265948e-06,
+      "loss": 0.5781,
+      "mean_token_accuracy": 0.8380098447203637,
+      "step": 870
+    },
+    {
+      "epoch": 1.1089987325728772,
+      "grad_norm": 0.5362099307940532,
+      "learning_rate": 4.922569473481779e-06,
+      "loss": 0.579,
+      "mean_token_accuracy": 0.8374864637851716,
+      "step": 875
+    },
+    {
+      "epoch": 1.1153358681875791,
+      "grad_norm": 0.6117359275633708,
+      "learning_rate": 4.867272241515013e-06,
+      "loss": 0.5745,
+      "mean_token_accuracy": 0.8394086301326752,
+      "step": 880
+    },
+    {
+      "epoch": 1.1216730038022813,
+      "grad_norm": 0.6163525031585341,
+      "learning_rate": 4.811991250833598e-06,
+      "loss": 0.575,
+      "mean_token_accuracy": 0.8387202203273774,
+      "step": 885
+    },
+    {
+      "epoch": 1.1280101394169835,
+      "grad_norm": 0.5344005108748248,
+      "learning_rate": 4.756733265918111e-06,
+      "loss": 0.5805,
+      "mean_token_accuracy": 0.8385160818696022,
+      "step": 890
+    },
+    {
+      "epoch": 1.1343472750316856,
+      "grad_norm": 0.5606427842219186,
+      "learning_rate": 4.701505048434017e-06,
+      "loss": 0.58,
+      "mean_token_accuracy": 0.837983712553978,
+      "step": 895
+    },
+    {
+      "epoch": 1.1406844106463878,
+      "grad_norm": 0.5635525365545201,
+      "learning_rate": 4.646313356404278e-06,
+      "loss": 0.5721,
+      "mean_token_accuracy": 0.8402201250195503,
+      "step": 900
+    },
+    {
+      "epoch": 1.14702154626109,
+      "grad_norm": 0.5279253266696204,
+      "learning_rate": 4.5911649433824055e-06,
+      "loss": 0.5722,
+      "mean_token_accuracy": 0.8398120388388634,
+      "step": 905
+    },
+    {
+      "epoch": 1.1533586818757922,
+      "grad_norm": 0.5355638715895371,
+      "learning_rate": 4.536066557626057e-06,
+      "loss": 0.5717,
+      "mean_token_accuracy": 0.8396236389875412,
+      "step": 910
+    },
+    {
+      "epoch": 1.1596958174904943,
+      "grad_norm": 0.5298050755566127,
+      "learning_rate": 4.481024941271283e-06,
+      "loss": 0.5825,
+      "mean_token_accuracy": 0.837471354007721,
+      "step": 915
+    },
+    {
+      "epoch": 1.1660329531051965,
+      "grad_norm": 0.6099091835516977,
+      "learning_rate": 4.426046829507525e-06,
+      "loss": 0.5739,
+      "mean_token_accuracy": 0.8395572647452354,
+      "step": 920
+    },
+    {
+      "epoch": 1.1723700887198987,
+      "grad_norm": 0.5282685583180019,
+      "learning_rate": 4.371138949753457e-06,
+      "loss": 0.5758,
+      "mean_token_accuracy": 0.8386889979243278,
+      "step": 925
+    },
+    {
+      "epoch": 1.1787072243346008,
+      "grad_norm": 0.5498053929758666,
+      "learning_rate": 4.316308020833788e-06,
+      "loss": 0.5717,
+      "mean_token_accuracy": 0.8401581376791001,
+      "step": 930
+    },
+    {
+      "epoch": 1.1850443599493028,
+      "grad_norm": 0.545684866299052,
+      "learning_rate": 4.261560752157106e-06,
+      "loss": 0.5821,
+      "mean_token_accuracy": 0.8375889748334885,
+      "step": 935
+    },
+    {
+      "epoch": 1.1913814955640052,
+      "grad_norm": 0.5275676276739754,
+      "learning_rate": 4.20690384289488e-06,
+      "loss": 0.5865,
+      "mean_token_accuracy": 0.8369634434580803,
+      "step": 940
+    },
+    {
+      "epoch": 1.1977186311787071,
+      "grad_norm": 0.5147709084468725,
+      "learning_rate": 4.152343981161713e-06,
+      "loss": 0.5735,
+      "mean_token_accuracy": 0.8388126537203788,
+      "step": 945
+    },
+    {
+      "epoch": 1.2040557667934093,
+      "grad_norm": 0.5553445767071536,
+      "learning_rate": 4.097887843196949e-06,
+      "loss": 0.5706,
+      "mean_token_accuracy": 0.8400391504168511,
+      "step": 950
+    },
+    {
+      "epoch": 1.2103929024081115,
+      "grad_norm": 0.5755093000837989,
+      "learning_rate": 4.043542092547729e-06,
+      "loss": 0.5738,
+      "mean_token_accuracy": 0.8393745362758637,
+      "step": 955
+    },
+    {
+      "epoch": 1.2167300380228137,
+      "grad_norm": 0.5323369182306833,
+      "learning_rate": 3.989313379253609e-06,
+      "loss": 0.5707,
+      "mean_token_accuracy": 0.8395906254649163,
+      "step": 960
+    },
+    {
+      "epoch": 1.2230671736375158,
+      "grad_norm": 0.5398923057065517,
+      "learning_rate": 3.935208339032819e-06,
+      "loss": 0.5773,
+      "mean_token_accuracy": 0.8380544230341911,
+      "step": 965
+    },
+    {
+      "epoch": 1.229404309252218,
+      "grad_norm": 0.5138506118324425,
+      "learning_rate": 3.881233592470287e-06,
+      "loss": 0.5697,
+      "mean_token_accuracy": 0.8401115134358406,
+      "step": 970
+    },
+    {
+      "epoch": 1.2357414448669202,
+      "grad_norm": 0.531254594806762,
+      "learning_rate": 3.827395744207504e-06,
+      "loss": 0.5802,
+      "mean_token_accuracy": 0.8385789826512337,
+      "step": 975
+    },
+    {
+      "epoch": 1.2420785804816223,
+      "grad_norm": 0.5209427066358759,
+      "learning_rate": 3.773701382134345e-06,
+      "loss": 0.5788,
+      "mean_token_accuracy": 0.8383644595742226,
+      "step": 980
+    },
+    {
+      "epoch": 1.2484157160963245,
+      "grad_norm": 0.4981386065382922,
+      "learning_rate": 3.7201570765829405e-06,
+      "loss": 0.5803,
+      "mean_token_accuracy": 0.8378679618239403,
+      "step": 985
+    },
+    {
+      "epoch": 1.2547528517110267,
+      "grad_norm": 0.5310216835837045,
+      "learning_rate": 3.666769379523695e-06,
+      "loss": 0.5816,
+      "mean_token_accuracy": 0.8382963240146637,
+      "step": 990
+    },
+    {
+      "epoch": 1.2610899873257289,
+      "grad_norm": 0.5302964748937399,
+      "learning_rate": 3.6135448237635505e-06,
+      "loss": 0.568,
+      "mean_token_accuracy": 0.8408621445298194,
+      "step": 995
+    },
+    {
+      "epoch": 1.2674271229404308,
+      "grad_norm": 0.6043312455865852,
+      "learning_rate": 3.5604899221466003e-06,
+      "loss": 0.5797,
+      "mean_token_accuracy": 0.837955892086029,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2737642585551332,
+      "grad_norm": 0.5404711838738012,
+      "learning_rate": 3.507611166757141e-06,
+      "loss": 0.577,
+      "mean_token_accuracy": 0.8382121488451958,
+      "step": 1005
+    },
+    {
+      "epoch": 1.2801013941698351,
+      "grad_norm": 0.5313905403777647,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.5759,
+      "mean_token_accuracy": 0.8386555135250091,
+      "step": 1010
+    },
+    {
+      "epoch": 1.2864385297845373,
+      "grad_norm": 0.5312545340451698,
+      "learning_rate": 3.4024079544350874e-06,
+      "loss": 0.5766,
+      "mean_token_accuracy": 0.8384982272982597,
+      "step": 1015
+    },
+    {
+      "epoch": 1.2927756653992395,
+      "grad_norm": 0.574010488002488,
+      "learning_rate": 3.3500963707357236e-06,
+      "loss": 0.5817,
+      "mean_token_accuracy": 0.838199020922184,
+      "step": 1020
+    },
+    {
+      "epoch": 1.2991128010139417,
+      "grad_norm": 0.5162313236359333,
+      "learning_rate": 3.297986678155074e-06,
+      "loss": 0.5596,
+      "mean_token_accuracy": 0.8421908557415009,
+      "step": 1025
+    },
+    {
+      "epoch": 1.3054499366286438,
+      "grad_norm": 0.6187258006031299,
+      "learning_rate": 3.24608525311655e-06,
+      "loss": 0.5633,
+      "mean_token_accuracy": 0.842179323732853,
+      "step": 1030
+    },
+    {
+      "epoch": 1.311787072243346,
+      "grad_norm": 0.5140882862368508,
+      "learning_rate": 3.1943984465588253e-06,
+      "loss": 0.5704,
+      "mean_token_accuracy": 0.8403183802962303,
+      "step": 1035
+    },
+    {
+      "epoch": 1.3181242078580482,
+      "grad_norm": 0.5261806551468972,
+      "learning_rate": 3.142932583158693e-06,
+      "loss": 0.5664,
+      "mean_token_accuracy": 0.8412504211068154,
+      "step": 1040
+    },
+    {
+      "epoch": 1.3244613434727504,
+      "grad_norm": 0.5355046745744655,
+      "learning_rate": 3.0916939605571534e-06,
+      "loss": 0.5668,
+      "mean_token_accuracy": 0.8411947041749954,
+      "step": 1045
+    },
+    {
+      "epoch": 1.3307984790874525,
+      "grad_norm": 0.5828342485781398,
+      "learning_rate": 3.040688848588788e-06,
+      "loss": 0.5683,
+      "mean_token_accuracy": 0.8403848618268966,
+      "step": 1050
+    },
+    {
+      "epoch": 1.3371356147021547,
+      "grad_norm": 0.515568887419182,
+      "learning_rate": 2.989923488514566e-06,
+      "loss": 0.5734,
+      "mean_token_accuracy": 0.8396067947149277,
+      "step": 1055
+    },
+    {
+      "epoch": 1.3434727503168569,
+      "grad_norm": 0.533119717549416,
+      "learning_rate": 2.9394040922581123e-06,
+      "loss": 0.5788,
+      "mean_token_accuracy": 0.8387560814619064,
+      "step": 1060
+    },
+    {
+      "epoch": 1.3498098859315588,
+      "grad_norm": 0.5574493299249907,
+      "learning_rate": 2.889136841645592e-06,
+      "loss": 0.5738,
+      "mean_token_accuracy": 0.839569516479969,
+      "step": 1065
+    },
+    {
+      "epoch": 1.3561470215462612,
+      "grad_norm": 0.5301348229908708,
+      "learning_rate": 2.839127887649271e-06,
+      "loss": 0.5751,
+      "mean_token_accuracy": 0.8394772946834564,
+      "step": 1070
+    },
+    {
+      "epoch": 1.3624841571609632,
+      "grad_norm": 0.5071728571486687,
+      "learning_rate": 2.789383349634841e-06,
+      "loss": 0.5711,
+      "mean_token_accuracy": 0.8398226588964463,
+      "step": 1075
+    },
+    {
+      "epoch": 1.3688212927756653,
+      "grad_norm": 0.4997381831510659,
+      "learning_rate": 2.73990931461263e-06,
+      "loss": 0.5783,
+      "mean_token_accuracy": 0.8384912863373757,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3751584283903675,
+      "grad_norm": 0.5019388182436546,
+      "learning_rate": 2.690711836492758e-06,
+      "loss": 0.5711,
+      "mean_token_accuracy": 0.8396464511752129,
+      "step": 1085
+    },
+    {
+      "epoch": 1.3814955640050697,
+      "grad_norm": 0.5165116686484276,
+      "learning_rate": 2.6417969353443484e-06,
+      "loss": 0.5721,
+      "mean_token_accuracy": 0.8395859107375145,
+      "step": 1090
+    },
+    {
+      "epoch": 1.3878326996197718,
+      "grad_norm": 0.5372603660779312,
+      "learning_rate": 2.5931705966588803e-06,
+      "loss": 0.5826,
+      "mean_token_accuracy": 0.8370852112770081,
+      "step": 1095
+    },
+    {
+      "epoch": 1.394169835234474,
+      "grad_norm": 0.5104565997924485,
+      "learning_rate": 2.544838770617772e-06,
+      "loss": 0.5785,
+      "mean_token_accuracy": 0.8393797069787979,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4005069708491762,
+      "grad_norm": 0.5336610190327751,
+      "learning_rate": 2.496807371364283e-06,
+      "loss": 0.5759,
+      "mean_token_accuracy": 0.8390834912657738,
+      "step": 1105
+    },
+    {
+      "epoch": 1.4068441064638784,
+      "grad_norm": 0.662951455066245,
+      "learning_rate": 2.44908227627983e-06,
+      "loss": 0.5712,
+      "mean_token_accuracy": 0.8397842928767204,
+      "step": 1110
+    },
+    {
+      "epoch": 1.4131812420785805,
+      "grad_norm": 0.5438222471825553,
+      "learning_rate": 2.4016693252647954e-06,
+      "loss": 0.5703,
+      "mean_token_accuracy": 0.8397609844803811,
+      "step": 1115
+    },
+    {
+      "epoch": 1.4195183776932827,
+      "grad_norm": 0.5457903944622784,
+      "learning_rate": 2.3545743200239303e-06,
+      "loss": 0.5756,
+      "mean_token_accuracy": 0.8387856274843216,
+      "step": 1120
+    },
+    {
+      "epoch": 1.4258555133079849,
+      "grad_norm": 0.5413159299268847,
+      "learning_rate": 2.3078030233564203e-06,
+      "loss": 0.5796,
+      "mean_token_accuracy": 0.8379950270056724,
+      "step": 1125
+    },
+    {
+      "epoch": 1.4321926489226868,
+      "grad_norm": 0.5017485230997426,
+      "learning_rate": 2.2613611584507227e-06,
+      "loss": 0.5843,
+      "mean_token_accuracy": 0.8371415048837662,
+      "step": 1130
+    },
+    {
+      "epoch": 1.4385297845373892,
+      "grad_norm": 0.5036035556859302,
+      "learning_rate": 2.215254408184249e-06,
+      "loss": 0.5733,
+      "mean_token_accuracy": 0.8397385001182556,
+      "step": 1135
+    },
+    {
+      "epoch": 1.4448669201520912,
+      "grad_norm": 0.5512472367603704,
+      "learning_rate": 2.169488414427969e-06,
+      "loss": 0.5665,
+      "mean_token_accuracy": 0.8411229193210602,
+      "step": 1140
+    },
+    {
+      "epoch": 1.4512040557667933,
+      "grad_norm": 0.5122324337296091,
+      "learning_rate": 2.1240687773560476e-06,
+      "loss": 0.5754,
+      "mean_token_accuracy": 0.838901475071907,
+      "step": 1145
+    },
+    {
+      "epoch": 1.4575411913814955,
+      "grad_norm": 0.514428924855705,
+      "learning_rate": 2.0790010547605743e-06,
+      "loss": 0.5773,
+      "mean_token_accuracy": 0.8385174334049225,
+      "step": 1150
+    },
+    {
+      "epoch": 1.4638783269961977,
+      "grad_norm": 0.541489817693485,
+      "learning_rate": 2.0342907613714837e-06,
+      "loss": 0.5724,
+      "mean_token_accuracy": 0.839878860116005,
+      "step": 1155
+    },
+    {
+      "epoch": 1.4702154626108999,
+      "grad_norm": 0.5233399327286699,
+      "learning_rate": 1.989943368181741e-06,
+      "loss": 0.5683,
+      "mean_token_accuracy": 0.8406485706567765,
+      "step": 1160
+    },
+    {
+      "epoch": 1.476552598225602,
+      "grad_norm": 0.4977622157535387,
+      "learning_rate": 1.945964301777883e-06,
+      "loss": 0.5568,
+      "mean_token_accuracy": 0.8429565221071244,
+      "step": 1165
+    },
+    {
+      "epoch": 1.4828897338403042,
+      "grad_norm": 0.502171168050283,
+      "learning_rate": 1.9023589436759954e-06,
+      "loss": 0.555,
+      "mean_token_accuracy": 0.8435925453901291,
+      "step": 1170
+    },
+    {
+      "epoch": 1.4892268694550064,
+      "grad_norm": 0.5026240018805591,
+      "learning_rate": 1.859132629663194e-06,
+      "loss": 0.5609,
+      "mean_token_accuracy": 0.8420811951160431,
+      "step": 1175
+    },
+    {
+      "epoch": 1.4955640050697085,
+      "grad_norm": 0.5071369135189446,
+      "learning_rate": 1.8162906491447136e-06,
+      "loss": 0.5751,
+      "mean_token_accuracy": 0.8397066414356231,
+      "step": 1180
+    },
+    {
+      "epoch": 1.5019011406844105,
+      "grad_norm": 0.5012155091792143,
+      "learning_rate": 1.7738382444966668e-06,
+      "loss": 0.5714,
+      "mean_token_accuracy": 0.839833353459835,
+      "step": 1185
+    },
+    {
+      "epoch": 1.508238276299113,
+      "grad_norm": 0.4943163959620169,
+      "learning_rate": 1.7317806104245599e-06,
+      "loss": 0.5614,
+      "mean_token_accuracy": 0.8422631338238716,
+      "step": 1190
+    },
+    {
+      "epoch": 1.5145754119138148,
+      "grad_norm": 0.5168969148185261,
+      "learning_rate": 1.6901228933276381e-06,
+      "loss": 0.5734,
+      "mean_token_accuracy": 0.8398737594485283,
+      "step": 1195
+    },
+    {
+      "epoch": 1.5209125475285172,
+      "grad_norm": 0.5085722470934201,
+      "learning_rate": 1.6488701906691462e-06,
+      "loss": 0.5743,
+      "mean_token_accuracy": 0.8395018294453621,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5272496831432192,
+      "grad_norm": 0.5145560441594629,
+      "learning_rate": 1.6080275503525754e-06,
+      "loss": 0.5714,
+      "mean_token_accuracy": 0.8400074362754821,
+      "step": 1205
+    },
+    {
+      "epoch": 1.5335868187579216,
+      "grad_norm": 0.5142209477213089,
+      "learning_rate": 1.5675999701039734e-06,
+      "loss": 0.5731,
+      "mean_token_accuracy": 0.8395378664135933,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5399239543726235,
+      "grad_norm": 0.4817695083655761,
+      "learning_rate": 1.5275923968603967e-06,
+      "loss": 0.5668,
+      "mean_token_accuracy": 0.840859878063202,
+      "step": 1215
+    },
+    {
+      "epoch": 1.5462610899873257,
+      "grad_norm": 0.4958218170076731,
+      "learning_rate": 1.4880097261645765e-06,
+      "loss": 0.575,
+      "mean_token_accuracy": 0.8392793446779251,
+      "step": 1220
+    },
+    {
+      "epoch": 1.5525982256020279,
+      "grad_norm": 0.5150469794513786,
+      "learning_rate": 1.4488568015658738e-06,
+      "loss": 0.5702,
+      "mean_token_accuracy": 0.8403733685612679,
+      "step": 1225
+    },
+    {
+      "epoch": 1.55893536121673,
+      "grad_norm": 0.5415616286404993,
+      "learning_rate": 1.4101384140275947e-06,
+      "loss": 0.5724,
+      "mean_token_accuracy": 0.8399771124124527,
+      "step": 1230
+    },
+    {
+      "epoch": 1.5652724968314322,
+      "grad_norm": 0.5125659970580118,
+      "learning_rate": 1.3718593013407455e-06,
+      "loss": 0.565,
+      "mean_token_accuracy": 0.8413113921880722,
+      "step": 1235
+    },
+    {
+      "epoch": 1.5716096324461344,
+      "grad_norm": 0.5172557001838594,
+      "learning_rate": 1.3340241475442889e-06,
+      "loss": 0.5666,
+      "mean_token_accuracy": 0.8413270160555839,
+      "step": 1240
+    },
+    {
+      "epoch": 1.5779467680608366,
+      "grad_norm": 0.5218390924731011,
+      "learning_rate": 1.296637582351979e-06,
+      "loss": 0.5811,
+      "mean_token_accuracy": 0.8378918588161468,
+      "step": 1245
+    },
+    {
+      "epoch": 1.5842839036755385,
+      "grad_norm": 0.49941956793616216,
+      "learning_rate": 1.2597041805858469e-06,
+      "loss": 0.5597,
+      "mean_token_accuracy": 0.8421694174408912,
+      "step": 1250
+    },
+    {
+      "epoch": 1.590621039290241,
+      "grad_norm": 0.4810003693281146,
+      "learning_rate": 1.2232284616163986e-06,
+      "loss": 0.5646,
+      "mean_token_accuracy": 0.8418364375829697,
+      "step": 1255
+    },
+    {
+      "epoch": 1.5969581749049429,
+      "grad_norm": 0.49642278969512443,
+      "learning_rate": 1.1872148888096024e-06,
+      "loss": 0.5686,
+      "mean_token_accuracy": 0.840269310772419,
+      "step": 1260
+    },
+    {
+      "epoch": 1.6032953105196452,
+      "grad_norm": 0.5258808050772633,
+      "learning_rate": 1.1516678689807249e-06,
+      "loss": 0.5665,
+      "mean_token_accuracy": 0.8409392833709717,
+      "step": 1265
+    },
+    {
+      "epoch": 1.6096324461343472,
+      "grad_norm": 0.4807160453689938,
+      "learning_rate": 1.1165917518550913e-06,
+      "loss": 0.5671,
+      "mean_token_accuracy": 0.8411058440804482,
+      "step": 1270
+    },
+    {
+      "epoch": 1.6159695817490496,
+      "grad_norm": 0.48965855513910594,
+      "learning_rate": 1.0819908295358284e-06,
+      "loss": 0.5588,
+      "mean_token_accuracy": 0.8429983571171761,
+      "step": 1275
+    },
+    {
+      "epoch": 1.6223067173637515,
+      "grad_norm": 0.5202990154276527,
+      "learning_rate": 1.0478693359786612e-06,
+      "loss": 0.5716,
+      "mean_token_accuracy": 0.8400727063417435,
+      "step": 1280
+    },
+    {
+      "epoch": 1.6286438529784537,
+      "grad_norm": 0.5171890350253132,
+      "learning_rate": 1.0142314464738195e-06,
+      "loss": 0.5517,
+      "mean_token_accuracy": 0.8443869799375534,
+      "step": 1285
+    },
+    {
+      "epoch": 1.6349809885931559,
+      "grad_norm": 0.48132181865431867,
+      "learning_rate": 9.810812771351335e-07,
+      "loss": 0.5784,
+      "mean_token_accuracy": 0.8387523666024208,
+      "step": 1290
+    },
+    {
+      "epoch": 1.641318124207858,
+      "grad_norm": 0.48031587809861415,
+      "learning_rate": 9.484228843963577e-07,
+      "loss": 0.5609,
+      "mean_token_accuracy": 0.8421882972121238,
+      "step": 1295
+    },
+    {
+      "epoch": 1.6476552598225602,
+      "grad_norm": 0.48862410273482815,
+      "learning_rate": 9.16260264514805e-07,
+      "loss": 0.5739,
+      "mean_token_accuracy": 0.8393760696053505,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6539923954372624,
+      "grad_norm": 0.4974345984726092,
+      "learning_rate": 8.845973530823443e-07,
+      "loss": 0.5623,
+      "mean_token_accuracy": 0.842260554432869,
+      "step": 1305
+    },
+    {
+      "epoch": 1.6603295310519646,
+      "grad_norm": 0.4969870292569671,
+      "learning_rate": 8.534380245438212e-07,
+      "loss": 0.5806,
+      "mean_token_accuracy": 0.8379565149545669,
+      "step": 1310
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.51170305488906,
+      "learning_rate": 8.22786091722958e-07,
+      "loss": 0.5744,
+      "mean_token_accuracy": 0.8394851118326188,
+      "step": 1315
+    },
+    {
+      "epoch": 1.673003802281369,
+      "grad_norm": 0.4882536601279716,
+      "learning_rate": 7.926453053557948e-07,
+      "loss": 0.5694,
+      "mean_token_accuracy": 0.8412208631634712,
+      "step": 1320
+    },
+    {
+      "epoch": 1.6793409378960709,
+      "grad_norm": 0.5201633381345815,
+      "learning_rate": 7.630193536317354e-07,
+      "loss": 0.5779,
+      "mean_token_accuracy": 0.8387572214007377,
+      "step": 1325
+    },
+    {
+      "epoch": 1.6856780735107733,
+      "grad_norm": 0.4872309884092355,
+      "learning_rate": 7.339118617422325e-07,
+      "loss": 0.5721,
+      "mean_token_accuracy": 0.840134784579277,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6920152091254752,
+      "grad_norm": 0.4742262519043048,
+      "learning_rate": 7.05326391437195e-07,
+      "loss": 0.567,
+      "mean_token_accuracy": 0.8408115699887275,
+      "step": 1335
+    },
+    {
+      "epoch": 1.6983523447401776,
+      "grad_norm": 0.48084605496078786,
+      "learning_rate": 6.772664405891505e-07,
+      "loss": 0.5739,
+      "mean_token_accuracy": 0.8401078969240189,
+      "step": 1340
+    },
+    {
+      "epoch": 1.7046894803548795,
+      "grad_norm": 0.4836055364313366,
+      "learning_rate": 6.49735442765228e-07,
+      "loss": 0.5771,
+      "mean_token_accuracy": 0.8388657510280609,
+      "step": 1345
+    },
+    {
+      "epoch": 1.7110266159695817,
+      "grad_norm": 0.4955193703741457,
+      "learning_rate": 6.227367668070084e-07,
+      "loss": 0.5641,
+      "mean_token_accuracy": 0.8420116931200028,
+      "step": 1350
+    },
+    {
+      "epoch": 1.717363751584284,
+      "grad_norm": 0.47888043666477453,
+      "learning_rate": 5.962737164182942e-07,
+      "loss": 0.5695,
+      "mean_token_accuracy": 0.8411467924714089,
+      "step": 1355
+    },
+    {
+      "epoch": 1.723700887198986,
+      "grad_norm": 0.48358100558875267,
+      "learning_rate": 5.703495297608486e-07,
+      "loss": 0.5672,
+      "mean_token_accuracy": 0.8408854246139527,
+      "step": 1360
+    },
+    {
+      "epoch": 1.7300380228136882,
+      "grad_norm": 0.48450381732440073,
+      "learning_rate": 5.449673790581611e-07,
+      "loss": 0.5756,
+      "mean_token_accuracy": 0.8394671693444252,
+      "step": 1365
+    },
+    {
+      "epoch": 1.7363751584283904,
+      "grad_norm": 0.524224789009983,
+      "learning_rate": 5.201303702072724e-07,
+      "loss": 0.564,
+      "mean_token_accuracy": 0.8414558693766594,
+      "step": 1370
+    },
+    {
+      "epoch": 1.7427122940430926,
+      "grad_norm": 0.47448699280100953,
+      "learning_rate": 4.958415423987229e-07,
+      "loss": 0.5576,
+      "mean_token_accuracy": 0.8432327851653099,
+      "step": 1375
+    },
+    {
+      "epoch": 1.7490494296577945,
+      "grad_norm": 0.4999589058798834,
+      "learning_rate": 4.721038677446599e-07,
+      "loss": 0.5543,
+      "mean_token_accuracy": 0.8434969082474708,
+      "step": 1380
+    },
+    {
+      "epoch": 1.755386565272497,
+      "grad_norm": 0.49519130319734356,
+      "learning_rate": 4.4892025091515465e-07,
+      "loss": 0.5744,
+      "mean_token_accuracy": 0.8392727747559547,
+      "step": 1385
+    },
+    {
+      "epoch": 1.7617237008871989,
+      "grad_norm": 0.47996153862103574,
+      "learning_rate": 4.2629352878276964e-07,
+      "loss": 0.5757,
+      "mean_token_accuracy": 0.8395681723952293,
+      "step": 1390
+    },
+    {
+      "epoch": 1.7680608365019013,
+      "grad_norm": 0.4743677174789034,
+      "learning_rate": 4.04226470075425e-07,
+      "loss": 0.5793,
+      "mean_token_accuracy": 0.8383775666356087,
+      "step": 1395
+    },
+    {
+      "epoch": 1.7743979721166032,
+      "grad_norm": 0.47358657093352546,
+      "learning_rate": 3.8272177503760277e-07,
+      "loss": 0.5666,
+      "mean_token_accuracy": 0.8409555062651635,
+      "step": 1400
+    },
+    {
+      "epoch": 1.7807351077313056,
+      "grad_norm": 0.47898043422535136,
+      "learning_rate": 3.6178207509992623e-07,
+      "loss": 0.5588,
+      "mean_token_accuracy": 0.8429359510540962,
+      "step": 1405
+    },
+    {
+      "epoch": 1.7870722433460076,
+      "grad_norm": 0.48612638069980213,
+      "learning_rate": 3.4140993255717123e-07,
+      "loss": 0.5687,
+      "mean_token_accuracy": 0.840995529294014,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7934093789607097,
+      "grad_norm": 0.47802067614271637,
+      "learning_rate": 3.216078402547218e-07,
+      "loss": 0.5651,
+      "mean_token_accuracy": 0.8413813829421997,
+      "step": 1415
+    },
+    {
+      "epoch": 1.799746514575412,
+      "grad_norm": 0.45575767680162316,
+      "learning_rate": 3.0237822128353744e-07,
+      "loss": 0.5551,
+      "mean_token_accuracy": 0.8439073666930199,
+      "step": 1420
+    },
+    {
+      "epoch": 1.806083650190114,
+      "grad_norm": 0.5008888425261698,
+      "learning_rate": 2.8372342868364934e-07,
+      "loss": 0.5763,
+      "mean_token_accuracy": 0.8394736155867577,
+      "step": 1425
+    },
+    {
+      "epoch": 1.8124207858048162,
+      "grad_norm": 0.47883052147679717,
+      "learning_rate": 2.656457451562283e-07,
+      "loss": 0.5847,
+      "mean_token_accuracy": 0.8371838569641114,
+      "step": 1430
+    },
+    {
+      "epoch": 1.8187579214195184,
+      "grad_norm": 0.48136837053701437,
+      "learning_rate": 2.4814738278426287e-07,
+      "loss": 0.5713,
+      "mean_token_accuracy": 0.8400285989046097,
+      "step": 1435
+    },
+    {
+      "epoch": 1.8250950570342206,
+      "grad_norm": 0.47630227923243995,
+      "learning_rate": 2.3123048276187722e-07,
+      "loss": 0.5663,
+      "mean_token_accuracy": 0.8415055811405182,
+      "step": 1440
+    },
+    {
+      "epoch": 1.8314321926489225,
+      "grad_norm": 0.48067639897927306,
+      "learning_rate": 2.1489711513232038e-07,
+      "loss": 0.5702,
+      "mean_token_accuracy": 0.8404717803001404,
+      "step": 1445
+    },
+    {
+      "epoch": 1.837769328263625,
+      "grad_norm": 0.48817733468841595,
+      "learning_rate": 1.991492785346677e-07,
+      "loss": 0.5659,
+      "mean_token_accuracy": 0.8410487651824952,
+      "step": 1450
+    },
+    {
+      "epoch": 1.8441064638783269,
+      "grad_norm": 0.4753854139627654,
+      "learning_rate": 1.8398889995925428e-07,
+      "loss": 0.5612,
+      "mean_token_accuracy": 0.842425537109375,
+      "step": 1455
+    },
+    {
+      "epoch": 1.8504435994930293,
+      "grad_norm": 0.4979097318389579,
+      "learning_rate": 1.694178345118791e-07,
+      "loss": 0.5554,
+      "mean_token_accuracy": 0.843775661289692,
+      "step": 1460
+    },
+    {
+      "epoch": 1.8567807351077312,
+      "grad_norm": 0.4829356927499738,
+      "learning_rate": 1.5543786518680436e-07,
+      "loss": 0.556,
+      "mean_token_accuracy": 0.8434767201542854,
+      "step": 1465
+    },
+    {
+      "epoch": 1.8631178707224336,
+      "grad_norm": 0.4651233227253299,
+      "learning_rate": 1.4205070264857901e-07,
+      "loss": 0.5704,
+      "mean_token_accuracy": 0.8402711316943169,
+      "step": 1470
+    },
+    {
+      "epoch": 1.8694550063371356,
+      "grad_norm": 0.47253676852018517,
+      "learning_rate": 1.292579850227099e-07,
+      "loss": 0.5777,
+      "mean_token_accuracy": 0.8392020970582962,
+      "step": 1475
+    },
+    {
+      "epoch": 1.8757921419518377,
+      "grad_norm": 0.4800740772721781,
+      "learning_rate": 1.170612776952168e-07,
+      "loss": 0.566,
+      "mean_token_accuracy": 0.8414452761411667,
+      "step": 1480
+    },
+    {
+      "epoch": 1.88212927756654,
+      "grad_norm": 0.46528025174750537,
+      "learning_rate": 1.0546207312107814e-07,
+      "loss": 0.5636,
+      "mean_token_accuracy": 0.8416185140609741,
+      "step": 1485
+    },
+    {
+      "epoch": 1.888466413181242,
+      "grad_norm": 0.47693097112640276,
+      "learning_rate": 9.44617906416101e-08,
+      "loss": 0.5727,
+      "mean_token_accuracy": 0.8405211389064788,
+      "step": 1490
+    },
+    {
+      "epoch": 1.8948035487959443,
+      "grad_norm": 0.4787485103517413,
+      "learning_rate": 8.406177631078594e-08,
+      "loss": 0.5708,
+      "mean_token_accuracy": 0.8403903424739838,
+      "step": 1495
+    },
+    {
+      "epoch": 1.9011406844106464,
+      "grad_norm": 0.45967120152380847,
+      "learning_rate": 7.426330273052618e-08,
+      "loss": 0.5496,
+      "mean_token_accuracy": 0.8449963420629502,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9074778200253486,
+      "grad_norm": 0.46451147059266606,
+      "learning_rate": 6.506756889497756e-08,
+      "loss": 0.5608,
+      "mean_token_accuracy": 0.8425014033913613,
+      "step": 1505
+    },
+    {
+      "epoch": 1.9138149556400506,
+      "grad_norm": 0.5057760468937542,
+      "learning_rate": 5.647570004379432e-08,
+      "loss": 0.5602,
+      "mean_token_accuracy": 0.8427406966686248,
+      "step": 1510
+    },
+    {
+      "epoch": 1.920152091254753,
+      "grad_norm": 0.48061481353459495,
+      "learning_rate": 4.848874752445221e-08,
+      "loss": 0.5675,
+      "mean_token_accuracy": 0.8411912024021149,
+      "step": 1515
+    },
+    {
+      "epoch": 1.926489226869455,
+      "grad_norm": 0.4689935228428535,
+      "learning_rate": 4.110768866359638e-08,
+      "loss": 0.5631,
+      "mean_token_accuracy": 0.8418816044926644,
+      "step": 1520
+    },
+    {
+      "epoch": 1.9328263624841573,
+      "grad_norm": 0.4698265767310371,
+      "learning_rate": 3.43334266474521e-08,
+      "loss": 0.5635,
+      "mean_token_accuracy": 0.8423062637448311,
+      "step": 1525
+    },
+    {
+      "epoch": 1.9391634980988592,
+      "grad_norm": 0.49190745957035076,
+      "learning_rate": 2.8166790411304766e-08,
+      "loss": 0.5644,
+      "mean_token_accuracy": 0.8418506249785424,
+      "step": 1530
+    },
+    {
+      "epoch": 1.9455006337135616,
+      "grad_norm": 0.4676519055114557,
+      "learning_rate": 2.260853453806944e-08,
+      "loss": 0.5691,
+      "mean_token_accuracy": 0.8408907786011696,
+      "step": 1535
+    },
+    {
+      "epoch": 1.9518377693282636,
+      "grad_norm": 0.4857147511585138,
+      "learning_rate": 1.7659339165952417e-08,
+      "loss": 0.5699,
+      "mean_token_accuracy": 0.8406305849552155,
+      "step": 1540
+    },
+    {
+      "epoch": 1.9581749049429658,
+      "grad_norm": 0.48303973039403075,
+      "learning_rate": 1.3319809905228409e-08,
+      "loss": 0.5765,
+      "mean_token_accuracy": 0.8395203098654747,
+      "step": 1545
+    },
+    {
+      "epoch": 1.964512040557668,
+      "grad_norm": 0.47745966065458134,
+      "learning_rate": 9.590477764135353e-09,
+      "loss": 0.5641,
+      "mean_token_accuracy": 0.8417988792061806,
+      "step": 1550
+    },
+    {
+      "epoch": 1.97084917617237,
+      "grad_norm": 0.4675012014451023,
+      "learning_rate": 6.47179908389417e-09,
+      "loss": 0.5699,
+      "mean_token_accuracy": 0.8404615536332131,
+      "step": 1555
+    },
+    {
+      "epoch": 1.9771863117870723,
+      "grad_norm": 0.4956658011789385,
+      "learning_rate": 3.964155482871213e-09,
+      "loss": 0.5592,
+      "mean_token_accuracy": 0.842540180683136,
+      "step": 1560
+    },
+    {
+      "epoch": 1.9835234474017744,
+      "grad_norm": 0.4689038627708401,
+      "learning_rate": 2.0678538098806158e-09,
+      "loss": 0.5745,
+      "mean_token_accuracy": 0.8394525855779648,
+      "step": 1565
+    },
+    {
+      "epoch": 1.9898605830164766,
+      "grad_norm": 0.4660374899806601,
+      "learning_rate": 7.83126106637111e-10,
+      "loss": 0.5643,
+      "mean_token_accuracy": 0.8416339352726936,
+      "step": 1570
+    },
+    {
+      "epoch": 1.9961977186311786,
+      "grad_norm": 0.4729664926744204,
+      "learning_rate": 1.1012957935985224e-10,
+      "loss": 0.5636,
+      "mean_token_accuracy": 0.8414568796753883,
+      "step": 1575
+    },
+    {
+      "epoch": 2.0,
+      "mean_token_accuracy": 0.8406301041444143,
+      "step": 1578,
+      "total_flos": 827207983300608.0,
+      "train_loss": 0.6521280055868006,
+      "train_runtime": 235151.6683,
+      "train_samples_per_second": 1.718,
+      "train_steps_per_second": 0.007
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1578,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 827207983300608.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d431cc457b16c5ce24099cbd6522bff4ccf6c2ff1f3967a214c7990c342e6e2e
+size 7480

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff