Upload 13 files

Browse files

Files changed (13) hide show

README.md +200 -3
all_results.json +16 -0
config.json +62 -0
eval_results.json +9 -0
generation_config.json +7 -0
model.safetensors +3 -0
special_tokens_map.json +125 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +938 -0
train_results.json +11 -0
trainer_state.json +1540 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,200 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+language: en
+license: apache-2.0
+base_model: google/flan-t5-base
+tags:
+- generated_from_trainer
+- text-preprocessing
+- text-reformatting
+datasets:
+- other
+model-index:
+- name: flan-t5-base-paragrapher
+  results: []
+---
+# flan-t5-base-paragrapher
+This model is designed to preprocess, clean, and reformat text chunks containing line breaks, word breaks, and references into coherent plain text paragraphs. The resulting paragraphs can be used with other models like [agentlans/flan-t5-small-title](https://huggingface.co/agentlans/flan-t5-small-title) and [agentlans/text-summarization](https://huggingface.co/agentlans/text-summarization).
+## Model description
+The flan-t5-base-paragrapher is a fine-tuned version of [google/flan-t5-base](https://huggingface.co/google/flan-t5-base), trained on a dataset of open-source introductory social science textbooks. While it was trained on academic texts, it should work well with other types of educational and academic content.
+The model achieves the following results on the evaluation set:
+- Loss: 1.5175
+- Number of Input Tokens Seen: 49&thinsp;815&thinsp;380
+## Intended uses & limitations
+This model is intended for preprocessing and reformatting text chunks into coherent paragraphs. It can be particularly useful for:
+1. Cleaning up text extracted from PDFs or OCR systems
+2. Reformatting text with irregular line breaks or word breaks
+3. Preparing text for further processing or analysis
+Limitations:
+- The model may not perform optimally on highly specialized or technical texts outside its training domain.
+- Very long input sequences may be truncated due to the model's maximum sequence length (512 tokens).
+## Training and evaluation data
+The model was trained on a dataset compiled from open-source textbooks. Due to licensing constraints, the specific training data is not published.
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- Learning rate: 5e-05
+- Train batch size: 8
+- Eval batch size: 8
+- Seed: 42
+- Optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- LR scheduler type: linear
+- Number of epochs: 10.0
+### Training results
+<details>
+<summary>Click to expand training results</summary>
+| Training Loss | Epoch  | Step  | Validation Loss | Input Tokens Seen |
+|:-------------:|:------:|:-----:|:---------------:|:-----------------:|
+| 2.0748        | 0.1126 | 500   | 1.7587          | 562752            |
+| 1.9699        | 0.2251 | 1000  | 1.7031          | 1119424           |
+| 1.9177        | 0.3377 | 1500  | 1.6701          | 1676620           |
+| 1.9179        | 0.4502 | 2000  | 1.6647          | 2244928           |
+| 1.8908        | 0.5628 | 2500  | 1.6502          | 2806840           |
+| 1.8666        | 0.6754 | 3000  | 1.6427          | 3364792           |
+| 1.8456        | 0.7879 | 3500  | 1.6245          | 3925172           |
+| 1.8542        | 0.9005 | 4000  | 1.6218          | 4490100           |
+| 1.8305        | 1.0131 | 4500  | 1.6211          | 5052066           |
+| 1.7588        | 1.1256 | 5000  | 1.6040          | 5607258           |
+| 1.7606        | 1.2382 | 5500  | 1.6020          | 6165278           |
+| 1.7426        | 1.3507 | 6000  | 1.5993          | 6727290           |
+| 1.7477        | 1.4633 | 6500  | 1.5869          | 7292338           |
+| 1.7413        | 1.5759 | 7000  | 1.5791          | 7849466           |
+| 1.7342        | 1.6884 | 7500  | 1.5792          | 8415302           |
+| 1.7247        | 1.8010 | 8000  | 1.5759          | 8970490           |
+| 1.7423        | 1.9136 | 8500  | 1.5744          | 9529290           |
+| 1.7138        | 2.0261 | 9000  | 1.5655          | 10091652          |
+| 1.6719        | 2.1387 | 9500  | 1.5630          | 10650544          |
+| 1.6637        | 2.2512 | 10000 | 1.5584          | 11208648          |
+| 1.6415        | 2.3638 | 10500 | 1.5609          | 11776396          |
+| 1.6565        | 2.4764 | 11000 | 1.5558          | 12338500          |
+| 1.6597        | 2.5889 | 11500 | 1.5530          | 12897552          |
+| 1.6709        | 2.7015 | 12000 | 1.5477          | 13460052          |
+| 1.648         | 2.8140 | 12500 | 1.5424          | 14021984          |
+| 1.642         | 2.9266 | 13000 | 1.5433          | 14586256          |
+| 1.6258        | 3.0392 | 13500 | 1.5419          | 15140609          |
+| 1.6067        | 3.1517 | 14000 | 1.5415          | 15700397          |
+| 1.5946        | 3.2643 | 14500 | 1.5450          | 16265849          |
+| 1.5835        | 3.3769 | 15000 | 1.5415          | 16827557          |
+| 1.5996        | 3.4894 | 15500 | 1.5411          | 17384857          |
+| 1.5834        | 3.6020 | 16000 | 1.5382          | 17945909          |
+| 1.5956        | 3.7145 | 16500 | 1.5351          | 18507721          |
+| 1.5825        | 3.8271 | 17000 | 1.5356          | 19069425          |
+| 1.6001        | 3.9397 | 17500 | 1.5294          | 19631905          |
+| 1.5677        | 4.0522 | 18000 | 1.5369          | 20185192          |
+| 1.5415        | 4.1648 | 18500 | 1.5318          | 20739888          |
+| 1.5362        | 4.2774 | 19000 | 1.5311          | 21304584          |
+| 1.5251        | 4.3899 | 19500 | 1.5323          | 21862856          |
+| 1.5388        | 4.5025 | 20000 | 1.5307          | 22427236          |
+| 1.5508        | 4.6150 | 20500 | 1.5282          | 22985184          |
+| 1.5692        | 4.7276 | 21000 | 1.5265          | 23548396          |
+| 1.5391        | 4.8402 | 21500 | 1.5276          | 24111452          |
+| 1.5431        | 4.9527 | 22000 | 1.5270          | 24673344          |
+| 1.5147        | 5.0653 | 22500 | 1.5292          | 25236559          |
+| 1.4908        | 5.1778 | 23000 | 1.5288          | 25799675          |
+| 1.5153        | 5.2904 | 23500 | 1.5288          | 26352767          |
+| 1.5099        | 5.4030 | 24000 | 1.5250          | 26916707          |
+| 1.5064        | 5.5155 | 24500 | 1.5259          | 27483639          |
+| 1.5146        | 5.6281 | 25000 | 1.5249          | 28040307          |
+| 1.4938        | 5.7407 | 25500 | 1.5233          | 28600639          |
+| 1.5034        | 5.8532 | 26000 | 1.5237          | 29164539          |
+| 1.5091        | 5.9658 | 26500 | 1.5219          | 29730199          |
+| 1.4853        | 6.0783 | 27000 | 1.5241          | 30286010          |
+| 1.4797        | 6.1909 | 27500 | 1.5201          | 30840802          |
+| 1.466         | 6.3035 | 28000 | 1.5238          | 31403710          |
+| 1.4666        | 6.4160 | 28500 | 1.5226          | 31962730          |
+| 1.4732        | 6.5286 | 29000 | 1.5199          | 32518854          |
+| 1.4756        | 6.6412 | 29500 | 1.5219          | 33083634          |
+| 1.4778        | 6.7537 | 30000 | 1.5195          | 33644482          |
+| 1.4674        | 6.8663 | 30500 | 1.5182          | 34207738          |
+| 1.4813        | 6.9788 | 31000 | 1.5202          | 34772050          |
+| 1.4543        | 7.0914 | 31500 | 1.5211          | 35331657          |
+| 1.4389        | 7.2040 | 32000 | 1.5221          | 35888749          |
+| 1.4534        | 7.3165 | 32500 | 1.5215          | 36455101          |
+| 1.4401        | 7.4291 | 33000 | 1.5208          | 37016889          |
+| 1.4435        | 7.5416 | 33500 | 1.5212          | 37570517          |
+| 1.4443        | 7.6542 | 34000 | 1.5205          | 38134577          |
+| 1.4533        | 7.7668 | 34500 | 1.5209          | 38700917          |
+| 1.4589        | 7.8793 | 35000 | 1.5218          | 39259257          |
+| 1.4548        | 7.9919 | 35500 | 1.5185          | 39819093          |
+| 1.4322        | 8.1045 | 36000 | 1.5207          | 40382907          |
+| 1.4271        | 8.2170 | 36500 | 1.5220          | 40938983          |
+| 1.4165        | 8.3296 | 37000 | 1.5203          | 41498811          |
+| 1.4273        | 8.4421 | 37500 | 1.5197          | 42053427          |
+| 1.4281        | 8.5547 | 38000 | 1.5195          | 42615135          |
+| 1.4372        | 8.6673 | 38500 | 1.5197          | 43173055          |
+| 1.4374        | 8.7798 | 39000 | 1.5175          | 43737723          |
+| 1.4278        | 8.8924 | 39500 | 1.5211          | 44300547          |
+| 1.442         | 9.0050 | 40000 | 1.5189          | 44864787          |
+| 1.4235        | 9.1175 | 40500 | 1.5226          | 45418155          |
+| 1.413         | 9.2301 | 41000 | 1.5220          | 45985195          |
+| 1.4193        | 9.3426 | 41500 | 1.5201          | 46538675          |
+| 1.414         | 9.4552 | 42000 | 1.5202          | 47101815          |
+| 1.4084        | 9.5678 | 42500 | 1.5191          | 47655583          |
+| 1.408         | 9.6803 | 43000 | 1.5207          | 48217371          |
+| 1.4207        | 9.7929 | 43500 | 1.5200          | 48781351          |
+| 1.4293        | 9.9054 | 44000 | 1.5198          | 49345155          |
+</details>
+### Framework versions
+- Transformers 4.44.2
+- PyTorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.19.1
+## Usage
+Here's an example of how to use the model:
+```python
+from transformers import T5Tokenizer, T5ForConditionalGeneration
+# Load the tokenizer and model
+tokenizer = T5Tokenizer.from_pretrained("flan-t5-base-paragrapher")
+model = T5ForConditionalGeneration.from_pretrained("flan-t5-base-paragrapher", device_map="auto")
+# Define input texts
+input_texts = [
+    """ge with a narrative—whether through books, films, or oral traditions—we are invited into another person's experience (Brown & Thompson, 2023). This immersion allows us to see the world through different perspectives, breaking down barriers of misunderstanding and prejudice. For example, novels like Harper Lee's "To Kill a Mockingbird" challenge readers to confront issues of racism and injustice through the eyes of a child (Williams, 2018). Similarly, contemporary works such as Chimamanda Ngozi Adichie's "Americanah" explore themes of identity and belonging in a globalized world (Nguyen & Roberts, 2020). By sharing these experiences through storytelling, authors can cultivate empathy in their audiences, encouraging them to reflect on their own beliefs and biases.
+    Shaping Identity Through Narratives
+    Stories also play a crucial role in shaping personal and collective identities. From childhood tales told by parents to the myths and legends that define cultural heritage, narratives help individuals understand their place in the world (Anderson & White, 2021). They provide frameworks thro""",
+    """cia, M., & Patel, R. (2022). Cultural insights through literature: A comparative analysis. International Journal of Cultural Studies, 15(3), 201-215. Johnson, L., & Lee, H. (2019). Oral traditions: Preserving culture through storytelling. Anthropology Today Journal, 34(4), 56-60. Kumar, P. (2021). Epic tales: Literature as a reflection of society. Literary Critique Review, 29(1), 34-50. Lee, J., & Martinez, F. (2021). Voices unheard: Marginalized narratives in digital spaces. Journal of Digital Culture Studies, 7(2), 45-67. Martinez, C., & Chen, Y. (2022). Cultural navigation: Identity in a globalized world. Global Studies Review Jou"""
+]
+# Tokenize input texts
+input_ids = tokenizer(input_texts, return_tensors="pt", padding=True, truncation=True).input_ids.to("cuda")
+# Generate outputs
+outputs = model.generate(input_ids, max_length=512)
+# Print generated outputs
+for output in outputs:
+    print(tokenizer.decode(output, skip_special_tokens=True) + "\n")
+```
+Example output:
+```
+Through storytelling, we are invited into another person's experience, breaking down barriers of misunderstanding and prejudice. This immersion allows us to see the world through different perspectives, fostering empathy and re-evaluating our own beliefs and biases. For instance, Harper Lee's "To Kill a Mockingbird" challenges readers to confront issues of racism and injustice through the eyes of a child, while contemporary works like Chimamanda Ngozi Adichie's "Americanah" explore themes of identity and belonging in a globalized world. By sharing these experiences through storytelling, authors
+The study of cultural insights through literature has yielded valuable insights into the world. Ci and Patel (2022) conducted a comparative analysis of cultural insights through literature, highlighting the importance of cultural storytelling in preserving culture. Kumar (2021) argued that oral traditions can preserve culture through storytelling, highlighting the importance of storytelling in preserving culture. Lee and Martinez (2021) explored marginalized narratives in digital spaces, highlighting the need for cultural navigation in a globalized world. These studies collectively demonstrate the importance of cultural navigation in fostering identity and identity in a globalized world.
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 1.5174657106399536,
+    "eval_runtime": 6.6354,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 150.707,
+    "eval_steps_per_second": 18.838,
+    "num_input_tokens_seen": 49815380,
+    "total_flos": 6.662920679892173e+16,
+    "train_loss": 1.5719221366734615,
+    "train_runtime": 7656.0711,
+    "train_samples": 17765,
+    "train_samples_per_second": 23.204,
+    "train_steps_per_second": 5.802,
+    "train_tokens_per_second": 6514.629
+}

config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 1.5174657106399536,
+    "eval_runtime": 6.6354,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 150.707,
+    "eval_steps_per_second": 18.838,
+    "num_input_tokens_seen": 49815380
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.44.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9e78e9e467d2f778d8738d335afc6298064d7f95faaef644a00fd49223dfa4a
+size 990345064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,938 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<extra_id_99>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<extra_id_98>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<extra_id_97>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<extra_id_96>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<extra_id_95>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<extra_id_94>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<extra_id_93>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<extra_id_92>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<extra_id_91>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<extra_id_90>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<extra_id_89>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32011": {
+      "content": "<extra_id_88>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32012": {
+      "content": "<extra_id_87>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32013": {
+      "content": "<extra_id_86>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<extra_id_85>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<extra_id_84>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32016": {
+      "content": "<extra_id_83>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32017": {
+      "content": "<extra_id_82>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32018": {
+      "content": "<extra_id_81>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32019": {
+      "content": "<extra_id_80>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32020": {
+      "content": "<extra_id_79>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32021": {
+      "content": "<extra_id_78>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32022": {
+      "content": "<extra_id_77>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32023": {
+      "content": "<extra_id_76>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32024": {
+      "content": "<extra_id_75>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32025": {
+      "content": "<extra_id_74>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32026": {
+      "content": "<extra_id_73>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32027": {
+      "content": "<extra_id_72>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32028": {
+      "content": "<extra_id_71>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32029": {
+      "content": "<extra_id_70>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32030": {
+      "content": "<extra_id_69>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32031": {
+      "content": "<extra_id_68>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32032": {
+      "content": "<extra_id_67>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32033": {
+      "content": "<extra_id_66>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32034": {
+      "content": "<extra_id_65>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32035": {
+      "content": "<extra_id_64>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32036": {
+      "content": "<extra_id_63>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32037": {
+      "content": "<extra_id_62>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32038": {
+      "content": "<extra_id_61>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32039": {
+      "content": "<extra_id_60>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32040": {
+      "content": "<extra_id_59>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32041": {
+      "content": "<extra_id_58>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32042": {
+      "content": "<extra_id_57>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32043": {
+      "content": "<extra_id_56>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32044": {
+      "content": "<extra_id_55>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32045": {
+      "content": "<extra_id_54>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32046": {
+      "content": "<extra_id_53>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32047": {
+      "content": "<extra_id_52>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32048": {
+      "content": "<extra_id_51>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32049": {
+      "content": "<extra_id_50>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32050": {
+      "content": "<extra_id_49>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32051": {
+      "content": "<extra_id_48>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32052": {
+      "content": "<extra_id_47>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32053": {
+      "content": "<extra_id_46>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32054": {
+      "content": "<extra_id_45>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32055": {
+      "content": "<extra_id_44>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32056": {
+      "content": "<extra_id_43>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32057": {
+      "content": "<extra_id_42>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32058": {
+      "content": "<extra_id_41>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32059": {
+      "content": "<extra_id_40>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32060": {
+      "content": "<extra_id_39>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32061": {
+      "content": "<extra_id_38>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32062": {
+      "content": "<extra_id_37>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32063": {
+      "content": "<extra_id_36>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32064": {
+      "content": "<extra_id_35>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32065": {
+      "content": "<extra_id_34>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32066": {
+      "content": "<extra_id_33>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32067": {
+      "content": "<extra_id_32>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32068": {
+      "content": "<extra_id_31>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32069": {
+      "content": "<extra_id_30>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32070": {
+      "content": "<extra_id_29>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32071": {
+      "content": "<extra_id_28>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32072": {
+      "content": "<extra_id_27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32073": {
+      "content": "<extra_id_26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32074": {
+      "content": "<extra_id_25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32075": {
+      "content": "<extra_id_24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32076": {
+      "content": "<extra_id_23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32077": {
+      "content": "<extra_id_22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32078": {
+      "content": "<extra_id_21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32079": {
+      "content": "<extra_id_20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32080": {
+      "content": "<extra_id_19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32081": {
+      "content": "<extra_id_18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32082": {
+      "content": "<extra_id_17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32083": {
+      "content": "<extra_id_16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32084": {
+      "content": "<extra_id_15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32085": {
+      "content": "<extra_id_14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32086": {
+      "content": "<extra_id_13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32087": {
+      "content": "<extra_id_12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32088": {
+      "content": "<extra_id_11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32089": {
+      "content": "<extra_id_10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32090": {
+      "content": "<extra_id_9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32091": {
+      "content": "<extra_id_8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32092": {
+      "content": "<extra_id_7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32093": {
+      "content": "<extra_id_6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32094": {
+      "content": "<extra_id_5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32095": {
+      "content": "<extra_id_4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32096": {
+      "content": "<extra_id_3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32097": {
+      "content": "<extra_id_2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32098": {
+      "content": "<extra_id_1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32099": {
+      "content": "<extra_id_0>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 49815380,
+    "total_flos": 6.662920679892173e+16,
+    "train_loss": 1.5719221366734615,
+    "train_runtime": 7656.0711,
+    "train_samples": 17765,
+    "train_samples_per_second": 23.204,
+    "train_steps_per_second": 5.802,
+    "train_tokens_per_second": 6514.629
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1540 @@

+{
+  "best_metric": 1.5174657106399536,
+  "best_model_checkpoint": "flan-t5-base-paragrapher/checkpoint-39000",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 44420,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11256190904997748,
+      "grad_norm": 2.3381476402282715,
+      "learning_rate": 4.9437190454750117e-05,
+      "loss": 2.0748,
+      "num_input_tokens_seen": 562752,
+      "step": 500
+    },
+    {
+      "epoch": 0.11256190904997748,
+      "eval_loss": 1.7587194442749023,
+      "eval_runtime": 6.6407,
+      "eval_samples_per_second": 150.586,
+      "eval_steps_per_second": 18.823,
+      "num_input_tokens_seen": 562752,
+      "step": 500
+    },
+    {
+      "epoch": 0.22512381809995496,
+      "grad_norm": 2.58415150642395,
+      "learning_rate": 4.887438090950023e-05,
+      "loss": 1.9699,
+      "num_input_tokens_seen": 1119424,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22512381809995496,
+      "eval_loss": 1.7031291723251343,
+      "eval_runtime": 7.0071,
+      "eval_samples_per_second": 142.713,
+      "eval_steps_per_second": 17.839,
+      "num_input_tokens_seen": 1119424,
+      "step": 1000
+    },
+    {
+      "epoch": 0.33768572714993245,
+      "grad_norm": 2.1401476860046387,
+      "learning_rate": 4.831157136425034e-05,
+      "loss": 1.9177,
+      "num_input_tokens_seen": 1676620,
+      "step": 1500
+    },
+    {
+      "epoch": 0.33768572714993245,
+      "eval_loss": 1.6701327562332153,
+      "eval_runtime": 7.0023,
+      "eval_samples_per_second": 142.809,
+      "eval_steps_per_second": 17.851,
+      "num_input_tokens_seen": 1676620,
+      "step": 1500
+    },
+    {
+      "epoch": 0.45024763619990993,
+      "grad_norm": 2.9264276027679443,
+      "learning_rate": 4.774876181900045e-05,
+      "loss": 1.9179,
+      "num_input_tokens_seen": 2244928,
+      "step": 2000
+    },
+    {
+      "epoch": 0.45024763619990993,
+      "eval_loss": 1.6646634340286255,
+      "eval_runtime": 6.7352,
+      "eval_samples_per_second": 148.473,
+      "eval_steps_per_second": 18.559,
+      "num_input_tokens_seen": 2244928,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5628095452498875,
+      "grad_norm": 1.9992469549179077,
+      "learning_rate": 4.7185952273750566e-05,
+      "loss": 1.8908,
+      "num_input_tokens_seen": 2806840,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5628095452498875,
+      "eval_loss": 1.650177240371704,
+      "eval_runtime": 6.9902,
+      "eval_samples_per_second": 143.057,
+      "eval_steps_per_second": 17.882,
+      "num_input_tokens_seen": 2806840,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6753714542998649,
+      "grad_norm": 2.2747724056243896,
+      "learning_rate": 4.662314272850068e-05,
+      "loss": 1.8666,
+      "num_input_tokens_seen": 3364792,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6753714542998649,
+      "eval_loss": 1.6427327394485474,
+      "eval_runtime": 6.7654,
+      "eval_samples_per_second": 147.81,
+      "eval_steps_per_second": 18.476,
+      "num_input_tokens_seen": 3364792,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7879333633498424,
+      "grad_norm": 2.3144521713256836,
+      "learning_rate": 4.6060333183250794e-05,
+      "loss": 1.8456,
+      "num_input_tokens_seen": 3925172,
+      "step": 3500
+    },
+    {
+      "epoch": 0.7879333633498424,
+      "eval_loss": 1.6245118379592896,
+      "eval_runtime": 7.045,
+      "eval_samples_per_second": 141.944,
+      "eval_steps_per_second": 17.743,
+      "num_input_tokens_seen": 3925172,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9004952723998199,
+      "grad_norm": 2.394990921020508,
+      "learning_rate": 4.54975236380009e-05,
+      "loss": 1.8542,
+      "num_input_tokens_seen": 4490100,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9004952723998199,
+      "eval_loss": 1.6217968463897705,
+      "eval_runtime": 7.1659,
+      "eval_samples_per_second": 139.549,
+      "eval_steps_per_second": 17.444,
+      "num_input_tokens_seen": 4490100,
+      "step": 4000
+    },
+    {
+      "epoch": 1.0130571814497973,
+      "grad_norm": 2.0307397842407227,
+      "learning_rate": 4.4934714092751016e-05,
+      "loss": 1.8305,
+      "num_input_tokens_seen": 5052066,
+      "step": 4500
+    },
+    {
+      "epoch": 1.0130571814497973,
+      "eval_loss": 1.6211210489273071,
+      "eval_runtime": 6.7485,
+      "eval_samples_per_second": 148.18,
+      "eval_steps_per_second": 18.523,
+      "num_input_tokens_seen": 5052066,
+      "step": 4500
+    },
+    {
+      "epoch": 1.125619090499775,
+      "grad_norm": 2.627432346343994,
+      "learning_rate": 4.437190454750112e-05,
+      "loss": 1.7588,
+      "num_input_tokens_seen": 5607258,
+      "step": 5000
+    },
+    {
+      "epoch": 1.125619090499775,
+      "eval_loss": 1.6039692163467407,
+      "eval_runtime": 6.9517,
+      "eval_samples_per_second": 143.85,
+      "eval_steps_per_second": 17.981,
+      "num_input_tokens_seen": 5607258,
+      "step": 5000
+    },
+    {
+      "epoch": 1.2381809995497524,
+      "grad_norm": 2.0901269912719727,
+      "learning_rate": 4.380909500225124e-05,
+      "loss": 1.7606,
+      "num_input_tokens_seen": 6165278,
+      "step": 5500
+    },
+    {
+      "epoch": 1.2381809995497524,
+      "eval_loss": 1.6020277738571167,
+      "eval_runtime": 6.7991,
+      "eval_samples_per_second": 147.079,
+      "eval_steps_per_second": 18.385,
+      "num_input_tokens_seen": 6165278,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3507429085997298,
+      "grad_norm": 2.733879804611206,
+      "learning_rate": 4.324628545700135e-05,
+      "loss": 1.7426,
+      "num_input_tokens_seen": 6727290,
+      "step": 6000
+    },
+    {
+      "epoch": 1.3507429085997298,
+      "eval_loss": 1.5992920398712158,
+      "eval_runtime": 6.9187,
+      "eval_samples_per_second": 144.535,
+      "eval_steps_per_second": 18.067,
+      "num_input_tokens_seen": 6727290,
+      "step": 6000
+    },
+    {
+      "epoch": 1.4633048176497074,
+      "grad_norm": 2.134584665298462,
+      "learning_rate": 4.2683475911751466e-05,
+      "loss": 1.7477,
+      "num_input_tokens_seen": 7292338,
+      "step": 6500
+    },
+    {
+      "epoch": 1.4633048176497074,
+      "eval_loss": 1.5869497060775757,
+      "eval_runtime": 7.0346,
+      "eval_samples_per_second": 142.154,
+      "eval_steps_per_second": 17.769,
+      "num_input_tokens_seen": 7292338,
+      "step": 6500
+    },
+    {
+      "epoch": 1.5758667266996849,
+      "grad_norm": 2.1596298217773438,
+      "learning_rate": 4.212066636650158e-05,
+      "loss": 1.7413,
+      "num_input_tokens_seen": 7849466,
+      "step": 7000
+    },
+    {
+      "epoch": 1.5758667266996849,
+      "eval_loss": 1.5790966749191284,
+      "eval_runtime": 7.0544,
+      "eval_samples_per_second": 141.755,
+      "eval_steps_per_second": 17.719,
+      "num_input_tokens_seen": 7849466,
+      "step": 7000
+    },
+    {
+      "epoch": 1.6884286357496623,
+      "grad_norm": 2.1379499435424805,
+      "learning_rate": 4.155785682125169e-05,
+      "loss": 1.7342,
+      "num_input_tokens_seen": 8415302,
+      "step": 7500
+    },
+    {
+      "epoch": 1.6884286357496623,
+      "eval_loss": 1.5791916847229004,
+      "eval_runtime": 6.899,
+      "eval_samples_per_second": 144.949,
+      "eval_steps_per_second": 18.119,
+      "num_input_tokens_seen": 8415302,
+      "step": 7500
+    },
+    {
+      "epoch": 1.8009905447996397,
+      "grad_norm": 3.6986210346221924,
+      "learning_rate": 4.09950472760018e-05,
+      "loss": 1.7247,
+      "num_input_tokens_seen": 8970490,
+      "step": 8000
+    },
+    {
+      "epoch": 1.8009905447996397,
+      "eval_loss": 1.5758883953094482,
+      "eval_runtime": 7.0586,
+      "eval_samples_per_second": 141.671,
+      "eval_steps_per_second": 17.709,
+      "num_input_tokens_seen": 8970490,
+      "step": 8000
+    },
+    {
+      "epoch": 1.9135524538496171,
+      "grad_norm": 2.2056398391723633,
+      "learning_rate": 4.0432237730751915e-05,
+      "loss": 1.7423,
+      "num_input_tokens_seen": 9529290,
+      "step": 8500
+    },
+    {
+      "epoch": 1.9135524538496171,
+      "eval_loss": 1.574432134628296,
+      "eval_runtime": 7.087,
+      "eval_samples_per_second": 141.104,
+      "eval_steps_per_second": 17.638,
+      "num_input_tokens_seen": 9529290,
+      "step": 8500
+    },
+    {
+      "epoch": 2.0261143628995946,
+      "grad_norm": 2.6801469326019287,
+      "learning_rate": 3.986942818550203e-05,
+      "loss": 1.7138,
+      "num_input_tokens_seen": 10091652,
+      "step": 9000
+    },
+    {
+      "epoch": 2.0261143628995946,
+      "eval_loss": 1.5655481815338135,
+      "eval_runtime": 6.8545,
+      "eval_samples_per_second": 145.889,
+      "eval_steps_per_second": 18.236,
+      "num_input_tokens_seen": 10091652,
+      "step": 9000
+    },
+    {
+      "epoch": 2.1386762719495724,
+      "grad_norm": 1.9888643026351929,
+      "learning_rate": 3.9306618640252144e-05,
+      "loss": 1.6719,
+      "num_input_tokens_seen": 10650544,
+      "step": 9500
+    },
+    {
+      "epoch": 2.1386762719495724,
+      "eval_loss": 1.562954306602478,
+      "eval_runtime": 6.8029,
+      "eval_samples_per_second": 146.995,
+      "eval_steps_per_second": 18.374,
+      "num_input_tokens_seen": 10650544,
+      "step": 9500
+    },
+    {
+      "epoch": 2.25123818099955,
+      "grad_norm": 2.0444724559783936,
+      "learning_rate": 3.874380909500225e-05,
+      "loss": 1.6637,
+      "num_input_tokens_seen": 11208648,
+      "step": 10000
+    },
+    {
+      "epoch": 2.25123818099955,
+      "eval_loss": 1.5584429502487183,
+      "eval_runtime": 6.8702,
+      "eval_samples_per_second": 145.557,
+      "eval_steps_per_second": 18.195,
+      "num_input_tokens_seen": 11208648,
+      "step": 10000
+    },
+    {
+      "epoch": 2.3638000900495273,
+      "grad_norm": 3.0980803966522217,
+      "learning_rate": 3.8180999549752365e-05,
+      "loss": 1.6415,
+      "num_input_tokens_seen": 11776396,
+      "step": 10500
+    },
+    {
+      "epoch": 2.3638000900495273,
+      "eval_loss": 1.5608967542648315,
+      "eval_runtime": 6.9589,
+      "eval_samples_per_second": 143.702,
+      "eval_steps_per_second": 17.963,
+      "num_input_tokens_seen": 11776396,
+      "step": 10500
+    },
+    {
+      "epoch": 2.4763619990995047,
+      "grad_norm": 2.2694685459136963,
+      "learning_rate": 3.761819000450248e-05,
+      "loss": 1.6565,
+      "num_input_tokens_seen": 12338500,
+      "step": 11000
+    },
+    {
+      "epoch": 2.4763619990995047,
+      "eval_loss": 1.5557788610458374,
+      "eval_runtime": 6.8357,
+      "eval_samples_per_second": 146.29,
+      "eval_steps_per_second": 18.286,
+      "num_input_tokens_seen": 12338500,
+      "step": 11000
+    },
+    {
+      "epoch": 2.588923908149482,
+      "grad_norm": 2.054405689239502,
+      "learning_rate": 3.705538045925259e-05,
+      "loss": 1.6597,
+      "num_input_tokens_seen": 12897552,
+      "step": 11500
+    },
+    {
+      "epoch": 2.588923908149482,
+      "eval_loss": 1.5530343055725098,
+      "eval_runtime": 6.9444,
+      "eval_samples_per_second": 144.001,
+      "eval_steps_per_second": 18.0,
+      "num_input_tokens_seen": 12897552,
+      "step": 11500
+    },
+    {
+      "epoch": 2.7014858171994596,
+      "grad_norm": 2.121612548828125,
+      "learning_rate": 3.649257091400271e-05,
+      "loss": 1.6709,
+      "num_input_tokens_seen": 13460052,
+      "step": 12000
+    },
+    {
+      "epoch": 2.7014858171994596,
+      "eval_loss": 1.547659993171692,
+      "eval_runtime": 6.9397,
+      "eval_samples_per_second": 144.099,
+      "eval_steps_per_second": 18.012,
+      "num_input_tokens_seen": 13460052,
+      "step": 12000
+    },
+    {
+      "epoch": 2.814047726249437,
+      "grad_norm": 2.2037246227264404,
+      "learning_rate": 3.5929761368752815e-05,
+      "loss": 1.648,
+      "num_input_tokens_seen": 14021984,
+      "step": 12500
+    },
+    {
+      "epoch": 2.814047726249437,
+      "eval_loss": 1.5424396991729736,
+      "eval_runtime": 6.9369,
+      "eval_samples_per_second": 144.156,
+      "eval_steps_per_second": 18.019,
+      "num_input_tokens_seen": 14021984,
+      "step": 12500
+    },
+    {
+      "epoch": 2.926609635299415,
+      "grad_norm": 3.3693389892578125,
+      "learning_rate": 3.536695182350293e-05,
+      "loss": 1.642,
+      "num_input_tokens_seen": 14586256,
+      "step": 13000
+    },
+    {
+      "epoch": 2.926609635299415,
+      "eval_loss": 1.5432666540145874,
+      "eval_runtime": 6.899,
+      "eval_samples_per_second": 144.948,
+      "eval_steps_per_second": 18.119,
+      "num_input_tokens_seen": 14586256,
+      "step": 13000
+    },
+    {
+      "epoch": 3.0391715443493923,
+      "grad_norm": 2.0641028881073,
+      "learning_rate": 3.480414227825304e-05,
+      "loss": 1.6258,
+      "num_input_tokens_seen": 15140609,
+      "step": 13500
+    },
+    {
+      "epoch": 3.0391715443493923,
+      "eval_loss": 1.541858196258545,
+      "eval_runtime": 6.9082,
+      "eval_samples_per_second": 144.756,
+      "eval_steps_per_second": 18.095,
+      "num_input_tokens_seen": 15140609,
+      "step": 13500
+    },
+    {
+      "epoch": 3.1517334533993697,
+      "grad_norm": 2.103282928466797,
+      "learning_rate": 3.424133273300315e-05,
+      "loss": 1.6067,
+      "num_input_tokens_seen": 15700397,
+      "step": 14000
+    },
+    {
+      "epoch": 3.1517334533993697,
+      "eval_loss": 1.541473627090454,
+      "eval_runtime": 6.8691,
+      "eval_samples_per_second": 145.579,
+      "eval_steps_per_second": 18.197,
+      "num_input_tokens_seen": 15700397,
+      "step": 14000
+    },
+    {
+      "epoch": 3.264295362449347,
+      "grad_norm": 1.831855297088623,
+      "learning_rate": 3.3678523187753265e-05,
+      "loss": 1.5946,
+      "num_input_tokens_seen": 16265849,
+      "step": 14500
+    },
+    {
+      "epoch": 3.264295362449347,
+      "eval_loss": 1.54502272605896,
+      "eval_runtime": 6.9275,
+      "eval_samples_per_second": 144.353,
+      "eval_steps_per_second": 18.044,
+      "num_input_tokens_seen": 16265849,
+      "step": 14500
+    },
+    {
+      "epoch": 3.3768572714993246,
+      "grad_norm": 1.8841536045074463,
+      "learning_rate": 3.311571364250338e-05,
+      "loss": 1.5835,
+      "num_input_tokens_seen": 16827557,
+      "step": 15000
+    },
+    {
+      "epoch": 3.3768572714993246,
+      "eval_loss": 1.5415329933166504,
+      "eval_runtime": 7.0688,
+      "eval_samples_per_second": 141.466,
+      "eval_steps_per_second": 17.683,
+      "num_input_tokens_seen": 16827557,
+      "step": 15000
+    },
+    {
+      "epoch": 3.489419180549302,
+      "grad_norm": 2.257237672805786,
+      "learning_rate": 3.2552904097253486e-05,
+      "loss": 1.5996,
+      "num_input_tokens_seen": 17384857,
+      "step": 15500
+    },
+    {
+      "epoch": 3.489419180549302,
+      "eval_loss": 1.5411442518234253,
+      "eval_runtime": 6.997,
+      "eval_samples_per_second": 142.919,
+      "eval_steps_per_second": 17.865,
+      "num_input_tokens_seen": 17384857,
+      "step": 15500
+    },
+    {
+      "epoch": 3.6019810895992794,
+      "grad_norm": 3.1065425872802734,
+      "learning_rate": 3.19900945520036e-05,
+      "loss": 1.5834,
+      "num_input_tokens_seen": 17945909,
+      "step": 16000
+    },
+    {
+      "epoch": 3.6019810895992794,
+      "eval_loss": 1.5382109880447388,
+      "eval_runtime": 7.0342,
+      "eval_samples_per_second": 142.163,
+      "eval_steps_per_second": 17.77,
+      "num_input_tokens_seen": 17945909,
+      "step": 16000
+    },
+    {
+      "epoch": 3.7145429986492573,
+      "grad_norm": 2.736241579055786,
+      "learning_rate": 3.1427285006753714e-05,
+      "loss": 1.5956,
+      "num_input_tokens_seen": 18507721,
+      "step": 16500
+    },
+    {
+      "epoch": 3.7145429986492573,
+      "eval_loss": 1.5350807905197144,
+      "eval_runtime": 6.9983,
+      "eval_samples_per_second": 142.893,
+      "eval_steps_per_second": 17.862,
+      "num_input_tokens_seen": 18507721,
+      "step": 16500
+    },
+    {
+      "epoch": 3.8271049076992347,
+      "grad_norm": 2.040745973587036,
+      "learning_rate": 3.086447546150383e-05,
+      "loss": 1.5825,
+      "num_input_tokens_seen": 19069425,
+      "step": 17000
+    },
+    {
+      "epoch": 3.8271049076992347,
+      "eval_loss": 1.5356193780899048,
+      "eval_runtime": 6.7845,
+      "eval_samples_per_second": 147.395,
+      "eval_steps_per_second": 18.424,
+      "num_input_tokens_seen": 19069425,
+      "step": 17000
+    },
+    {
+      "epoch": 3.939666816749212,
+      "grad_norm": 1.7128684520721436,
+      "learning_rate": 3.030166591625394e-05,
+      "loss": 1.6001,
+      "num_input_tokens_seen": 19631905,
+      "step": 17500
+    },
+    {
+      "epoch": 3.939666816749212,
+      "eval_loss": 1.5294198989868164,
+      "eval_runtime": 6.8242,
+      "eval_samples_per_second": 146.538,
+      "eval_steps_per_second": 18.317,
+      "num_input_tokens_seen": 19631905,
+      "step": 17500
+    },
+    {
+      "epoch": 4.052228725799189,
+      "grad_norm": 2.3983848094940186,
+      "learning_rate": 2.9738856371004053e-05,
+      "loss": 1.5677,
+      "num_input_tokens_seen": 20185192,
+      "step": 18000
+    },
+    {
+      "epoch": 4.052228725799189,
+      "eval_loss": 1.5368764400482178,
+      "eval_runtime": 6.9147,
+      "eval_samples_per_second": 144.619,
+      "eval_steps_per_second": 18.077,
+      "num_input_tokens_seen": 20185192,
+      "step": 18000
+    },
+    {
+      "epoch": 4.164790634849167,
+      "grad_norm": 2.142731189727783,
+      "learning_rate": 2.9176046825754167e-05,
+      "loss": 1.5415,
+      "num_input_tokens_seen": 20739888,
+      "step": 18500
+    },
+    {
+      "epoch": 4.164790634849167,
+      "eval_loss": 1.5318347215652466,
+      "eval_runtime": 6.8209,
+      "eval_samples_per_second": 146.608,
+      "eval_steps_per_second": 18.326,
+      "num_input_tokens_seen": 20739888,
+      "step": 18500
+    },
+    {
+      "epoch": 4.277352543899145,
+      "grad_norm": 2.7573177814483643,
+      "learning_rate": 2.8613237280504278e-05,
+      "loss": 1.5362,
+      "num_input_tokens_seen": 21304584,
+      "step": 19000
+    },
+    {
+      "epoch": 4.277352543899145,
+      "eval_loss": 1.531069278717041,
+      "eval_runtime": 6.7833,
+      "eval_samples_per_second": 147.42,
+      "eval_steps_per_second": 18.428,
+      "num_input_tokens_seen": 21304584,
+      "step": 19000
+    },
+    {
+      "epoch": 4.389914452949122,
+      "grad_norm": 3.4846112728118896,
+      "learning_rate": 2.8050427735254392e-05,
+      "loss": 1.5251,
+      "num_input_tokens_seen": 21862856,
+      "step": 19500
+    },
+    {
+      "epoch": 4.389914452949122,
+      "eval_loss": 1.5322602987289429,
+      "eval_runtime": 6.8222,
+      "eval_samples_per_second": 146.58,
+      "eval_steps_per_second": 18.323,
+      "num_input_tokens_seen": 21862856,
+      "step": 19500
+    },
+    {
+      "epoch": 4.5024763619991,
+      "grad_norm": 1.7864114046096802,
+      "learning_rate": 2.7487618190004506e-05,
+      "loss": 1.5388,
+      "num_input_tokens_seen": 22427236,
+      "step": 20000
+    },
+    {
+      "epoch": 4.5024763619991,
+      "eval_loss": 1.5306612253189087,
+      "eval_runtime": 6.7822,
+      "eval_samples_per_second": 147.445,
+      "eval_steps_per_second": 18.431,
+      "num_input_tokens_seen": 22427236,
+      "step": 20000
+    },
+    {
+      "epoch": 4.615038271049077,
+      "grad_norm": 2.4305617809295654,
+      "learning_rate": 2.6924808644754617e-05,
+      "loss": 1.5508,
+      "num_input_tokens_seen": 22985184,
+      "step": 20500
+    },
+    {
+      "epoch": 4.615038271049077,
+      "eval_loss": 1.528159260749817,
+      "eval_runtime": 6.7935,
+      "eval_samples_per_second": 147.2,
+      "eval_steps_per_second": 18.4,
+      "num_input_tokens_seen": 22985184,
+      "step": 20500
+    },
+    {
+      "epoch": 4.727600180099055,
+      "grad_norm": 2.421140193939209,
+      "learning_rate": 2.636199909950473e-05,
+      "loss": 1.5692,
+      "num_input_tokens_seen": 23548396,
+      "step": 21000
+    },
+    {
+      "epoch": 4.727600180099055,
+      "eval_loss": 1.5264862775802612,
+      "eval_runtime": 6.7777,
+      "eval_samples_per_second": 147.543,
+      "eval_steps_per_second": 18.443,
+      "num_input_tokens_seen": 23548396,
+      "step": 21000
+    },
+    {
+      "epoch": 4.8401620891490325,
+      "grad_norm": 2.5409975051879883,
+      "learning_rate": 2.5799189554254842e-05,
+      "loss": 1.5391,
+      "num_input_tokens_seen": 24111452,
+      "step": 21500
+    },
+    {
+      "epoch": 4.8401620891490325,
+      "eval_loss": 1.5276471376419067,
+      "eval_runtime": 6.7577,
+      "eval_samples_per_second": 147.979,
+      "eval_steps_per_second": 18.497,
+      "num_input_tokens_seen": 24111452,
+      "step": 21500
+    },
+    {
+      "epoch": 4.952723998199009,
+      "grad_norm": 2.3315558433532715,
+      "learning_rate": 2.5236380009004956e-05,
+      "loss": 1.5431,
+      "num_input_tokens_seen": 24673344,
+      "step": 22000
+    },
+    {
+      "epoch": 4.952723998199009,
+      "eval_loss": 1.5270482301712036,
+      "eval_runtime": 6.7599,
+      "eval_samples_per_second": 147.932,
+      "eval_steps_per_second": 18.491,
+      "num_input_tokens_seen": 24673344,
+      "step": 22000
+    },
+    {
+      "epoch": 5.065285907248987,
+      "grad_norm": 1.7638120651245117,
+      "learning_rate": 2.4673570463755067e-05,
+      "loss": 1.5147,
+      "num_input_tokens_seen": 25236559,
+      "step": 22500
+    },
+    {
+      "epoch": 5.065285907248987,
+      "eval_loss": 1.529248833656311,
+      "eval_runtime": 6.7621,
+      "eval_samples_per_second": 147.883,
+      "eval_steps_per_second": 18.485,
+      "num_input_tokens_seen": 25236559,
+      "step": 22500
+    },
+    {
+      "epoch": 5.177847816298964,
+      "grad_norm": 2.1643288135528564,
+      "learning_rate": 2.4110760918505178e-05,
+      "loss": 1.4908,
+      "num_input_tokens_seen": 25799675,
+      "step": 23000
+    },
+    {
+      "epoch": 5.177847816298964,
+      "eval_loss": 1.5288372039794922,
+      "eval_runtime": 6.7612,
+      "eval_samples_per_second": 147.902,
+      "eval_steps_per_second": 18.488,
+      "num_input_tokens_seen": 25799675,
+      "step": 23000
+    },
+    {
+      "epoch": 5.290409725348942,
+      "grad_norm": 2.620457172393799,
+      "learning_rate": 2.3547951373255292e-05,
+      "loss": 1.5153,
+      "num_input_tokens_seen": 26352767,
+      "step": 23500
+    },
+    {
+      "epoch": 5.290409725348942,
+      "eval_loss": 1.5288450717926025,
+      "eval_runtime": 6.7495,
+      "eval_samples_per_second": 148.159,
+      "eval_steps_per_second": 18.52,
+      "num_input_tokens_seen": 26352767,
+      "step": 23500
+    },
+    {
+      "epoch": 5.402971634398919,
+      "grad_norm": 1.847611427307129,
+      "learning_rate": 2.2985141828005406e-05,
+      "loss": 1.5099,
+      "num_input_tokens_seen": 26916707,
+      "step": 24000
+    },
+    {
+      "epoch": 5.402971634398919,
+      "eval_loss": 1.5249587297439575,
+      "eval_runtime": 6.5756,
+      "eval_samples_per_second": 152.077,
+      "eval_steps_per_second": 19.01,
+      "num_input_tokens_seen": 26916707,
+      "step": 24000
+    },
+    {
+      "epoch": 5.515533543448897,
+      "grad_norm": 2.3133625984191895,
+      "learning_rate": 2.2422332282755517e-05,
+      "loss": 1.5064,
+      "num_input_tokens_seen": 27483639,
+      "step": 24500
+    },
+    {
+      "epoch": 5.515533543448897,
+      "eval_loss": 1.5258936882019043,
+      "eval_runtime": 6.6146,
+      "eval_samples_per_second": 151.18,
+      "eval_steps_per_second": 18.897,
+      "num_input_tokens_seen": 27483639,
+      "step": 24500
+    },
+    {
+      "epoch": 5.628095452498874,
+      "grad_norm": 2.402250289916992,
+      "learning_rate": 2.185952273750563e-05,
+      "loss": 1.5146,
+      "num_input_tokens_seen": 28040307,
+      "step": 25000
+    },
+    {
+      "epoch": 5.628095452498874,
+      "eval_loss": 1.5248527526855469,
+      "eval_runtime": 6.7384,
+      "eval_samples_per_second": 148.403,
+      "eval_steps_per_second": 18.55,
+      "num_input_tokens_seen": 28040307,
+      "step": 25000
+    },
+    {
+      "epoch": 5.740657361548852,
+      "grad_norm": 2.146390438079834,
+      "learning_rate": 2.129671319225574e-05,
+      "loss": 1.4938,
+      "num_input_tokens_seen": 28600639,
+      "step": 25500
+    },
+    {
+      "epoch": 5.740657361548852,
+      "eval_loss": 1.5232993364334106,
+      "eval_runtime": 6.8312,
+      "eval_samples_per_second": 146.387,
+      "eval_steps_per_second": 18.298,
+      "num_input_tokens_seen": 28600639,
+      "step": 25500
+    },
+    {
+      "epoch": 5.85321927059883,
+      "grad_norm": 2.0159800052642822,
+      "learning_rate": 2.0733903647005852e-05,
+      "loss": 1.5034,
+      "num_input_tokens_seen": 29164539,
+      "step": 26000
+    },
+    {
+      "epoch": 5.85321927059883,
+      "eval_loss": 1.52369225025177,
+      "eval_runtime": 6.8837,
+      "eval_samples_per_second": 145.271,
+      "eval_steps_per_second": 18.159,
+      "num_input_tokens_seen": 29164539,
+      "step": 26000
+    },
+    {
+      "epoch": 5.965781179648807,
+      "grad_norm": 2.001739740371704,
+      "learning_rate": 2.0171094101755966e-05,
+      "loss": 1.5091,
+      "num_input_tokens_seen": 29730199,
+      "step": 26500
+    },
+    {
+      "epoch": 5.965781179648807,
+      "eval_loss": 1.5219199657440186,
+      "eval_runtime": 6.8886,
+      "eval_samples_per_second": 145.168,
+      "eval_steps_per_second": 18.146,
+      "num_input_tokens_seen": 29730199,
+      "step": 26500
+    },
+    {
+      "epoch": 6.078343088698785,
+      "grad_norm": 1.9858044385910034,
+      "learning_rate": 1.960828455650608e-05,
+      "loss": 1.4853,
+      "num_input_tokens_seen": 30286010,
+      "step": 27000
+    },
+    {
+      "epoch": 6.078343088698785,
+      "eval_loss": 1.5240556001663208,
+      "eval_runtime": 6.7755,
+      "eval_samples_per_second": 147.591,
+      "eval_steps_per_second": 18.449,
+      "num_input_tokens_seen": 30286010,
+      "step": 27000
+    },
+    {
+      "epoch": 6.190904997748762,
+      "grad_norm": 1.812340259552002,
+      "learning_rate": 1.904547501125619e-05,
+      "loss": 1.4797,
+      "num_input_tokens_seen": 30840802,
+      "step": 27500
+    },
+    {
+      "epoch": 6.190904997748762,
+      "eval_loss": 1.5201354026794434,
+      "eval_runtime": 6.8727,
+      "eval_samples_per_second": 145.503,
+      "eval_steps_per_second": 18.188,
+      "num_input_tokens_seen": 30840802,
+      "step": 27500
+    },
+    {
+      "epoch": 6.3034669067987394,
+      "grad_norm": 2.370309829711914,
+      "learning_rate": 1.8482665466006305e-05,
+      "loss": 1.466,
+      "num_input_tokens_seen": 31403710,
+      "step": 28000
+    },
+    {
+      "epoch": 6.3034669067987394,
+      "eval_loss": 1.5237922668457031,
+      "eval_runtime": 6.9361,
+      "eval_samples_per_second": 144.174,
+      "eval_steps_per_second": 18.022,
+      "num_input_tokens_seen": 31403710,
+      "step": 28000
+    },
+    {
+      "epoch": 6.416028815848716,
+      "grad_norm": 2.5866804122924805,
+      "learning_rate": 1.7919855920756416e-05,
+      "loss": 1.4666,
+      "num_input_tokens_seen": 31962730,
+      "step": 28500
+    },
+    {
+      "epoch": 6.416028815848716,
+      "eval_loss": 1.522592306137085,
+      "eval_runtime": 6.8335,
+      "eval_samples_per_second": 146.339,
+      "eval_steps_per_second": 18.292,
+      "num_input_tokens_seen": 31962730,
+      "step": 28500
+    },
+    {
+      "epoch": 6.528590724898694,
+      "grad_norm": 2.151406764984131,
+      "learning_rate": 1.735704637550653e-05,
+      "loss": 1.4732,
+      "num_input_tokens_seen": 32518854,
+      "step": 29000
+    },
+    {
+      "epoch": 6.528590724898694,
+      "eval_loss": 1.519935965538025,
+      "eval_runtime": 6.7994,
+      "eval_samples_per_second": 147.072,
+      "eval_steps_per_second": 18.384,
+      "num_input_tokens_seen": 32518854,
+      "step": 29000
+    },
+    {
+      "epoch": 6.641152633948671,
+      "grad_norm": 2.2219040393829346,
+      "learning_rate": 1.6794236830256644e-05,
+      "loss": 1.4756,
+      "num_input_tokens_seen": 33083634,
+      "step": 29500
+    },
+    {
+      "epoch": 6.641152633948671,
+      "eval_loss": 1.5219242572784424,
+      "eval_runtime": 6.7754,
+      "eval_samples_per_second": 147.592,
+      "eval_steps_per_second": 18.449,
+      "num_input_tokens_seen": 33083634,
+      "step": 29500
+    },
+    {
+      "epoch": 6.753714542998649,
+      "grad_norm": 1.9344135522842407,
+      "learning_rate": 1.6231427285006755e-05,
+      "loss": 1.4778,
+      "num_input_tokens_seen": 33644482,
+      "step": 30000
+    },
+    {
+      "epoch": 6.753714542998649,
+      "eval_loss": 1.519468069076538,
+      "eval_runtime": 6.8057,
+      "eval_samples_per_second": 146.936,
+      "eval_steps_per_second": 18.367,
+      "num_input_tokens_seen": 33644482,
+      "step": 30000
+    },
+    {
+      "epoch": 6.866276452048627,
+      "grad_norm": 1.8874679803848267,
+      "learning_rate": 1.5668617739756866e-05,
+      "loss": 1.4674,
+      "num_input_tokens_seen": 34207738,
+      "step": 30500
+    },
+    {
+      "epoch": 6.866276452048627,
+      "eval_loss": 1.5181845426559448,
+      "eval_runtime": 6.9025,
+      "eval_samples_per_second": 144.875,
+      "eval_steps_per_second": 18.109,
+      "num_input_tokens_seen": 34207738,
+      "step": 30500
+    },
+    {
+      "epoch": 6.978838361098604,
+      "grad_norm": 1.885331392288208,
+      "learning_rate": 1.510580819450698e-05,
+      "loss": 1.4813,
+      "num_input_tokens_seen": 34772050,
+      "step": 31000
+    },
+    {
+      "epoch": 6.978838361098604,
+      "eval_loss": 1.5201555490493774,
+      "eval_runtime": 6.832,
+      "eval_samples_per_second": 146.37,
+      "eval_steps_per_second": 18.296,
+      "num_input_tokens_seen": 34772050,
+      "step": 31000
+    },
+    {
+      "epoch": 7.091400270148582,
+      "grad_norm": 2.135857582092285,
+      "learning_rate": 1.4542998649257092e-05,
+      "loss": 1.4543,
+      "num_input_tokens_seen": 35331657,
+      "step": 31500
+    },
+    {
+      "epoch": 7.091400270148582,
+      "eval_loss": 1.521092414855957,
+      "eval_runtime": 6.9064,
+      "eval_samples_per_second": 144.792,
+      "eval_steps_per_second": 18.099,
+      "num_input_tokens_seen": 35331657,
+      "step": 31500
+    },
+    {
+      "epoch": 7.203962179198559,
+      "grad_norm": 2.2138864994049072,
+      "learning_rate": 1.3980189104007205e-05,
+      "loss": 1.4389,
+      "num_input_tokens_seen": 35888749,
+      "step": 32000
+    },
+    {
+      "epoch": 7.203962179198559,
+      "eval_loss": 1.5221294164657593,
+      "eval_runtime": 6.9475,
+      "eval_samples_per_second": 143.937,
+      "eval_steps_per_second": 17.992,
+      "num_input_tokens_seen": 35888749,
+      "step": 32000
+    },
+    {
+      "epoch": 7.316524088248537,
+      "grad_norm": 2.255690336227417,
+      "learning_rate": 1.3417379558757317e-05,
+      "loss": 1.4534,
+      "num_input_tokens_seen": 36455101,
+      "step": 32500
+    },
+    {
+      "epoch": 7.316524088248537,
+      "eval_loss": 1.5215495824813843,
+      "eval_runtime": 6.9343,
+      "eval_samples_per_second": 144.211,
+      "eval_steps_per_second": 18.026,
+      "num_input_tokens_seen": 36455101,
+      "step": 32500
+    },
+    {
+      "epoch": 7.429085997298515,
+      "grad_norm": 1.9412790536880493,
+      "learning_rate": 1.285457001350743e-05,
+      "loss": 1.4401,
+      "num_input_tokens_seen": 37016889,
+      "step": 33000
+    },
+    {
+      "epoch": 7.429085997298515,
+      "eval_loss": 1.5207875967025757,
+      "eval_runtime": 6.7928,
+      "eval_samples_per_second": 147.215,
+      "eval_steps_per_second": 18.402,
+      "num_input_tokens_seen": 37016889,
+      "step": 33000
+    },
+    {
+      "epoch": 7.541647906348492,
+      "grad_norm": 2.0584607124328613,
+      "learning_rate": 1.2291760468257542e-05,
+      "loss": 1.4435,
+      "num_input_tokens_seen": 37570517,
+      "step": 33500
+    },
+    {
+      "epoch": 7.541647906348492,
+      "eval_loss": 1.5211970806121826,
+      "eval_runtime": 6.8598,
+      "eval_samples_per_second": 145.776,
+      "eval_steps_per_second": 18.222,
+      "num_input_tokens_seen": 37570517,
+      "step": 33500
+    },
+    {
+      "epoch": 7.6542098153984695,
+      "grad_norm": 2.090921401977539,
+      "learning_rate": 1.1728950923007654e-05,
+      "loss": 1.4443,
+      "num_input_tokens_seen": 38134577,
+      "step": 34000
+    },
+    {
+      "epoch": 7.6542098153984695,
+      "eval_loss": 1.5204721689224243,
+      "eval_runtime": 6.9765,
+      "eval_samples_per_second": 143.338,
+      "eval_steps_per_second": 17.917,
+      "num_input_tokens_seen": 38134577,
+      "step": 34000
+    },
+    {
+      "epoch": 7.766771724448446,
+      "grad_norm": 2.349177360534668,
+      "learning_rate": 1.1166141377757767e-05,
+      "loss": 1.4533,
+      "num_input_tokens_seen": 38700917,
+      "step": 34500
+    },
+    {
+      "epoch": 7.766771724448446,
+      "eval_loss": 1.5209357738494873,
+      "eval_runtime": 7.024,
+      "eval_samples_per_second": 142.37,
+      "eval_steps_per_second": 17.796,
+      "num_input_tokens_seen": 38700917,
+      "step": 34500
+    },
+    {
+      "epoch": 7.879333633498424,
+      "grad_norm": 2.0737385749816895,
+      "learning_rate": 1.0603331832507881e-05,
+      "loss": 1.4589,
+      "num_input_tokens_seen": 39259257,
+      "step": 35000
+    },
+    {
+      "epoch": 7.879333633498424,
+      "eval_loss": 1.5217865705490112,
+      "eval_runtime": 6.8333,
+      "eval_samples_per_second": 146.343,
+      "eval_steps_per_second": 18.293,
+      "num_input_tokens_seen": 39259257,
+      "step": 35000
+    },
+    {
+      "epoch": 7.991895542548401,
+      "grad_norm": 2.072783946990967,
+      "learning_rate": 1.0040522287257992e-05,
+      "loss": 1.4548,
+      "num_input_tokens_seen": 39819093,
+      "step": 35500
+    },
+    {
+      "epoch": 7.991895542548401,
+      "eval_loss": 1.5185105800628662,
+      "eval_runtime": 6.7618,
+      "eval_samples_per_second": 147.889,
+      "eval_steps_per_second": 18.486,
+      "num_input_tokens_seen": 39819093,
+      "step": 35500
+    },
+    {
+      "epoch": 8.104457451598378,
+      "grad_norm": 2.2963035106658936,
+      "learning_rate": 9.477712742008104e-06,
+      "loss": 1.4322,
+      "num_input_tokens_seen": 40382907,
+      "step": 36000
+    },
+    {
+      "epoch": 8.104457451598378,
+      "eval_loss": 1.520738959312439,
+      "eval_runtime": 6.783,
+      "eval_samples_per_second": 147.428,
+      "eval_steps_per_second": 18.428,
+      "num_input_tokens_seen": 40382907,
+      "step": 36000
+    },
+    {
+      "epoch": 8.217019360648356,
+      "grad_norm": 2.450338840484619,
+      "learning_rate": 8.914903196758218e-06,
+      "loss": 1.4271,
+      "num_input_tokens_seen": 40938983,
+      "step": 36500
+    },
+    {
+      "epoch": 8.217019360648356,
+      "eval_loss": 1.5220232009887695,
+      "eval_runtime": 6.9451,
+      "eval_samples_per_second": 143.986,
+      "eval_steps_per_second": 17.998,
+      "num_input_tokens_seen": 40938983,
+      "step": 36500
+    },
+    {
+      "epoch": 8.329581269698334,
+      "grad_norm": 2.414069890975952,
+      "learning_rate": 8.35209365150833e-06,
+      "loss": 1.4165,
+      "num_input_tokens_seen": 41498811,
+      "step": 37000
+    },
+    {
+      "epoch": 8.329581269698334,
+      "eval_loss": 1.520321011543274,
+      "eval_runtime": 6.9316,
+      "eval_samples_per_second": 144.266,
+      "eval_steps_per_second": 18.033,
+      "num_input_tokens_seen": 41498811,
+      "step": 37000
+    },
+    {
+      "epoch": 8.442143178748312,
+      "grad_norm": 2.3508474826812744,
+      "learning_rate": 7.789284106258443e-06,
+      "loss": 1.4273,
+      "num_input_tokens_seen": 42053427,
+      "step": 37500
+    },
+    {
+      "epoch": 8.442143178748312,
+      "eval_loss": 1.5197160243988037,
+      "eval_runtime": 6.8382,
+      "eval_samples_per_second": 146.237,
+      "eval_steps_per_second": 18.28,
+      "num_input_tokens_seen": 42053427,
+      "step": 37500
+    },
+    {
+      "epoch": 8.55470508779829,
+      "grad_norm": 1.876745581626892,
+      "learning_rate": 7.226474561008555e-06,
+      "loss": 1.4281,
+      "num_input_tokens_seen": 42615135,
+      "step": 38000
+    },
+    {
+      "epoch": 8.55470508779829,
+      "eval_loss": 1.519529104232788,
+      "eval_runtime": 6.7991,
+      "eval_samples_per_second": 147.078,
+      "eval_steps_per_second": 18.385,
+      "num_input_tokens_seen": 42615135,
+      "step": 38000
+    },
+    {
+      "epoch": 8.667266996848266,
+      "grad_norm": 2.1636829376220703,
+      "learning_rate": 6.663665015758667e-06,
+      "loss": 1.4372,
+      "num_input_tokens_seen": 43173055,
+      "step": 38500
+    },
+    {
+      "epoch": 8.667266996848266,
+      "eval_loss": 1.5196864604949951,
+      "eval_runtime": 6.9956,
+      "eval_samples_per_second": 142.947,
+      "eval_steps_per_second": 17.868,
+      "num_input_tokens_seen": 43173055,
+      "step": 38500
+    },
+    {
+      "epoch": 8.779828905898244,
+      "grad_norm": 2.752340078353882,
+      "learning_rate": 6.1008554705087804e-06,
+      "loss": 1.4374,
+      "num_input_tokens_seen": 43737723,
+      "step": 39000
+    },
+    {
+      "epoch": 8.779828905898244,
+      "eval_loss": 1.5174657106399536,
+      "eval_runtime": 6.8823,
+      "eval_samples_per_second": 145.301,
+      "eval_steps_per_second": 18.163,
+      "num_input_tokens_seen": 43737723,
+      "step": 39000
+    },
+    {
+      "epoch": 8.892390814948222,
+      "grad_norm": 2.1042685508728027,
+      "learning_rate": 5.538045925258893e-06,
+      "loss": 1.4278,
+      "num_input_tokens_seen": 44300547,
+      "step": 39500
+    },
+    {
+      "epoch": 8.892390814948222,
+      "eval_loss": 1.5211328268051147,
+      "eval_runtime": 6.8661,
+      "eval_samples_per_second": 145.644,
+      "eval_steps_per_second": 18.205,
+      "num_input_tokens_seen": 44300547,
+      "step": 39500
+    },
+    {
+      "epoch": 9.0049527239982,
+      "grad_norm": 2.175323486328125,
+      "learning_rate": 4.975236380009005e-06,
+      "loss": 1.442,
+      "num_input_tokens_seen": 44864787,
+      "step": 40000
+    },
+    {
+      "epoch": 9.0049527239982,
+      "eval_loss": 1.5188645124435425,
+      "eval_runtime": 6.7745,
+      "eval_samples_per_second": 147.612,
+      "eval_steps_per_second": 18.452,
+      "num_input_tokens_seen": 44864787,
+      "step": 40000
+    },
+    {
+      "epoch": 9.117514633048177,
+      "grad_norm": 2.275874376296997,
+      "learning_rate": 4.412426834759118e-06,
+      "loss": 1.4235,
+      "num_input_tokens_seen": 45418155,
+      "step": 40500
+    },
+    {
+      "epoch": 9.117514633048177,
+      "eval_loss": 1.5225725173950195,
+      "eval_runtime": 6.8797,
+      "eval_samples_per_second": 145.354,
+      "eval_steps_per_second": 18.169,
+      "num_input_tokens_seen": 45418155,
+      "step": 40500
+    },
+    {
+      "epoch": 9.230076542098153,
+      "grad_norm": 2.1484689712524414,
+      "learning_rate": 3.84961728950923e-06,
+      "loss": 1.413,
+      "num_input_tokens_seen": 45985195,
+      "step": 41000
+    },
+    {
+      "epoch": 9.230076542098153,
+      "eval_loss": 1.5219917297363281,
+      "eval_runtime": 6.7725,
+      "eval_samples_per_second": 147.655,
+      "eval_steps_per_second": 18.457,
+      "num_input_tokens_seen": 45985195,
+      "step": 41000
+    },
+    {
+      "epoch": 9.342638451148131,
+      "grad_norm": 1.917220115661621,
+      "learning_rate": 3.286807744259343e-06,
+      "loss": 1.4193,
+      "num_input_tokens_seen": 46538675,
+      "step": 41500
+    },
+    {
+      "epoch": 9.342638451148131,
+      "eval_loss": 1.5200846195220947,
+      "eval_runtime": 6.7567,
+      "eval_samples_per_second": 148.001,
+      "eval_steps_per_second": 18.5,
+      "num_input_tokens_seen": 46538675,
+      "step": 41500
+    },
+    {
+      "epoch": 9.45520036019811,
+      "grad_norm": 1.9557278156280518,
+      "learning_rate": 2.7239981990094554e-06,
+      "loss": 1.414,
+      "num_input_tokens_seen": 47101815,
+      "step": 42000
+    },
+    {
+      "epoch": 9.45520036019811,
+      "eval_loss": 1.5202205181121826,
+      "eval_runtime": 6.7702,
+      "eval_samples_per_second": 147.707,
+      "eval_steps_per_second": 18.463,
+      "num_input_tokens_seen": 47101815,
+      "step": 42000
+    },
+    {
+      "epoch": 9.567762269248087,
+      "grad_norm": 2.2344467639923096,
+      "learning_rate": 2.161188653759568e-06,
+      "loss": 1.4084,
+      "num_input_tokens_seen": 47655583,
+      "step": 42500
+    },
+    {
+      "epoch": 9.567762269248087,
+      "eval_loss": 1.5190742015838623,
+      "eval_runtime": 6.853,
+      "eval_samples_per_second": 145.921,
+      "eval_steps_per_second": 18.24,
+      "num_input_tokens_seen": 47655583,
+      "step": 42500
+    },
+    {
+      "epoch": 9.680324178298063,
+      "grad_norm": 2.065092086791992,
+      "learning_rate": 1.5983791085096803e-06,
+      "loss": 1.408,
+      "num_input_tokens_seen": 48217371,
+      "step": 43000
+    },
+    {
+      "epoch": 9.680324178298063,
+      "eval_loss": 1.5206738710403442,
+      "eval_runtime": 6.9763,
+      "eval_samples_per_second": 143.343,
+      "eval_steps_per_second": 17.918,
+      "num_input_tokens_seen": 48217371,
+      "step": 43000
+    },
+    {
+      "epoch": 9.792886087348041,
+      "grad_norm": 2.3241419792175293,
+      "learning_rate": 1.035569563259793e-06,
+      "loss": 1.4207,
+      "num_input_tokens_seen": 48781351,
+      "step": 43500
+    },
+    {
+      "epoch": 9.792886087348041,
+      "eval_loss": 1.5199604034423828,
+      "eval_runtime": 6.8579,
+      "eval_samples_per_second": 145.818,
+      "eval_steps_per_second": 18.227,
+      "num_input_tokens_seen": 48781351,
+      "step": 43500
+    },
+    {
+      "epoch": 9.905447996398019,
+      "grad_norm": 2.3469886779785156,
+      "learning_rate": 4.727600180099055e-07,
+      "loss": 1.4293,
+      "num_input_tokens_seen": 49345155,
+      "step": 44000
+    },
+    {
+      "epoch": 9.905447996398019,
+      "eval_loss": 1.519752860069275,
+      "eval_runtime": 6.7637,
+      "eval_samples_per_second": 147.848,
+      "eval_steps_per_second": 18.481,
+      "num_input_tokens_seen": 49345155,
+      "step": 44000
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 49815380,
+      "step": 44420,
+      "total_flos": 6.662920679892173e+16,
+      "train_loss": 1.5719221366734615,
+      "train_runtime": 7656.0711,
+      "train_samples_per_second": 23.204,
+      "train_steps_per_second": 5.802,
+      "train_tokens_per_second": 6514.629
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 44420,
+  "num_input_tokens_seen": 49815380,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.662920679892173e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5654cc319448f1580c94ba476edf95f08e308f0e6e5b151b7ed9581ad8ce3d3c
+size 5368