diff --git a/checkpoint-10000/config.json b/checkpoint-10000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-10000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-10000/experiment_cfg/metadata.json b/checkpoint-10000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-10000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-10000/model-00001-of-00002.safetensors b/checkpoint-10000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-10000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-10000/model-00002-of-00002.safetensors b/checkpoint-10000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5638d6605794948913af78767d4111f090178848
--- /dev/null
+++ b/checkpoint-10000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:595f7bca8c51123b14908af4b1eac93a96d52a59a6b0fe7d8bae323aa957c147
+size 2586705312
diff --git a/checkpoint-10000/model.safetensors.index.json b/checkpoint-10000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-10000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-10000/optimizer.pt b/checkpoint-10000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..65a8c0abd674f0d5a0fa567c96c3a4c743e94817
--- /dev/null
+++ b/checkpoint-10000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da86f5adf2d73c513c74e0a03ac6ef1580f785e88602acbe8e24e4c6d9e311d3
+size 4147424698
diff --git a/checkpoint-10000/rng_state.pth b/checkpoint-10000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..826a3ba5c96417aac7de0f3f286ba7d7ebbc5d7e
--- /dev/null
+++ b/checkpoint-10000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19496a2c7f714f9d36473c01b7fd34ce69b238124e9968608454712b8e5755ba
+size 14244
diff --git a/checkpoint-10000/scheduler.pt b/checkpoint-10000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f6fe32e541103d98cffffc5aa51a3354887597fa
--- /dev/null
+++ b/checkpoint-10000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07356cb668b8efc440ddb2f7f81f7da3152060e81d0229922fa3b30df3313f82
+size 1064
diff --git a/checkpoint-10000/trainer_state.json b/checkpoint-10000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..6e54c1c2ccbc59223afca6339df4ddf013f96a86
--- /dev/null
+++ b/checkpoint-10000/trainer_state.json
@@ -0,0 +1,7034 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.982477100756671,
+  "eval_steps": 500,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    },
+    {
+      "epoch": 2.393468737554759,
+      "grad_norm": 0.33681097626686096,
+      "learning_rate": 3.758152155160255e-05,
+      "loss": 0.0167,
+      "step": 6010
+    },
+    {
+      "epoch": 2.397451214655516,
+      "grad_norm": 0.4447823166847229,
+      "learning_rate": 3.742142385506999e-05,
+      "loss": 0.0187,
+      "step": 6020
+    },
+    {
+      "epoch": 2.4014336917562726,
+      "grad_norm": 0.32111281156539917,
+      "learning_rate": 3.72614637158309e-05,
+      "loss": 0.0167,
+      "step": 6030
+    },
+    {
+      "epoch": 2.405416168857029,
+      "grad_norm": 0.3327321708202362,
+      "learning_rate": 3.710164288318371e-05,
+      "loss": 0.021,
+      "step": 6040
+    },
+    {
+      "epoch": 2.409398645957786,
+      "grad_norm": 0.3221536874771118,
+      "learning_rate": 3.694196310490345e-05,
+      "loss": 0.0172,
+      "step": 6050
+    },
+    {
+      "epoch": 2.4133811230585422,
+      "grad_norm": 0.2384720742702484,
+      "learning_rate": 3.678242612722259e-05,
+      "loss": 0.0172,
+      "step": 6060
+    },
+    {
+      "epoch": 2.417363600159299,
+      "grad_norm": 0.4310377240180969,
+      "learning_rate": 3.6623033694811953e-05,
+      "loss": 0.0207,
+      "step": 6070
+    },
+    {
+      "epoch": 2.421346077260056,
+      "grad_norm": 0.2742801904678345,
+      "learning_rate": 3.6463787550761665e-05,
+      "loss": 0.0204,
+      "step": 6080
+    },
+    {
+      "epoch": 2.4253285543608123,
+      "grad_norm": 0.30959945917129517,
+      "learning_rate": 3.630468943656202e-05,
+      "loss": 0.0171,
+      "step": 6090
+    },
+    {
+      "epoch": 2.429311031461569,
+      "grad_norm": 0.23991258442401886,
+      "learning_rate": 3.6145741092084523e-05,
+      "loss": 0.0158,
+      "step": 6100
+    },
+    {
+      "epoch": 2.433293508562326,
+      "grad_norm": 0.3445211350917816,
+      "learning_rate": 3.598694425556278e-05,
+      "loss": 0.0171,
+      "step": 6110
+    },
+    {
+      "epoch": 2.4372759856630823,
+      "grad_norm": 0.23148199915885925,
+      "learning_rate": 3.58283006635736e-05,
+      "loss": 0.0168,
+      "step": 6120
+    },
+    {
+      "epoch": 2.441258462763839,
+      "grad_norm": 0.34516337513923645,
+      "learning_rate": 3.566981205101781e-05,
+      "loss": 0.0214,
+      "step": 6130
+    },
+    {
+      "epoch": 2.445240939864596,
+      "grad_norm": 0.2975906729698181,
+      "learning_rate": 3.5511480151101556e-05,
+      "loss": 0.0182,
+      "step": 6140
+    },
+    {
+      "epoch": 2.4492234169653524,
+      "grad_norm": 0.3364192545413971,
+      "learning_rate": 3.5353306695317104e-05,
+      "loss": 0.0149,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4532058940661092,
+      "grad_norm": 0.32481926679611206,
+      "learning_rate": 3.519529341342402e-05,
+      "loss": 0.0205,
+      "step": 6160
+    },
+    {
+      "epoch": 2.4571883711668656,
+      "grad_norm": 0.35478660464286804,
+      "learning_rate": 3.503744203343026e-05,
+      "loss": 0.0184,
+      "step": 6170
+    },
+    {
+      "epoch": 2.4611708482676224,
+      "grad_norm": 0.40364179015159607,
+      "learning_rate": 3.487975428157318e-05,
+      "loss": 0.0213,
+      "step": 6180
+    },
+    {
+      "epoch": 2.4651533253683793,
+      "grad_norm": 0.2646041512489319,
+      "learning_rate": 3.472223188230083e-05,
+      "loss": 0.0182,
+      "step": 6190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.21933303773403168,
+      "learning_rate": 3.4564876558252866e-05,
+      "loss": 0.02,
+      "step": 6200
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.41874152421951294,
+      "learning_rate": 3.440769003024195e-05,
+      "loss": 0.0192,
+      "step": 6210
+    },
+    {
+      "epoch": 2.4771007566706493,
+      "grad_norm": 0.40349701046943665,
+      "learning_rate": 3.425067401723477e-05,
+      "loss": 0.0195,
+      "step": 6220
+    },
+    {
+      "epoch": 2.4810832337714057,
+      "grad_norm": 0.36892589926719666,
+      "learning_rate": 3.409383023633325e-05,
+      "loss": 0.0214,
+      "step": 6230
+    },
+    {
+      "epoch": 2.4850657108721625,
+      "grad_norm": 0.3317766785621643,
+      "learning_rate": 3.3937160402755894e-05,
+      "loss": 0.0179,
+      "step": 6240
+    },
+    {
+      "epoch": 2.4890481879729194,
+      "grad_norm": 0.28070494532585144,
+      "learning_rate": 3.378066622981885e-05,
+      "loss": 0.0227,
+      "step": 6250
+    },
+    {
+      "epoch": 2.4930306650736758,
+      "grad_norm": 0.23878398537635803,
+      "learning_rate": 3.362434942891738e-05,
+      "loss": 0.0203,
+      "step": 6260
+    },
+    {
+      "epoch": 2.4970131421744326,
+      "grad_norm": 0.29855674505233765,
+      "learning_rate": 3.346821170950693e-05,
+      "loss": 0.0188,
+      "step": 6270
+    },
+    {
+      "epoch": 2.500995619275189,
+      "grad_norm": 0.35947370529174805,
+      "learning_rate": 3.3312254779084585e-05,
+      "loss": 0.0203,
+      "step": 6280
+    },
+    {
+      "epoch": 2.504978096375946,
+      "grad_norm": 0.38355863094329834,
+      "learning_rate": 3.315648034317039e-05,
+      "loss": 0.0229,
+      "step": 6290
+    },
+    {
+      "epoch": 2.5089605734767026,
+      "grad_norm": 0.20965726673603058,
+      "learning_rate": 3.3000890105288564e-05,
+      "loss": 0.0156,
+      "step": 6300
+    },
+    {
+      "epoch": 2.512943050577459,
+      "grad_norm": 0.21126852929592133,
+      "learning_rate": 3.284548576694908e-05,
+      "loss": 0.0221,
+      "step": 6310
+    },
+    {
+      "epoch": 2.516925527678216,
+      "grad_norm": 0.29997190833091736,
+      "learning_rate": 3.2690269027628815e-05,
+      "loss": 0.0163,
+      "step": 6320
+    },
+    {
+      "epoch": 2.5209080047789723,
+      "grad_norm": 0.2688118815422058,
+      "learning_rate": 3.253524158475324e-05,
+      "loss": 0.018,
+      "step": 6330
+    },
+    {
+      "epoch": 2.524890481879729,
+      "grad_norm": 0.3369862139225006,
+      "learning_rate": 3.238040513367757e-05,
+      "loss": 0.0182,
+      "step": 6340
+    },
+    {
+      "epoch": 2.528872958980486,
+      "grad_norm": 0.17766013741493225,
+      "learning_rate": 3.222576136766843e-05,
+      "loss": 0.0159,
+      "step": 6350
+    },
+    {
+      "epoch": 2.5328554360812428,
+      "grad_norm": 0.2567964494228363,
+      "learning_rate": 3.2071311977885324e-05,
+      "loss": 0.0183,
+      "step": 6360
+    },
+    {
+      "epoch": 2.536837913181999,
+      "grad_norm": 0.2693711519241333,
+      "learning_rate": 3.191705865336197e-05,
+      "loss": 0.0195,
+      "step": 6370
+    },
+    {
+      "epoch": 2.540820390282756,
+      "grad_norm": 0.2565217912197113,
+      "learning_rate": 3.1763003080988075e-05,
+      "loss": 0.0175,
+      "step": 6380
+    },
+    {
+      "epoch": 2.5448028673835124,
+      "grad_norm": 0.44722431898117065,
+      "learning_rate": 3.160914694549063e-05,
+      "loss": 0.0198,
+      "step": 6390
+    },
+    {
+      "epoch": 2.548785344484269,
+      "grad_norm": 0.3705827593803406,
+      "learning_rate": 3.145549192941573e-05,
+      "loss": 0.019,
+      "step": 6400
+    },
+    {
+      "epoch": 2.552767821585026,
+      "grad_norm": 0.3155789077281952,
+      "learning_rate": 3.130203971310999e-05,
+      "loss": 0.0189,
+      "step": 6410
+    },
+    {
+      "epoch": 2.5567502986857824,
+      "grad_norm": 0.29949137568473816,
+      "learning_rate": 3.114879197470225e-05,
+      "loss": 0.0188,
+      "step": 6420
+    },
+    {
+      "epoch": 2.5607327757865392,
+      "grad_norm": 0.3367830216884613,
+      "learning_rate": 3.0995750390085285e-05,
+      "loss": 0.0175,
+      "step": 6430
+    },
+    {
+      "epoch": 2.5647152528872956,
+      "grad_norm": 0.2421615719795227,
+      "learning_rate": 3.084291663289728e-05,
+      "loss": 0.0192,
+      "step": 6440
+    },
+    {
+      "epoch": 2.5686977299880525,
+      "grad_norm": 0.17980587482452393,
+      "learning_rate": 3.069029237450375e-05,
+      "loss": 0.0155,
+      "step": 6450
+    },
+    {
+      "epoch": 2.5726802070888093,
+      "grad_norm": 0.42298945784568787,
+      "learning_rate": 3.053787928397911e-05,
+      "loss": 0.0169,
+      "step": 6460
+    },
+    {
+      "epoch": 2.576662684189566,
+      "grad_norm": 0.2914910316467285,
+      "learning_rate": 3.0385679028088526e-05,
+      "loss": 0.0195,
+      "step": 6470
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.40466681122779846,
+      "learning_rate": 3.023369327126959e-05,
+      "loss": 0.0191,
+      "step": 6480
+    },
+    {
+      "epoch": 2.5846276383910793,
+      "grad_norm": 0.260161429643631,
+      "learning_rate": 3.0081923675614198e-05,
+      "loss": 0.0164,
+      "step": 6490
+    },
+    {
+      "epoch": 2.5886101154918357,
+      "grad_norm": 0.348817378282547,
+      "learning_rate": 2.993037190085034e-05,
+      "loss": 0.0155,
+      "step": 6500
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.22140339016914368,
+      "learning_rate": 2.977903960432392e-05,
+      "loss": 0.0192,
+      "step": 6510
+    },
+    {
+      "epoch": 2.5965750696933494,
+      "grad_norm": 0.3535783886909485,
+      "learning_rate": 2.9627928440980722e-05,
+      "loss": 0.0196,
+      "step": 6520
+    },
+    {
+      "epoch": 2.600557546794106,
+      "grad_norm": 0.229234978556633,
+      "learning_rate": 2.9477040063348183e-05,
+      "loss": 0.0206,
+      "step": 6530
+    },
+    {
+      "epoch": 2.6045400238948626,
+      "grad_norm": 0.30883148312568665,
+      "learning_rate": 2.9326376121517456e-05,
+      "loss": 0.0195,
+      "step": 6540
+    },
+    {
+      "epoch": 2.608522500995619,
+      "grad_norm": 0.4454684257507324,
+      "learning_rate": 2.9175938263125236e-05,
+      "loss": 0.024,
+      "step": 6550
+    },
+    {
+      "epoch": 2.612504978096376,
+      "grad_norm": 0.34252026677131653,
+      "learning_rate": 2.9025728133335873e-05,
+      "loss": 0.0206,
+      "step": 6560
+    },
+    {
+      "epoch": 2.6164874551971327,
+      "grad_norm": 0.410495400428772,
+      "learning_rate": 2.8875747374823288e-05,
+      "loss": 0.0201,
+      "step": 6570
+    },
+    {
+      "epoch": 2.6204699322978895,
+      "grad_norm": 0.2930971384048462,
+      "learning_rate": 2.872599762775298e-05,
+      "loss": 0.0242,
+      "step": 6580
+    },
+    {
+      "epoch": 2.624452409398646,
+      "grad_norm": 0.1941741406917572,
+      "learning_rate": 2.857648052976425e-05,
+      "loss": 0.0168,
+      "step": 6590
+    },
+    {
+      "epoch": 2.6284348864994027,
+      "grad_norm": 0.4398362338542938,
+      "learning_rate": 2.8427197715952047e-05,
+      "loss": 0.019,
+      "step": 6600
+    },
+    {
+      "epoch": 2.632417363600159,
+      "grad_norm": 0.434218168258667,
+      "learning_rate": 2.8278150818849393e-05,
+      "loss": 0.0188,
+      "step": 6610
+    },
+    {
+      "epoch": 2.636399840700916,
+      "grad_norm": 0.29979050159454346,
+      "learning_rate": 2.812934146840922e-05,
+      "loss": 0.0175,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6403823178016728,
+      "grad_norm": 0.27494296431541443,
+      "learning_rate": 2.7980771291986764e-05,
+      "loss": 0.0175,
+      "step": 6630
+    },
+    {
+      "epoch": 2.644364794902429,
+      "grad_norm": 0.3515009582042694,
+      "learning_rate": 2.783244191432167e-05,
+      "loss": 0.0185,
+      "step": 6640
+    },
+    {
+      "epoch": 2.648347272003186,
+      "grad_norm": 0.3444755971431732,
+      "learning_rate": 2.768435495752022e-05,
+      "loss": 0.0171,
+      "step": 6650
+    },
+    {
+      "epoch": 2.652329749103943,
+      "grad_norm": 0.2616831362247467,
+      "learning_rate": 2.753651204103771e-05,
+      "loss": 0.02,
+      "step": 6660
+    },
+    {
+      "epoch": 2.656312226204699,
+      "grad_norm": 0.2663615643978119,
+      "learning_rate": 2.7388914781660523e-05,
+      "loss": 0.0149,
+      "step": 6670
+    },
+    {
+      "epoch": 2.660294703305456,
+      "grad_norm": 0.21043306589126587,
+      "learning_rate": 2.7241564793488693e-05,
+      "loss": 0.0202,
+      "step": 6680
+    },
+    {
+      "epoch": 2.664277180406213,
+      "grad_norm": 0.45657920837402344,
+      "learning_rate": 2.7094463687918037e-05,
+      "loss": 0.0151,
+      "step": 6690
+    },
+    {
+      "epoch": 2.6682596575069693,
+      "grad_norm": 0.37648776173591614,
+      "learning_rate": 2.694761307362268e-05,
+      "loss": 0.0192,
+      "step": 6700
+    },
+    {
+      "epoch": 2.672242134607726,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 2.6801014556537467e-05,
+      "loss": 0.0169,
+      "step": 6710
+    },
+    {
+      "epoch": 2.6762246117084825,
+      "grad_norm": 0.3080855906009674,
+      "learning_rate": 2.6654669739840243e-05,
+      "loss": 0.0169,
+      "step": 6720
+    },
+    {
+      "epoch": 2.6802070888092393,
+      "grad_norm": 0.3766150176525116,
+      "learning_rate": 2.650858022393451e-05,
+      "loss": 0.0183,
+      "step": 6730
+    },
+    {
+      "epoch": 2.684189565909996,
+      "grad_norm": 0.2229013293981552,
+      "learning_rate": 2.6362747606431747e-05,
+      "loss": 0.0205,
+      "step": 6740
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.24441877007484436,
+      "learning_rate": 2.6217173482134172e-05,
+      "loss": 0.0182,
+      "step": 6750
+    },
+    {
+      "epoch": 2.6921545201115094,
+      "grad_norm": 0.25608956813812256,
+      "learning_rate": 2.6071859443017044e-05,
+      "loss": 0.013,
+      "step": 6760
+    },
+    {
+      "epoch": 2.696136997212266,
+      "grad_norm": 0.3526802957057953,
+      "learning_rate": 2.5926807078211414e-05,
+      "loss": 0.0153,
+      "step": 6770
+    },
+    {
+      "epoch": 2.7001194743130226,
+      "grad_norm": 0.46395474672317505,
+      "learning_rate": 2.5782017973986728e-05,
+      "loss": 0.0181,
+      "step": 6780
+    },
+    {
+      "epoch": 2.7041019514137794,
+      "grad_norm": 0.23045793175697327,
+      "learning_rate": 2.5637493713733374e-05,
+      "loss": 0.0161,
+      "step": 6790
+    },
+    {
+      "epoch": 2.7080844285145362,
+      "grad_norm": 0.32080161571502686,
+      "learning_rate": 2.549323587794559e-05,
+      "loss": 0.0196,
+      "step": 6800
+    },
+    {
+      "epoch": 2.7120669056152926,
+      "grad_norm": 0.23438672721385956,
+      "learning_rate": 2.5349246044203895e-05,
+      "loss": 0.0143,
+      "step": 6810
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.33166348934173584,
+      "learning_rate": 2.520552578715808e-05,
+      "loss": 0.0144,
+      "step": 6820
+    },
+    {
+      "epoch": 2.720031859816806,
+      "grad_norm": 0.2601594626903534,
+      "learning_rate": 2.506207667850981e-05,
+      "loss": 0.0159,
+      "step": 6830
+    },
+    {
+      "epoch": 2.7240143369175627,
+      "grad_norm": 0.3093375265598297,
+      "learning_rate": 2.4918900286995555e-05,
+      "loss": 0.0141,
+      "step": 6840
+    },
+    {
+      "epoch": 2.7279968140183195,
+      "grad_norm": 0.15893106162548065,
+      "learning_rate": 2.4775998178369458e-05,
+      "loss": 0.0161,
+      "step": 6850
+    },
+    {
+      "epoch": 2.7319792911190763,
+      "grad_norm": 0.3865691125392914,
+      "learning_rate": 2.4633371915386017e-05,
+      "loss": 0.0188,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7359617682198327,
+      "grad_norm": 0.2376730591058731,
+      "learning_rate": 2.4491023057783235e-05,
+      "loss": 0.0192,
+      "step": 6870
+    },
+    {
+      "epoch": 2.7399442453205896,
+      "grad_norm": 0.38163626194000244,
+      "learning_rate": 2.4348953162265375e-05,
+      "loss": 0.0182,
+      "step": 6880
+    },
+    {
+      "epoch": 2.743926722421346,
+      "grad_norm": 0.22240246832370758,
+      "learning_rate": 2.420716378248607e-05,
+      "loss": 0.0217,
+      "step": 6890
+    },
+    {
+      "epoch": 2.7479091995221028,
+      "grad_norm": 0.4573044180870056,
+      "learning_rate": 2.4065656469031266e-05,
+      "loss": 0.0165,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7518916766228596,
+      "grad_norm": 0.22964206337928772,
+      "learning_rate": 2.3924432769402268e-05,
+      "loss": 0.0186,
+      "step": 6910
+    },
+    {
+      "epoch": 2.755874153723616,
+      "grad_norm": 0.30862241983413696,
+      "learning_rate": 2.3783494227998844e-05,
+      "loss": 0.0224,
+      "step": 6920
+    },
+    {
+      "epoch": 2.759856630824373,
+      "grad_norm": 0.22101591527462006,
+      "learning_rate": 2.3642842386102264e-05,
+      "loss": 0.0163,
+      "step": 6930
+    },
+    {
+      "epoch": 2.763839107925129,
+      "grad_norm": 0.2185278832912445,
+      "learning_rate": 2.3502478781858567e-05,
+      "loss": 0.0145,
+      "step": 6940
+    },
+    {
+      "epoch": 2.767821585025886,
+      "grad_norm": 0.24134941399097443,
+      "learning_rate": 2.3362404950261628e-05,
+      "loss": 0.019,
+      "step": 6950
+    },
+    {
+      "epoch": 2.771804062126643,
+      "grad_norm": 0.2902449071407318,
+      "learning_rate": 2.3222622423136458e-05,
+      "loss": 0.0165,
+      "step": 6960
+    },
+    {
+      "epoch": 2.7757865392273997,
+      "grad_norm": 0.3769952058792114,
+      "learning_rate": 2.3083132729122332e-05,
+      "loss": 0.0135,
+      "step": 6970
+    },
+    {
+      "epoch": 2.779769016328156,
+      "grad_norm": 0.22340670228004456,
+      "learning_rate": 2.294393739365621e-05,
+      "loss": 0.019,
+      "step": 6980
+    },
+    {
+      "epoch": 2.783751493428913,
+      "grad_norm": 0.33232781291007996,
+      "learning_rate": 2.2805037938956e-05,
+      "loss": 0.0162,
+      "step": 6990
+    },
+    {
+      "epoch": 2.7877339705296693,
+      "grad_norm": 0.33404746651649475,
+      "learning_rate": 2.266643588400386e-05,
+      "loss": 0.0162,
+      "step": 7000
+    },
+    {
+      "epoch": 2.791716447630426,
+      "grad_norm": 0.2362033873796463,
+      "learning_rate": 2.252813274452969e-05,
+      "loss": 0.0166,
+      "step": 7010
+    },
+    {
+      "epoch": 2.795698924731183,
+      "grad_norm": 0.15253150463104248,
+      "learning_rate": 2.2390130032994427e-05,
+      "loss": 0.0153,
+      "step": 7020
+    },
+    {
+      "epoch": 2.7996814018319394,
+      "grad_norm": 0.36513105034828186,
+      "learning_rate": 2.2252429258573633e-05,
+      "loss": 0.0172,
+      "step": 7030
+    },
+    {
+      "epoch": 2.803663878932696,
+      "grad_norm": 0.22622640430927277,
+      "learning_rate": 2.2115031927140904e-05,
+      "loss": 0.0158,
+      "step": 7040
+    },
+    {
+      "epoch": 2.8076463560334526,
+      "grad_norm": 0.3483319580554962,
+      "learning_rate": 2.1977939541251463e-05,
+      "loss": 0.0218,
+      "step": 7050
+    },
+    {
+      "epoch": 2.8116288331342094,
+      "grad_norm": 0.3104790449142456,
+      "learning_rate": 2.1841153600125684e-05,
+      "loss": 0.0165,
+      "step": 7060
+    },
+    {
+      "epoch": 2.8156113102349662,
+      "grad_norm": 0.2423543781042099,
+      "learning_rate": 2.170467559963267e-05,
+      "loss": 0.0167,
+      "step": 7070
+    },
+    {
+      "epoch": 2.819593787335723,
+      "grad_norm": 0.3841968774795532,
+      "learning_rate": 2.1568507032273982e-05,
+      "loss": 0.0135,
+      "step": 7080
+    },
+    {
+      "epoch": 2.8235762644364795,
+      "grad_norm": 0.2059573382139206,
+      "learning_rate": 2.1432649387167264e-05,
+      "loss": 0.015,
+      "step": 7090
+    },
+    {
+      "epoch": 2.8275587415372363,
+      "grad_norm": 0.22446751594543457,
+      "learning_rate": 2.1297104150029973e-05,
+      "loss": 0.0162,
+      "step": 7100
+    },
+    {
+      "epoch": 2.8315412186379927,
+      "grad_norm": 0.36766108870506287,
+      "learning_rate": 2.116187280316307e-05,
+      "loss": 0.0172,
+      "step": 7110
+    },
+    {
+      "epoch": 2.8355236957387495,
+      "grad_norm": 0.3884134292602539,
+      "learning_rate": 2.1026956825434908e-05,
+      "loss": 0.0182,
+      "step": 7120
+    },
+    {
+      "epoch": 2.8395061728395063,
+      "grad_norm": 0.3192227780818939,
+      "learning_rate": 2.0892357692265017e-05,
+      "loss": 0.0145,
+      "step": 7130
+    },
+    {
+      "epoch": 2.8434886499402627,
+      "grad_norm": 0.2538623511791229,
+      "learning_rate": 2.0758076875607947e-05,
+      "loss": 0.0191,
+      "step": 7140
+    },
+    {
+      "epoch": 2.8474711270410196,
+      "grad_norm": 0.2836097478866577,
+      "learning_rate": 2.0624115843937207e-05,
+      "loss": 0.0201,
+      "step": 7150
+    },
+    {
+      "epoch": 2.851453604141776,
+      "grad_norm": 0.2728939652442932,
+      "learning_rate": 2.0490476062229157e-05,
+      "loss": 0.0176,
+      "step": 7160
+    },
+    {
+      "epoch": 2.855436081242533,
+      "grad_norm": 0.3548661172389984,
+      "learning_rate": 2.035715899194704e-05,
+      "loss": 0.0161,
+      "step": 7170
+    },
+    {
+      "epoch": 2.8594185583432896,
+      "grad_norm": 0.3930123448371887,
+      "learning_rate": 2.022416609102499e-05,
+      "loss": 0.0177,
+      "step": 7180
+    },
+    {
+      "epoch": 2.8634010354440464,
+      "grad_norm": 0.510944664478302,
+      "learning_rate": 2.009149881385205e-05,
+      "loss": 0.0222,
+      "step": 7190
+    },
+    {
+      "epoch": 2.867383512544803,
+      "grad_norm": 0.3476032018661499,
+      "learning_rate": 1.995915861125634e-05,
+      "loss": 0.0176,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8713659896455597,
+      "grad_norm": 0.2559760510921478,
+      "learning_rate": 1.9827146930489065e-05,
+      "loss": 0.0149,
+      "step": 7210
+    },
+    {
+      "epoch": 2.875348466746316,
+      "grad_norm": 0.20961345732212067,
+      "learning_rate": 1.9695465215208848e-05,
+      "loss": 0.018,
+      "step": 7220
+    },
+    {
+      "epoch": 2.879330943847073,
+      "grad_norm": 0.29862138628959656,
+      "learning_rate": 1.9564114905465813e-05,
+      "loss": 0.0156,
+      "step": 7230
+    },
+    {
+      "epoch": 2.8833134209478297,
+      "grad_norm": 0.3706551492214203,
+      "learning_rate": 1.9433097437685936e-05,
+      "loss": 0.0166,
+      "step": 7240
+    },
+    {
+      "epoch": 2.887295898048586,
+      "grad_norm": 0.4077451825141907,
+      "learning_rate": 1.930241424465521e-05,
+      "loss": 0.0139,
+      "step": 7250
+    },
+    {
+      "epoch": 2.891278375149343,
+      "grad_norm": 0.3151760399341583,
+      "learning_rate": 1.9172066755504115e-05,
+      "loss": 0.0164,
+      "step": 7260
+    },
+    {
+      "epoch": 2.8952608522500993,
+      "grad_norm": 0.29641613364219666,
+      "learning_rate": 1.9042056395691914e-05,
+      "loss": 0.0168,
+      "step": 7270
+    },
+    {
+      "epoch": 2.899243329350856,
+      "grad_norm": 0.3831641376018524,
+      "learning_rate": 1.8912384586991066e-05,
+      "loss": 0.0147,
+      "step": 7280
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.3114636540412903,
+      "learning_rate": 1.8783052747471717e-05,
+      "loss": 0.0144,
+      "step": 7290
+    },
+    {
+      "epoch": 2.90720828355237,
+      "grad_norm": 0.26268333196640015,
+      "learning_rate": 1.865406229148611e-05,
+      "loss": 0.0185,
+      "step": 7300
+    },
+    {
+      "epoch": 2.911190760653126,
+      "grad_norm": 0.22112445533275604,
+      "learning_rate": 1.8525414629653233e-05,
+      "loss": 0.0203,
+      "step": 7310
+    },
+    {
+      "epoch": 2.915173237753883,
+      "grad_norm": 0.2656763195991516,
+      "learning_rate": 1.8397111168843255e-05,
+      "loss": 0.0158,
+      "step": 7320
+    },
+    {
+      "epoch": 2.9191557148546394,
+      "grad_norm": 0.341366171836853,
+      "learning_rate": 1.8269153312162323e-05,
+      "loss": 0.0176,
+      "step": 7330
+    },
+    {
+      "epoch": 2.9231381919553963,
+      "grad_norm": 0.27272844314575195,
+      "learning_rate": 1.8141542458937054e-05,
+      "loss": 0.0155,
+      "step": 7340
+    },
+    {
+      "epoch": 2.927120669056153,
+      "grad_norm": 0.4220792353153229,
+      "learning_rate": 1.8014280004699268e-05,
+      "loss": 0.0173,
+      "step": 7350
+    },
+    {
+      "epoch": 2.9311031461569095,
+      "grad_norm": 0.2644200325012207,
+      "learning_rate": 1.788736734117078e-05,
+      "loss": 0.0111,
+      "step": 7360
+    },
+    {
+      "epoch": 2.9350856232576663,
+      "grad_norm": 0.27255773544311523,
+      "learning_rate": 1.7760805856248152e-05,
+      "loss": 0.0166,
+      "step": 7370
+    },
+    {
+      "epoch": 2.9390681003584227,
+      "grad_norm": 0.17350824177265167,
+      "learning_rate": 1.7634596933987518e-05,
+      "loss": 0.016,
+      "step": 7380
+    },
+    {
+      "epoch": 2.9430505774591795,
+      "grad_norm": 0.23067346215248108,
+      "learning_rate": 1.7508741954589404e-05,
+      "loss": 0.0164,
+      "step": 7390
+    },
+    {
+      "epoch": 2.9470330545599364,
+      "grad_norm": 0.3143824636936188,
+      "learning_rate": 1.7383242294383717e-05,
+      "loss": 0.0166,
+      "step": 7400
+    },
+    {
+      "epoch": 2.951015531660693,
+      "grad_norm": 0.2438683658838272,
+      "learning_rate": 1.7258099325814632e-05,
+      "loss": 0.0129,
+      "step": 7410
+    },
+    {
+      "epoch": 2.9549980087614496,
+      "grad_norm": 0.31693488359451294,
+      "learning_rate": 1.7133314417425594e-05,
+      "loss": 0.02,
+      "step": 7420
+    },
+    {
+      "epoch": 2.9589804858622064,
+      "grad_norm": 0.26909369230270386,
+      "learning_rate": 1.7008888933844408e-05,
+      "loss": 0.0155,
+      "step": 7430
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.29988786578178406,
+      "learning_rate": 1.6884824235768172e-05,
+      "loss": 0.0173,
+      "step": 7440
+    },
+    {
+      "epoch": 2.9669454400637196,
+      "grad_norm": 0.2735227048397064,
+      "learning_rate": 1.6761121679948592e-05,
+      "loss": 0.0148,
+      "step": 7450
+    },
+    {
+      "epoch": 2.9709279171644765,
+      "grad_norm": 0.23975975811481476,
+      "learning_rate": 1.663778261917695e-05,
+      "loss": 0.0177,
+      "step": 7460
+    },
+    {
+      "epoch": 2.974910394265233,
+      "grad_norm": 0.3303283452987671,
+      "learning_rate": 1.651480840226952e-05,
+      "loss": 0.0154,
+      "step": 7470
+    },
+    {
+      "epoch": 2.9788928713659897,
+      "grad_norm": 0.3179773688316345,
+      "learning_rate": 1.639220037405258e-05,
+      "loss": 0.017,
+      "step": 7480
+    },
+    {
+      "epoch": 2.982875348466746,
+      "grad_norm": 0.26732003688812256,
+      "learning_rate": 1.6269959875347906e-05,
+      "loss": 0.0162,
+      "step": 7490
+    },
+    {
+      "epoch": 2.986857825567503,
+      "grad_norm": 0.35051149129867554,
+      "learning_rate": 1.614808824295802e-05,
+      "loss": 0.0161,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9908403026682597,
+      "grad_norm": 0.24838776886463165,
+      "learning_rate": 1.602658680965152e-05,
+      "loss": 0.0115,
+      "step": 7510
+    },
+    {
+      "epoch": 2.9948227797690166,
+      "grad_norm": 0.3378634452819824,
+      "learning_rate": 1.5905456904148686e-05,
+      "loss": 0.0183,
+      "step": 7520
+    },
+    {
+      "epoch": 2.998805256869773,
+      "grad_norm": 0.28400248289108276,
+      "learning_rate": 1.57846998511067e-05,
+      "loss": 0.0165,
+      "step": 7530
+    },
+    {
+      "epoch": 3.00278773397053,
+      "grad_norm": 0.2319607138633728,
+      "learning_rate": 1.566431697110538e-05,
+      "loss": 0.0137,
+      "step": 7540
+    },
+    {
+      "epoch": 3.006770211071286,
+      "grad_norm": 0.326729953289032,
+      "learning_rate": 1.554430958063259e-05,
+      "loss": 0.0135,
+      "step": 7550
+    },
+    {
+      "epoch": 3.010752688172043,
+      "grad_norm": 0.2378934919834137,
+      "learning_rate": 1.5424678992069912e-05,
+      "loss": 0.0152,
+      "step": 7560
+    },
+    {
+      "epoch": 3.0147351652728,
+      "grad_norm": 0.24295467138290405,
+      "learning_rate": 1.5305426513678362e-05,
+      "loss": 0.0142,
+      "step": 7570
+    },
+    {
+      "epoch": 3.018717642373556,
+      "grad_norm": 0.2576531767845154,
+      "learning_rate": 1.518655344958388e-05,
+      "loss": 0.0181,
+      "step": 7580
+    },
+    {
+      "epoch": 3.022700119474313,
+      "grad_norm": 0.18377450108528137,
+      "learning_rate": 1.5068061099763275e-05,
+      "loss": 0.0166,
+      "step": 7590
+    },
+    {
+      "epoch": 3.02668259657507,
+      "grad_norm": 0.27830517292022705,
+      "learning_rate": 1.494995076002988e-05,
+      "loss": 0.0154,
+      "step": 7600
+    },
+    {
+      "epoch": 3.0306650736758263,
+      "grad_norm": 0.21844340860843658,
+      "learning_rate": 1.4832223722019456e-05,
+      "loss": 0.012,
+      "step": 7610
+    },
+    {
+      "epoch": 3.034647550776583,
+      "grad_norm": 0.2617688775062561,
+      "learning_rate": 1.4714881273176035e-05,
+      "loss": 0.0174,
+      "step": 7620
+    },
+    {
+      "epoch": 3.0386300278773395,
+      "grad_norm": 0.32421252131462097,
+      "learning_rate": 1.4597924696737835e-05,
+      "loss": 0.0145,
+      "step": 7630
+    },
+    {
+      "epoch": 3.0426125049780963,
+      "grad_norm": 0.29088929295539856,
+      "learning_rate": 1.4481355271723252e-05,
+      "loss": 0.0159,
+      "step": 7640
+    },
+    {
+      "epoch": 3.046594982078853,
+      "grad_norm": 0.33224666118621826,
+      "learning_rate": 1.4365174272916809e-05,
+      "loss": 0.0172,
+      "step": 7650
+    },
+    {
+      "epoch": 3.0505774591796095,
+      "grad_norm": 0.28133267164230347,
+      "learning_rate": 1.4249382970855319e-05,
+      "loss": 0.0164,
+      "step": 7660
+    },
+    {
+      "epoch": 3.0545599362803664,
+      "grad_norm": 0.2961582839488983,
+      "learning_rate": 1.4133982631813903e-05,
+      "loss": 0.0174,
+      "step": 7670
+    },
+    {
+      "epoch": 3.058542413381123,
+      "grad_norm": 0.19143448770046234,
+      "learning_rate": 1.4018974517792194e-05,
+      "loss": 0.0148,
+      "step": 7680
+    },
+    {
+      "epoch": 3.0625248904818796,
+      "grad_norm": 0.26252588629722595,
+      "learning_rate": 1.390435988650048e-05,
+      "loss": 0.0143,
+      "step": 7690
+    },
+    {
+      "epoch": 3.0665073675826364,
+      "grad_norm": 0.19971930980682373,
+      "learning_rate": 1.3790139991346006e-05,
+      "loss": 0.0125,
+      "step": 7700
+    },
+    {
+      "epoch": 3.0704898446833933,
+      "grad_norm": 0.2495674192905426,
+      "learning_rate": 1.367631608141926e-05,
+      "loss": 0.0155,
+      "step": 7710
+    },
+    {
+      "epoch": 3.0744723217841496,
+      "grad_norm": 0.22202928364276886,
+      "learning_rate": 1.3562889401480278e-05,
+      "loss": 0.0148,
+      "step": 7720
+    },
+    {
+      "epoch": 3.0784547988849065,
+      "grad_norm": 0.4576508402824402,
+      "learning_rate": 1.3449861191945074e-05,
+      "loss": 0.0165,
+      "step": 7730
+    },
+    {
+      "epoch": 3.0824372759856633,
+      "grad_norm": 0.3544761836528778,
+      "learning_rate": 1.3337232688872009e-05,
+      "loss": 0.0139,
+      "step": 7740
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 0.3484187722206116,
+      "learning_rate": 1.3225005123948364e-05,
+      "loss": 0.0147,
+      "step": 7750
+    },
+    {
+      "epoch": 3.0904022301871765,
+      "grad_norm": 0.19573178887367249,
+      "learning_rate": 1.311317972447681e-05,
+      "loss": 0.0127,
+      "step": 7760
+    },
+    {
+      "epoch": 3.094384707287933,
+      "grad_norm": 0.19815529882907867,
+      "learning_rate": 1.3001757713361996e-05,
+      "loss": 0.0109,
+      "step": 7770
+    },
+    {
+      "epoch": 3.0983671843886897,
+      "grad_norm": 0.35429829359054565,
+      "learning_rate": 1.2890740309097204e-05,
+      "loss": 0.0161,
+      "step": 7780
+    },
+    {
+      "epoch": 3.1023496614894466,
+      "grad_norm": 0.2911655008792877,
+      "learning_rate": 1.2780128725750944e-05,
+      "loss": 0.0138,
+      "step": 7790
+    },
+    {
+      "epoch": 3.106332138590203,
+      "grad_norm": 0.270168662071228,
+      "learning_rate": 1.266992417295379e-05,
+      "loss": 0.015,
+      "step": 7800
+    },
+    {
+      "epoch": 3.11031461569096,
+      "grad_norm": 0.32108160853385925,
+      "learning_rate": 1.2560127855885073e-05,
+      "loss": 0.0163,
+      "step": 7810
+    },
+    {
+      "epoch": 3.1142970927917166,
+      "grad_norm": 0.24168479442596436,
+      "learning_rate": 1.2450740975259745e-05,
+      "loss": 0.0167,
+      "step": 7820
+    },
+    {
+      "epoch": 3.118279569892473,
+      "grad_norm": 0.30409395694732666,
+      "learning_rate": 1.234176472731517e-05,
+      "loss": 0.0221,
+      "step": 7830
+    },
+    {
+      "epoch": 3.12226204699323,
+      "grad_norm": 0.3229791522026062,
+      "learning_rate": 1.2233200303798158e-05,
+      "loss": 0.0147,
+      "step": 7840
+    },
+    {
+      "epoch": 3.1262445240939867,
+      "grad_norm": 0.26919838786125183,
+      "learning_rate": 1.2125048891951846e-05,
+      "loss": 0.0158,
+      "step": 7850
+    },
+    {
+      "epoch": 3.130227001194743,
+      "grad_norm": 0.23068082332611084,
+      "learning_rate": 1.2017311674502745e-05,
+      "loss": 0.013,
+      "step": 7860
+    },
+    {
+      "epoch": 3.1342094782955,
+      "grad_norm": 0.17686747014522552,
+      "learning_rate": 1.1909989829647822e-05,
+      "loss": 0.0144,
+      "step": 7870
+    },
+    {
+      "epoch": 3.1381919553962563,
+      "grad_norm": 0.45290425419807434,
+      "learning_rate": 1.1803084531041553e-05,
+      "loss": 0.0173,
+      "step": 7880
+    },
+    {
+      "epoch": 3.142174432497013,
+      "grad_norm": 0.2763400673866272,
+      "learning_rate": 1.1696596947783162e-05,
+      "loss": 0.0144,
+      "step": 7890
+    },
+    {
+      "epoch": 3.14615690959777,
+      "grad_norm": 0.2585810422897339,
+      "learning_rate": 1.1590528244403803e-05,
+      "loss": 0.0175,
+      "step": 7900
+    },
+    {
+      "epoch": 3.1501393866985263,
+      "grad_norm": 0.22105610370635986,
+      "learning_rate": 1.148487958085382e-05,
+      "loss": 0.0151,
+      "step": 7910
+    },
+    {
+      "epoch": 3.154121863799283,
+      "grad_norm": 0.21400152146816254,
+      "learning_rate": 1.1379652112490086e-05,
+      "loss": 0.0177,
+      "step": 7920
+    },
+    {
+      "epoch": 3.15810434090004,
+      "grad_norm": 0.1969025582075119,
+      "learning_rate": 1.1274846990063315e-05,
+      "loss": 0.0136,
+      "step": 7930
+    },
+    {
+      "epoch": 3.1620868180007964,
+      "grad_norm": 0.2094409465789795,
+      "learning_rate": 1.117046535970554e-05,
+      "loss": 0.0151,
+      "step": 7940
+    },
+    {
+      "epoch": 3.166069295101553,
+      "grad_norm": 0.29152101278305054,
+      "learning_rate": 1.106650836291755e-05,
+      "loss": 0.0195,
+      "step": 7950
+    },
+    {
+      "epoch": 3.17005177220231,
+      "grad_norm": 0.28160348534584045,
+      "learning_rate": 1.0962977136556418e-05,
+      "loss": 0.0184,
+      "step": 7960
+    },
+    {
+      "epoch": 3.1740342493030664,
+      "grad_norm": 0.3710784614086151,
+      "learning_rate": 1.0859872812823024e-05,
+      "loss": 0.0144,
+      "step": 7970
+    },
+    {
+      "epoch": 3.1780167264038233,
+      "grad_norm": 0.23486924171447754,
+      "learning_rate": 1.0757196519249747e-05,
+      "loss": 0.0189,
+      "step": 7980
+    },
+    {
+      "epoch": 3.1819992035045797,
+      "grad_norm": 0.31155335903167725,
+      "learning_rate": 1.0654949378688077e-05,
+      "loss": 0.0156,
+      "step": 7990
+    },
+    {
+      "epoch": 3.1859816806053365,
+      "grad_norm": 0.21536493301391602,
+      "learning_rate": 1.0553132509296376e-05,
+      "loss": 0.0146,
+      "step": 8000
+    },
+    {
+      "epoch": 3.1899641577060933,
+      "grad_norm": 0.25504568219184875,
+      "learning_rate": 1.0451747024527613e-05,
+      "loss": 0.0139,
+      "step": 8010
+    },
+    {
+      "epoch": 3.1939466348068497,
+      "grad_norm": 0.43125614523887634,
+      "learning_rate": 1.0350794033117189e-05,
+      "loss": 0.017,
+      "step": 8020
+    },
+    {
+      "epoch": 3.1979291119076065,
+      "grad_norm": 0.3463977873325348,
+      "learning_rate": 1.0250274639070856e-05,
+      "loss": 0.0153,
+      "step": 8030
+    },
+    {
+      "epoch": 3.2019115890083634,
+      "grad_norm": 0.33657532930374146,
+      "learning_rate": 1.0150189941652599e-05,
+      "loss": 0.0136,
+      "step": 8040
+    },
+    {
+      "epoch": 3.2058940661091198,
+      "grad_norm": 0.27286818623542786,
+      "learning_rate": 1.0050541035372635e-05,
+      "loss": 0.0123,
+      "step": 8050
+    },
+    {
+      "epoch": 3.2098765432098766,
+      "grad_norm": 0.3115975260734558,
+      "learning_rate": 9.951329009975458e-06,
+      "loss": 0.0149,
+      "step": 8060
+    },
+    {
+      "epoch": 3.2138590203106334,
+      "grad_norm": 0.2783370018005371,
+      "learning_rate": 9.852554950427845e-06,
+      "loss": 0.015,
+      "step": 8070
+    },
+    {
+      "epoch": 3.21784149741139,
+      "grad_norm": 0.2135641872882843,
+      "learning_rate": 9.754219936907105e-06,
+      "loss": 0.0145,
+      "step": 8080
+    },
+    {
+      "epoch": 3.2218239745121466,
+      "grad_norm": 0.2889596223831177,
+      "learning_rate": 9.656325044789194e-06,
+      "loss": 0.0125,
+      "step": 8090
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.16843768954277039,
+      "learning_rate": 9.55887134463697e-06,
+      "loss": 0.0116,
+      "step": 8100
+    },
+    {
+      "epoch": 3.22978892871366,
+      "grad_norm": 0.22345881164073944,
+      "learning_rate": 9.461859902188475e-06,
+      "loss": 0.0133,
+      "step": 8110
+    },
+    {
+      "epoch": 3.2337714058144167,
+      "grad_norm": 0.4386395812034607,
+      "learning_rate": 9.365291778345303e-06,
+      "loss": 0.0166,
+      "step": 8120
+    },
+    {
+      "epoch": 3.237753882915173,
+      "grad_norm": 0.15999703109264374,
+      "learning_rate": 9.269168029160991e-06,
+      "loss": 0.0103,
+      "step": 8130
+    },
+    {
+      "epoch": 3.24173636001593,
+      "grad_norm": 0.33131685853004456,
+      "learning_rate": 9.173489705829447e-06,
+      "loss": 0.0152,
+      "step": 8140
+    },
+    {
+      "epoch": 3.2457188371166867,
+      "grad_norm": 0.18595287203788757,
+      "learning_rate": 9.078257854673516e-06,
+      "loss": 0.0136,
+      "step": 8150
+    },
+    {
+      "epoch": 3.249701314217443,
+      "grad_norm": 0.18805378675460815,
+      "learning_rate": 8.983473517133429e-06,
+      "loss": 0.0141,
+      "step": 8160
+    },
+    {
+      "epoch": 3.2536837913182,
+      "grad_norm": 0.15438763797283173,
+      "learning_rate": 8.889137729755537e-06,
+      "loss": 0.013,
+      "step": 8170
+    },
+    {
+      "epoch": 3.257666268418957,
+      "grad_norm": 0.27492639422416687,
+      "learning_rate": 8.79525152418087e-06,
+      "loss": 0.0169,
+      "step": 8180
+    },
+    {
+      "epoch": 3.261648745519713,
+      "grad_norm": 0.28761956095695496,
+      "learning_rate": 8.701815927133961e-06,
+      "loss": 0.014,
+      "step": 8190
+    },
+    {
+      "epoch": 3.26563122262047,
+      "grad_norm": 0.17063534259796143,
+      "learning_rate": 8.608831960411534e-06,
+      "loss": 0.0139,
+      "step": 8200
+    },
+    {
+      "epoch": 3.2696136997212264,
+      "grad_norm": 0.22604522109031677,
+      "learning_rate": 8.516300640871321e-06,
+      "loss": 0.0164,
+      "step": 8210
+    },
+    {
+      "epoch": 3.2735961768219832,
+      "grad_norm": 0.27093005180358887,
+      "learning_rate": 8.424222980421038e-06,
+      "loss": 0.0165,
+      "step": 8220
+    },
+    {
+      "epoch": 3.27757865392274,
+      "grad_norm": 0.2355274260044098,
+      "learning_rate": 8.332599986007184e-06,
+      "loss": 0.0151,
+      "step": 8230
+    },
+    {
+      "epoch": 3.2815611310234964,
+      "grad_norm": 0.23121079802513123,
+      "learning_rate": 8.241432659604203e-06,
+      "loss": 0.0144,
+      "step": 8240
+    },
+    {
+      "epoch": 3.2855436081242533,
+      "grad_norm": 0.1323615461587906,
+      "learning_rate": 8.150721998203331e-06,
+      "loss": 0.0128,
+      "step": 8250
+    },
+    {
+      "epoch": 3.28952608522501,
+      "grad_norm": 0.24003800749778748,
+      "learning_rate": 8.06046899380184e-06,
+      "loss": 0.0123,
+      "step": 8260
+    },
+    {
+      "epoch": 3.2935085623257665,
+      "grad_norm": 0.24698399007320404,
+      "learning_rate": 7.970674633392133e-06,
+      "loss": 0.0166,
+      "step": 8270
+    },
+    {
+      "epoch": 3.2974910394265233,
+      "grad_norm": 0.38070154190063477,
+      "learning_rate": 7.881339898950924e-06,
+      "loss": 0.018,
+      "step": 8280
+    },
+    {
+      "epoch": 3.30147351652728,
+      "grad_norm": 0.1986345499753952,
+      "learning_rate": 7.792465767428597e-06,
+      "loss": 0.0136,
+      "step": 8290
+    },
+    {
+      "epoch": 3.3054559936280365,
+      "grad_norm": 0.21766434609889984,
+      "learning_rate": 7.704053210738376e-06,
+      "loss": 0.0132,
+      "step": 8300
+    },
+    {
+      "epoch": 3.3094384707287934,
+      "grad_norm": 0.20243440568447113,
+      "learning_rate": 7.6161031957458494e-06,
+      "loss": 0.0152,
+      "step": 8310
+    },
+    {
+      "epoch": 3.3134209478295498,
+      "grad_norm": 0.2816754877567291,
+      "learning_rate": 7.5286166842582605e-06,
+      "loss": 0.0148,
+      "step": 8320
+    },
+    {
+      "epoch": 3.3174034249303066,
+      "grad_norm": 0.2514406442642212,
+      "learning_rate": 7.4415946330140814e-06,
+      "loss": 0.0145,
+      "step": 8330
+    },
+    {
+      "epoch": 3.3213859020310634,
+      "grad_norm": 0.2709660530090332,
+      "learning_rate": 7.3550379936725644e-06,
+      "loss": 0.0141,
+      "step": 8340
+    },
+    {
+      "epoch": 3.32536837913182,
+      "grad_norm": 0.2837410569190979,
+      "learning_rate": 7.2689477128032035e-06,
+      "loss": 0.018,
+      "step": 8350
+    },
+    {
+      "epoch": 3.3293508562325766,
+      "grad_norm": 0.131383016705513,
+      "learning_rate": 7.183324731875551e-06,
+      "loss": 0.0105,
+      "step": 8360
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.31221866607666016,
+      "learning_rate": 7.098169987248782e-06,
+      "loss": 0.012,
+      "step": 8370
+    },
+    {
+      "epoch": 3.33731581043409,
+      "grad_norm": 0.2039610892534256,
+      "learning_rate": 7.013484410161553e-06,
+      "loss": 0.0135,
+      "step": 8380
+    },
+    {
+      "epoch": 3.3412982875348467,
+      "grad_norm": 0.22186747193336487,
+      "learning_rate": 6.92926892672176e-06,
+      "loss": 0.0131,
+      "step": 8390
+    },
+    {
+      "epoch": 3.3452807646356035,
+      "grad_norm": 0.1861848533153534,
+      "learning_rate": 6.845524457896446e-06,
+      "loss": 0.0124,
+      "step": 8400
+    },
+    {
+      "epoch": 3.34926324173636,
+      "grad_norm": 0.23007585108280182,
+      "learning_rate": 6.7622519195017165e-06,
+      "loss": 0.0126,
+      "step": 8410
+    },
+    {
+      "epoch": 3.3532457188371168,
+      "grad_norm": 0.26495233178138733,
+      "learning_rate": 6.679452222192684e-06,
+      "loss": 0.0136,
+      "step": 8420
+    },
+    {
+      "epoch": 3.357228195937873,
+      "grad_norm": 0.2193382978439331,
+      "learning_rate": 6.597126271453579e-06,
+      "loss": 0.011,
+      "step": 8430
+    },
+    {
+      "epoch": 3.36121067303863,
+      "grad_norm": 0.10426363348960876,
+      "learning_rate": 6.51527496758782e-06,
+      "loss": 0.0114,
+      "step": 8440
+    },
+    {
+      "epoch": 3.365193150139387,
+      "grad_norm": 0.16592855751514435,
+      "learning_rate": 6.433899205708155e-06,
+      "loss": 0.0131,
+      "step": 8450
+    },
+    {
+      "epoch": 3.369175627240143,
+      "grad_norm": 0.1602918803691864,
+      "learning_rate": 6.352999875726856e-06,
+      "loss": 0.0121,
+      "step": 8460
+    },
+    {
+      "epoch": 3.3731581043409,
+      "grad_norm": 0.16960707306861877,
+      "learning_rate": 6.272577862346052e-06,
+      "loss": 0.0115,
+      "step": 8470
+    },
+    {
+      "epoch": 3.377140581441657,
+      "grad_norm": 0.29499271512031555,
+      "learning_rate": 6.192634045047996e-06,
+      "loss": 0.0129,
+      "step": 8480
+    },
+    {
+      "epoch": 3.3811230585424132,
+      "grad_norm": 0.23193804919719696,
+      "learning_rate": 6.113169298085458e-06,
+      "loss": 0.0194,
+      "step": 8490
+    },
+    {
+      "epoch": 3.38510553564317,
+      "grad_norm": 0.3416202962398529,
+      "learning_rate": 6.034184490472195e-06,
+      "loss": 0.0114,
+      "step": 8500
+    },
+    {
+      "epoch": 3.389088012743927,
+      "grad_norm": 0.22498588263988495,
+      "learning_rate": 5.955680485973386e-06,
+      "loss": 0.0156,
+      "step": 8510
+    },
+    {
+      "epoch": 3.3930704898446833,
+      "grad_norm": 0.3182886838912964,
+      "learning_rate": 5.877658143096265e-06,
+      "loss": 0.0132,
+      "step": 8520
+    },
+    {
+      "epoch": 3.39705296694544,
+      "grad_norm": 0.1463838666677475,
+      "learning_rate": 5.800118315080661e-06,
+      "loss": 0.0129,
+      "step": 8530
+    },
+    {
+      "epoch": 3.4010354440461965,
+      "grad_norm": 0.23471392691135406,
+      "learning_rate": 5.723061849889716e-06,
+      "loss": 0.0126,
+      "step": 8540
+    },
+    {
+      "epoch": 3.4050179211469533,
+      "grad_norm": 0.1969936192035675,
+      "learning_rate": 5.646489590200604e-06,
+      "loss": 0.0161,
+      "step": 8550
+    },
+    {
+      "epoch": 3.40900039824771,
+      "grad_norm": 0.15309295058250427,
+      "learning_rate": 5.570402373395256e-06,
+      "loss": 0.0125,
+      "step": 8560
+    },
+    {
+      "epoch": 3.4129828753484666,
+      "grad_norm": 0.4474526643753052,
+      "learning_rate": 5.494801031551305e-06,
+      "loss": 0.0163,
+      "step": 8570
+    },
+    {
+      "epoch": 3.4169653524492234,
+      "grad_norm": 0.18500779569149017,
+      "learning_rate": 5.41968639143291e-06,
+      "loss": 0.0139,
+      "step": 8580
+    },
+    {
+      "epoch": 3.4209478295499802,
+      "grad_norm": 0.19193483889102936,
+      "learning_rate": 5.345059274481751e-06,
+      "loss": 0.0127,
+      "step": 8590
+    },
+    {
+      "epoch": 3.4249303066507366,
+      "grad_norm": 0.15665030479431152,
+      "learning_rate": 5.270920496808002e-06,
+      "loss": 0.0159,
+      "step": 8600
+    },
+    {
+      "epoch": 3.4289127837514934,
+      "grad_norm": 0.16787682473659515,
+      "learning_rate": 5.1972708691814695e-06,
+      "loss": 0.0116,
+      "step": 8610
+    },
+    {
+      "epoch": 3.4328952608522503,
+      "grad_norm": 0.29282400012016296,
+      "learning_rate": 5.124111197022674e-06,
+      "loss": 0.0145,
+      "step": 8620
+    },
+    {
+      "epoch": 3.4368777379530067,
+      "grad_norm": 0.1538035124540329,
+      "learning_rate": 5.051442280394081e-06,
+      "loss": 0.0118,
+      "step": 8630
+    },
+    {
+      "epoch": 3.4408602150537635,
+      "grad_norm": 0.16790461540222168,
+      "learning_rate": 4.979264913991322e-06,
+      "loss": 0.0132,
+      "step": 8640
+    },
+    {
+      "epoch": 3.44484269215452,
+      "grad_norm": 0.1722331941127777,
+      "learning_rate": 4.907579887134489e-06,
+      "loss": 0.0134,
+      "step": 8650
+    },
+    {
+      "epoch": 3.4488251692552767,
+      "grad_norm": 0.21935425698757172,
+      "learning_rate": 4.836387983759572e-06,
+      "loss": 0.0137,
+      "step": 8660
+    },
+    {
+      "epoch": 3.4528076463560335,
+      "grad_norm": 0.2668359875679016,
+      "learning_rate": 4.765689982409816e-06,
+      "loss": 0.0121,
+      "step": 8670
+    },
+    {
+      "epoch": 3.45679012345679,
+      "grad_norm": 0.34474870562553406,
+      "learning_rate": 4.695486656227233e-06,
+      "loss": 0.0178,
+      "step": 8680
+    },
+    {
+      "epoch": 3.4607726005575468,
+      "grad_norm": 0.3360903859138489,
+      "learning_rate": 4.625778772944156e-06,
+      "loss": 0.013,
+      "step": 8690
+    },
+    {
+      "epoch": 3.4647550776583036,
+      "grad_norm": 0.1198967769742012,
+      "learning_rate": 4.556567094874825e-06,
+      "loss": 0.0139,
+      "step": 8700
+    },
+    {
+      "epoch": 3.46873755475906,
+      "grad_norm": 0.12995925545692444,
+      "learning_rate": 4.487852378907059e-06,
+      "loss": 0.0099,
+      "step": 8710
+    },
+    {
+      "epoch": 3.472720031859817,
+      "grad_norm": 0.14079661667346954,
+      "learning_rate": 4.419635376493986e-06,
+      "loss": 0.0133,
+      "step": 8720
+    },
+    {
+      "epoch": 3.4767025089605736,
+      "grad_norm": 0.23179714381694794,
+      "learning_rate": 4.351916833645825e-06,
+      "loss": 0.0145,
+      "step": 8730
+    },
+    {
+      "epoch": 3.48068498606133,
+      "grad_norm": 0.19353191554546356,
+      "learning_rate": 4.284697490921691e-06,
+      "loss": 0.013,
+      "step": 8740
+    },
+    {
+      "epoch": 3.484667463162087,
+      "grad_norm": 0.2545132040977478,
+      "learning_rate": 4.2179780834215585e-06,
+      "loss": 0.0161,
+      "step": 8750
+    },
+    {
+      "epoch": 3.4886499402628433,
+      "grad_norm": 0.22561277449131012,
+      "learning_rate": 4.151759340778178e-06,
+      "loss": 0.0142,
+      "step": 8760
+    },
+    {
+      "epoch": 3.4926324173636,
+      "grad_norm": 0.25932180881500244,
+      "learning_rate": 4.086041987149109e-06,
+      "loss": 0.0131,
+      "step": 8770
+    },
+    {
+      "epoch": 3.496614894464357,
+      "grad_norm": 0.23832671344280243,
+      "learning_rate": 4.020826741208811e-06,
+      "loss": 0.016,
+      "step": 8780
+    },
+    {
+      "epoch": 3.5005973715651137,
+      "grad_norm": 0.1888727992773056,
+      "learning_rate": 3.956114316140746e-06,
+      "loss": 0.0165,
+      "step": 8790
+    },
+    {
+      "epoch": 3.50457984866587,
+      "grad_norm": 0.2623044550418854,
+      "learning_rate": 3.891905419629643e-06,
+      "loss": 0.0125,
+      "step": 8800
+    },
+    {
+      "epoch": 3.508562325766627,
+      "grad_norm": 0.25887444615364075,
+      "learning_rate": 3.8282007538536946e-06,
+      "loss": 0.0164,
+      "step": 8810
+    },
+    {
+      "epoch": 3.5125448028673834,
+      "grad_norm": 0.21378953754901886,
+      "learning_rate": 3.7650010154769265e-06,
+      "loss": 0.0126,
+      "step": 8820
+    },
+    {
+      "epoch": 3.51652727996814,
+      "grad_norm": 0.2530067563056946,
+      "learning_rate": 3.7023068956415608e-06,
+      "loss": 0.0168,
+      "step": 8830
+    },
+    {
+      "epoch": 3.520509757068897,
+      "grad_norm": 0.27777713537216187,
+      "learning_rate": 3.6401190799604303e-06,
+      "loss": 0.0132,
+      "step": 8840
+    },
+    {
+      "epoch": 3.5244922341696534,
+      "grad_norm": 0.16841277480125427,
+      "learning_rate": 3.578438248509536e-06,
+      "loss": 0.015,
+      "step": 8850
+    },
+    {
+      "epoch": 3.5284747112704102,
+      "grad_norm": 0.22934165596961975,
+      "learning_rate": 3.5172650758205583e-06,
+      "loss": 0.0158,
+      "step": 8860
+    },
+    {
+      "epoch": 3.5324571883711666,
+      "grad_norm": 0.2117910385131836,
+      "learning_rate": 3.45660023087353e-06,
+      "loss": 0.0138,
+      "step": 8870
+    },
+    {
+      "epoch": 3.5364396654719235,
+      "grad_norm": 0.12349478155374527,
+      "learning_rate": 3.3964443770894528e-06,
+      "loss": 0.0115,
+      "step": 8880
+    },
+    {
+      "epoch": 3.5404221425726803,
+      "grad_norm": 0.25816065073013306,
+      "learning_rate": 3.3367981723231245e-06,
+      "loss": 0.013,
+      "step": 8890
+    },
+    {
+      "epoch": 3.544404619673437,
+      "grad_norm": 0.24896445870399475,
+      "learning_rate": 3.2776622688558746e-06,
+      "loss": 0.0134,
+      "step": 8900
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.20246760547161102,
+      "learning_rate": 3.2190373133884677e-06,
+      "loss": 0.0141,
+      "step": 8910
+    },
+    {
+      "epoch": 3.5523695738749503,
+      "grad_norm": 0.17225037515163422,
+      "learning_rate": 3.1609239470340446e-06,
+      "loss": 0.0125,
+      "step": 8920
+    },
+    {
+      "epoch": 3.5563520509757067,
+      "grad_norm": 0.16104808449745178,
+      "learning_rate": 3.1033228053110373e-06,
+      "loss": 0.0127,
+      "step": 8930
+    },
+    {
+      "epoch": 3.5603345280764636,
+      "grad_norm": 0.25064268708229065,
+      "learning_rate": 3.0462345181363314e-06,
+      "loss": 0.0121,
+      "step": 8940
+    },
+    {
+      "epoch": 3.5643170051772204,
+      "grad_norm": 0.177175834774971,
+      "learning_rate": 2.9896597098182654e-06,
+      "loss": 0.0145,
+      "step": 8950
+    },
+    {
+      "epoch": 3.5682994822779768,
+      "grad_norm": 0.23675449192523956,
+      "learning_rate": 2.933598999049891e-06,
+      "loss": 0.0133,
+      "step": 8960
+    },
+    {
+      "epoch": 3.5722819593787336,
+      "grad_norm": 0.19365286827087402,
+      "learning_rate": 2.8780529989021697e-06,
+      "loss": 0.0126,
+      "step": 8970
+    },
+    {
+      "epoch": 3.57626443647949,
+      "grad_norm": 0.3542676270008087,
+      "learning_rate": 2.823022316817242e-06,
+      "loss": 0.0162,
+      "step": 8980
+    },
+    {
+      "epoch": 3.580246913580247,
+      "grad_norm": 0.2057904750108719,
+      "learning_rate": 2.7685075546018456e-06,
+      "loss": 0.0134,
+      "step": 8990
+    },
+    {
+      "epoch": 3.5842293906810037,
+      "grad_norm": 0.19681024551391602,
+      "learning_rate": 2.7145093084206598e-06,
+      "loss": 0.0158,
+      "step": 9000
+    },
+    {
+      "epoch": 3.5882118677817605,
+      "grad_norm": 0.11298860609531403,
+      "learning_rate": 2.661028168789892e-06,
+      "loss": 0.0114,
+      "step": 9010
+    },
+    {
+      "epoch": 3.592194344882517,
+      "grad_norm": 0.20377224683761597,
+      "learning_rate": 2.6080647205706855e-06,
+      "loss": 0.0115,
+      "step": 9020
+    },
+    {
+      "epoch": 3.5961768219832737,
+      "grad_norm": 0.20502862334251404,
+      "learning_rate": 2.555619542962834e-06,
+      "loss": 0.0141,
+      "step": 9030
+    },
+    {
+      "epoch": 3.60015929908403,
+      "grad_norm": 0.2239837795495987,
+      "learning_rate": 2.503693209498409e-06,
+      "loss": 0.0108,
+      "step": 9040
+    },
+    {
+      "epoch": 3.604141776184787,
+      "grad_norm": 0.21607056260108948,
+      "learning_rate": 2.452286288035449e-06,
+      "loss": 0.0138,
+      "step": 9050
+    },
+    {
+      "epoch": 3.6081242532855438,
+      "grad_norm": 0.23609691858291626,
+      "learning_rate": 2.4013993407518363e-06,
+      "loss": 0.0129,
+      "step": 9060
+    },
+    {
+      "epoch": 3.6121067303863,
+      "grad_norm": 0.20945118367671967,
+      "learning_rate": 2.351032924139063e-06,
+      "loss": 0.0117,
+      "step": 9070
+    },
+    {
+      "epoch": 3.616089207487057,
+      "grad_norm": 0.180077463388443,
+      "learning_rate": 2.30118758899619e-06,
+      "loss": 0.0146,
+      "step": 9080
+    },
+    {
+      "epoch": 3.6200716845878134,
+      "grad_norm": 0.25069552659988403,
+      "learning_rate": 2.2518638804238157e-06,
+      "loss": 0.0135,
+      "step": 9090
+    },
+    {
+      "epoch": 3.62405416168857,
+      "grad_norm": 0.14733609557151794,
+      "learning_rate": 2.203062337818118e-06,
+      "loss": 0.0135,
+      "step": 9100
+    },
+    {
+      "epoch": 3.628036638789327,
+      "grad_norm": 0.27784958481788635,
+      "learning_rate": 2.1547834948649483e-06,
+      "loss": 0.014,
+      "step": 9110
+    },
+    {
+      "epoch": 3.632019115890084,
+      "grad_norm": 0.18988502025604248,
+      "learning_rate": 2.1070278795340017e-06,
+      "loss": 0.0148,
+      "step": 9120
+    },
+    {
+      "epoch": 3.6360015929908402,
+      "grad_norm": 0.15056854486465454,
+      "learning_rate": 2.059796014073029e-06,
+      "loss": 0.0098,
+      "step": 9130
+    },
+    {
+      "epoch": 3.639984070091597,
+      "grad_norm": 0.25632742047309875,
+      "learning_rate": 2.01308841500214e-06,
+      "loss": 0.0121,
+      "step": 9140
+    },
+    {
+      "epoch": 3.6439665471923535,
+      "grad_norm": 0.33377549052238464,
+      "learning_rate": 1.9669055931081704e-06,
+      "loss": 0.0153,
+      "step": 9150
+    },
+    {
+      "epoch": 3.6479490242931103,
+      "grad_norm": 0.24696041643619537,
+      "learning_rate": 1.9212480534390507e-06,
+      "loss": 0.0153,
+      "step": 9160
+    },
+    {
+      "epoch": 3.651931501393867,
+      "grad_norm": 0.1778692901134491,
+      "learning_rate": 1.8761162952983246e-06,
+      "loss": 0.0139,
+      "step": 9170
+    },
+    {
+      "epoch": 3.6559139784946235,
+      "grad_norm": 0.31593841314315796,
+      "learning_rate": 1.8315108122396618e-06,
+      "loss": 0.0148,
+      "step": 9180
+    },
+    {
+      "epoch": 3.6598964555953803,
+      "grad_norm": 0.2725008726119995,
+      "learning_rate": 1.787432092061475e-06,
+      "loss": 0.0126,
+      "step": 9190
+    },
+    {
+      "epoch": 3.6638789326961367,
+      "grad_norm": 0.2079121172428131,
+      "learning_rate": 1.743880616801602e-06,
+      "loss": 0.0168,
+      "step": 9200
+    },
+    {
+      "epoch": 3.6678614097968936,
+      "grad_norm": 0.1617252379655838,
+      "learning_rate": 1.7008568627319865e-06,
+      "loss": 0.0125,
+      "step": 9210
+    },
+    {
+      "epoch": 3.6718438868976504,
+      "grad_norm": 0.23413202166557312,
+      "learning_rate": 1.6583613003535226e-06,
+      "loss": 0.0139,
+      "step": 9220
+    },
+    {
+      "epoch": 3.6758263639984072,
+      "grad_norm": 0.20422157645225525,
+      "learning_rate": 1.6163943943908522e-06,
+      "loss": 0.0129,
+      "step": 9230
+    },
+    {
+      "epoch": 3.6798088410991636,
+      "grad_norm": 0.3413521349430084,
+      "learning_rate": 1.5749566037873476e-06,
+      "loss": 0.0133,
+      "step": 9240
+    },
+    {
+      "epoch": 3.6837913181999205,
+      "grad_norm": 0.1363775134086609,
+      "learning_rate": 1.5340483817000428e-06,
+      "loss": 0.012,
+      "step": 9250
+    },
+    {
+      "epoch": 3.687773795300677,
+      "grad_norm": 0.11363986134529114,
+      "learning_rate": 1.4936701754947101e-06,
+      "loss": 0.0116,
+      "step": 9260
+    },
+    {
+      "epoch": 3.6917562724014337,
+      "grad_norm": 0.27134454250335693,
+      "learning_rate": 1.4538224267409361e-06,
+      "loss": 0.0147,
+      "step": 9270
+    },
+    {
+      "epoch": 3.6957387495021905,
+      "grad_norm": 0.16270877420902252,
+      "learning_rate": 1.414505571207314e-06,
+      "loss": 0.0111,
+      "step": 9280
+    },
+    {
+      "epoch": 3.699721226602947,
+      "grad_norm": 0.23508696258068085,
+      "learning_rate": 1.3757200388566816e-06,
+      "loss": 0.0122,
+      "step": 9290
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 0.18475975096225739,
+      "learning_rate": 1.3374662538414074e-06,
+      "loss": 0.0147,
+      "step": 9300
+    },
+    {
+      "epoch": 3.70768618080446,
+      "grad_norm": 0.23747357726097107,
+      "learning_rate": 1.2997446344987617e-06,
+      "loss": 0.0127,
+      "step": 9310
+    },
+    {
+      "epoch": 3.711668657905217,
+      "grad_norm": 0.25293728709220886,
+      "learning_rate": 1.262555593346315e-06,
+      "loss": 0.0124,
+      "step": 9320
+    },
+    {
+      "epoch": 3.7156511350059738,
+      "grad_norm": 0.3373745381832123,
+      "learning_rate": 1.2258995370774685e-06,
+      "loss": 0.0153,
+      "step": 9330
+    },
+    {
+      "epoch": 3.7196336121067306,
+      "grad_norm": 0.21809877455234528,
+      "learning_rate": 1.1897768665569798e-06,
+      "loss": 0.0164,
+      "step": 9340
+    },
+    {
+      "epoch": 3.723616089207487,
+      "grad_norm": 0.21654918789863586,
+      "learning_rate": 1.1541879768165954e-06,
+      "loss": 0.0111,
+      "step": 9350
+    },
+    {
+      "epoch": 3.727598566308244,
+      "grad_norm": 0.19067105650901794,
+      "learning_rate": 1.1191332570507085e-06,
+      "loss": 0.0143,
+      "step": 9360
+    },
+    {
+      "epoch": 3.731581043409,
+      "grad_norm": 0.20294006168842316,
+      "learning_rate": 1.0846130906121132e-06,
+      "loss": 0.0172,
+      "step": 9370
+    },
+    {
+      "epoch": 3.735563520509757,
+      "grad_norm": 0.2206583172082901,
+      "learning_rate": 1.0506278550078131e-06,
+      "loss": 0.0137,
+      "step": 9380
+    },
+    {
+      "epoch": 3.739545997610514,
+      "grad_norm": 0.18981283903121948,
+      "learning_rate": 1.0171779218949185e-06,
+      "loss": 0.0158,
+      "step": 9390
+    },
+    {
+      "epoch": 3.7435284747112703,
+      "grad_norm": 0.21733026206493378,
+      "learning_rate": 9.842636570765174e-07,
+      "loss": 0.0133,
+      "step": 9400
+    },
+    {
+      "epoch": 3.747510951812027,
+      "grad_norm": 0.2571982741355896,
+      "learning_rate": 9.518854204977612e-07,
+      "loss": 0.013,
+      "step": 9410
+    },
+    {
+      "epoch": 3.7514934289127835,
+      "grad_norm": 0.2336360365152359,
+      "learning_rate": 9.200435662418349e-07,
+      "loss": 0.0144,
+      "step": 9420
+    },
+    {
+      "epoch": 3.7554759060135403,
+      "grad_norm": 0.25008511543273926,
+      "learning_rate": 8.887384425261658e-07,
+      "loss": 0.0111,
+      "step": 9430
+    },
+    {
+      "epoch": 3.759458383114297,
+      "grad_norm": 0.23758894205093384,
+      "learning_rate": 8.579703916985648e-07,
+      "loss": 0.0137,
+      "step": 9440
+    },
+    {
+      "epoch": 3.763440860215054,
+      "grad_norm": 0.27957940101623535,
+      "learning_rate": 8.277397502335194e-07,
+      "loss": 0.0143,
+      "step": 9450
+    },
+    {
+      "epoch": 3.7674233373158104,
+      "grad_norm": 0.2032625526189804,
+      "learning_rate": 7.980468487284675e-07,
+      "loss": 0.0153,
+      "step": 9460
+    },
+    {
+      "epoch": 3.771405814416567,
+      "grad_norm": 0.2791658341884613,
+      "learning_rate": 7.688920119002297e-07,
+      "loss": 0.0126,
+      "step": 9470
+    },
+    {
+      "epoch": 3.7753882915173236,
+      "grad_norm": 0.14666704833507538,
+      "learning_rate": 7.402755585814269e-07,
+      "loss": 0.0126,
+      "step": 9480
+    },
+    {
+      "epoch": 3.7793707686180804,
+      "grad_norm": 0.2378731667995453,
+      "learning_rate": 7.121978017170073e-07,
+      "loss": 0.0145,
+      "step": 9490
+    },
+    {
+      "epoch": 3.7833532457188372,
+      "grad_norm": 0.3094591796398163,
+      "learning_rate": 6.846590483608306e-07,
+      "loss": 0.0122,
+      "step": 9500
+    },
+    {
+      "epoch": 3.7873357228195936,
+      "grad_norm": 0.14007677137851715,
+      "learning_rate": 6.576595996722834e-07,
+      "loss": 0.016,
+      "step": 9510
+    },
+    {
+      "epoch": 3.7913181999203505,
+      "grad_norm": 0.24854406714439392,
+      "learning_rate": 6.311997509130141e-07,
+      "loss": 0.013,
+      "step": 9520
+    },
+    {
+      "epoch": 3.7953006770211073,
+      "grad_norm": 0.22404152154922485,
+      "learning_rate": 6.052797914436803e-07,
+      "loss": 0.0152,
+      "step": 9530
+    },
+    {
+      "epoch": 3.7992831541218637,
+      "grad_norm": 0.2653384804725647,
+      "learning_rate": 5.799000047208181e-07,
+      "loss": 0.0149,
+      "step": 9540
+    },
+    {
+      "epoch": 3.8032656312226205,
+      "grad_norm": 0.1700735241174698,
+      "learning_rate": 5.550606682937054e-07,
+      "loss": 0.0148,
+      "step": 9550
+    },
+    {
+      "epoch": 3.8072481083233773,
+      "grad_norm": 0.3729400336742401,
+      "learning_rate": 5.307620538013481e-07,
+      "loss": 0.0163,
+      "step": 9560
+    },
+    {
+      "epoch": 3.8112305854241337,
+      "grad_norm": 0.28273651003837585,
+      "learning_rate": 5.070044269694874e-07,
+      "loss": 0.0148,
+      "step": 9570
+    },
+    {
+      "epoch": 3.8152130625248906,
+      "grad_norm": 0.25636887550354004,
+      "learning_rate": 4.837880476077417e-07,
+      "loss": 0.0149,
+      "step": 9580
+    },
+    {
+      "epoch": 3.819195539625647,
+      "grad_norm": 0.11277643591165543,
+      "learning_rate": 4.6111316960670835e-07,
+      "loss": 0.0132,
+      "step": 9590
+    },
+    {
+      "epoch": 3.823178016726404,
+      "grad_norm": 0.31709930300712585,
+      "learning_rate": 4.389800409352218e-07,
+      "loss": 0.0141,
+      "step": 9600
+    },
+    {
+      "epoch": 3.8271604938271606,
+      "grad_norm": 0.1908944696187973,
+      "learning_rate": 4.173889036376277e-07,
+      "loss": 0.015,
+      "step": 9610
+    },
+    {
+      "epoch": 3.831142970927917,
+      "grad_norm": 0.2939547300338745,
+      "learning_rate": 3.963399938311463e-07,
+      "loss": 0.0177,
+      "step": 9620
+    },
+    {
+      "epoch": 3.835125448028674,
+      "grad_norm": 0.20435106754302979,
+      "learning_rate": 3.7583354170328545e-07,
+      "loss": 0.0137,
+      "step": 9630
+    },
+    {
+      "epoch": 3.8391079251294307,
+      "grad_norm": 0.177963525056839,
+      "learning_rate": 3.558697715093207e-07,
+      "loss": 0.0117,
+      "step": 9640
+    },
+    {
+      "epoch": 3.843090402230187,
+      "grad_norm": 0.23722724616527557,
+      "learning_rate": 3.3644890156983576e-07,
+      "loss": 0.0142,
+      "step": 9650
+    },
+    {
+      "epoch": 3.847072879330944,
+      "grad_norm": 0.24979689717292786,
+      "learning_rate": 3.175711442683638e-07,
+      "loss": 0.0139,
+      "step": 9660
+    },
+    {
+      "epoch": 3.8510553564317007,
+      "grad_norm": 0.13695870339870453,
+      "learning_rate": 2.9923670604902197e-07,
+      "loss": 0.0127,
+      "step": 9670
+    },
+    {
+      "epoch": 3.855037833532457,
+      "grad_norm": 0.2963074743747711,
+      "learning_rate": 2.814457874143028e-07,
+      "loss": 0.0165,
+      "step": 9680
+    },
+    {
+      "epoch": 3.859020310633214,
+      "grad_norm": 0.2667098641395569,
+      "learning_rate": 2.641985829228366e-07,
+      "loss": 0.0134,
+      "step": 9690
+    },
+    {
+      "epoch": 3.8630027877339703,
+      "grad_norm": 0.21023236215114594,
+      "learning_rate": 2.474952811872877e-07,
+      "loss": 0.0131,
+      "step": 9700
+    },
+    {
+      "epoch": 3.866985264834727,
+      "grad_norm": 0.21310463547706604,
+      "learning_rate": 2.3133606487228397e-07,
+      "loss": 0.0135,
+      "step": 9710
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 0.2762566804885864,
+      "learning_rate": 2.157211106924295e-07,
+      "loss": 0.0148,
+      "step": 9720
+    },
+    {
+      "epoch": 3.874950219036241,
+      "grad_norm": 0.2990756928920746,
+      "learning_rate": 2.006505894103672e-07,
+      "loss": 0.0147,
+      "step": 9730
+    },
+    {
+      "epoch": 3.878932696136997,
+      "grad_norm": 0.17009320855140686,
+      "learning_rate": 1.8612466583489696e-07,
+      "loss": 0.0143,
+      "step": 9740
+    },
+    {
+      "epoch": 3.882915173237754,
+      "grad_norm": 0.1569436490535736,
+      "learning_rate": 1.7214349881918834e-07,
+      "loss": 0.0132,
+      "step": 9750
+    },
+    {
+      "epoch": 3.8868976503385104,
+      "grad_norm": 0.12430369853973389,
+      "learning_rate": 1.5870724125904845e-07,
+      "loss": 0.0106,
+      "step": 9760
+    },
+    {
+      "epoch": 3.8908801274392673,
+      "grad_norm": 0.2661726176738739,
+      "learning_rate": 1.4581604009124006e-07,
+      "loss": 0.0132,
+      "step": 9770
+    },
+    {
+      "epoch": 3.894862604540024,
+      "grad_norm": 0.10029175132513046,
+      "learning_rate": 1.334700362918717e-07,
+      "loss": 0.0113,
+      "step": 9780
+    },
+    {
+      "epoch": 3.8988450816407805,
+      "grad_norm": 0.24978956580162048,
+      "learning_rate": 1.2166936487486015e-07,
+      "loss": 0.0125,
+      "step": 9790
+    },
+    {
+      "epoch": 3.9028275587415373,
+      "grad_norm": 0.4270276725292206,
+      "learning_rate": 1.1041415489045914e-07,
+      "loss": 0.0131,
+      "step": 9800
+    },
+    {
+      "epoch": 3.9068100358422937,
+      "grad_norm": 0.22719305753707886,
+      "learning_rate": 9.970452942384412e-08,
+      "loss": 0.0126,
+      "step": 9810
+    },
+    {
+      "epoch": 3.9107925129430505,
+      "grad_norm": 0.20977602899074554,
+      "learning_rate": 8.954060559375754e-08,
+      "loss": 0.0114,
+      "step": 9820
+    },
+    {
+      "epoch": 3.9147749900438074,
+      "grad_norm": 0.1370612531900406,
+      "learning_rate": 7.99224945512489e-08,
+      "loss": 0.018,
+      "step": 9830
+    },
+    {
+      "epoch": 3.918757467144564,
+      "grad_norm": 0.17637065052986145,
+      "learning_rate": 7.085030147843675e-08,
+      "loss": 0.0149,
+      "step": 9840
+    },
+    {
+      "epoch": 3.9227399442453206,
+      "grad_norm": 0.22800922393798828,
+      "learning_rate": 6.232412558736523e-08,
+      "loss": 0.0166,
+      "step": 9850
+    },
+    {
+      "epoch": 3.9267224213460774,
+      "grad_norm": 0.23249153792858124,
+      "learning_rate": 5.434406011893822e-08,
+      "loss": 0.0172,
+      "step": 9860
+    },
+    {
+      "epoch": 3.930704898446834,
+      "grad_norm": 0.17791615426540375,
+      "learning_rate": 4.6910192341864664e-08,
+      "loss": 0.0113,
+      "step": 9870
+    },
+    {
+      "epoch": 3.9346873755475906,
+      "grad_norm": 0.21019835770130157,
+      "learning_rate": 4.0022603551737035e-08,
+      "loss": 0.0146,
+      "step": 9880
+    },
+    {
+      "epoch": 3.9386698526483475,
+      "grad_norm": 0.1602124720811844,
+      "learning_rate": 3.3681369070120985e-08,
+      "loss": 0.0127,
+      "step": 9890
+    },
+    {
+      "epoch": 3.942652329749104,
+      "grad_norm": 0.17522773146629333,
+      "learning_rate": 2.7886558243744866e-08,
+      "loss": 0.0145,
+      "step": 9900
+    },
+    {
+      "epoch": 3.9466348068498607,
+      "grad_norm": 0.2072092741727829,
+      "learning_rate": 2.2638234443722596e-08,
+      "loss": 0.0123,
+      "step": 9910
+    },
+    {
+      "epoch": 3.950617283950617,
+      "grad_norm": 0.1036510095000267,
+      "learning_rate": 1.7936455064887504e-08,
+      "loss": 0.016,
+      "step": 9920
+    },
+    {
+      "epoch": 3.954599761051374,
+      "grad_norm": 0.08399386703968048,
+      "learning_rate": 1.378127152514841e-08,
+      "loss": 0.0114,
+      "step": 9930
+    },
+    {
+      "epoch": 3.9585822381521307,
+      "grad_norm": 0.27939972281455994,
+      "learning_rate": 1.0172729264917857e-08,
+      "loss": 0.0167,
+      "step": 9940
+    },
+    {
+      "epoch": 3.9625647152528876,
+      "grad_norm": 0.17596809566020966,
+      "learning_rate": 7.1108677466458215e-09,
+      "loss": 0.0142,
+      "step": 9950
+    },
+    {
+      "epoch": 3.966547192353644,
+      "grad_norm": 0.1545400619506836,
+      "learning_rate": 4.595720454353414e-09,
+      "loss": 0.0145,
+      "step": 9960
+    },
+    {
+      "epoch": 3.970529669454401,
+      "grad_norm": 0.24510076642036438,
+      "learning_rate": 2.627314893294264e-09,
+      "loss": 0.0124,
+      "step": 9970
+    },
+    {
+      "epoch": 3.974512146555157,
+      "grad_norm": 0.2673027217388153,
+      "learning_rate": 1.2056725896270048e-09,
+      "loss": 0.0118,
+      "step": 9980
+    },
+    {
+      "epoch": 3.978494623655914,
+      "grad_norm": 0.2962305545806885,
+      "learning_rate": 3.308090902098826e-10,
+      "loss": 0.0156,
+      "step": 9990
+    },
+    {
+      "epoch": 3.982477100756671,
+      "grad_norm": 0.3653580844402313,
+      "learning_rate": 2.7339624120159555e-12,
+      "loss": 0.0137,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-4000/config.json b/checkpoint-4000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-4000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-4000/experiment_cfg/metadata.json b/checkpoint-4000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-4000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-4000/model-00001-of-00002.safetensors b/checkpoint-4000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-4000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-4000/model-00002-of-00002.safetensors b/checkpoint-4000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..fe4419ab442c8c509a34dc858a14b8997b7a5ad5
--- /dev/null
+++ b/checkpoint-4000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f9bf9ecec75543ce10ef434c434df87246ed1520853803dbde888a1e053e80b
+size 2586705312
diff --git a/checkpoint-4000/model.safetensors.index.json b/checkpoint-4000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-4000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-4000/optimizer.pt b/checkpoint-4000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3544740f5ef90a5484ee2e3f737e710ed8b7c43a
--- /dev/null
+++ b/checkpoint-4000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39008997be56844954a656172d474c0ac07a1aff1983543078e43e76e3c07cea
+size 4147424698
diff --git a/checkpoint-4000/rng_state.pth b/checkpoint-4000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..aad73c5b928a1daa6d18d6ba9d8049c4f83ea92d
--- /dev/null
+++ b/checkpoint-4000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b853fa74473f32e44be47a34bdeaf5dc696917c249e44f780bcd71368abd20c
+size 14244
diff --git a/checkpoint-4000/scheduler.pt b/checkpoint-4000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9a577fafd92ca57c7e3213b00663853a5847ecb3
--- /dev/null
+++ b/checkpoint-4000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7211b192985f3cf213c0fe5d877c55ab1774647baa7fcf0d4d0c00aad611b2fd
+size 1064
diff --git a/checkpoint-4000/trainer_state.json b/checkpoint-4000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..9913dec53d8d3cacd3b846cb49b689be82ae5708
--- /dev/null
+++ b/checkpoint-4000/trainer_state.json
@@ -0,0 +1,2834 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.5929908403026682,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-5000/config.json b/checkpoint-5000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-5000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-5000/experiment_cfg/metadata.json b/checkpoint-5000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-5000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-5000/model-00001-of-00002.safetensors b/checkpoint-5000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-5000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-5000/model-00002-of-00002.safetensors b/checkpoint-5000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..cb6b7195227ac2403d2ae4d6611d7284c9e57dd8
--- /dev/null
+++ b/checkpoint-5000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:942142544a489d10a803779874cba9a1ec18d2cc3ccabfe9f5c2879f5eedfe04
+size 2586705312
diff --git a/checkpoint-5000/model.safetensors.index.json b/checkpoint-5000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-5000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-5000/optimizer.pt b/checkpoint-5000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..02aea15eb3e9ce55fca6b99f1df8afac898c9d5d
--- /dev/null
+++ b/checkpoint-5000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:135deb8770b61632d6a636310cc1589a33722ffdda34d98861c3ee95512da7ac
+size 4147424698
diff --git a/checkpoint-5000/rng_state.pth b/checkpoint-5000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..2507ecec046e9c4ef3ac2f542f1cb6e4202bb021
--- /dev/null
+++ b/checkpoint-5000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e89704cf03f557538e476cee66579fbaadf78bed5388d837bfa424566e8e0755
+size 14244
diff --git a/checkpoint-5000/scheduler.pt b/checkpoint-5000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..73ca436d0ae58f483363fbc870cab286c99ffded
--- /dev/null
+++ b/checkpoint-5000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3860515cdc95c999d5fee0e8633bc5123ccc0bc4f65d625f0a33425450fa0f7
+size 1064
diff --git a/checkpoint-5000/trainer_state.json b/checkpoint-5000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..dd1441f2e4e1609738f2305f10264f5e9df051c2
--- /dev/null
+++ b/checkpoint-5000/trainer_state.json
@@ -0,0 +1,3534 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9912385503783354,
+  "eval_steps": 500,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-6000/config.json b/checkpoint-6000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-6000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-6000/experiment_cfg/metadata.json b/checkpoint-6000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-6000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-6000/model-00001-of-00002.safetensors b/checkpoint-6000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-6000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-6000/model-00002-of-00002.safetensors b/checkpoint-6000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f1aea45d2997fed2f518eb471a27fe56d48bec10
--- /dev/null
+++ b/checkpoint-6000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:185c359b4bba0fb8e8f070cc9219b2dc7ef2b9222aa348ef4d29659957794091
+size 2586705312
diff --git a/checkpoint-6000/model.safetensors.index.json b/checkpoint-6000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-6000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-6000/optimizer.pt b/checkpoint-6000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..09a24cd9b32c416e1f0a38acdc68ff1dec77013c
--- /dev/null
+++ b/checkpoint-6000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:145c4fbd2b48ae7a568038fa1ecc19b796c1fce35b0883b3c0ce72c3a956a2a6
+size 4147424698
diff --git a/checkpoint-6000/rng_state.pth b/checkpoint-6000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5a002b7fd3bad4be61b08a06cf154915b9dd4334
--- /dev/null
+++ b/checkpoint-6000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13bd3aee67d899586785f110c683415e1f00044b0294c797f6849a5b51cc801a
+size 14244
diff --git a/checkpoint-6000/scheduler.pt b/checkpoint-6000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6a64e7adced2f5cd594b7b17b94285128331d8bb
--- /dev/null
+++ b/checkpoint-6000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d6c0bf646ac78d188a2258804081d2e369772e8091e5395d9073771ec310aca
+size 1064
diff --git a/checkpoint-6000/trainer_state.json b/checkpoint-6000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..48ca80dc51ea30a7652be3eb506fa2d76a25778f
--- /dev/null
+++ b/checkpoint-6000/trainer_state.json
@@ -0,0 +1,4234 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.389486260454002,
+  "eval_steps": 500,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-7000/config.json b/checkpoint-7000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-7000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-7000/experiment_cfg/metadata.json b/checkpoint-7000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-7000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-7000/model-00001-of-00002.safetensors b/checkpoint-7000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-7000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-7000/model-00002-of-00002.safetensors b/checkpoint-7000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..50f95cbc6119e12337a7683260f53240f5401fa6
--- /dev/null
+++ b/checkpoint-7000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:34e7230b2f52e65b83629e430d28e02bffb786970b756c13cd4a21211b800f5a
+size 2586705312
diff --git a/checkpoint-7000/model.safetensors.index.json b/checkpoint-7000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-7000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-7000/optimizer.pt b/checkpoint-7000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5b6916d9c621a6297eb903988d6bf35cb7d60d6b
--- /dev/null
+++ b/checkpoint-7000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14bc9ed5dcc9ab13c182c3a8d5c25bc5f9d6e9cf1efae67134d2e683a75c39e1
+size 4147424698
diff --git a/checkpoint-7000/rng_state.pth b/checkpoint-7000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..32ba739910d0dc616265ec7e746555874b18c89c
--- /dev/null
+++ b/checkpoint-7000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebdbf47e1b77224d159715275bc578926a4cd08f83b15b47e0225eb3eab56e59
+size 14244
diff --git a/checkpoint-7000/scheduler.pt b/checkpoint-7000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..eb08f265e8ede954499926b60eac135516e78b1b
--- /dev/null
+++ b/checkpoint-7000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45049460c0fa55fae34b1884c511d0c5cb5241d0d636fad92c82b0e0a657580e
+size 1064
diff --git a/checkpoint-7000/trainer_state.json b/checkpoint-7000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..dc541adbf2942e62bb1535cfd88c181fc0c7c689
--- /dev/null
+++ b/checkpoint-7000/trainer_state.json
@@ -0,0 +1,4934 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.7877339705296693,
+  "eval_steps": 500,
+  "global_step": 7000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    },
+    {
+      "epoch": 2.393468737554759,
+      "grad_norm": 0.33681097626686096,
+      "learning_rate": 3.758152155160255e-05,
+      "loss": 0.0167,
+      "step": 6010
+    },
+    {
+      "epoch": 2.397451214655516,
+      "grad_norm": 0.4447823166847229,
+      "learning_rate": 3.742142385506999e-05,
+      "loss": 0.0187,
+      "step": 6020
+    },
+    {
+      "epoch": 2.4014336917562726,
+      "grad_norm": 0.32111281156539917,
+      "learning_rate": 3.72614637158309e-05,
+      "loss": 0.0167,
+      "step": 6030
+    },
+    {
+      "epoch": 2.405416168857029,
+      "grad_norm": 0.3327321708202362,
+      "learning_rate": 3.710164288318371e-05,
+      "loss": 0.021,
+      "step": 6040
+    },
+    {
+      "epoch": 2.409398645957786,
+      "grad_norm": 0.3221536874771118,
+      "learning_rate": 3.694196310490345e-05,
+      "loss": 0.0172,
+      "step": 6050
+    },
+    {
+      "epoch": 2.4133811230585422,
+      "grad_norm": 0.2384720742702484,
+      "learning_rate": 3.678242612722259e-05,
+      "loss": 0.0172,
+      "step": 6060
+    },
+    {
+      "epoch": 2.417363600159299,
+      "grad_norm": 0.4310377240180969,
+      "learning_rate": 3.6623033694811953e-05,
+      "loss": 0.0207,
+      "step": 6070
+    },
+    {
+      "epoch": 2.421346077260056,
+      "grad_norm": 0.2742801904678345,
+      "learning_rate": 3.6463787550761665e-05,
+      "loss": 0.0204,
+      "step": 6080
+    },
+    {
+      "epoch": 2.4253285543608123,
+      "grad_norm": 0.30959945917129517,
+      "learning_rate": 3.630468943656202e-05,
+      "loss": 0.0171,
+      "step": 6090
+    },
+    {
+      "epoch": 2.429311031461569,
+      "grad_norm": 0.23991258442401886,
+      "learning_rate": 3.6145741092084523e-05,
+      "loss": 0.0158,
+      "step": 6100
+    },
+    {
+      "epoch": 2.433293508562326,
+      "grad_norm": 0.3445211350917816,
+      "learning_rate": 3.598694425556278e-05,
+      "loss": 0.0171,
+      "step": 6110
+    },
+    {
+      "epoch": 2.4372759856630823,
+      "grad_norm": 0.23148199915885925,
+      "learning_rate": 3.58283006635736e-05,
+      "loss": 0.0168,
+      "step": 6120
+    },
+    {
+      "epoch": 2.441258462763839,
+      "grad_norm": 0.34516337513923645,
+      "learning_rate": 3.566981205101781e-05,
+      "loss": 0.0214,
+      "step": 6130
+    },
+    {
+      "epoch": 2.445240939864596,
+      "grad_norm": 0.2975906729698181,
+      "learning_rate": 3.5511480151101556e-05,
+      "loss": 0.0182,
+      "step": 6140
+    },
+    {
+      "epoch": 2.4492234169653524,
+      "grad_norm": 0.3364192545413971,
+      "learning_rate": 3.5353306695317104e-05,
+      "loss": 0.0149,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4532058940661092,
+      "grad_norm": 0.32481926679611206,
+      "learning_rate": 3.519529341342402e-05,
+      "loss": 0.0205,
+      "step": 6160
+    },
+    {
+      "epoch": 2.4571883711668656,
+      "grad_norm": 0.35478660464286804,
+      "learning_rate": 3.503744203343026e-05,
+      "loss": 0.0184,
+      "step": 6170
+    },
+    {
+      "epoch": 2.4611708482676224,
+      "grad_norm": 0.40364179015159607,
+      "learning_rate": 3.487975428157318e-05,
+      "loss": 0.0213,
+      "step": 6180
+    },
+    {
+      "epoch": 2.4651533253683793,
+      "grad_norm": 0.2646041512489319,
+      "learning_rate": 3.472223188230083e-05,
+      "loss": 0.0182,
+      "step": 6190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.21933303773403168,
+      "learning_rate": 3.4564876558252866e-05,
+      "loss": 0.02,
+      "step": 6200
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.41874152421951294,
+      "learning_rate": 3.440769003024195e-05,
+      "loss": 0.0192,
+      "step": 6210
+    },
+    {
+      "epoch": 2.4771007566706493,
+      "grad_norm": 0.40349701046943665,
+      "learning_rate": 3.425067401723477e-05,
+      "loss": 0.0195,
+      "step": 6220
+    },
+    {
+      "epoch": 2.4810832337714057,
+      "grad_norm": 0.36892589926719666,
+      "learning_rate": 3.409383023633325e-05,
+      "loss": 0.0214,
+      "step": 6230
+    },
+    {
+      "epoch": 2.4850657108721625,
+      "grad_norm": 0.3317766785621643,
+      "learning_rate": 3.3937160402755894e-05,
+      "loss": 0.0179,
+      "step": 6240
+    },
+    {
+      "epoch": 2.4890481879729194,
+      "grad_norm": 0.28070494532585144,
+      "learning_rate": 3.378066622981885e-05,
+      "loss": 0.0227,
+      "step": 6250
+    },
+    {
+      "epoch": 2.4930306650736758,
+      "grad_norm": 0.23878398537635803,
+      "learning_rate": 3.362434942891738e-05,
+      "loss": 0.0203,
+      "step": 6260
+    },
+    {
+      "epoch": 2.4970131421744326,
+      "grad_norm": 0.29855674505233765,
+      "learning_rate": 3.346821170950693e-05,
+      "loss": 0.0188,
+      "step": 6270
+    },
+    {
+      "epoch": 2.500995619275189,
+      "grad_norm": 0.35947370529174805,
+      "learning_rate": 3.3312254779084585e-05,
+      "loss": 0.0203,
+      "step": 6280
+    },
+    {
+      "epoch": 2.504978096375946,
+      "grad_norm": 0.38355863094329834,
+      "learning_rate": 3.315648034317039e-05,
+      "loss": 0.0229,
+      "step": 6290
+    },
+    {
+      "epoch": 2.5089605734767026,
+      "grad_norm": 0.20965726673603058,
+      "learning_rate": 3.3000890105288564e-05,
+      "loss": 0.0156,
+      "step": 6300
+    },
+    {
+      "epoch": 2.512943050577459,
+      "grad_norm": 0.21126852929592133,
+      "learning_rate": 3.284548576694908e-05,
+      "loss": 0.0221,
+      "step": 6310
+    },
+    {
+      "epoch": 2.516925527678216,
+      "grad_norm": 0.29997190833091736,
+      "learning_rate": 3.2690269027628815e-05,
+      "loss": 0.0163,
+      "step": 6320
+    },
+    {
+      "epoch": 2.5209080047789723,
+      "grad_norm": 0.2688118815422058,
+      "learning_rate": 3.253524158475324e-05,
+      "loss": 0.018,
+      "step": 6330
+    },
+    {
+      "epoch": 2.524890481879729,
+      "grad_norm": 0.3369862139225006,
+      "learning_rate": 3.238040513367757e-05,
+      "loss": 0.0182,
+      "step": 6340
+    },
+    {
+      "epoch": 2.528872958980486,
+      "grad_norm": 0.17766013741493225,
+      "learning_rate": 3.222576136766843e-05,
+      "loss": 0.0159,
+      "step": 6350
+    },
+    {
+      "epoch": 2.5328554360812428,
+      "grad_norm": 0.2567964494228363,
+      "learning_rate": 3.2071311977885324e-05,
+      "loss": 0.0183,
+      "step": 6360
+    },
+    {
+      "epoch": 2.536837913181999,
+      "grad_norm": 0.2693711519241333,
+      "learning_rate": 3.191705865336197e-05,
+      "loss": 0.0195,
+      "step": 6370
+    },
+    {
+      "epoch": 2.540820390282756,
+      "grad_norm": 0.2565217912197113,
+      "learning_rate": 3.1763003080988075e-05,
+      "loss": 0.0175,
+      "step": 6380
+    },
+    {
+      "epoch": 2.5448028673835124,
+      "grad_norm": 0.44722431898117065,
+      "learning_rate": 3.160914694549063e-05,
+      "loss": 0.0198,
+      "step": 6390
+    },
+    {
+      "epoch": 2.548785344484269,
+      "grad_norm": 0.3705827593803406,
+      "learning_rate": 3.145549192941573e-05,
+      "loss": 0.019,
+      "step": 6400
+    },
+    {
+      "epoch": 2.552767821585026,
+      "grad_norm": 0.3155789077281952,
+      "learning_rate": 3.130203971310999e-05,
+      "loss": 0.0189,
+      "step": 6410
+    },
+    {
+      "epoch": 2.5567502986857824,
+      "grad_norm": 0.29949137568473816,
+      "learning_rate": 3.114879197470225e-05,
+      "loss": 0.0188,
+      "step": 6420
+    },
+    {
+      "epoch": 2.5607327757865392,
+      "grad_norm": 0.3367830216884613,
+      "learning_rate": 3.0995750390085285e-05,
+      "loss": 0.0175,
+      "step": 6430
+    },
+    {
+      "epoch": 2.5647152528872956,
+      "grad_norm": 0.2421615719795227,
+      "learning_rate": 3.084291663289728e-05,
+      "loss": 0.0192,
+      "step": 6440
+    },
+    {
+      "epoch": 2.5686977299880525,
+      "grad_norm": 0.17980587482452393,
+      "learning_rate": 3.069029237450375e-05,
+      "loss": 0.0155,
+      "step": 6450
+    },
+    {
+      "epoch": 2.5726802070888093,
+      "grad_norm": 0.42298945784568787,
+      "learning_rate": 3.053787928397911e-05,
+      "loss": 0.0169,
+      "step": 6460
+    },
+    {
+      "epoch": 2.576662684189566,
+      "grad_norm": 0.2914910316467285,
+      "learning_rate": 3.0385679028088526e-05,
+      "loss": 0.0195,
+      "step": 6470
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.40466681122779846,
+      "learning_rate": 3.023369327126959e-05,
+      "loss": 0.0191,
+      "step": 6480
+    },
+    {
+      "epoch": 2.5846276383910793,
+      "grad_norm": 0.260161429643631,
+      "learning_rate": 3.0081923675614198e-05,
+      "loss": 0.0164,
+      "step": 6490
+    },
+    {
+      "epoch": 2.5886101154918357,
+      "grad_norm": 0.348817378282547,
+      "learning_rate": 2.993037190085034e-05,
+      "loss": 0.0155,
+      "step": 6500
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.22140339016914368,
+      "learning_rate": 2.977903960432392e-05,
+      "loss": 0.0192,
+      "step": 6510
+    },
+    {
+      "epoch": 2.5965750696933494,
+      "grad_norm": 0.3535783886909485,
+      "learning_rate": 2.9627928440980722e-05,
+      "loss": 0.0196,
+      "step": 6520
+    },
+    {
+      "epoch": 2.600557546794106,
+      "grad_norm": 0.229234978556633,
+      "learning_rate": 2.9477040063348183e-05,
+      "loss": 0.0206,
+      "step": 6530
+    },
+    {
+      "epoch": 2.6045400238948626,
+      "grad_norm": 0.30883148312568665,
+      "learning_rate": 2.9326376121517456e-05,
+      "loss": 0.0195,
+      "step": 6540
+    },
+    {
+      "epoch": 2.608522500995619,
+      "grad_norm": 0.4454684257507324,
+      "learning_rate": 2.9175938263125236e-05,
+      "loss": 0.024,
+      "step": 6550
+    },
+    {
+      "epoch": 2.612504978096376,
+      "grad_norm": 0.34252026677131653,
+      "learning_rate": 2.9025728133335873e-05,
+      "loss": 0.0206,
+      "step": 6560
+    },
+    {
+      "epoch": 2.6164874551971327,
+      "grad_norm": 0.410495400428772,
+      "learning_rate": 2.8875747374823288e-05,
+      "loss": 0.0201,
+      "step": 6570
+    },
+    {
+      "epoch": 2.6204699322978895,
+      "grad_norm": 0.2930971384048462,
+      "learning_rate": 2.872599762775298e-05,
+      "loss": 0.0242,
+      "step": 6580
+    },
+    {
+      "epoch": 2.624452409398646,
+      "grad_norm": 0.1941741406917572,
+      "learning_rate": 2.857648052976425e-05,
+      "loss": 0.0168,
+      "step": 6590
+    },
+    {
+      "epoch": 2.6284348864994027,
+      "grad_norm": 0.4398362338542938,
+      "learning_rate": 2.8427197715952047e-05,
+      "loss": 0.019,
+      "step": 6600
+    },
+    {
+      "epoch": 2.632417363600159,
+      "grad_norm": 0.434218168258667,
+      "learning_rate": 2.8278150818849393e-05,
+      "loss": 0.0188,
+      "step": 6610
+    },
+    {
+      "epoch": 2.636399840700916,
+      "grad_norm": 0.29979050159454346,
+      "learning_rate": 2.812934146840922e-05,
+      "loss": 0.0175,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6403823178016728,
+      "grad_norm": 0.27494296431541443,
+      "learning_rate": 2.7980771291986764e-05,
+      "loss": 0.0175,
+      "step": 6630
+    },
+    {
+      "epoch": 2.644364794902429,
+      "grad_norm": 0.3515009582042694,
+      "learning_rate": 2.783244191432167e-05,
+      "loss": 0.0185,
+      "step": 6640
+    },
+    {
+      "epoch": 2.648347272003186,
+      "grad_norm": 0.3444755971431732,
+      "learning_rate": 2.768435495752022e-05,
+      "loss": 0.0171,
+      "step": 6650
+    },
+    {
+      "epoch": 2.652329749103943,
+      "grad_norm": 0.2616831362247467,
+      "learning_rate": 2.753651204103771e-05,
+      "loss": 0.02,
+      "step": 6660
+    },
+    {
+      "epoch": 2.656312226204699,
+      "grad_norm": 0.2663615643978119,
+      "learning_rate": 2.7388914781660523e-05,
+      "loss": 0.0149,
+      "step": 6670
+    },
+    {
+      "epoch": 2.660294703305456,
+      "grad_norm": 0.21043306589126587,
+      "learning_rate": 2.7241564793488693e-05,
+      "loss": 0.0202,
+      "step": 6680
+    },
+    {
+      "epoch": 2.664277180406213,
+      "grad_norm": 0.45657920837402344,
+      "learning_rate": 2.7094463687918037e-05,
+      "loss": 0.0151,
+      "step": 6690
+    },
+    {
+      "epoch": 2.6682596575069693,
+      "grad_norm": 0.37648776173591614,
+      "learning_rate": 2.694761307362268e-05,
+      "loss": 0.0192,
+      "step": 6700
+    },
+    {
+      "epoch": 2.672242134607726,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 2.6801014556537467e-05,
+      "loss": 0.0169,
+      "step": 6710
+    },
+    {
+      "epoch": 2.6762246117084825,
+      "grad_norm": 0.3080855906009674,
+      "learning_rate": 2.6654669739840243e-05,
+      "loss": 0.0169,
+      "step": 6720
+    },
+    {
+      "epoch": 2.6802070888092393,
+      "grad_norm": 0.3766150176525116,
+      "learning_rate": 2.650858022393451e-05,
+      "loss": 0.0183,
+      "step": 6730
+    },
+    {
+      "epoch": 2.684189565909996,
+      "grad_norm": 0.2229013293981552,
+      "learning_rate": 2.6362747606431747e-05,
+      "loss": 0.0205,
+      "step": 6740
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.24441877007484436,
+      "learning_rate": 2.6217173482134172e-05,
+      "loss": 0.0182,
+      "step": 6750
+    },
+    {
+      "epoch": 2.6921545201115094,
+      "grad_norm": 0.25608956813812256,
+      "learning_rate": 2.6071859443017044e-05,
+      "loss": 0.013,
+      "step": 6760
+    },
+    {
+      "epoch": 2.696136997212266,
+      "grad_norm": 0.3526802957057953,
+      "learning_rate": 2.5926807078211414e-05,
+      "loss": 0.0153,
+      "step": 6770
+    },
+    {
+      "epoch": 2.7001194743130226,
+      "grad_norm": 0.46395474672317505,
+      "learning_rate": 2.5782017973986728e-05,
+      "loss": 0.0181,
+      "step": 6780
+    },
+    {
+      "epoch": 2.7041019514137794,
+      "grad_norm": 0.23045793175697327,
+      "learning_rate": 2.5637493713733374e-05,
+      "loss": 0.0161,
+      "step": 6790
+    },
+    {
+      "epoch": 2.7080844285145362,
+      "grad_norm": 0.32080161571502686,
+      "learning_rate": 2.549323587794559e-05,
+      "loss": 0.0196,
+      "step": 6800
+    },
+    {
+      "epoch": 2.7120669056152926,
+      "grad_norm": 0.23438672721385956,
+      "learning_rate": 2.5349246044203895e-05,
+      "loss": 0.0143,
+      "step": 6810
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.33166348934173584,
+      "learning_rate": 2.520552578715808e-05,
+      "loss": 0.0144,
+      "step": 6820
+    },
+    {
+      "epoch": 2.720031859816806,
+      "grad_norm": 0.2601594626903534,
+      "learning_rate": 2.506207667850981e-05,
+      "loss": 0.0159,
+      "step": 6830
+    },
+    {
+      "epoch": 2.7240143369175627,
+      "grad_norm": 0.3093375265598297,
+      "learning_rate": 2.4918900286995555e-05,
+      "loss": 0.0141,
+      "step": 6840
+    },
+    {
+      "epoch": 2.7279968140183195,
+      "grad_norm": 0.15893106162548065,
+      "learning_rate": 2.4775998178369458e-05,
+      "loss": 0.0161,
+      "step": 6850
+    },
+    {
+      "epoch": 2.7319792911190763,
+      "grad_norm": 0.3865691125392914,
+      "learning_rate": 2.4633371915386017e-05,
+      "loss": 0.0188,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7359617682198327,
+      "grad_norm": 0.2376730591058731,
+      "learning_rate": 2.4491023057783235e-05,
+      "loss": 0.0192,
+      "step": 6870
+    },
+    {
+      "epoch": 2.7399442453205896,
+      "grad_norm": 0.38163626194000244,
+      "learning_rate": 2.4348953162265375e-05,
+      "loss": 0.0182,
+      "step": 6880
+    },
+    {
+      "epoch": 2.743926722421346,
+      "grad_norm": 0.22240246832370758,
+      "learning_rate": 2.420716378248607e-05,
+      "loss": 0.0217,
+      "step": 6890
+    },
+    {
+      "epoch": 2.7479091995221028,
+      "grad_norm": 0.4573044180870056,
+      "learning_rate": 2.4065656469031266e-05,
+      "loss": 0.0165,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7518916766228596,
+      "grad_norm": 0.22964206337928772,
+      "learning_rate": 2.3924432769402268e-05,
+      "loss": 0.0186,
+      "step": 6910
+    },
+    {
+      "epoch": 2.755874153723616,
+      "grad_norm": 0.30862241983413696,
+      "learning_rate": 2.3783494227998844e-05,
+      "loss": 0.0224,
+      "step": 6920
+    },
+    {
+      "epoch": 2.759856630824373,
+      "grad_norm": 0.22101591527462006,
+      "learning_rate": 2.3642842386102264e-05,
+      "loss": 0.0163,
+      "step": 6930
+    },
+    {
+      "epoch": 2.763839107925129,
+      "grad_norm": 0.2185278832912445,
+      "learning_rate": 2.3502478781858567e-05,
+      "loss": 0.0145,
+      "step": 6940
+    },
+    {
+      "epoch": 2.767821585025886,
+      "grad_norm": 0.24134941399097443,
+      "learning_rate": 2.3362404950261628e-05,
+      "loss": 0.019,
+      "step": 6950
+    },
+    {
+      "epoch": 2.771804062126643,
+      "grad_norm": 0.2902449071407318,
+      "learning_rate": 2.3222622423136458e-05,
+      "loss": 0.0165,
+      "step": 6960
+    },
+    {
+      "epoch": 2.7757865392273997,
+      "grad_norm": 0.3769952058792114,
+      "learning_rate": 2.3083132729122332e-05,
+      "loss": 0.0135,
+      "step": 6970
+    },
+    {
+      "epoch": 2.779769016328156,
+      "grad_norm": 0.22340670228004456,
+      "learning_rate": 2.294393739365621e-05,
+      "loss": 0.019,
+      "step": 6980
+    },
+    {
+      "epoch": 2.783751493428913,
+      "grad_norm": 0.33232781291007996,
+      "learning_rate": 2.2805037938956e-05,
+      "loss": 0.0162,
+      "step": 6990
+    },
+    {
+      "epoch": 2.7877339705296693,
+      "grad_norm": 0.33404746651649475,
+      "learning_rate": 2.266643588400386e-05,
+      "loss": 0.0162,
+      "step": 7000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-8000/config.json b/checkpoint-8000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-8000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-8000/experiment_cfg/metadata.json b/checkpoint-8000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-8000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-8000/model-00001-of-00002.safetensors b/checkpoint-8000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-8000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-8000/model-00002-of-00002.safetensors b/checkpoint-8000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..35ffc393a15f6af95f9a3cfe56e549635603b94f
--- /dev/null
+++ b/checkpoint-8000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55b8a95b9a98c61059711fe605141c966d8029578f3817615ff85066850b7fa0
+size 2586705312
diff --git a/checkpoint-8000/model.safetensors.index.json b/checkpoint-8000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-8000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-8000/optimizer.pt b/checkpoint-8000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f221d7fdf3feadaaea2d469cb94a531c0d16d78e
--- /dev/null
+++ b/checkpoint-8000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:71068dc4e5230fa9ab8029474c4d00b9cf103d745f386bf795aacc4bd2290099
+size 4147424698
diff --git a/checkpoint-8000/rng_state.pth b/checkpoint-8000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..82847572f9c5cd24e9fab18bd9f8111418e609e9
--- /dev/null
+++ b/checkpoint-8000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3c2579caa8be30247b2fd67c807b8ee03f800e30cbe7ea7f01f34b79c5de3fa
+size 14244
diff --git a/checkpoint-8000/scheduler.pt b/checkpoint-8000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..01665aca6c1a1ea3bed19552046faacdf59fcad3
--- /dev/null
+++ b/checkpoint-8000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00739e77892b3b90e07da5aa63424b8c4adff832abcfc91f97c4f8838af650db
+size 1064
diff --git a/checkpoint-8000/trainer_state.json b/checkpoint-8000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..780d4c28a3dff985ee12276cb7dac3b539623182
--- /dev/null
+++ b/checkpoint-8000/trainer_state.json
@@ -0,0 +1,5634 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.1859816806053365,
+  "eval_steps": 500,
+  "global_step": 8000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    },
+    {
+      "epoch": 2.393468737554759,
+      "grad_norm": 0.33681097626686096,
+      "learning_rate": 3.758152155160255e-05,
+      "loss": 0.0167,
+      "step": 6010
+    },
+    {
+      "epoch": 2.397451214655516,
+      "grad_norm": 0.4447823166847229,
+      "learning_rate": 3.742142385506999e-05,
+      "loss": 0.0187,
+      "step": 6020
+    },
+    {
+      "epoch": 2.4014336917562726,
+      "grad_norm": 0.32111281156539917,
+      "learning_rate": 3.72614637158309e-05,
+      "loss": 0.0167,
+      "step": 6030
+    },
+    {
+      "epoch": 2.405416168857029,
+      "grad_norm": 0.3327321708202362,
+      "learning_rate": 3.710164288318371e-05,
+      "loss": 0.021,
+      "step": 6040
+    },
+    {
+      "epoch": 2.409398645957786,
+      "grad_norm": 0.3221536874771118,
+      "learning_rate": 3.694196310490345e-05,
+      "loss": 0.0172,
+      "step": 6050
+    },
+    {
+      "epoch": 2.4133811230585422,
+      "grad_norm": 0.2384720742702484,
+      "learning_rate": 3.678242612722259e-05,
+      "loss": 0.0172,
+      "step": 6060
+    },
+    {
+      "epoch": 2.417363600159299,
+      "grad_norm": 0.4310377240180969,
+      "learning_rate": 3.6623033694811953e-05,
+      "loss": 0.0207,
+      "step": 6070
+    },
+    {
+      "epoch": 2.421346077260056,
+      "grad_norm": 0.2742801904678345,
+      "learning_rate": 3.6463787550761665e-05,
+      "loss": 0.0204,
+      "step": 6080
+    },
+    {
+      "epoch": 2.4253285543608123,
+      "grad_norm": 0.30959945917129517,
+      "learning_rate": 3.630468943656202e-05,
+      "loss": 0.0171,
+      "step": 6090
+    },
+    {
+      "epoch": 2.429311031461569,
+      "grad_norm": 0.23991258442401886,
+      "learning_rate": 3.6145741092084523e-05,
+      "loss": 0.0158,
+      "step": 6100
+    },
+    {
+      "epoch": 2.433293508562326,
+      "grad_norm": 0.3445211350917816,
+      "learning_rate": 3.598694425556278e-05,
+      "loss": 0.0171,
+      "step": 6110
+    },
+    {
+      "epoch": 2.4372759856630823,
+      "grad_norm": 0.23148199915885925,
+      "learning_rate": 3.58283006635736e-05,
+      "loss": 0.0168,
+      "step": 6120
+    },
+    {
+      "epoch": 2.441258462763839,
+      "grad_norm": 0.34516337513923645,
+      "learning_rate": 3.566981205101781e-05,
+      "loss": 0.0214,
+      "step": 6130
+    },
+    {
+      "epoch": 2.445240939864596,
+      "grad_norm": 0.2975906729698181,
+      "learning_rate": 3.5511480151101556e-05,
+      "loss": 0.0182,
+      "step": 6140
+    },
+    {
+      "epoch": 2.4492234169653524,
+      "grad_norm": 0.3364192545413971,
+      "learning_rate": 3.5353306695317104e-05,
+      "loss": 0.0149,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4532058940661092,
+      "grad_norm": 0.32481926679611206,
+      "learning_rate": 3.519529341342402e-05,
+      "loss": 0.0205,
+      "step": 6160
+    },
+    {
+      "epoch": 2.4571883711668656,
+      "grad_norm": 0.35478660464286804,
+      "learning_rate": 3.503744203343026e-05,
+      "loss": 0.0184,
+      "step": 6170
+    },
+    {
+      "epoch": 2.4611708482676224,
+      "grad_norm": 0.40364179015159607,
+      "learning_rate": 3.487975428157318e-05,
+      "loss": 0.0213,
+      "step": 6180
+    },
+    {
+      "epoch": 2.4651533253683793,
+      "grad_norm": 0.2646041512489319,
+      "learning_rate": 3.472223188230083e-05,
+      "loss": 0.0182,
+      "step": 6190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.21933303773403168,
+      "learning_rate": 3.4564876558252866e-05,
+      "loss": 0.02,
+      "step": 6200
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.41874152421951294,
+      "learning_rate": 3.440769003024195e-05,
+      "loss": 0.0192,
+      "step": 6210
+    },
+    {
+      "epoch": 2.4771007566706493,
+      "grad_norm": 0.40349701046943665,
+      "learning_rate": 3.425067401723477e-05,
+      "loss": 0.0195,
+      "step": 6220
+    },
+    {
+      "epoch": 2.4810832337714057,
+      "grad_norm": 0.36892589926719666,
+      "learning_rate": 3.409383023633325e-05,
+      "loss": 0.0214,
+      "step": 6230
+    },
+    {
+      "epoch": 2.4850657108721625,
+      "grad_norm": 0.3317766785621643,
+      "learning_rate": 3.3937160402755894e-05,
+      "loss": 0.0179,
+      "step": 6240
+    },
+    {
+      "epoch": 2.4890481879729194,
+      "grad_norm": 0.28070494532585144,
+      "learning_rate": 3.378066622981885e-05,
+      "loss": 0.0227,
+      "step": 6250
+    },
+    {
+      "epoch": 2.4930306650736758,
+      "grad_norm": 0.23878398537635803,
+      "learning_rate": 3.362434942891738e-05,
+      "loss": 0.0203,
+      "step": 6260
+    },
+    {
+      "epoch": 2.4970131421744326,
+      "grad_norm": 0.29855674505233765,
+      "learning_rate": 3.346821170950693e-05,
+      "loss": 0.0188,
+      "step": 6270
+    },
+    {
+      "epoch": 2.500995619275189,
+      "grad_norm": 0.35947370529174805,
+      "learning_rate": 3.3312254779084585e-05,
+      "loss": 0.0203,
+      "step": 6280
+    },
+    {
+      "epoch": 2.504978096375946,
+      "grad_norm": 0.38355863094329834,
+      "learning_rate": 3.315648034317039e-05,
+      "loss": 0.0229,
+      "step": 6290
+    },
+    {
+      "epoch": 2.5089605734767026,
+      "grad_norm": 0.20965726673603058,
+      "learning_rate": 3.3000890105288564e-05,
+      "loss": 0.0156,
+      "step": 6300
+    },
+    {
+      "epoch": 2.512943050577459,
+      "grad_norm": 0.21126852929592133,
+      "learning_rate": 3.284548576694908e-05,
+      "loss": 0.0221,
+      "step": 6310
+    },
+    {
+      "epoch": 2.516925527678216,
+      "grad_norm": 0.29997190833091736,
+      "learning_rate": 3.2690269027628815e-05,
+      "loss": 0.0163,
+      "step": 6320
+    },
+    {
+      "epoch": 2.5209080047789723,
+      "grad_norm": 0.2688118815422058,
+      "learning_rate": 3.253524158475324e-05,
+      "loss": 0.018,
+      "step": 6330
+    },
+    {
+      "epoch": 2.524890481879729,
+      "grad_norm": 0.3369862139225006,
+      "learning_rate": 3.238040513367757e-05,
+      "loss": 0.0182,
+      "step": 6340
+    },
+    {
+      "epoch": 2.528872958980486,
+      "grad_norm": 0.17766013741493225,
+      "learning_rate": 3.222576136766843e-05,
+      "loss": 0.0159,
+      "step": 6350
+    },
+    {
+      "epoch": 2.5328554360812428,
+      "grad_norm": 0.2567964494228363,
+      "learning_rate": 3.2071311977885324e-05,
+      "loss": 0.0183,
+      "step": 6360
+    },
+    {
+      "epoch": 2.536837913181999,
+      "grad_norm": 0.2693711519241333,
+      "learning_rate": 3.191705865336197e-05,
+      "loss": 0.0195,
+      "step": 6370
+    },
+    {
+      "epoch": 2.540820390282756,
+      "grad_norm": 0.2565217912197113,
+      "learning_rate": 3.1763003080988075e-05,
+      "loss": 0.0175,
+      "step": 6380
+    },
+    {
+      "epoch": 2.5448028673835124,
+      "grad_norm": 0.44722431898117065,
+      "learning_rate": 3.160914694549063e-05,
+      "loss": 0.0198,
+      "step": 6390
+    },
+    {
+      "epoch": 2.548785344484269,
+      "grad_norm": 0.3705827593803406,
+      "learning_rate": 3.145549192941573e-05,
+      "loss": 0.019,
+      "step": 6400
+    },
+    {
+      "epoch": 2.552767821585026,
+      "grad_norm": 0.3155789077281952,
+      "learning_rate": 3.130203971310999e-05,
+      "loss": 0.0189,
+      "step": 6410
+    },
+    {
+      "epoch": 2.5567502986857824,
+      "grad_norm": 0.29949137568473816,
+      "learning_rate": 3.114879197470225e-05,
+      "loss": 0.0188,
+      "step": 6420
+    },
+    {
+      "epoch": 2.5607327757865392,
+      "grad_norm": 0.3367830216884613,
+      "learning_rate": 3.0995750390085285e-05,
+      "loss": 0.0175,
+      "step": 6430
+    },
+    {
+      "epoch": 2.5647152528872956,
+      "grad_norm": 0.2421615719795227,
+      "learning_rate": 3.084291663289728e-05,
+      "loss": 0.0192,
+      "step": 6440
+    },
+    {
+      "epoch": 2.5686977299880525,
+      "grad_norm": 0.17980587482452393,
+      "learning_rate": 3.069029237450375e-05,
+      "loss": 0.0155,
+      "step": 6450
+    },
+    {
+      "epoch": 2.5726802070888093,
+      "grad_norm": 0.42298945784568787,
+      "learning_rate": 3.053787928397911e-05,
+      "loss": 0.0169,
+      "step": 6460
+    },
+    {
+      "epoch": 2.576662684189566,
+      "grad_norm": 0.2914910316467285,
+      "learning_rate": 3.0385679028088526e-05,
+      "loss": 0.0195,
+      "step": 6470
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.40466681122779846,
+      "learning_rate": 3.023369327126959e-05,
+      "loss": 0.0191,
+      "step": 6480
+    },
+    {
+      "epoch": 2.5846276383910793,
+      "grad_norm": 0.260161429643631,
+      "learning_rate": 3.0081923675614198e-05,
+      "loss": 0.0164,
+      "step": 6490
+    },
+    {
+      "epoch": 2.5886101154918357,
+      "grad_norm": 0.348817378282547,
+      "learning_rate": 2.993037190085034e-05,
+      "loss": 0.0155,
+      "step": 6500
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.22140339016914368,
+      "learning_rate": 2.977903960432392e-05,
+      "loss": 0.0192,
+      "step": 6510
+    },
+    {
+      "epoch": 2.5965750696933494,
+      "grad_norm": 0.3535783886909485,
+      "learning_rate": 2.9627928440980722e-05,
+      "loss": 0.0196,
+      "step": 6520
+    },
+    {
+      "epoch": 2.600557546794106,
+      "grad_norm": 0.229234978556633,
+      "learning_rate": 2.9477040063348183e-05,
+      "loss": 0.0206,
+      "step": 6530
+    },
+    {
+      "epoch": 2.6045400238948626,
+      "grad_norm": 0.30883148312568665,
+      "learning_rate": 2.9326376121517456e-05,
+      "loss": 0.0195,
+      "step": 6540
+    },
+    {
+      "epoch": 2.608522500995619,
+      "grad_norm": 0.4454684257507324,
+      "learning_rate": 2.9175938263125236e-05,
+      "loss": 0.024,
+      "step": 6550
+    },
+    {
+      "epoch": 2.612504978096376,
+      "grad_norm": 0.34252026677131653,
+      "learning_rate": 2.9025728133335873e-05,
+      "loss": 0.0206,
+      "step": 6560
+    },
+    {
+      "epoch": 2.6164874551971327,
+      "grad_norm": 0.410495400428772,
+      "learning_rate": 2.8875747374823288e-05,
+      "loss": 0.0201,
+      "step": 6570
+    },
+    {
+      "epoch": 2.6204699322978895,
+      "grad_norm": 0.2930971384048462,
+      "learning_rate": 2.872599762775298e-05,
+      "loss": 0.0242,
+      "step": 6580
+    },
+    {
+      "epoch": 2.624452409398646,
+      "grad_norm": 0.1941741406917572,
+      "learning_rate": 2.857648052976425e-05,
+      "loss": 0.0168,
+      "step": 6590
+    },
+    {
+      "epoch": 2.6284348864994027,
+      "grad_norm": 0.4398362338542938,
+      "learning_rate": 2.8427197715952047e-05,
+      "loss": 0.019,
+      "step": 6600
+    },
+    {
+      "epoch": 2.632417363600159,
+      "grad_norm": 0.434218168258667,
+      "learning_rate": 2.8278150818849393e-05,
+      "loss": 0.0188,
+      "step": 6610
+    },
+    {
+      "epoch": 2.636399840700916,
+      "grad_norm": 0.29979050159454346,
+      "learning_rate": 2.812934146840922e-05,
+      "loss": 0.0175,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6403823178016728,
+      "grad_norm": 0.27494296431541443,
+      "learning_rate": 2.7980771291986764e-05,
+      "loss": 0.0175,
+      "step": 6630
+    },
+    {
+      "epoch": 2.644364794902429,
+      "grad_norm": 0.3515009582042694,
+      "learning_rate": 2.783244191432167e-05,
+      "loss": 0.0185,
+      "step": 6640
+    },
+    {
+      "epoch": 2.648347272003186,
+      "grad_norm": 0.3444755971431732,
+      "learning_rate": 2.768435495752022e-05,
+      "loss": 0.0171,
+      "step": 6650
+    },
+    {
+      "epoch": 2.652329749103943,
+      "grad_norm": 0.2616831362247467,
+      "learning_rate": 2.753651204103771e-05,
+      "loss": 0.02,
+      "step": 6660
+    },
+    {
+      "epoch": 2.656312226204699,
+      "grad_norm": 0.2663615643978119,
+      "learning_rate": 2.7388914781660523e-05,
+      "loss": 0.0149,
+      "step": 6670
+    },
+    {
+      "epoch": 2.660294703305456,
+      "grad_norm": 0.21043306589126587,
+      "learning_rate": 2.7241564793488693e-05,
+      "loss": 0.0202,
+      "step": 6680
+    },
+    {
+      "epoch": 2.664277180406213,
+      "grad_norm": 0.45657920837402344,
+      "learning_rate": 2.7094463687918037e-05,
+      "loss": 0.0151,
+      "step": 6690
+    },
+    {
+      "epoch": 2.6682596575069693,
+      "grad_norm": 0.37648776173591614,
+      "learning_rate": 2.694761307362268e-05,
+      "loss": 0.0192,
+      "step": 6700
+    },
+    {
+      "epoch": 2.672242134607726,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 2.6801014556537467e-05,
+      "loss": 0.0169,
+      "step": 6710
+    },
+    {
+      "epoch": 2.6762246117084825,
+      "grad_norm": 0.3080855906009674,
+      "learning_rate": 2.6654669739840243e-05,
+      "loss": 0.0169,
+      "step": 6720
+    },
+    {
+      "epoch": 2.6802070888092393,
+      "grad_norm": 0.3766150176525116,
+      "learning_rate": 2.650858022393451e-05,
+      "loss": 0.0183,
+      "step": 6730
+    },
+    {
+      "epoch": 2.684189565909996,
+      "grad_norm": 0.2229013293981552,
+      "learning_rate": 2.6362747606431747e-05,
+      "loss": 0.0205,
+      "step": 6740
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.24441877007484436,
+      "learning_rate": 2.6217173482134172e-05,
+      "loss": 0.0182,
+      "step": 6750
+    },
+    {
+      "epoch": 2.6921545201115094,
+      "grad_norm": 0.25608956813812256,
+      "learning_rate": 2.6071859443017044e-05,
+      "loss": 0.013,
+      "step": 6760
+    },
+    {
+      "epoch": 2.696136997212266,
+      "grad_norm": 0.3526802957057953,
+      "learning_rate": 2.5926807078211414e-05,
+      "loss": 0.0153,
+      "step": 6770
+    },
+    {
+      "epoch": 2.7001194743130226,
+      "grad_norm": 0.46395474672317505,
+      "learning_rate": 2.5782017973986728e-05,
+      "loss": 0.0181,
+      "step": 6780
+    },
+    {
+      "epoch": 2.7041019514137794,
+      "grad_norm": 0.23045793175697327,
+      "learning_rate": 2.5637493713733374e-05,
+      "loss": 0.0161,
+      "step": 6790
+    },
+    {
+      "epoch": 2.7080844285145362,
+      "grad_norm": 0.32080161571502686,
+      "learning_rate": 2.549323587794559e-05,
+      "loss": 0.0196,
+      "step": 6800
+    },
+    {
+      "epoch": 2.7120669056152926,
+      "grad_norm": 0.23438672721385956,
+      "learning_rate": 2.5349246044203895e-05,
+      "loss": 0.0143,
+      "step": 6810
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.33166348934173584,
+      "learning_rate": 2.520552578715808e-05,
+      "loss": 0.0144,
+      "step": 6820
+    },
+    {
+      "epoch": 2.720031859816806,
+      "grad_norm": 0.2601594626903534,
+      "learning_rate": 2.506207667850981e-05,
+      "loss": 0.0159,
+      "step": 6830
+    },
+    {
+      "epoch": 2.7240143369175627,
+      "grad_norm": 0.3093375265598297,
+      "learning_rate": 2.4918900286995555e-05,
+      "loss": 0.0141,
+      "step": 6840
+    },
+    {
+      "epoch": 2.7279968140183195,
+      "grad_norm": 0.15893106162548065,
+      "learning_rate": 2.4775998178369458e-05,
+      "loss": 0.0161,
+      "step": 6850
+    },
+    {
+      "epoch": 2.7319792911190763,
+      "grad_norm": 0.3865691125392914,
+      "learning_rate": 2.4633371915386017e-05,
+      "loss": 0.0188,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7359617682198327,
+      "grad_norm": 0.2376730591058731,
+      "learning_rate": 2.4491023057783235e-05,
+      "loss": 0.0192,
+      "step": 6870
+    },
+    {
+      "epoch": 2.7399442453205896,
+      "grad_norm": 0.38163626194000244,
+      "learning_rate": 2.4348953162265375e-05,
+      "loss": 0.0182,
+      "step": 6880
+    },
+    {
+      "epoch": 2.743926722421346,
+      "grad_norm": 0.22240246832370758,
+      "learning_rate": 2.420716378248607e-05,
+      "loss": 0.0217,
+      "step": 6890
+    },
+    {
+      "epoch": 2.7479091995221028,
+      "grad_norm": 0.4573044180870056,
+      "learning_rate": 2.4065656469031266e-05,
+      "loss": 0.0165,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7518916766228596,
+      "grad_norm": 0.22964206337928772,
+      "learning_rate": 2.3924432769402268e-05,
+      "loss": 0.0186,
+      "step": 6910
+    },
+    {
+      "epoch": 2.755874153723616,
+      "grad_norm": 0.30862241983413696,
+      "learning_rate": 2.3783494227998844e-05,
+      "loss": 0.0224,
+      "step": 6920
+    },
+    {
+      "epoch": 2.759856630824373,
+      "grad_norm": 0.22101591527462006,
+      "learning_rate": 2.3642842386102264e-05,
+      "loss": 0.0163,
+      "step": 6930
+    },
+    {
+      "epoch": 2.763839107925129,
+      "grad_norm": 0.2185278832912445,
+      "learning_rate": 2.3502478781858567e-05,
+      "loss": 0.0145,
+      "step": 6940
+    },
+    {
+      "epoch": 2.767821585025886,
+      "grad_norm": 0.24134941399097443,
+      "learning_rate": 2.3362404950261628e-05,
+      "loss": 0.019,
+      "step": 6950
+    },
+    {
+      "epoch": 2.771804062126643,
+      "grad_norm": 0.2902449071407318,
+      "learning_rate": 2.3222622423136458e-05,
+      "loss": 0.0165,
+      "step": 6960
+    },
+    {
+      "epoch": 2.7757865392273997,
+      "grad_norm": 0.3769952058792114,
+      "learning_rate": 2.3083132729122332e-05,
+      "loss": 0.0135,
+      "step": 6970
+    },
+    {
+      "epoch": 2.779769016328156,
+      "grad_norm": 0.22340670228004456,
+      "learning_rate": 2.294393739365621e-05,
+      "loss": 0.019,
+      "step": 6980
+    },
+    {
+      "epoch": 2.783751493428913,
+      "grad_norm": 0.33232781291007996,
+      "learning_rate": 2.2805037938956e-05,
+      "loss": 0.0162,
+      "step": 6990
+    },
+    {
+      "epoch": 2.7877339705296693,
+      "grad_norm": 0.33404746651649475,
+      "learning_rate": 2.266643588400386e-05,
+      "loss": 0.0162,
+      "step": 7000
+    },
+    {
+      "epoch": 2.791716447630426,
+      "grad_norm": 0.2362033873796463,
+      "learning_rate": 2.252813274452969e-05,
+      "loss": 0.0166,
+      "step": 7010
+    },
+    {
+      "epoch": 2.795698924731183,
+      "grad_norm": 0.15253150463104248,
+      "learning_rate": 2.2390130032994427e-05,
+      "loss": 0.0153,
+      "step": 7020
+    },
+    {
+      "epoch": 2.7996814018319394,
+      "grad_norm": 0.36513105034828186,
+      "learning_rate": 2.2252429258573633e-05,
+      "loss": 0.0172,
+      "step": 7030
+    },
+    {
+      "epoch": 2.803663878932696,
+      "grad_norm": 0.22622640430927277,
+      "learning_rate": 2.2115031927140904e-05,
+      "loss": 0.0158,
+      "step": 7040
+    },
+    {
+      "epoch": 2.8076463560334526,
+      "grad_norm": 0.3483319580554962,
+      "learning_rate": 2.1977939541251463e-05,
+      "loss": 0.0218,
+      "step": 7050
+    },
+    {
+      "epoch": 2.8116288331342094,
+      "grad_norm": 0.3104790449142456,
+      "learning_rate": 2.1841153600125684e-05,
+      "loss": 0.0165,
+      "step": 7060
+    },
+    {
+      "epoch": 2.8156113102349662,
+      "grad_norm": 0.2423543781042099,
+      "learning_rate": 2.170467559963267e-05,
+      "loss": 0.0167,
+      "step": 7070
+    },
+    {
+      "epoch": 2.819593787335723,
+      "grad_norm": 0.3841968774795532,
+      "learning_rate": 2.1568507032273982e-05,
+      "loss": 0.0135,
+      "step": 7080
+    },
+    {
+      "epoch": 2.8235762644364795,
+      "grad_norm": 0.2059573382139206,
+      "learning_rate": 2.1432649387167264e-05,
+      "loss": 0.015,
+      "step": 7090
+    },
+    {
+      "epoch": 2.8275587415372363,
+      "grad_norm": 0.22446751594543457,
+      "learning_rate": 2.1297104150029973e-05,
+      "loss": 0.0162,
+      "step": 7100
+    },
+    {
+      "epoch": 2.8315412186379927,
+      "grad_norm": 0.36766108870506287,
+      "learning_rate": 2.116187280316307e-05,
+      "loss": 0.0172,
+      "step": 7110
+    },
+    {
+      "epoch": 2.8355236957387495,
+      "grad_norm": 0.3884134292602539,
+      "learning_rate": 2.1026956825434908e-05,
+      "loss": 0.0182,
+      "step": 7120
+    },
+    {
+      "epoch": 2.8395061728395063,
+      "grad_norm": 0.3192227780818939,
+      "learning_rate": 2.0892357692265017e-05,
+      "loss": 0.0145,
+      "step": 7130
+    },
+    {
+      "epoch": 2.8434886499402627,
+      "grad_norm": 0.2538623511791229,
+      "learning_rate": 2.0758076875607947e-05,
+      "loss": 0.0191,
+      "step": 7140
+    },
+    {
+      "epoch": 2.8474711270410196,
+      "grad_norm": 0.2836097478866577,
+      "learning_rate": 2.0624115843937207e-05,
+      "loss": 0.0201,
+      "step": 7150
+    },
+    {
+      "epoch": 2.851453604141776,
+      "grad_norm": 0.2728939652442932,
+      "learning_rate": 2.0490476062229157e-05,
+      "loss": 0.0176,
+      "step": 7160
+    },
+    {
+      "epoch": 2.855436081242533,
+      "grad_norm": 0.3548661172389984,
+      "learning_rate": 2.035715899194704e-05,
+      "loss": 0.0161,
+      "step": 7170
+    },
+    {
+      "epoch": 2.8594185583432896,
+      "grad_norm": 0.3930123448371887,
+      "learning_rate": 2.022416609102499e-05,
+      "loss": 0.0177,
+      "step": 7180
+    },
+    {
+      "epoch": 2.8634010354440464,
+      "grad_norm": 0.510944664478302,
+      "learning_rate": 2.009149881385205e-05,
+      "loss": 0.0222,
+      "step": 7190
+    },
+    {
+      "epoch": 2.867383512544803,
+      "grad_norm": 0.3476032018661499,
+      "learning_rate": 1.995915861125634e-05,
+      "loss": 0.0176,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8713659896455597,
+      "grad_norm": 0.2559760510921478,
+      "learning_rate": 1.9827146930489065e-05,
+      "loss": 0.0149,
+      "step": 7210
+    },
+    {
+      "epoch": 2.875348466746316,
+      "grad_norm": 0.20961345732212067,
+      "learning_rate": 1.9695465215208848e-05,
+      "loss": 0.018,
+      "step": 7220
+    },
+    {
+      "epoch": 2.879330943847073,
+      "grad_norm": 0.29862138628959656,
+      "learning_rate": 1.9564114905465813e-05,
+      "loss": 0.0156,
+      "step": 7230
+    },
+    {
+      "epoch": 2.8833134209478297,
+      "grad_norm": 0.3706551492214203,
+      "learning_rate": 1.9433097437685936e-05,
+      "loss": 0.0166,
+      "step": 7240
+    },
+    {
+      "epoch": 2.887295898048586,
+      "grad_norm": 0.4077451825141907,
+      "learning_rate": 1.930241424465521e-05,
+      "loss": 0.0139,
+      "step": 7250
+    },
+    {
+      "epoch": 2.891278375149343,
+      "grad_norm": 0.3151760399341583,
+      "learning_rate": 1.9172066755504115e-05,
+      "loss": 0.0164,
+      "step": 7260
+    },
+    {
+      "epoch": 2.8952608522500993,
+      "grad_norm": 0.29641613364219666,
+      "learning_rate": 1.9042056395691914e-05,
+      "loss": 0.0168,
+      "step": 7270
+    },
+    {
+      "epoch": 2.899243329350856,
+      "grad_norm": 0.3831641376018524,
+      "learning_rate": 1.8912384586991066e-05,
+      "loss": 0.0147,
+      "step": 7280
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.3114636540412903,
+      "learning_rate": 1.8783052747471717e-05,
+      "loss": 0.0144,
+      "step": 7290
+    },
+    {
+      "epoch": 2.90720828355237,
+      "grad_norm": 0.26268333196640015,
+      "learning_rate": 1.865406229148611e-05,
+      "loss": 0.0185,
+      "step": 7300
+    },
+    {
+      "epoch": 2.911190760653126,
+      "grad_norm": 0.22112445533275604,
+      "learning_rate": 1.8525414629653233e-05,
+      "loss": 0.0203,
+      "step": 7310
+    },
+    {
+      "epoch": 2.915173237753883,
+      "grad_norm": 0.2656763195991516,
+      "learning_rate": 1.8397111168843255e-05,
+      "loss": 0.0158,
+      "step": 7320
+    },
+    {
+      "epoch": 2.9191557148546394,
+      "grad_norm": 0.341366171836853,
+      "learning_rate": 1.8269153312162323e-05,
+      "loss": 0.0176,
+      "step": 7330
+    },
+    {
+      "epoch": 2.9231381919553963,
+      "grad_norm": 0.27272844314575195,
+      "learning_rate": 1.8141542458937054e-05,
+      "loss": 0.0155,
+      "step": 7340
+    },
+    {
+      "epoch": 2.927120669056153,
+      "grad_norm": 0.4220792353153229,
+      "learning_rate": 1.8014280004699268e-05,
+      "loss": 0.0173,
+      "step": 7350
+    },
+    {
+      "epoch": 2.9311031461569095,
+      "grad_norm": 0.2644200325012207,
+      "learning_rate": 1.788736734117078e-05,
+      "loss": 0.0111,
+      "step": 7360
+    },
+    {
+      "epoch": 2.9350856232576663,
+      "grad_norm": 0.27255773544311523,
+      "learning_rate": 1.7760805856248152e-05,
+      "loss": 0.0166,
+      "step": 7370
+    },
+    {
+      "epoch": 2.9390681003584227,
+      "grad_norm": 0.17350824177265167,
+      "learning_rate": 1.7634596933987518e-05,
+      "loss": 0.016,
+      "step": 7380
+    },
+    {
+      "epoch": 2.9430505774591795,
+      "grad_norm": 0.23067346215248108,
+      "learning_rate": 1.7508741954589404e-05,
+      "loss": 0.0164,
+      "step": 7390
+    },
+    {
+      "epoch": 2.9470330545599364,
+      "grad_norm": 0.3143824636936188,
+      "learning_rate": 1.7383242294383717e-05,
+      "loss": 0.0166,
+      "step": 7400
+    },
+    {
+      "epoch": 2.951015531660693,
+      "grad_norm": 0.2438683658838272,
+      "learning_rate": 1.7258099325814632e-05,
+      "loss": 0.0129,
+      "step": 7410
+    },
+    {
+      "epoch": 2.9549980087614496,
+      "grad_norm": 0.31693488359451294,
+      "learning_rate": 1.7133314417425594e-05,
+      "loss": 0.02,
+      "step": 7420
+    },
+    {
+      "epoch": 2.9589804858622064,
+      "grad_norm": 0.26909369230270386,
+      "learning_rate": 1.7008888933844408e-05,
+      "loss": 0.0155,
+      "step": 7430
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.29988786578178406,
+      "learning_rate": 1.6884824235768172e-05,
+      "loss": 0.0173,
+      "step": 7440
+    },
+    {
+      "epoch": 2.9669454400637196,
+      "grad_norm": 0.2735227048397064,
+      "learning_rate": 1.6761121679948592e-05,
+      "loss": 0.0148,
+      "step": 7450
+    },
+    {
+      "epoch": 2.9709279171644765,
+      "grad_norm": 0.23975975811481476,
+      "learning_rate": 1.663778261917695e-05,
+      "loss": 0.0177,
+      "step": 7460
+    },
+    {
+      "epoch": 2.974910394265233,
+      "grad_norm": 0.3303283452987671,
+      "learning_rate": 1.651480840226952e-05,
+      "loss": 0.0154,
+      "step": 7470
+    },
+    {
+      "epoch": 2.9788928713659897,
+      "grad_norm": 0.3179773688316345,
+      "learning_rate": 1.639220037405258e-05,
+      "loss": 0.017,
+      "step": 7480
+    },
+    {
+      "epoch": 2.982875348466746,
+      "grad_norm": 0.26732003688812256,
+      "learning_rate": 1.6269959875347906e-05,
+      "loss": 0.0162,
+      "step": 7490
+    },
+    {
+      "epoch": 2.986857825567503,
+      "grad_norm": 0.35051149129867554,
+      "learning_rate": 1.614808824295802e-05,
+      "loss": 0.0161,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9908403026682597,
+      "grad_norm": 0.24838776886463165,
+      "learning_rate": 1.602658680965152e-05,
+      "loss": 0.0115,
+      "step": 7510
+    },
+    {
+      "epoch": 2.9948227797690166,
+      "grad_norm": 0.3378634452819824,
+      "learning_rate": 1.5905456904148686e-05,
+      "loss": 0.0183,
+      "step": 7520
+    },
+    {
+      "epoch": 2.998805256869773,
+      "grad_norm": 0.28400248289108276,
+      "learning_rate": 1.57846998511067e-05,
+      "loss": 0.0165,
+      "step": 7530
+    },
+    {
+      "epoch": 3.00278773397053,
+      "grad_norm": 0.2319607138633728,
+      "learning_rate": 1.566431697110538e-05,
+      "loss": 0.0137,
+      "step": 7540
+    },
+    {
+      "epoch": 3.006770211071286,
+      "grad_norm": 0.326729953289032,
+      "learning_rate": 1.554430958063259e-05,
+      "loss": 0.0135,
+      "step": 7550
+    },
+    {
+      "epoch": 3.010752688172043,
+      "grad_norm": 0.2378934919834137,
+      "learning_rate": 1.5424678992069912e-05,
+      "loss": 0.0152,
+      "step": 7560
+    },
+    {
+      "epoch": 3.0147351652728,
+      "grad_norm": 0.24295467138290405,
+      "learning_rate": 1.5305426513678362e-05,
+      "loss": 0.0142,
+      "step": 7570
+    },
+    {
+      "epoch": 3.018717642373556,
+      "grad_norm": 0.2576531767845154,
+      "learning_rate": 1.518655344958388e-05,
+      "loss": 0.0181,
+      "step": 7580
+    },
+    {
+      "epoch": 3.022700119474313,
+      "grad_norm": 0.18377450108528137,
+      "learning_rate": 1.5068061099763275e-05,
+      "loss": 0.0166,
+      "step": 7590
+    },
+    {
+      "epoch": 3.02668259657507,
+      "grad_norm": 0.27830517292022705,
+      "learning_rate": 1.494995076002988e-05,
+      "loss": 0.0154,
+      "step": 7600
+    },
+    {
+      "epoch": 3.0306650736758263,
+      "grad_norm": 0.21844340860843658,
+      "learning_rate": 1.4832223722019456e-05,
+      "loss": 0.012,
+      "step": 7610
+    },
+    {
+      "epoch": 3.034647550776583,
+      "grad_norm": 0.2617688775062561,
+      "learning_rate": 1.4714881273176035e-05,
+      "loss": 0.0174,
+      "step": 7620
+    },
+    {
+      "epoch": 3.0386300278773395,
+      "grad_norm": 0.32421252131462097,
+      "learning_rate": 1.4597924696737835e-05,
+      "loss": 0.0145,
+      "step": 7630
+    },
+    {
+      "epoch": 3.0426125049780963,
+      "grad_norm": 0.29088929295539856,
+      "learning_rate": 1.4481355271723252e-05,
+      "loss": 0.0159,
+      "step": 7640
+    },
+    {
+      "epoch": 3.046594982078853,
+      "grad_norm": 0.33224666118621826,
+      "learning_rate": 1.4365174272916809e-05,
+      "loss": 0.0172,
+      "step": 7650
+    },
+    {
+      "epoch": 3.0505774591796095,
+      "grad_norm": 0.28133267164230347,
+      "learning_rate": 1.4249382970855319e-05,
+      "loss": 0.0164,
+      "step": 7660
+    },
+    {
+      "epoch": 3.0545599362803664,
+      "grad_norm": 0.2961582839488983,
+      "learning_rate": 1.4133982631813903e-05,
+      "loss": 0.0174,
+      "step": 7670
+    },
+    {
+      "epoch": 3.058542413381123,
+      "grad_norm": 0.19143448770046234,
+      "learning_rate": 1.4018974517792194e-05,
+      "loss": 0.0148,
+      "step": 7680
+    },
+    {
+      "epoch": 3.0625248904818796,
+      "grad_norm": 0.26252588629722595,
+      "learning_rate": 1.390435988650048e-05,
+      "loss": 0.0143,
+      "step": 7690
+    },
+    {
+      "epoch": 3.0665073675826364,
+      "grad_norm": 0.19971930980682373,
+      "learning_rate": 1.3790139991346006e-05,
+      "loss": 0.0125,
+      "step": 7700
+    },
+    {
+      "epoch": 3.0704898446833933,
+      "grad_norm": 0.2495674192905426,
+      "learning_rate": 1.367631608141926e-05,
+      "loss": 0.0155,
+      "step": 7710
+    },
+    {
+      "epoch": 3.0744723217841496,
+      "grad_norm": 0.22202928364276886,
+      "learning_rate": 1.3562889401480278e-05,
+      "loss": 0.0148,
+      "step": 7720
+    },
+    {
+      "epoch": 3.0784547988849065,
+      "grad_norm": 0.4576508402824402,
+      "learning_rate": 1.3449861191945074e-05,
+      "loss": 0.0165,
+      "step": 7730
+    },
+    {
+      "epoch": 3.0824372759856633,
+      "grad_norm": 0.3544761836528778,
+      "learning_rate": 1.3337232688872009e-05,
+      "loss": 0.0139,
+      "step": 7740
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 0.3484187722206116,
+      "learning_rate": 1.3225005123948364e-05,
+      "loss": 0.0147,
+      "step": 7750
+    },
+    {
+      "epoch": 3.0904022301871765,
+      "grad_norm": 0.19573178887367249,
+      "learning_rate": 1.311317972447681e-05,
+      "loss": 0.0127,
+      "step": 7760
+    },
+    {
+      "epoch": 3.094384707287933,
+      "grad_norm": 0.19815529882907867,
+      "learning_rate": 1.3001757713361996e-05,
+      "loss": 0.0109,
+      "step": 7770
+    },
+    {
+      "epoch": 3.0983671843886897,
+      "grad_norm": 0.35429829359054565,
+      "learning_rate": 1.2890740309097204e-05,
+      "loss": 0.0161,
+      "step": 7780
+    },
+    {
+      "epoch": 3.1023496614894466,
+      "grad_norm": 0.2911655008792877,
+      "learning_rate": 1.2780128725750944e-05,
+      "loss": 0.0138,
+      "step": 7790
+    },
+    {
+      "epoch": 3.106332138590203,
+      "grad_norm": 0.270168662071228,
+      "learning_rate": 1.266992417295379e-05,
+      "loss": 0.015,
+      "step": 7800
+    },
+    {
+      "epoch": 3.11031461569096,
+      "grad_norm": 0.32108160853385925,
+      "learning_rate": 1.2560127855885073e-05,
+      "loss": 0.0163,
+      "step": 7810
+    },
+    {
+      "epoch": 3.1142970927917166,
+      "grad_norm": 0.24168479442596436,
+      "learning_rate": 1.2450740975259745e-05,
+      "loss": 0.0167,
+      "step": 7820
+    },
+    {
+      "epoch": 3.118279569892473,
+      "grad_norm": 0.30409395694732666,
+      "learning_rate": 1.234176472731517e-05,
+      "loss": 0.0221,
+      "step": 7830
+    },
+    {
+      "epoch": 3.12226204699323,
+      "grad_norm": 0.3229791522026062,
+      "learning_rate": 1.2233200303798158e-05,
+      "loss": 0.0147,
+      "step": 7840
+    },
+    {
+      "epoch": 3.1262445240939867,
+      "grad_norm": 0.26919838786125183,
+      "learning_rate": 1.2125048891951846e-05,
+      "loss": 0.0158,
+      "step": 7850
+    },
+    {
+      "epoch": 3.130227001194743,
+      "grad_norm": 0.23068082332611084,
+      "learning_rate": 1.2017311674502745e-05,
+      "loss": 0.013,
+      "step": 7860
+    },
+    {
+      "epoch": 3.1342094782955,
+      "grad_norm": 0.17686747014522552,
+      "learning_rate": 1.1909989829647822e-05,
+      "loss": 0.0144,
+      "step": 7870
+    },
+    {
+      "epoch": 3.1381919553962563,
+      "grad_norm": 0.45290425419807434,
+      "learning_rate": 1.1803084531041553e-05,
+      "loss": 0.0173,
+      "step": 7880
+    },
+    {
+      "epoch": 3.142174432497013,
+      "grad_norm": 0.2763400673866272,
+      "learning_rate": 1.1696596947783162e-05,
+      "loss": 0.0144,
+      "step": 7890
+    },
+    {
+      "epoch": 3.14615690959777,
+      "grad_norm": 0.2585810422897339,
+      "learning_rate": 1.1590528244403803e-05,
+      "loss": 0.0175,
+      "step": 7900
+    },
+    {
+      "epoch": 3.1501393866985263,
+      "grad_norm": 0.22105610370635986,
+      "learning_rate": 1.148487958085382e-05,
+      "loss": 0.0151,
+      "step": 7910
+    },
+    {
+      "epoch": 3.154121863799283,
+      "grad_norm": 0.21400152146816254,
+      "learning_rate": 1.1379652112490086e-05,
+      "loss": 0.0177,
+      "step": 7920
+    },
+    {
+      "epoch": 3.15810434090004,
+      "grad_norm": 0.1969025582075119,
+      "learning_rate": 1.1274846990063315e-05,
+      "loss": 0.0136,
+      "step": 7930
+    },
+    {
+      "epoch": 3.1620868180007964,
+      "grad_norm": 0.2094409465789795,
+      "learning_rate": 1.117046535970554e-05,
+      "loss": 0.0151,
+      "step": 7940
+    },
+    {
+      "epoch": 3.166069295101553,
+      "grad_norm": 0.29152101278305054,
+      "learning_rate": 1.106650836291755e-05,
+      "loss": 0.0195,
+      "step": 7950
+    },
+    {
+      "epoch": 3.17005177220231,
+      "grad_norm": 0.28160348534584045,
+      "learning_rate": 1.0962977136556418e-05,
+      "loss": 0.0184,
+      "step": 7960
+    },
+    {
+      "epoch": 3.1740342493030664,
+      "grad_norm": 0.3710784614086151,
+      "learning_rate": 1.0859872812823024e-05,
+      "loss": 0.0144,
+      "step": 7970
+    },
+    {
+      "epoch": 3.1780167264038233,
+      "grad_norm": 0.23486924171447754,
+      "learning_rate": 1.0757196519249747e-05,
+      "loss": 0.0189,
+      "step": 7980
+    },
+    {
+      "epoch": 3.1819992035045797,
+      "grad_norm": 0.31155335903167725,
+      "learning_rate": 1.0654949378688077e-05,
+      "loss": 0.0156,
+      "step": 7990
+    },
+    {
+      "epoch": 3.1859816806053365,
+      "grad_norm": 0.21536493301391602,
+      "learning_rate": 1.0553132509296376e-05,
+      "loss": 0.0146,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/checkpoint-9000/config.json b/checkpoint-9000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/checkpoint-9000/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/checkpoint-9000/experiment_cfg/metadata.json b/checkpoint-9000/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/checkpoint-9000/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/checkpoint-9000/model-00001-of-00002.safetensors b/checkpoint-9000/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/checkpoint-9000/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/checkpoint-9000/model-00002-of-00002.safetensors b/checkpoint-9000/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..4b6d073915520bc4d541324b88a7660839363ccd
--- /dev/null
+++ b/checkpoint-9000/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d8c3d3db763023c3d2a8cf8af1116675509dba44d0bd56cab932b647689a957
+size 2586705312
diff --git a/checkpoint-9000/model.safetensors.index.json b/checkpoint-9000/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/checkpoint-9000/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/checkpoint-9000/optimizer.pt b/checkpoint-9000/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..eb7f2a9c909e859c2db8adcb7baf6cdf98f1c4b1
--- /dev/null
+++ b/checkpoint-9000/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:904ee5b3d63227da55bc2fe22569ad62f53a088880133b5a544f249f536178b0
+size 4147424698
diff --git a/checkpoint-9000/rng_state.pth b/checkpoint-9000/rng_state.pth
new file mode 100644
index 0000000000000000000000000000000000000000..a6ee0ffe7060ccbdffa43d4bade46ed32f19aef0
--- /dev/null
+++ b/checkpoint-9000/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e58dfd43d9318102f41d01c51319ccd9faace63ec06ab7a1560f0a20416b8b00
+size 14244
diff --git a/checkpoint-9000/scheduler.pt b/checkpoint-9000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..1284fbfc0aff3eb0ffd7ee90f36ce105f6e06839
--- /dev/null
+++ b/checkpoint-9000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c26823aa5685497db4fe82a648513d12cb6c26d9be110887b197c10fe3a44ac
+size 1064
diff --git a/checkpoint-9000/trainer_state.json b/checkpoint-9000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..c23900b5b5048a9529c3915b6c70c132c2328e70
--- /dev/null
+++ b/checkpoint-9000/trainer_state.json
@@ -0,0 +1,6334 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.5842293906810037,
+  "eval_steps": 500,
+  "global_step": 9000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    },
+    {
+      "epoch": 2.393468737554759,
+      "grad_norm": 0.33681097626686096,
+      "learning_rate": 3.758152155160255e-05,
+      "loss": 0.0167,
+      "step": 6010
+    },
+    {
+      "epoch": 2.397451214655516,
+      "grad_norm": 0.4447823166847229,
+      "learning_rate": 3.742142385506999e-05,
+      "loss": 0.0187,
+      "step": 6020
+    },
+    {
+      "epoch": 2.4014336917562726,
+      "grad_norm": 0.32111281156539917,
+      "learning_rate": 3.72614637158309e-05,
+      "loss": 0.0167,
+      "step": 6030
+    },
+    {
+      "epoch": 2.405416168857029,
+      "grad_norm": 0.3327321708202362,
+      "learning_rate": 3.710164288318371e-05,
+      "loss": 0.021,
+      "step": 6040
+    },
+    {
+      "epoch": 2.409398645957786,
+      "grad_norm": 0.3221536874771118,
+      "learning_rate": 3.694196310490345e-05,
+      "loss": 0.0172,
+      "step": 6050
+    },
+    {
+      "epoch": 2.4133811230585422,
+      "grad_norm": 0.2384720742702484,
+      "learning_rate": 3.678242612722259e-05,
+      "loss": 0.0172,
+      "step": 6060
+    },
+    {
+      "epoch": 2.417363600159299,
+      "grad_norm": 0.4310377240180969,
+      "learning_rate": 3.6623033694811953e-05,
+      "loss": 0.0207,
+      "step": 6070
+    },
+    {
+      "epoch": 2.421346077260056,
+      "grad_norm": 0.2742801904678345,
+      "learning_rate": 3.6463787550761665e-05,
+      "loss": 0.0204,
+      "step": 6080
+    },
+    {
+      "epoch": 2.4253285543608123,
+      "grad_norm": 0.30959945917129517,
+      "learning_rate": 3.630468943656202e-05,
+      "loss": 0.0171,
+      "step": 6090
+    },
+    {
+      "epoch": 2.429311031461569,
+      "grad_norm": 0.23991258442401886,
+      "learning_rate": 3.6145741092084523e-05,
+      "loss": 0.0158,
+      "step": 6100
+    },
+    {
+      "epoch": 2.433293508562326,
+      "grad_norm": 0.3445211350917816,
+      "learning_rate": 3.598694425556278e-05,
+      "loss": 0.0171,
+      "step": 6110
+    },
+    {
+      "epoch": 2.4372759856630823,
+      "grad_norm": 0.23148199915885925,
+      "learning_rate": 3.58283006635736e-05,
+      "loss": 0.0168,
+      "step": 6120
+    },
+    {
+      "epoch": 2.441258462763839,
+      "grad_norm": 0.34516337513923645,
+      "learning_rate": 3.566981205101781e-05,
+      "loss": 0.0214,
+      "step": 6130
+    },
+    {
+      "epoch": 2.445240939864596,
+      "grad_norm": 0.2975906729698181,
+      "learning_rate": 3.5511480151101556e-05,
+      "loss": 0.0182,
+      "step": 6140
+    },
+    {
+      "epoch": 2.4492234169653524,
+      "grad_norm": 0.3364192545413971,
+      "learning_rate": 3.5353306695317104e-05,
+      "loss": 0.0149,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4532058940661092,
+      "grad_norm": 0.32481926679611206,
+      "learning_rate": 3.519529341342402e-05,
+      "loss": 0.0205,
+      "step": 6160
+    },
+    {
+      "epoch": 2.4571883711668656,
+      "grad_norm": 0.35478660464286804,
+      "learning_rate": 3.503744203343026e-05,
+      "loss": 0.0184,
+      "step": 6170
+    },
+    {
+      "epoch": 2.4611708482676224,
+      "grad_norm": 0.40364179015159607,
+      "learning_rate": 3.487975428157318e-05,
+      "loss": 0.0213,
+      "step": 6180
+    },
+    {
+      "epoch": 2.4651533253683793,
+      "grad_norm": 0.2646041512489319,
+      "learning_rate": 3.472223188230083e-05,
+      "loss": 0.0182,
+      "step": 6190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.21933303773403168,
+      "learning_rate": 3.4564876558252866e-05,
+      "loss": 0.02,
+      "step": 6200
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.41874152421951294,
+      "learning_rate": 3.440769003024195e-05,
+      "loss": 0.0192,
+      "step": 6210
+    },
+    {
+      "epoch": 2.4771007566706493,
+      "grad_norm": 0.40349701046943665,
+      "learning_rate": 3.425067401723477e-05,
+      "loss": 0.0195,
+      "step": 6220
+    },
+    {
+      "epoch": 2.4810832337714057,
+      "grad_norm": 0.36892589926719666,
+      "learning_rate": 3.409383023633325e-05,
+      "loss": 0.0214,
+      "step": 6230
+    },
+    {
+      "epoch": 2.4850657108721625,
+      "grad_norm": 0.3317766785621643,
+      "learning_rate": 3.3937160402755894e-05,
+      "loss": 0.0179,
+      "step": 6240
+    },
+    {
+      "epoch": 2.4890481879729194,
+      "grad_norm": 0.28070494532585144,
+      "learning_rate": 3.378066622981885e-05,
+      "loss": 0.0227,
+      "step": 6250
+    },
+    {
+      "epoch": 2.4930306650736758,
+      "grad_norm": 0.23878398537635803,
+      "learning_rate": 3.362434942891738e-05,
+      "loss": 0.0203,
+      "step": 6260
+    },
+    {
+      "epoch": 2.4970131421744326,
+      "grad_norm": 0.29855674505233765,
+      "learning_rate": 3.346821170950693e-05,
+      "loss": 0.0188,
+      "step": 6270
+    },
+    {
+      "epoch": 2.500995619275189,
+      "grad_norm": 0.35947370529174805,
+      "learning_rate": 3.3312254779084585e-05,
+      "loss": 0.0203,
+      "step": 6280
+    },
+    {
+      "epoch": 2.504978096375946,
+      "grad_norm": 0.38355863094329834,
+      "learning_rate": 3.315648034317039e-05,
+      "loss": 0.0229,
+      "step": 6290
+    },
+    {
+      "epoch": 2.5089605734767026,
+      "grad_norm": 0.20965726673603058,
+      "learning_rate": 3.3000890105288564e-05,
+      "loss": 0.0156,
+      "step": 6300
+    },
+    {
+      "epoch": 2.512943050577459,
+      "grad_norm": 0.21126852929592133,
+      "learning_rate": 3.284548576694908e-05,
+      "loss": 0.0221,
+      "step": 6310
+    },
+    {
+      "epoch": 2.516925527678216,
+      "grad_norm": 0.29997190833091736,
+      "learning_rate": 3.2690269027628815e-05,
+      "loss": 0.0163,
+      "step": 6320
+    },
+    {
+      "epoch": 2.5209080047789723,
+      "grad_norm": 0.2688118815422058,
+      "learning_rate": 3.253524158475324e-05,
+      "loss": 0.018,
+      "step": 6330
+    },
+    {
+      "epoch": 2.524890481879729,
+      "grad_norm": 0.3369862139225006,
+      "learning_rate": 3.238040513367757e-05,
+      "loss": 0.0182,
+      "step": 6340
+    },
+    {
+      "epoch": 2.528872958980486,
+      "grad_norm": 0.17766013741493225,
+      "learning_rate": 3.222576136766843e-05,
+      "loss": 0.0159,
+      "step": 6350
+    },
+    {
+      "epoch": 2.5328554360812428,
+      "grad_norm": 0.2567964494228363,
+      "learning_rate": 3.2071311977885324e-05,
+      "loss": 0.0183,
+      "step": 6360
+    },
+    {
+      "epoch": 2.536837913181999,
+      "grad_norm": 0.2693711519241333,
+      "learning_rate": 3.191705865336197e-05,
+      "loss": 0.0195,
+      "step": 6370
+    },
+    {
+      "epoch": 2.540820390282756,
+      "grad_norm": 0.2565217912197113,
+      "learning_rate": 3.1763003080988075e-05,
+      "loss": 0.0175,
+      "step": 6380
+    },
+    {
+      "epoch": 2.5448028673835124,
+      "grad_norm": 0.44722431898117065,
+      "learning_rate": 3.160914694549063e-05,
+      "loss": 0.0198,
+      "step": 6390
+    },
+    {
+      "epoch": 2.548785344484269,
+      "grad_norm": 0.3705827593803406,
+      "learning_rate": 3.145549192941573e-05,
+      "loss": 0.019,
+      "step": 6400
+    },
+    {
+      "epoch": 2.552767821585026,
+      "grad_norm": 0.3155789077281952,
+      "learning_rate": 3.130203971310999e-05,
+      "loss": 0.0189,
+      "step": 6410
+    },
+    {
+      "epoch": 2.5567502986857824,
+      "grad_norm": 0.29949137568473816,
+      "learning_rate": 3.114879197470225e-05,
+      "loss": 0.0188,
+      "step": 6420
+    },
+    {
+      "epoch": 2.5607327757865392,
+      "grad_norm": 0.3367830216884613,
+      "learning_rate": 3.0995750390085285e-05,
+      "loss": 0.0175,
+      "step": 6430
+    },
+    {
+      "epoch": 2.5647152528872956,
+      "grad_norm": 0.2421615719795227,
+      "learning_rate": 3.084291663289728e-05,
+      "loss": 0.0192,
+      "step": 6440
+    },
+    {
+      "epoch": 2.5686977299880525,
+      "grad_norm": 0.17980587482452393,
+      "learning_rate": 3.069029237450375e-05,
+      "loss": 0.0155,
+      "step": 6450
+    },
+    {
+      "epoch": 2.5726802070888093,
+      "grad_norm": 0.42298945784568787,
+      "learning_rate": 3.053787928397911e-05,
+      "loss": 0.0169,
+      "step": 6460
+    },
+    {
+      "epoch": 2.576662684189566,
+      "grad_norm": 0.2914910316467285,
+      "learning_rate": 3.0385679028088526e-05,
+      "loss": 0.0195,
+      "step": 6470
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.40466681122779846,
+      "learning_rate": 3.023369327126959e-05,
+      "loss": 0.0191,
+      "step": 6480
+    },
+    {
+      "epoch": 2.5846276383910793,
+      "grad_norm": 0.260161429643631,
+      "learning_rate": 3.0081923675614198e-05,
+      "loss": 0.0164,
+      "step": 6490
+    },
+    {
+      "epoch": 2.5886101154918357,
+      "grad_norm": 0.348817378282547,
+      "learning_rate": 2.993037190085034e-05,
+      "loss": 0.0155,
+      "step": 6500
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.22140339016914368,
+      "learning_rate": 2.977903960432392e-05,
+      "loss": 0.0192,
+      "step": 6510
+    },
+    {
+      "epoch": 2.5965750696933494,
+      "grad_norm": 0.3535783886909485,
+      "learning_rate": 2.9627928440980722e-05,
+      "loss": 0.0196,
+      "step": 6520
+    },
+    {
+      "epoch": 2.600557546794106,
+      "grad_norm": 0.229234978556633,
+      "learning_rate": 2.9477040063348183e-05,
+      "loss": 0.0206,
+      "step": 6530
+    },
+    {
+      "epoch": 2.6045400238948626,
+      "grad_norm": 0.30883148312568665,
+      "learning_rate": 2.9326376121517456e-05,
+      "loss": 0.0195,
+      "step": 6540
+    },
+    {
+      "epoch": 2.608522500995619,
+      "grad_norm": 0.4454684257507324,
+      "learning_rate": 2.9175938263125236e-05,
+      "loss": 0.024,
+      "step": 6550
+    },
+    {
+      "epoch": 2.612504978096376,
+      "grad_norm": 0.34252026677131653,
+      "learning_rate": 2.9025728133335873e-05,
+      "loss": 0.0206,
+      "step": 6560
+    },
+    {
+      "epoch": 2.6164874551971327,
+      "grad_norm": 0.410495400428772,
+      "learning_rate": 2.8875747374823288e-05,
+      "loss": 0.0201,
+      "step": 6570
+    },
+    {
+      "epoch": 2.6204699322978895,
+      "grad_norm": 0.2930971384048462,
+      "learning_rate": 2.872599762775298e-05,
+      "loss": 0.0242,
+      "step": 6580
+    },
+    {
+      "epoch": 2.624452409398646,
+      "grad_norm": 0.1941741406917572,
+      "learning_rate": 2.857648052976425e-05,
+      "loss": 0.0168,
+      "step": 6590
+    },
+    {
+      "epoch": 2.6284348864994027,
+      "grad_norm": 0.4398362338542938,
+      "learning_rate": 2.8427197715952047e-05,
+      "loss": 0.019,
+      "step": 6600
+    },
+    {
+      "epoch": 2.632417363600159,
+      "grad_norm": 0.434218168258667,
+      "learning_rate": 2.8278150818849393e-05,
+      "loss": 0.0188,
+      "step": 6610
+    },
+    {
+      "epoch": 2.636399840700916,
+      "grad_norm": 0.29979050159454346,
+      "learning_rate": 2.812934146840922e-05,
+      "loss": 0.0175,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6403823178016728,
+      "grad_norm": 0.27494296431541443,
+      "learning_rate": 2.7980771291986764e-05,
+      "loss": 0.0175,
+      "step": 6630
+    },
+    {
+      "epoch": 2.644364794902429,
+      "grad_norm": 0.3515009582042694,
+      "learning_rate": 2.783244191432167e-05,
+      "loss": 0.0185,
+      "step": 6640
+    },
+    {
+      "epoch": 2.648347272003186,
+      "grad_norm": 0.3444755971431732,
+      "learning_rate": 2.768435495752022e-05,
+      "loss": 0.0171,
+      "step": 6650
+    },
+    {
+      "epoch": 2.652329749103943,
+      "grad_norm": 0.2616831362247467,
+      "learning_rate": 2.753651204103771e-05,
+      "loss": 0.02,
+      "step": 6660
+    },
+    {
+      "epoch": 2.656312226204699,
+      "grad_norm": 0.2663615643978119,
+      "learning_rate": 2.7388914781660523e-05,
+      "loss": 0.0149,
+      "step": 6670
+    },
+    {
+      "epoch": 2.660294703305456,
+      "grad_norm": 0.21043306589126587,
+      "learning_rate": 2.7241564793488693e-05,
+      "loss": 0.0202,
+      "step": 6680
+    },
+    {
+      "epoch": 2.664277180406213,
+      "grad_norm": 0.45657920837402344,
+      "learning_rate": 2.7094463687918037e-05,
+      "loss": 0.0151,
+      "step": 6690
+    },
+    {
+      "epoch": 2.6682596575069693,
+      "grad_norm": 0.37648776173591614,
+      "learning_rate": 2.694761307362268e-05,
+      "loss": 0.0192,
+      "step": 6700
+    },
+    {
+      "epoch": 2.672242134607726,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 2.6801014556537467e-05,
+      "loss": 0.0169,
+      "step": 6710
+    },
+    {
+      "epoch": 2.6762246117084825,
+      "grad_norm": 0.3080855906009674,
+      "learning_rate": 2.6654669739840243e-05,
+      "loss": 0.0169,
+      "step": 6720
+    },
+    {
+      "epoch": 2.6802070888092393,
+      "grad_norm": 0.3766150176525116,
+      "learning_rate": 2.650858022393451e-05,
+      "loss": 0.0183,
+      "step": 6730
+    },
+    {
+      "epoch": 2.684189565909996,
+      "grad_norm": 0.2229013293981552,
+      "learning_rate": 2.6362747606431747e-05,
+      "loss": 0.0205,
+      "step": 6740
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.24441877007484436,
+      "learning_rate": 2.6217173482134172e-05,
+      "loss": 0.0182,
+      "step": 6750
+    },
+    {
+      "epoch": 2.6921545201115094,
+      "grad_norm": 0.25608956813812256,
+      "learning_rate": 2.6071859443017044e-05,
+      "loss": 0.013,
+      "step": 6760
+    },
+    {
+      "epoch": 2.696136997212266,
+      "grad_norm": 0.3526802957057953,
+      "learning_rate": 2.5926807078211414e-05,
+      "loss": 0.0153,
+      "step": 6770
+    },
+    {
+      "epoch": 2.7001194743130226,
+      "grad_norm": 0.46395474672317505,
+      "learning_rate": 2.5782017973986728e-05,
+      "loss": 0.0181,
+      "step": 6780
+    },
+    {
+      "epoch": 2.7041019514137794,
+      "grad_norm": 0.23045793175697327,
+      "learning_rate": 2.5637493713733374e-05,
+      "loss": 0.0161,
+      "step": 6790
+    },
+    {
+      "epoch": 2.7080844285145362,
+      "grad_norm": 0.32080161571502686,
+      "learning_rate": 2.549323587794559e-05,
+      "loss": 0.0196,
+      "step": 6800
+    },
+    {
+      "epoch": 2.7120669056152926,
+      "grad_norm": 0.23438672721385956,
+      "learning_rate": 2.5349246044203895e-05,
+      "loss": 0.0143,
+      "step": 6810
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.33166348934173584,
+      "learning_rate": 2.520552578715808e-05,
+      "loss": 0.0144,
+      "step": 6820
+    },
+    {
+      "epoch": 2.720031859816806,
+      "grad_norm": 0.2601594626903534,
+      "learning_rate": 2.506207667850981e-05,
+      "loss": 0.0159,
+      "step": 6830
+    },
+    {
+      "epoch": 2.7240143369175627,
+      "grad_norm": 0.3093375265598297,
+      "learning_rate": 2.4918900286995555e-05,
+      "loss": 0.0141,
+      "step": 6840
+    },
+    {
+      "epoch": 2.7279968140183195,
+      "grad_norm": 0.15893106162548065,
+      "learning_rate": 2.4775998178369458e-05,
+      "loss": 0.0161,
+      "step": 6850
+    },
+    {
+      "epoch": 2.7319792911190763,
+      "grad_norm": 0.3865691125392914,
+      "learning_rate": 2.4633371915386017e-05,
+      "loss": 0.0188,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7359617682198327,
+      "grad_norm": 0.2376730591058731,
+      "learning_rate": 2.4491023057783235e-05,
+      "loss": 0.0192,
+      "step": 6870
+    },
+    {
+      "epoch": 2.7399442453205896,
+      "grad_norm": 0.38163626194000244,
+      "learning_rate": 2.4348953162265375e-05,
+      "loss": 0.0182,
+      "step": 6880
+    },
+    {
+      "epoch": 2.743926722421346,
+      "grad_norm": 0.22240246832370758,
+      "learning_rate": 2.420716378248607e-05,
+      "loss": 0.0217,
+      "step": 6890
+    },
+    {
+      "epoch": 2.7479091995221028,
+      "grad_norm": 0.4573044180870056,
+      "learning_rate": 2.4065656469031266e-05,
+      "loss": 0.0165,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7518916766228596,
+      "grad_norm": 0.22964206337928772,
+      "learning_rate": 2.3924432769402268e-05,
+      "loss": 0.0186,
+      "step": 6910
+    },
+    {
+      "epoch": 2.755874153723616,
+      "grad_norm": 0.30862241983413696,
+      "learning_rate": 2.3783494227998844e-05,
+      "loss": 0.0224,
+      "step": 6920
+    },
+    {
+      "epoch": 2.759856630824373,
+      "grad_norm": 0.22101591527462006,
+      "learning_rate": 2.3642842386102264e-05,
+      "loss": 0.0163,
+      "step": 6930
+    },
+    {
+      "epoch": 2.763839107925129,
+      "grad_norm": 0.2185278832912445,
+      "learning_rate": 2.3502478781858567e-05,
+      "loss": 0.0145,
+      "step": 6940
+    },
+    {
+      "epoch": 2.767821585025886,
+      "grad_norm": 0.24134941399097443,
+      "learning_rate": 2.3362404950261628e-05,
+      "loss": 0.019,
+      "step": 6950
+    },
+    {
+      "epoch": 2.771804062126643,
+      "grad_norm": 0.2902449071407318,
+      "learning_rate": 2.3222622423136458e-05,
+      "loss": 0.0165,
+      "step": 6960
+    },
+    {
+      "epoch": 2.7757865392273997,
+      "grad_norm": 0.3769952058792114,
+      "learning_rate": 2.3083132729122332e-05,
+      "loss": 0.0135,
+      "step": 6970
+    },
+    {
+      "epoch": 2.779769016328156,
+      "grad_norm": 0.22340670228004456,
+      "learning_rate": 2.294393739365621e-05,
+      "loss": 0.019,
+      "step": 6980
+    },
+    {
+      "epoch": 2.783751493428913,
+      "grad_norm": 0.33232781291007996,
+      "learning_rate": 2.2805037938956e-05,
+      "loss": 0.0162,
+      "step": 6990
+    },
+    {
+      "epoch": 2.7877339705296693,
+      "grad_norm": 0.33404746651649475,
+      "learning_rate": 2.266643588400386e-05,
+      "loss": 0.0162,
+      "step": 7000
+    },
+    {
+      "epoch": 2.791716447630426,
+      "grad_norm": 0.2362033873796463,
+      "learning_rate": 2.252813274452969e-05,
+      "loss": 0.0166,
+      "step": 7010
+    },
+    {
+      "epoch": 2.795698924731183,
+      "grad_norm": 0.15253150463104248,
+      "learning_rate": 2.2390130032994427e-05,
+      "loss": 0.0153,
+      "step": 7020
+    },
+    {
+      "epoch": 2.7996814018319394,
+      "grad_norm": 0.36513105034828186,
+      "learning_rate": 2.2252429258573633e-05,
+      "loss": 0.0172,
+      "step": 7030
+    },
+    {
+      "epoch": 2.803663878932696,
+      "grad_norm": 0.22622640430927277,
+      "learning_rate": 2.2115031927140904e-05,
+      "loss": 0.0158,
+      "step": 7040
+    },
+    {
+      "epoch": 2.8076463560334526,
+      "grad_norm": 0.3483319580554962,
+      "learning_rate": 2.1977939541251463e-05,
+      "loss": 0.0218,
+      "step": 7050
+    },
+    {
+      "epoch": 2.8116288331342094,
+      "grad_norm": 0.3104790449142456,
+      "learning_rate": 2.1841153600125684e-05,
+      "loss": 0.0165,
+      "step": 7060
+    },
+    {
+      "epoch": 2.8156113102349662,
+      "grad_norm": 0.2423543781042099,
+      "learning_rate": 2.170467559963267e-05,
+      "loss": 0.0167,
+      "step": 7070
+    },
+    {
+      "epoch": 2.819593787335723,
+      "grad_norm": 0.3841968774795532,
+      "learning_rate": 2.1568507032273982e-05,
+      "loss": 0.0135,
+      "step": 7080
+    },
+    {
+      "epoch": 2.8235762644364795,
+      "grad_norm": 0.2059573382139206,
+      "learning_rate": 2.1432649387167264e-05,
+      "loss": 0.015,
+      "step": 7090
+    },
+    {
+      "epoch": 2.8275587415372363,
+      "grad_norm": 0.22446751594543457,
+      "learning_rate": 2.1297104150029973e-05,
+      "loss": 0.0162,
+      "step": 7100
+    },
+    {
+      "epoch": 2.8315412186379927,
+      "grad_norm": 0.36766108870506287,
+      "learning_rate": 2.116187280316307e-05,
+      "loss": 0.0172,
+      "step": 7110
+    },
+    {
+      "epoch": 2.8355236957387495,
+      "grad_norm": 0.3884134292602539,
+      "learning_rate": 2.1026956825434908e-05,
+      "loss": 0.0182,
+      "step": 7120
+    },
+    {
+      "epoch": 2.8395061728395063,
+      "grad_norm": 0.3192227780818939,
+      "learning_rate": 2.0892357692265017e-05,
+      "loss": 0.0145,
+      "step": 7130
+    },
+    {
+      "epoch": 2.8434886499402627,
+      "grad_norm": 0.2538623511791229,
+      "learning_rate": 2.0758076875607947e-05,
+      "loss": 0.0191,
+      "step": 7140
+    },
+    {
+      "epoch": 2.8474711270410196,
+      "grad_norm": 0.2836097478866577,
+      "learning_rate": 2.0624115843937207e-05,
+      "loss": 0.0201,
+      "step": 7150
+    },
+    {
+      "epoch": 2.851453604141776,
+      "grad_norm": 0.2728939652442932,
+      "learning_rate": 2.0490476062229157e-05,
+      "loss": 0.0176,
+      "step": 7160
+    },
+    {
+      "epoch": 2.855436081242533,
+      "grad_norm": 0.3548661172389984,
+      "learning_rate": 2.035715899194704e-05,
+      "loss": 0.0161,
+      "step": 7170
+    },
+    {
+      "epoch": 2.8594185583432896,
+      "grad_norm": 0.3930123448371887,
+      "learning_rate": 2.022416609102499e-05,
+      "loss": 0.0177,
+      "step": 7180
+    },
+    {
+      "epoch": 2.8634010354440464,
+      "grad_norm": 0.510944664478302,
+      "learning_rate": 2.009149881385205e-05,
+      "loss": 0.0222,
+      "step": 7190
+    },
+    {
+      "epoch": 2.867383512544803,
+      "grad_norm": 0.3476032018661499,
+      "learning_rate": 1.995915861125634e-05,
+      "loss": 0.0176,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8713659896455597,
+      "grad_norm": 0.2559760510921478,
+      "learning_rate": 1.9827146930489065e-05,
+      "loss": 0.0149,
+      "step": 7210
+    },
+    {
+      "epoch": 2.875348466746316,
+      "grad_norm": 0.20961345732212067,
+      "learning_rate": 1.9695465215208848e-05,
+      "loss": 0.018,
+      "step": 7220
+    },
+    {
+      "epoch": 2.879330943847073,
+      "grad_norm": 0.29862138628959656,
+      "learning_rate": 1.9564114905465813e-05,
+      "loss": 0.0156,
+      "step": 7230
+    },
+    {
+      "epoch": 2.8833134209478297,
+      "grad_norm": 0.3706551492214203,
+      "learning_rate": 1.9433097437685936e-05,
+      "loss": 0.0166,
+      "step": 7240
+    },
+    {
+      "epoch": 2.887295898048586,
+      "grad_norm": 0.4077451825141907,
+      "learning_rate": 1.930241424465521e-05,
+      "loss": 0.0139,
+      "step": 7250
+    },
+    {
+      "epoch": 2.891278375149343,
+      "grad_norm": 0.3151760399341583,
+      "learning_rate": 1.9172066755504115e-05,
+      "loss": 0.0164,
+      "step": 7260
+    },
+    {
+      "epoch": 2.8952608522500993,
+      "grad_norm": 0.29641613364219666,
+      "learning_rate": 1.9042056395691914e-05,
+      "loss": 0.0168,
+      "step": 7270
+    },
+    {
+      "epoch": 2.899243329350856,
+      "grad_norm": 0.3831641376018524,
+      "learning_rate": 1.8912384586991066e-05,
+      "loss": 0.0147,
+      "step": 7280
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.3114636540412903,
+      "learning_rate": 1.8783052747471717e-05,
+      "loss": 0.0144,
+      "step": 7290
+    },
+    {
+      "epoch": 2.90720828355237,
+      "grad_norm": 0.26268333196640015,
+      "learning_rate": 1.865406229148611e-05,
+      "loss": 0.0185,
+      "step": 7300
+    },
+    {
+      "epoch": 2.911190760653126,
+      "grad_norm": 0.22112445533275604,
+      "learning_rate": 1.8525414629653233e-05,
+      "loss": 0.0203,
+      "step": 7310
+    },
+    {
+      "epoch": 2.915173237753883,
+      "grad_norm": 0.2656763195991516,
+      "learning_rate": 1.8397111168843255e-05,
+      "loss": 0.0158,
+      "step": 7320
+    },
+    {
+      "epoch": 2.9191557148546394,
+      "grad_norm": 0.341366171836853,
+      "learning_rate": 1.8269153312162323e-05,
+      "loss": 0.0176,
+      "step": 7330
+    },
+    {
+      "epoch": 2.9231381919553963,
+      "grad_norm": 0.27272844314575195,
+      "learning_rate": 1.8141542458937054e-05,
+      "loss": 0.0155,
+      "step": 7340
+    },
+    {
+      "epoch": 2.927120669056153,
+      "grad_norm": 0.4220792353153229,
+      "learning_rate": 1.8014280004699268e-05,
+      "loss": 0.0173,
+      "step": 7350
+    },
+    {
+      "epoch": 2.9311031461569095,
+      "grad_norm": 0.2644200325012207,
+      "learning_rate": 1.788736734117078e-05,
+      "loss": 0.0111,
+      "step": 7360
+    },
+    {
+      "epoch": 2.9350856232576663,
+      "grad_norm": 0.27255773544311523,
+      "learning_rate": 1.7760805856248152e-05,
+      "loss": 0.0166,
+      "step": 7370
+    },
+    {
+      "epoch": 2.9390681003584227,
+      "grad_norm": 0.17350824177265167,
+      "learning_rate": 1.7634596933987518e-05,
+      "loss": 0.016,
+      "step": 7380
+    },
+    {
+      "epoch": 2.9430505774591795,
+      "grad_norm": 0.23067346215248108,
+      "learning_rate": 1.7508741954589404e-05,
+      "loss": 0.0164,
+      "step": 7390
+    },
+    {
+      "epoch": 2.9470330545599364,
+      "grad_norm": 0.3143824636936188,
+      "learning_rate": 1.7383242294383717e-05,
+      "loss": 0.0166,
+      "step": 7400
+    },
+    {
+      "epoch": 2.951015531660693,
+      "grad_norm": 0.2438683658838272,
+      "learning_rate": 1.7258099325814632e-05,
+      "loss": 0.0129,
+      "step": 7410
+    },
+    {
+      "epoch": 2.9549980087614496,
+      "grad_norm": 0.31693488359451294,
+      "learning_rate": 1.7133314417425594e-05,
+      "loss": 0.02,
+      "step": 7420
+    },
+    {
+      "epoch": 2.9589804858622064,
+      "grad_norm": 0.26909369230270386,
+      "learning_rate": 1.7008888933844408e-05,
+      "loss": 0.0155,
+      "step": 7430
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.29988786578178406,
+      "learning_rate": 1.6884824235768172e-05,
+      "loss": 0.0173,
+      "step": 7440
+    },
+    {
+      "epoch": 2.9669454400637196,
+      "grad_norm": 0.2735227048397064,
+      "learning_rate": 1.6761121679948592e-05,
+      "loss": 0.0148,
+      "step": 7450
+    },
+    {
+      "epoch": 2.9709279171644765,
+      "grad_norm": 0.23975975811481476,
+      "learning_rate": 1.663778261917695e-05,
+      "loss": 0.0177,
+      "step": 7460
+    },
+    {
+      "epoch": 2.974910394265233,
+      "grad_norm": 0.3303283452987671,
+      "learning_rate": 1.651480840226952e-05,
+      "loss": 0.0154,
+      "step": 7470
+    },
+    {
+      "epoch": 2.9788928713659897,
+      "grad_norm": 0.3179773688316345,
+      "learning_rate": 1.639220037405258e-05,
+      "loss": 0.017,
+      "step": 7480
+    },
+    {
+      "epoch": 2.982875348466746,
+      "grad_norm": 0.26732003688812256,
+      "learning_rate": 1.6269959875347906e-05,
+      "loss": 0.0162,
+      "step": 7490
+    },
+    {
+      "epoch": 2.986857825567503,
+      "grad_norm": 0.35051149129867554,
+      "learning_rate": 1.614808824295802e-05,
+      "loss": 0.0161,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9908403026682597,
+      "grad_norm": 0.24838776886463165,
+      "learning_rate": 1.602658680965152e-05,
+      "loss": 0.0115,
+      "step": 7510
+    },
+    {
+      "epoch": 2.9948227797690166,
+      "grad_norm": 0.3378634452819824,
+      "learning_rate": 1.5905456904148686e-05,
+      "loss": 0.0183,
+      "step": 7520
+    },
+    {
+      "epoch": 2.998805256869773,
+      "grad_norm": 0.28400248289108276,
+      "learning_rate": 1.57846998511067e-05,
+      "loss": 0.0165,
+      "step": 7530
+    },
+    {
+      "epoch": 3.00278773397053,
+      "grad_norm": 0.2319607138633728,
+      "learning_rate": 1.566431697110538e-05,
+      "loss": 0.0137,
+      "step": 7540
+    },
+    {
+      "epoch": 3.006770211071286,
+      "grad_norm": 0.326729953289032,
+      "learning_rate": 1.554430958063259e-05,
+      "loss": 0.0135,
+      "step": 7550
+    },
+    {
+      "epoch": 3.010752688172043,
+      "grad_norm": 0.2378934919834137,
+      "learning_rate": 1.5424678992069912e-05,
+      "loss": 0.0152,
+      "step": 7560
+    },
+    {
+      "epoch": 3.0147351652728,
+      "grad_norm": 0.24295467138290405,
+      "learning_rate": 1.5305426513678362e-05,
+      "loss": 0.0142,
+      "step": 7570
+    },
+    {
+      "epoch": 3.018717642373556,
+      "grad_norm": 0.2576531767845154,
+      "learning_rate": 1.518655344958388e-05,
+      "loss": 0.0181,
+      "step": 7580
+    },
+    {
+      "epoch": 3.022700119474313,
+      "grad_norm": 0.18377450108528137,
+      "learning_rate": 1.5068061099763275e-05,
+      "loss": 0.0166,
+      "step": 7590
+    },
+    {
+      "epoch": 3.02668259657507,
+      "grad_norm": 0.27830517292022705,
+      "learning_rate": 1.494995076002988e-05,
+      "loss": 0.0154,
+      "step": 7600
+    },
+    {
+      "epoch": 3.0306650736758263,
+      "grad_norm": 0.21844340860843658,
+      "learning_rate": 1.4832223722019456e-05,
+      "loss": 0.012,
+      "step": 7610
+    },
+    {
+      "epoch": 3.034647550776583,
+      "grad_norm": 0.2617688775062561,
+      "learning_rate": 1.4714881273176035e-05,
+      "loss": 0.0174,
+      "step": 7620
+    },
+    {
+      "epoch": 3.0386300278773395,
+      "grad_norm": 0.32421252131462097,
+      "learning_rate": 1.4597924696737835e-05,
+      "loss": 0.0145,
+      "step": 7630
+    },
+    {
+      "epoch": 3.0426125049780963,
+      "grad_norm": 0.29088929295539856,
+      "learning_rate": 1.4481355271723252e-05,
+      "loss": 0.0159,
+      "step": 7640
+    },
+    {
+      "epoch": 3.046594982078853,
+      "grad_norm": 0.33224666118621826,
+      "learning_rate": 1.4365174272916809e-05,
+      "loss": 0.0172,
+      "step": 7650
+    },
+    {
+      "epoch": 3.0505774591796095,
+      "grad_norm": 0.28133267164230347,
+      "learning_rate": 1.4249382970855319e-05,
+      "loss": 0.0164,
+      "step": 7660
+    },
+    {
+      "epoch": 3.0545599362803664,
+      "grad_norm": 0.2961582839488983,
+      "learning_rate": 1.4133982631813903e-05,
+      "loss": 0.0174,
+      "step": 7670
+    },
+    {
+      "epoch": 3.058542413381123,
+      "grad_norm": 0.19143448770046234,
+      "learning_rate": 1.4018974517792194e-05,
+      "loss": 0.0148,
+      "step": 7680
+    },
+    {
+      "epoch": 3.0625248904818796,
+      "grad_norm": 0.26252588629722595,
+      "learning_rate": 1.390435988650048e-05,
+      "loss": 0.0143,
+      "step": 7690
+    },
+    {
+      "epoch": 3.0665073675826364,
+      "grad_norm": 0.19971930980682373,
+      "learning_rate": 1.3790139991346006e-05,
+      "loss": 0.0125,
+      "step": 7700
+    },
+    {
+      "epoch": 3.0704898446833933,
+      "grad_norm": 0.2495674192905426,
+      "learning_rate": 1.367631608141926e-05,
+      "loss": 0.0155,
+      "step": 7710
+    },
+    {
+      "epoch": 3.0744723217841496,
+      "grad_norm": 0.22202928364276886,
+      "learning_rate": 1.3562889401480278e-05,
+      "loss": 0.0148,
+      "step": 7720
+    },
+    {
+      "epoch": 3.0784547988849065,
+      "grad_norm": 0.4576508402824402,
+      "learning_rate": 1.3449861191945074e-05,
+      "loss": 0.0165,
+      "step": 7730
+    },
+    {
+      "epoch": 3.0824372759856633,
+      "grad_norm": 0.3544761836528778,
+      "learning_rate": 1.3337232688872009e-05,
+      "loss": 0.0139,
+      "step": 7740
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 0.3484187722206116,
+      "learning_rate": 1.3225005123948364e-05,
+      "loss": 0.0147,
+      "step": 7750
+    },
+    {
+      "epoch": 3.0904022301871765,
+      "grad_norm": 0.19573178887367249,
+      "learning_rate": 1.311317972447681e-05,
+      "loss": 0.0127,
+      "step": 7760
+    },
+    {
+      "epoch": 3.094384707287933,
+      "grad_norm": 0.19815529882907867,
+      "learning_rate": 1.3001757713361996e-05,
+      "loss": 0.0109,
+      "step": 7770
+    },
+    {
+      "epoch": 3.0983671843886897,
+      "grad_norm": 0.35429829359054565,
+      "learning_rate": 1.2890740309097204e-05,
+      "loss": 0.0161,
+      "step": 7780
+    },
+    {
+      "epoch": 3.1023496614894466,
+      "grad_norm": 0.2911655008792877,
+      "learning_rate": 1.2780128725750944e-05,
+      "loss": 0.0138,
+      "step": 7790
+    },
+    {
+      "epoch": 3.106332138590203,
+      "grad_norm": 0.270168662071228,
+      "learning_rate": 1.266992417295379e-05,
+      "loss": 0.015,
+      "step": 7800
+    },
+    {
+      "epoch": 3.11031461569096,
+      "grad_norm": 0.32108160853385925,
+      "learning_rate": 1.2560127855885073e-05,
+      "loss": 0.0163,
+      "step": 7810
+    },
+    {
+      "epoch": 3.1142970927917166,
+      "grad_norm": 0.24168479442596436,
+      "learning_rate": 1.2450740975259745e-05,
+      "loss": 0.0167,
+      "step": 7820
+    },
+    {
+      "epoch": 3.118279569892473,
+      "grad_norm": 0.30409395694732666,
+      "learning_rate": 1.234176472731517e-05,
+      "loss": 0.0221,
+      "step": 7830
+    },
+    {
+      "epoch": 3.12226204699323,
+      "grad_norm": 0.3229791522026062,
+      "learning_rate": 1.2233200303798158e-05,
+      "loss": 0.0147,
+      "step": 7840
+    },
+    {
+      "epoch": 3.1262445240939867,
+      "grad_norm": 0.26919838786125183,
+      "learning_rate": 1.2125048891951846e-05,
+      "loss": 0.0158,
+      "step": 7850
+    },
+    {
+      "epoch": 3.130227001194743,
+      "grad_norm": 0.23068082332611084,
+      "learning_rate": 1.2017311674502745e-05,
+      "loss": 0.013,
+      "step": 7860
+    },
+    {
+      "epoch": 3.1342094782955,
+      "grad_norm": 0.17686747014522552,
+      "learning_rate": 1.1909989829647822e-05,
+      "loss": 0.0144,
+      "step": 7870
+    },
+    {
+      "epoch": 3.1381919553962563,
+      "grad_norm": 0.45290425419807434,
+      "learning_rate": 1.1803084531041553e-05,
+      "loss": 0.0173,
+      "step": 7880
+    },
+    {
+      "epoch": 3.142174432497013,
+      "grad_norm": 0.2763400673866272,
+      "learning_rate": 1.1696596947783162e-05,
+      "loss": 0.0144,
+      "step": 7890
+    },
+    {
+      "epoch": 3.14615690959777,
+      "grad_norm": 0.2585810422897339,
+      "learning_rate": 1.1590528244403803e-05,
+      "loss": 0.0175,
+      "step": 7900
+    },
+    {
+      "epoch": 3.1501393866985263,
+      "grad_norm": 0.22105610370635986,
+      "learning_rate": 1.148487958085382e-05,
+      "loss": 0.0151,
+      "step": 7910
+    },
+    {
+      "epoch": 3.154121863799283,
+      "grad_norm": 0.21400152146816254,
+      "learning_rate": 1.1379652112490086e-05,
+      "loss": 0.0177,
+      "step": 7920
+    },
+    {
+      "epoch": 3.15810434090004,
+      "grad_norm": 0.1969025582075119,
+      "learning_rate": 1.1274846990063315e-05,
+      "loss": 0.0136,
+      "step": 7930
+    },
+    {
+      "epoch": 3.1620868180007964,
+      "grad_norm": 0.2094409465789795,
+      "learning_rate": 1.117046535970554e-05,
+      "loss": 0.0151,
+      "step": 7940
+    },
+    {
+      "epoch": 3.166069295101553,
+      "grad_norm": 0.29152101278305054,
+      "learning_rate": 1.106650836291755e-05,
+      "loss": 0.0195,
+      "step": 7950
+    },
+    {
+      "epoch": 3.17005177220231,
+      "grad_norm": 0.28160348534584045,
+      "learning_rate": 1.0962977136556418e-05,
+      "loss": 0.0184,
+      "step": 7960
+    },
+    {
+      "epoch": 3.1740342493030664,
+      "grad_norm": 0.3710784614086151,
+      "learning_rate": 1.0859872812823024e-05,
+      "loss": 0.0144,
+      "step": 7970
+    },
+    {
+      "epoch": 3.1780167264038233,
+      "grad_norm": 0.23486924171447754,
+      "learning_rate": 1.0757196519249747e-05,
+      "loss": 0.0189,
+      "step": 7980
+    },
+    {
+      "epoch": 3.1819992035045797,
+      "grad_norm": 0.31155335903167725,
+      "learning_rate": 1.0654949378688077e-05,
+      "loss": 0.0156,
+      "step": 7990
+    },
+    {
+      "epoch": 3.1859816806053365,
+      "grad_norm": 0.21536493301391602,
+      "learning_rate": 1.0553132509296376e-05,
+      "loss": 0.0146,
+      "step": 8000
+    },
+    {
+      "epoch": 3.1899641577060933,
+      "grad_norm": 0.25504568219184875,
+      "learning_rate": 1.0451747024527613e-05,
+      "loss": 0.0139,
+      "step": 8010
+    },
+    {
+      "epoch": 3.1939466348068497,
+      "grad_norm": 0.43125614523887634,
+      "learning_rate": 1.0350794033117189e-05,
+      "loss": 0.017,
+      "step": 8020
+    },
+    {
+      "epoch": 3.1979291119076065,
+      "grad_norm": 0.3463977873325348,
+      "learning_rate": 1.0250274639070856e-05,
+      "loss": 0.0153,
+      "step": 8030
+    },
+    {
+      "epoch": 3.2019115890083634,
+      "grad_norm": 0.33657532930374146,
+      "learning_rate": 1.0150189941652599e-05,
+      "loss": 0.0136,
+      "step": 8040
+    },
+    {
+      "epoch": 3.2058940661091198,
+      "grad_norm": 0.27286818623542786,
+      "learning_rate": 1.0050541035372635e-05,
+      "loss": 0.0123,
+      "step": 8050
+    },
+    {
+      "epoch": 3.2098765432098766,
+      "grad_norm": 0.3115975260734558,
+      "learning_rate": 9.951329009975458e-06,
+      "loss": 0.0149,
+      "step": 8060
+    },
+    {
+      "epoch": 3.2138590203106334,
+      "grad_norm": 0.2783370018005371,
+      "learning_rate": 9.852554950427845e-06,
+      "loss": 0.015,
+      "step": 8070
+    },
+    {
+      "epoch": 3.21784149741139,
+      "grad_norm": 0.2135641872882843,
+      "learning_rate": 9.754219936907105e-06,
+      "loss": 0.0145,
+      "step": 8080
+    },
+    {
+      "epoch": 3.2218239745121466,
+      "grad_norm": 0.2889596223831177,
+      "learning_rate": 9.656325044789194e-06,
+      "loss": 0.0125,
+      "step": 8090
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.16843768954277039,
+      "learning_rate": 9.55887134463697e-06,
+      "loss": 0.0116,
+      "step": 8100
+    },
+    {
+      "epoch": 3.22978892871366,
+      "grad_norm": 0.22345881164073944,
+      "learning_rate": 9.461859902188475e-06,
+      "loss": 0.0133,
+      "step": 8110
+    },
+    {
+      "epoch": 3.2337714058144167,
+      "grad_norm": 0.4386395812034607,
+      "learning_rate": 9.365291778345303e-06,
+      "loss": 0.0166,
+      "step": 8120
+    },
+    {
+      "epoch": 3.237753882915173,
+      "grad_norm": 0.15999703109264374,
+      "learning_rate": 9.269168029160991e-06,
+      "loss": 0.0103,
+      "step": 8130
+    },
+    {
+      "epoch": 3.24173636001593,
+      "grad_norm": 0.33131685853004456,
+      "learning_rate": 9.173489705829447e-06,
+      "loss": 0.0152,
+      "step": 8140
+    },
+    {
+      "epoch": 3.2457188371166867,
+      "grad_norm": 0.18595287203788757,
+      "learning_rate": 9.078257854673516e-06,
+      "loss": 0.0136,
+      "step": 8150
+    },
+    {
+      "epoch": 3.249701314217443,
+      "grad_norm": 0.18805378675460815,
+      "learning_rate": 8.983473517133429e-06,
+      "loss": 0.0141,
+      "step": 8160
+    },
+    {
+      "epoch": 3.2536837913182,
+      "grad_norm": 0.15438763797283173,
+      "learning_rate": 8.889137729755537e-06,
+      "loss": 0.013,
+      "step": 8170
+    },
+    {
+      "epoch": 3.257666268418957,
+      "grad_norm": 0.27492639422416687,
+      "learning_rate": 8.79525152418087e-06,
+      "loss": 0.0169,
+      "step": 8180
+    },
+    {
+      "epoch": 3.261648745519713,
+      "grad_norm": 0.28761956095695496,
+      "learning_rate": 8.701815927133961e-06,
+      "loss": 0.014,
+      "step": 8190
+    },
+    {
+      "epoch": 3.26563122262047,
+      "grad_norm": 0.17063534259796143,
+      "learning_rate": 8.608831960411534e-06,
+      "loss": 0.0139,
+      "step": 8200
+    },
+    {
+      "epoch": 3.2696136997212264,
+      "grad_norm": 0.22604522109031677,
+      "learning_rate": 8.516300640871321e-06,
+      "loss": 0.0164,
+      "step": 8210
+    },
+    {
+      "epoch": 3.2735961768219832,
+      "grad_norm": 0.27093005180358887,
+      "learning_rate": 8.424222980421038e-06,
+      "loss": 0.0165,
+      "step": 8220
+    },
+    {
+      "epoch": 3.27757865392274,
+      "grad_norm": 0.2355274260044098,
+      "learning_rate": 8.332599986007184e-06,
+      "loss": 0.0151,
+      "step": 8230
+    },
+    {
+      "epoch": 3.2815611310234964,
+      "grad_norm": 0.23121079802513123,
+      "learning_rate": 8.241432659604203e-06,
+      "loss": 0.0144,
+      "step": 8240
+    },
+    {
+      "epoch": 3.2855436081242533,
+      "grad_norm": 0.1323615461587906,
+      "learning_rate": 8.150721998203331e-06,
+      "loss": 0.0128,
+      "step": 8250
+    },
+    {
+      "epoch": 3.28952608522501,
+      "grad_norm": 0.24003800749778748,
+      "learning_rate": 8.06046899380184e-06,
+      "loss": 0.0123,
+      "step": 8260
+    },
+    {
+      "epoch": 3.2935085623257665,
+      "grad_norm": 0.24698399007320404,
+      "learning_rate": 7.970674633392133e-06,
+      "loss": 0.0166,
+      "step": 8270
+    },
+    {
+      "epoch": 3.2974910394265233,
+      "grad_norm": 0.38070154190063477,
+      "learning_rate": 7.881339898950924e-06,
+      "loss": 0.018,
+      "step": 8280
+    },
+    {
+      "epoch": 3.30147351652728,
+      "grad_norm": 0.1986345499753952,
+      "learning_rate": 7.792465767428597e-06,
+      "loss": 0.0136,
+      "step": 8290
+    },
+    {
+      "epoch": 3.3054559936280365,
+      "grad_norm": 0.21766434609889984,
+      "learning_rate": 7.704053210738376e-06,
+      "loss": 0.0132,
+      "step": 8300
+    },
+    {
+      "epoch": 3.3094384707287934,
+      "grad_norm": 0.20243440568447113,
+      "learning_rate": 7.6161031957458494e-06,
+      "loss": 0.0152,
+      "step": 8310
+    },
+    {
+      "epoch": 3.3134209478295498,
+      "grad_norm": 0.2816754877567291,
+      "learning_rate": 7.5286166842582605e-06,
+      "loss": 0.0148,
+      "step": 8320
+    },
+    {
+      "epoch": 3.3174034249303066,
+      "grad_norm": 0.2514406442642212,
+      "learning_rate": 7.4415946330140814e-06,
+      "loss": 0.0145,
+      "step": 8330
+    },
+    {
+      "epoch": 3.3213859020310634,
+      "grad_norm": 0.2709660530090332,
+      "learning_rate": 7.3550379936725644e-06,
+      "loss": 0.0141,
+      "step": 8340
+    },
+    {
+      "epoch": 3.32536837913182,
+      "grad_norm": 0.2837410569190979,
+      "learning_rate": 7.2689477128032035e-06,
+      "loss": 0.018,
+      "step": 8350
+    },
+    {
+      "epoch": 3.3293508562325766,
+      "grad_norm": 0.131383016705513,
+      "learning_rate": 7.183324731875551e-06,
+      "loss": 0.0105,
+      "step": 8360
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.31221866607666016,
+      "learning_rate": 7.098169987248782e-06,
+      "loss": 0.012,
+      "step": 8370
+    },
+    {
+      "epoch": 3.33731581043409,
+      "grad_norm": 0.2039610892534256,
+      "learning_rate": 7.013484410161553e-06,
+      "loss": 0.0135,
+      "step": 8380
+    },
+    {
+      "epoch": 3.3412982875348467,
+      "grad_norm": 0.22186747193336487,
+      "learning_rate": 6.92926892672176e-06,
+      "loss": 0.0131,
+      "step": 8390
+    },
+    {
+      "epoch": 3.3452807646356035,
+      "grad_norm": 0.1861848533153534,
+      "learning_rate": 6.845524457896446e-06,
+      "loss": 0.0124,
+      "step": 8400
+    },
+    {
+      "epoch": 3.34926324173636,
+      "grad_norm": 0.23007585108280182,
+      "learning_rate": 6.7622519195017165e-06,
+      "loss": 0.0126,
+      "step": 8410
+    },
+    {
+      "epoch": 3.3532457188371168,
+      "grad_norm": 0.26495233178138733,
+      "learning_rate": 6.679452222192684e-06,
+      "loss": 0.0136,
+      "step": 8420
+    },
+    {
+      "epoch": 3.357228195937873,
+      "grad_norm": 0.2193382978439331,
+      "learning_rate": 6.597126271453579e-06,
+      "loss": 0.011,
+      "step": 8430
+    },
+    {
+      "epoch": 3.36121067303863,
+      "grad_norm": 0.10426363348960876,
+      "learning_rate": 6.51527496758782e-06,
+      "loss": 0.0114,
+      "step": 8440
+    },
+    {
+      "epoch": 3.365193150139387,
+      "grad_norm": 0.16592855751514435,
+      "learning_rate": 6.433899205708155e-06,
+      "loss": 0.0131,
+      "step": 8450
+    },
+    {
+      "epoch": 3.369175627240143,
+      "grad_norm": 0.1602918803691864,
+      "learning_rate": 6.352999875726856e-06,
+      "loss": 0.0121,
+      "step": 8460
+    },
+    {
+      "epoch": 3.3731581043409,
+      "grad_norm": 0.16960707306861877,
+      "learning_rate": 6.272577862346052e-06,
+      "loss": 0.0115,
+      "step": 8470
+    },
+    {
+      "epoch": 3.377140581441657,
+      "grad_norm": 0.29499271512031555,
+      "learning_rate": 6.192634045047996e-06,
+      "loss": 0.0129,
+      "step": 8480
+    },
+    {
+      "epoch": 3.3811230585424132,
+      "grad_norm": 0.23193804919719696,
+      "learning_rate": 6.113169298085458e-06,
+      "loss": 0.0194,
+      "step": 8490
+    },
+    {
+      "epoch": 3.38510553564317,
+      "grad_norm": 0.3416202962398529,
+      "learning_rate": 6.034184490472195e-06,
+      "loss": 0.0114,
+      "step": 8500
+    },
+    {
+      "epoch": 3.389088012743927,
+      "grad_norm": 0.22498588263988495,
+      "learning_rate": 5.955680485973386e-06,
+      "loss": 0.0156,
+      "step": 8510
+    },
+    {
+      "epoch": 3.3930704898446833,
+      "grad_norm": 0.3182886838912964,
+      "learning_rate": 5.877658143096265e-06,
+      "loss": 0.0132,
+      "step": 8520
+    },
+    {
+      "epoch": 3.39705296694544,
+      "grad_norm": 0.1463838666677475,
+      "learning_rate": 5.800118315080661e-06,
+      "loss": 0.0129,
+      "step": 8530
+    },
+    {
+      "epoch": 3.4010354440461965,
+      "grad_norm": 0.23471392691135406,
+      "learning_rate": 5.723061849889716e-06,
+      "loss": 0.0126,
+      "step": 8540
+    },
+    {
+      "epoch": 3.4050179211469533,
+      "grad_norm": 0.1969936192035675,
+      "learning_rate": 5.646489590200604e-06,
+      "loss": 0.0161,
+      "step": 8550
+    },
+    {
+      "epoch": 3.40900039824771,
+      "grad_norm": 0.15309295058250427,
+      "learning_rate": 5.570402373395256e-06,
+      "loss": 0.0125,
+      "step": 8560
+    },
+    {
+      "epoch": 3.4129828753484666,
+      "grad_norm": 0.4474526643753052,
+      "learning_rate": 5.494801031551305e-06,
+      "loss": 0.0163,
+      "step": 8570
+    },
+    {
+      "epoch": 3.4169653524492234,
+      "grad_norm": 0.18500779569149017,
+      "learning_rate": 5.41968639143291e-06,
+      "loss": 0.0139,
+      "step": 8580
+    },
+    {
+      "epoch": 3.4209478295499802,
+      "grad_norm": 0.19193483889102936,
+      "learning_rate": 5.345059274481751e-06,
+      "loss": 0.0127,
+      "step": 8590
+    },
+    {
+      "epoch": 3.4249303066507366,
+      "grad_norm": 0.15665030479431152,
+      "learning_rate": 5.270920496808002e-06,
+      "loss": 0.0159,
+      "step": 8600
+    },
+    {
+      "epoch": 3.4289127837514934,
+      "grad_norm": 0.16787682473659515,
+      "learning_rate": 5.1972708691814695e-06,
+      "loss": 0.0116,
+      "step": 8610
+    },
+    {
+      "epoch": 3.4328952608522503,
+      "grad_norm": 0.29282400012016296,
+      "learning_rate": 5.124111197022674e-06,
+      "loss": 0.0145,
+      "step": 8620
+    },
+    {
+      "epoch": 3.4368777379530067,
+      "grad_norm": 0.1538035124540329,
+      "learning_rate": 5.051442280394081e-06,
+      "loss": 0.0118,
+      "step": 8630
+    },
+    {
+      "epoch": 3.4408602150537635,
+      "grad_norm": 0.16790461540222168,
+      "learning_rate": 4.979264913991322e-06,
+      "loss": 0.0132,
+      "step": 8640
+    },
+    {
+      "epoch": 3.44484269215452,
+      "grad_norm": 0.1722331941127777,
+      "learning_rate": 4.907579887134489e-06,
+      "loss": 0.0134,
+      "step": 8650
+    },
+    {
+      "epoch": 3.4488251692552767,
+      "grad_norm": 0.21935425698757172,
+      "learning_rate": 4.836387983759572e-06,
+      "loss": 0.0137,
+      "step": 8660
+    },
+    {
+      "epoch": 3.4528076463560335,
+      "grad_norm": 0.2668359875679016,
+      "learning_rate": 4.765689982409816e-06,
+      "loss": 0.0121,
+      "step": 8670
+    },
+    {
+      "epoch": 3.45679012345679,
+      "grad_norm": 0.34474870562553406,
+      "learning_rate": 4.695486656227233e-06,
+      "loss": 0.0178,
+      "step": 8680
+    },
+    {
+      "epoch": 3.4607726005575468,
+      "grad_norm": 0.3360903859138489,
+      "learning_rate": 4.625778772944156e-06,
+      "loss": 0.013,
+      "step": 8690
+    },
+    {
+      "epoch": 3.4647550776583036,
+      "grad_norm": 0.1198967769742012,
+      "learning_rate": 4.556567094874825e-06,
+      "loss": 0.0139,
+      "step": 8700
+    },
+    {
+      "epoch": 3.46873755475906,
+      "grad_norm": 0.12995925545692444,
+      "learning_rate": 4.487852378907059e-06,
+      "loss": 0.0099,
+      "step": 8710
+    },
+    {
+      "epoch": 3.472720031859817,
+      "grad_norm": 0.14079661667346954,
+      "learning_rate": 4.419635376493986e-06,
+      "loss": 0.0133,
+      "step": 8720
+    },
+    {
+      "epoch": 3.4767025089605736,
+      "grad_norm": 0.23179714381694794,
+      "learning_rate": 4.351916833645825e-06,
+      "loss": 0.0145,
+      "step": 8730
+    },
+    {
+      "epoch": 3.48068498606133,
+      "grad_norm": 0.19353191554546356,
+      "learning_rate": 4.284697490921691e-06,
+      "loss": 0.013,
+      "step": 8740
+    },
+    {
+      "epoch": 3.484667463162087,
+      "grad_norm": 0.2545132040977478,
+      "learning_rate": 4.2179780834215585e-06,
+      "loss": 0.0161,
+      "step": 8750
+    },
+    {
+      "epoch": 3.4886499402628433,
+      "grad_norm": 0.22561277449131012,
+      "learning_rate": 4.151759340778178e-06,
+      "loss": 0.0142,
+      "step": 8760
+    },
+    {
+      "epoch": 3.4926324173636,
+      "grad_norm": 0.25932180881500244,
+      "learning_rate": 4.086041987149109e-06,
+      "loss": 0.0131,
+      "step": 8770
+    },
+    {
+      "epoch": 3.496614894464357,
+      "grad_norm": 0.23832671344280243,
+      "learning_rate": 4.020826741208811e-06,
+      "loss": 0.016,
+      "step": 8780
+    },
+    {
+      "epoch": 3.5005973715651137,
+      "grad_norm": 0.1888727992773056,
+      "learning_rate": 3.956114316140746e-06,
+      "loss": 0.0165,
+      "step": 8790
+    },
+    {
+      "epoch": 3.50457984866587,
+      "grad_norm": 0.2623044550418854,
+      "learning_rate": 3.891905419629643e-06,
+      "loss": 0.0125,
+      "step": 8800
+    },
+    {
+      "epoch": 3.508562325766627,
+      "grad_norm": 0.25887444615364075,
+      "learning_rate": 3.8282007538536946e-06,
+      "loss": 0.0164,
+      "step": 8810
+    },
+    {
+      "epoch": 3.5125448028673834,
+      "grad_norm": 0.21378953754901886,
+      "learning_rate": 3.7650010154769265e-06,
+      "loss": 0.0126,
+      "step": 8820
+    },
+    {
+      "epoch": 3.51652727996814,
+      "grad_norm": 0.2530067563056946,
+      "learning_rate": 3.7023068956415608e-06,
+      "loss": 0.0168,
+      "step": 8830
+    },
+    {
+      "epoch": 3.520509757068897,
+      "grad_norm": 0.27777713537216187,
+      "learning_rate": 3.6401190799604303e-06,
+      "loss": 0.0132,
+      "step": 8840
+    },
+    {
+      "epoch": 3.5244922341696534,
+      "grad_norm": 0.16841277480125427,
+      "learning_rate": 3.578438248509536e-06,
+      "loss": 0.015,
+      "step": 8850
+    },
+    {
+      "epoch": 3.5284747112704102,
+      "grad_norm": 0.22934165596961975,
+      "learning_rate": 3.5172650758205583e-06,
+      "loss": 0.0158,
+      "step": 8860
+    },
+    {
+      "epoch": 3.5324571883711666,
+      "grad_norm": 0.2117910385131836,
+      "learning_rate": 3.45660023087353e-06,
+      "loss": 0.0138,
+      "step": 8870
+    },
+    {
+      "epoch": 3.5364396654719235,
+      "grad_norm": 0.12349478155374527,
+      "learning_rate": 3.3964443770894528e-06,
+      "loss": 0.0115,
+      "step": 8880
+    },
+    {
+      "epoch": 3.5404221425726803,
+      "grad_norm": 0.25816065073013306,
+      "learning_rate": 3.3367981723231245e-06,
+      "loss": 0.013,
+      "step": 8890
+    },
+    {
+      "epoch": 3.544404619673437,
+      "grad_norm": 0.24896445870399475,
+      "learning_rate": 3.2776622688558746e-06,
+      "loss": 0.0134,
+      "step": 8900
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.20246760547161102,
+      "learning_rate": 3.2190373133884677e-06,
+      "loss": 0.0141,
+      "step": 8910
+    },
+    {
+      "epoch": 3.5523695738749503,
+      "grad_norm": 0.17225037515163422,
+      "learning_rate": 3.1609239470340446e-06,
+      "loss": 0.0125,
+      "step": 8920
+    },
+    {
+      "epoch": 3.5563520509757067,
+      "grad_norm": 0.16104808449745178,
+      "learning_rate": 3.1033228053110373e-06,
+      "loss": 0.0127,
+      "step": 8930
+    },
+    {
+      "epoch": 3.5603345280764636,
+      "grad_norm": 0.25064268708229065,
+      "learning_rate": 3.0462345181363314e-06,
+      "loss": 0.0121,
+      "step": 8940
+    },
+    {
+      "epoch": 3.5643170051772204,
+      "grad_norm": 0.177175834774971,
+      "learning_rate": 2.9896597098182654e-06,
+      "loss": 0.0145,
+      "step": 8950
+    },
+    {
+      "epoch": 3.5682994822779768,
+      "grad_norm": 0.23675449192523956,
+      "learning_rate": 2.933598999049891e-06,
+      "loss": 0.0133,
+      "step": 8960
+    },
+    {
+      "epoch": 3.5722819593787336,
+      "grad_norm": 0.19365286827087402,
+      "learning_rate": 2.8780529989021697e-06,
+      "loss": 0.0126,
+      "step": 8970
+    },
+    {
+      "epoch": 3.57626443647949,
+      "grad_norm": 0.3542676270008087,
+      "learning_rate": 2.823022316817242e-06,
+      "loss": 0.0162,
+      "step": 8980
+    },
+    {
+      "epoch": 3.580246913580247,
+      "grad_norm": 0.2057904750108719,
+      "learning_rate": 2.7685075546018456e-06,
+      "loss": 0.0134,
+      "step": 8990
+    },
+    {
+      "epoch": 3.5842293906810037,
+      "grad_norm": 0.19681024551391602,
+      "learning_rate": 2.7145093084206598e-06,
+      "loss": 0.0158,
+      "step": 9000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..47d7b77e4255263f3803a4b6f94ca6831e459b70
--- /dev/null
+++ b/config.json
@@ -0,0 +1,64 @@
+{
+  "action_dim": 32,
+  "action_head_cfg": {
+    "action_dim": 32,
+    "action_horizon": 16,
+    "add_pos_embed": true,
+    "backbone_embedding_dim": 2048,
+    "diffusion_model_cfg": {
+      "attention_head_dim": 48,
+      "cross_attention_dim": 2048,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "interleave_self_attention": true,
+      "norm_type": "ada_norm",
+      "num_attention_heads": 32,
+      "num_layers": 16,
+      "output_dim": 1024,
+      "positional_embeddings": null
+    },
+    "hidden_size": 1024,
+    "input_embedding_dim": 1536,
+    "max_action_dim": 32,
+    "max_state_dim": 64,
+    "model_dtype": "float32",
+    "noise_beta_alpha": 1.5,
+    "noise_beta_beta": 1.0,
+    "noise_s": 0.999,
+    "num_inference_timesteps": 4,
+    "num_target_vision_tokens": 32,
+    "num_timestep_buckets": 1000,
+    "tune_diffusion_model": true,
+    "tune_projector": true,
+    "use_vlln": true,
+    "vl_self_attention_cfg": {
+      "attention_head_dim": 64,
+      "dropout": 0.2,
+      "final_dropout": true,
+      "num_attention_heads": 32,
+      "num_layers": 4,
+      "positional_embeddings": null
+    }
+  },
+  "action_horizon": 16,
+  "architectures": [
+    "GR00T_N1_5"
+  ],
+  "attn_implementation": null,
+  "backbone_cfg": {
+    "eagle_path": "NVEagle/eagle_er-qwen3_1_7B-Siglip2_400M_stage1_5_128gpu_er_v7_1mlp_nops",
+    "load_bf16": false,
+    "project_to_dim": null,
+    "reproject_vision": false,
+    "select_layer": 12,
+    "tune_llm": false,
+    "tune_visual": true,
+    "use_flash_attention": true
+  },
+  "compute_dtype": "bfloat16",
+  "hidden_size": 2048,
+  "model_dtype": "float32",
+  "model_type": "gr00t_n1_5",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3"
+}
diff --git a/experiment_cfg/metadata.json b/experiment_cfg/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..752502a109297273be15c62a01d91e3ad6490049
--- /dev/null
+++ b/experiment_cfg/metadata.json
@@ -0,0 +1,195 @@
+{
+    "new_embodiment": {
+        "statistics": {
+            "state": {
+                "single_arm": {
+                    "max": [
+                        33.22265625,
+                        86.1328125,
+                        84.7265625,
+                        101.337890625,
+                        32.783203125
+                    ],
+                    "min": [
+                        -87.275390625,
+                        -103.974609375,
+                        -106.435546875,
+                        -16.34765625,
+                        -170.068359375
+                    ],
+                    "mean": [
+                        -26.84341812133789,
+                        6.497307777404785,
+                        -22.14896583557129,
+                        74.85757446289062,
+                        -111.02351379394531
+                    ],
+                    "std": [
+                        27.50257110595703,
+                        41.151065826416016,
+                        48.41417694091797,
+                        20.208982467651367,
+                        46.13625717163086
+                    ],
+                    "q01": [
+                        -79.013671875,
+                        -103.271484375,
+                        -104.0625,
+                        19.187402343750005,
+                        -169.892578125
+                    ],
+                    "q99": [
+                        24.169921875,
+                        73.30078125,
+                        84.375,
+                        101.07421875,
+                        11.162109375
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.373046875
+                    ],
+                    "min": [
+                        -0.615234375
+                    ],
+                    "mean": [
+                        14.521344184875488
+                    ],
+                    "std": [
+                        13.066176414489746
+                    ],
+                    "q01": [
+                        0.0
+                    ],
+                    "q99": [
+                        52.470703125
+                    ]
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "max": [
+                        33.662109375,
+                        86.484375,
+                        85.078125,
+                        102.65625,
+                        33.3984375
+                    ],
+                    "min": [
+                        -87.890625,
+                        -104.4140625,
+                        -110.7421875,
+                        -19.599609375,
+                        -173.3203125
+                    ],
+                    "mean": [
+                        -26.84657096862793,
+                        4.594353199005127,
+                        -23.747364044189453,
+                        74.75859832763672,
+                        -111.30194854736328
+                    ],
+                    "std": [
+                        27.627857208251953,
+                        40.672019958496094,
+                        48.966896057128906,
+                        20.728727340698242,
+                        46.57689666748047
+                    ],
+                    "q01": [
+                        -79.453125,
+                        -102.744140625,
+                        -109.6875,
+                        17.9296875,
+                        -172.177734375
+                    ],
+                    "q99": [
+                        24.08203125,
+                        72.685546875,
+                        83.84765625,
+                        101.77734375,
+                        10.72265625
+                    ]
+                },
+                "gripper": {
+                    "max": [
+                        92.63671875
+                    ],
+                    "min": [
+                        -3.076171875
+                    ],
+                    "mean": [
+                        12.46182632446289
+                    ],
+                    "std": [
+                        14.029601097106934
+                    ],
+                    "q01": [
+                        -0.52734375
+                    ],
+                    "q99": [
+                        52.91015625
+                    ]
+                }
+            }
+        },
+        "modalities": {
+            "video": {
+                "front": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                },
+                "laptop": {
+                    "resolution": [
+                        640,
+                        480
+                    ],
+                    "channels": 3,
+                    "fps": 30.0
+                }
+            },
+            "state": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            },
+            "action": {
+                "single_arm": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        5
+                    ],
+                    "continuous": true
+                },
+                "gripper": {
+                    "absolute": true,
+                    "rotation_type": null,
+                    "shape": [
+                        1
+                    ],
+                    "continuous": true
+                }
+            }
+        },
+        "embodiment_tag": "new_embodiment"
+    }
+}
\ No newline at end of file
diff --git a/model-00001-of-00002.safetensors b/model-00001-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5a3edcaffb1f5ad108cd1d8518cefe40d281be0c
--- /dev/null
+++ b/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65895a7b6c052e58b679bdd68bff54a68694a81f38e23d3e03a92059b3600b
+size 4999367032
diff --git a/model-00002-of-00002.safetensors b/model-00002-of-00002.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5638d6605794948913af78767d4111f090178848
--- /dev/null
+++ b/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:595f7bca8c51123b14908af4b1eac93a96d52a59a6b0fe7d8bae323aa957c147
+size 2586705312
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..5ef5f247b61eb93e89601c7da8334fc087e19750
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,906 @@
+{
+  "metadata": {
+    "total_size": 7585939328
+  },
+  "weight_map": {
+    "action_head.action_decoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_decoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W1.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W2.b": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.W": "model-00002-of-00002.safetensors",
+    "action_head.action_encoder.W3.b": "model-00002-of-00002.safetensors",
+    "action_head.future_tokens.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_1.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.proj_out_2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_1.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.timestep_encoder.timestep_embedder.linear_2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.0.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.1.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.10.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.11.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.12.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.13.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.14.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.bias": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.15.norm1.linear.weight": "model-00002-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.2.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.3.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.4.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.5.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.6.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.7.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.8.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_k.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_out.0.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_q.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.attn1.to_v.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.0.proj.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.ff.net.2.weight": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.bias": "model-00001-of-00002.safetensors",
+    "action_head.model.transformer_blocks.9.norm1.linear.weight": "model-00001-of-00002.safetensors",
+    "action_head.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer1.b": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.W": "model-00002-of-00002.safetensors",
+    "action_head.state_encoder.layer2.b": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.0.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.1.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.2.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_k.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_out.0.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_q.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.attn1.to_v.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.0.proj.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.ff.net.2.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm1.weight": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.bias": "model-00002-of-00002.safetensors",
+    "action_head.vl_self_attention.transformer_blocks.3.norm3.weight": "model-00002-of-00002.safetensors",
+    "action_head.vlln.bias": "model-00002-of-00002.safetensors",
+    "action_head.vlln.weight": "model-00002-of-00002.safetensors",
+    "backbone.eagle_model.language_model.lm_head.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.language_model.model.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.mlp1.0.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.in_proj_weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.attention.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.layernorm.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.head.probe": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "backbone.eagle_model.vision_model.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}
diff --git a/trainer_state.json b/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..dffd3487c6b793ca6f8b7ad22eb2f246f99f5112
--- /dev/null
+++ b/trainer_state.json
@@ -0,0 +1,7043 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.982477100756671,
+  "eval_steps": 500,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00398247710075667,
+      "grad_norm": 10.328946113586426,
+      "learning_rate": 1.8e-06,
+      "loss": 0.9415,
+      "step": 10
+    },
+    {
+      "epoch": 0.00796495420151334,
+      "grad_norm": 6.881450176239014,
+      "learning_rate": 3.8e-06,
+      "loss": 0.8639,
+      "step": 20
+    },
+    {
+      "epoch": 0.011947431302270013,
+      "grad_norm": 2.251582384109497,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4771,
+      "step": 30
+    },
+    {
+      "epoch": 0.01592990840302668,
+      "grad_norm": 1.6325163841247559,
+      "learning_rate": 7.8e-06,
+      "loss": 0.2953,
+      "step": 40
+    },
+    {
+      "epoch": 0.019912385503783353,
+      "grad_norm": 0.9643872976303101,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2403,
+      "step": 50
+    },
+    {
+      "epoch": 0.023894862604540025,
+      "grad_norm": 1.4014142751693726,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2213,
+      "step": 60
+    },
+    {
+      "epoch": 0.027877339705296694,
+      "grad_norm": 1.3301987648010254,
+      "learning_rate": 1.3800000000000002e-05,
+      "loss": 0.2048,
+      "step": 70
+    },
+    {
+      "epoch": 0.03185981680605336,
+      "grad_norm": 1.5023683309555054,
+      "learning_rate": 1.58e-05,
+      "loss": 0.1658,
+      "step": 80
+    },
+    {
+      "epoch": 0.035842293906810034,
+      "grad_norm": 1.7575840950012207,
+      "learning_rate": 1.78e-05,
+      "loss": 0.146,
+      "step": 90
+    },
+    {
+      "epoch": 0.039824771007566706,
+      "grad_norm": 1.4768755435943604,
+      "learning_rate": 1.9800000000000004e-05,
+      "loss": 0.154,
+      "step": 100
+    },
+    {
+      "epoch": 0.04380724810832338,
+      "grad_norm": 1.43697988986969,
+      "learning_rate": 2.18e-05,
+      "loss": 0.1419,
+      "step": 110
+    },
+    {
+      "epoch": 0.04778972520908005,
+      "grad_norm": 1.6363322734832764,
+      "learning_rate": 2.38e-05,
+      "loss": 0.1243,
+      "step": 120
+    },
+    {
+      "epoch": 0.051772202309836715,
+      "grad_norm": 1.29106605052948,
+      "learning_rate": 2.58e-05,
+      "loss": 0.1273,
+      "step": 130
+    },
+    {
+      "epoch": 0.05575467941059339,
+      "grad_norm": 0.849351704120636,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 0.1199,
+      "step": 140
+    },
+    {
+      "epoch": 0.05973715651135006,
+      "grad_norm": 1.442665934562683,
+      "learning_rate": 2.98e-05,
+      "loss": 0.1068,
+      "step": 150
+    },
+    {
+      "epoch": 0.06371963361210672,
+      "grad_norm": 1.277969241142273,
+      "learning_rate": 3.18e-05,
+      "loss": 0.11,
+      "step": 160
+    },
+    {
+      "epoch": 0.0677021107128634,
+      "grad_norm": 1.636638879776001,
+      "learning_rate": 3.38e-05,
+      "loss": 0.1001,
+      "step": 170
+    },
+    {
+      "epoch": 0.07168458781362007,
+      "grad_norm": 1.0019601583480835,
+      "learning_rate": 3.58e-05,
+      "loss": 0.1126,
+      "step": 180
+    },
+    {
+      "epoch": 0.07566706491437675,
+      "grad_norm": 0.9693198204040527,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 0.0867,
+      "step": 190
+    },
+    {
+      "epoch": 0.07964954201513341,
+      "grad_norm": 0.7893789410591125,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 0.1002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08363201911589008,
+      "grad_norm": 1.736881136894226,
+      "learning_rate": 4.18e-05,
+      "loss": 0.1015,
+      "step": 210
+    },
+    {
+      "epoch": 0.08761449621664676,
+      "grad_norm": 0.7016027569770813,
+      "learning_rate": 4.38e-05,
+      "loss": 0.0895,
+      "step": 220
+    },
+    {
+      "epoch": 0.09159697331740342,
+      "grad_norm": 1.6043905019760132,
+      "learning_rate": 4.58e-05,
+      "loss": 0.0857,
+      "step": 230
+    },
+    {
+      "epoch": 0.0955794504181601,
+      "grad_norm": 1.4260313510894775,
+      "learning_rate": 4.78e-05,
+      "loss": 0.0818,
+      "step": 240
+    },
+    {
+      "epoch": 0.09956192751891677,
+      "grad_norm": 0.9992408156394958,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 0.0763,
+      "step": 250
+    },
+    {
+      "epoch": 0.10354440461967343,
+      "grad_norm": 0.5259194374084473,
+      "learning_rate": 5.1800000000000005e-05,
+      "loss": 0.0728,
+      "step": 260
+    },
+    {
+      "epoch": 0.10752688172043011,
+      "grad_norm": 0.8904138207435608,
+      "learning_rate": 5.380000000000001e-05,
+      "loss": 0.0741,
+      "step": 270
+    },
+    {
+      "epoch": 0.11150935882118677,
+      "grad_norm": 0.8944669961929321,
+      "learning_rate": 5.580000000000001e-05,
+      "loss": 0.0646,
+      "step": 280
+    },
+    {
+      "epoch": 0.11549183592194345,
+      "grad_norm": 1.0091243982315063,
+      "learning_rate": 5.7799999999999995e-05,
+      "loss": 0.07,
+      "step": 290
+    },
+    {
+      "epoch": 0.11947431302270012,
+      "grad_norm": 0.7492197155952454,
+      "learning_rate": 5.9800000000000003e-05,
+      "loss": 0.0726,
+      "step": 300
+    },
+    {
+      "epoch": 0.12345679012345678,
+      "grad_norm": 0.9669196605682373,
+      "learning_rate": 6.18e-05,
+      "loss": 0.068,
+      "step": 310
+    },
+    {
+      "epoch": 0.12743926722421345,
+      "grad_norm": 0.8658894896507263,
+      "learning_rate": 6.38e-05,
+      "loss": 0.0605,
+      "step": 320
+    },
+    {
+      "epoch": 0.13142174432497014,
+      "grad_norm": 0.6594343185424805,
+      "learning_rate": 6.58e-05,
+      "loss": 0.06,
+      "step": 330
+    },
+    {
+      "epoch": 0.1354042214257268,
+      "grad_norm": 0.9863249659538269,
+      "learning_rate": 6.780000000000001e-05,
+      "loss": 0.0582,
+      "step": 340
+    },
+    {
+      "epoch": 0.13938669852648347,
+      "grad_norm": 0.8012584447860718,
+      "learning_rate": 6.98e-05,
+      "loss": 0.0581,
+      "step": 350
+    },
+    {
+      "epoch": 0.14336917562724014,
+      "grad_norm": 0.8694135546684265,
+      "learning_rate": 7.18e-05,
+      "loss": 0.06,
+      "step": 360
+    },
+    {
+      "epoch": 0.1473516527279968,
+      "grad_norm": 0.8341110944747925,
+      "learning_rate": 7.38e-05,
+      "loss": 0.0551,
+      "step": 370
+    },
+    {
+      "epoch": 0.1513341298287535,
+      "grad_norm": 0.8546151518821716,
+      "learning_rate": 7.58e-05,
+      "loss": 0.0504,
+      "step": 380
+    },
+    {
+      "epoch": 0.15531660692951016,
+      "grad_norm": 0.8565087914466858,
+      "learning_rate": 7.780000000000001e-05,
+      "loss": 0.0544,
+      "step": 390
+    },
+    {
+      "epoch": 0.15929908403026682,
+      "grad_norm": 0.9835138320922852,
+      "learning_rate": 7.98e-05,
+      "loss": 0.0528,
+      "step": 400
+    },
+    {
+      "epoch": 0.1632815611310235,
+      "grad_norm": 0.9852800965309143,
+      "learning_rate": 8.18e-05,
+      "loss": 0.0556,
+      "step": 410
+    },
+    {
+      "epoch": 0.16726403823178015,
+      "grad_norm": 0.9271975755691528,
+      "learning_rate": 8.38e-05,
+      "loss": 0.053,
+      "step": 420
+    },
+    {
+      "epoch": 0.17124651533253685,
+      "grad_norm": 0.843838632106781,
+      "learning_rate": 8.58e-05,
+      "loss": 0.0536,
+      "step": 430
+    },
+    {
+      "epoch": 0.1752289924332935,
+      "grad_norm": 0.6337900161743164,
+      "learning_rate": 8.78e-05,
+      "loss": 0.0501,
+      "step": 440
+    },
+    {
+      "epoch": 0.17921146953405018,
+      "grad_norm": 0.8339642882347107,
+      "learning_rate": 8.98e-05,
+      "loss": 0.0535,
+      "step": 450
+    },
+    {
+      "epoch": 0.18319394663480684,
+      "grad_norm": 0.8911416530609131,
+      "learning_rate": 9.180000000000001e-05,
+      "loss": 0.0599,
+      "step": 460
+    },
+    {
+      "epoch": 0.1871764237355635,
+      "grad_norm": 0.7793362736701965,
+      "learning_rate": 9.38e-05,
+      "loss": 0.0585,
+      "step": 470
+    },
+    {
+      "epoch": 0.1911589008363202,
+      "grad_norm": 1.1783093214035034,
+      "learning_rate": 9.58e-05,
+      "loss": 0.0509,
+      "step": 480
+    },
+    {
+      "epoch": 0.19514137793707687,
+      "grad_norm": 0.9017106294631958,
+      "learning_rate": 9.78e-05,
+      "loss": 0.0558,
+      "step": 490
+    },
+    {
+      "epoch": 0.19912385503783353,
+      "grad_norm": 1.0761146545410156,
+      "learning_rate": 9.98e-05,
+      "loss": 0.0519,
+      "step": 500
+    },
+    {
+      "epoch": 0.2031063321385902,
+      "grad_norm": 0.5883626937866211,
+      "learning_rate": 9.9999778549206e-05,
+      "loss": 0.0527,
+      "step": 510
+    },
+    {
+      "epoch": 0.20708880923934686,
+      "grad_norm": 0.6159175634384155,
+      "learning_rate": 9.999901304280685e-05,
+      "loss": 0.0488,
+      "step": 520
+    },
+    {
+      "epoch": 0.21107128634010355,
+      "grad_norm": 0.6942933797836304,
+      "learning_rate": 9.999770075521164e-05,
+      "loss": 0.0524,
+      "step": 530
+    },
+    {
+      "epoch": 0.21505376344086022,
+      "grad_norm": 1.0295978784561157,
+      "learning_rate": 9.99958417007713e-05,
+      "loss": 0.049,
+      "step": 540
+    },
+    {
+      "epoch": 0.21903624054161688,
+      "grad_norm": 0.7261350154876709,
+      "learning_rate": 9.999343589981615e-05,
+      "loss": 0.0467,
+      "step": 550
+    },
+    {
+      "epoch": 0.22301871764237355,
+      "grad_norm": 0.7238365411758423,
+      "learning_rate": 9.999048337865568e-05,
+      "loss": 0.0477,
+      "step": 560
+    },
+    {
+      "epoch": 0.2270011947431302,
+      "grad_norm": 1.1104141473770142,
+      "learning_rate": 9.998698416957815e-05,
+      "loss": 0.0519,
+      "step": 570
+    },
+    {
+      "epoch": 0.2309836718438869,
+      "grad_norm": 1.2086730003356934,
+      "learning_rate": 9.998293831085037e-05,
+      "loss": 0.0524,
+      "step": 580
+    },
+    {
+      "epoch": 0.23496614894464357,
+      "grad_norm": 0.5849373936653137,
+      "learning_rate": 9.997834584671719e-05,
+      "loss": 0.0514,
+      "step": 590
+    },
+    {
+      "epoch": 0.23894862604540024,
+      "grad_norm": 0.9337085485458374,
+      "learning_rate": 9.997320682740107e-05,
+      "loss": 0.0565,
+      "step": 600
+    },
+    {
+      "epoch": 0.2429311031461569,
+      "grad_norm": 0.7592830061912537,
+      "learning_rate": 9.996752130910149e-05,
+      "loss": 0.0521,
+      "step": 610
+    },
+    {
+      "epoch": 0.24691358024691357,
+      "grad_norm": 0.8495620489120483,
+      "learning_rate": 9.99612893539944e-05,
+      "loss": 0.0501,
+      "step": 620
+    },
+    {
+      "epoch": 0.25089605734767023,
+      "grad_norm": 0.44615253806114197,
+      "learning_rate": 9.995451103023144e-05,
+      "loss": 0.0428,
+      "step": 630
+    },
+    {
+      "epoch": 0.2548785344484269,
+      "grad_norm": 1.046374797821045,
+      "learning_rate": 9.994718641193928e-05,
+      "loss": 0.0459,
+      "step": 640
+    },
+    {
+      "epoch": 0.2588610115491836,
+      "grad_norm": 0.7210455536842346,
+      "learning_rate": 9.993931557921874e-05,
+      "loss": 0.0508,
+      "step": 650
+    },
+    {
+      "epoch": 0.2628434886499403,
+      "grad_norm": 0.7506885528564453,
+      "learning_rate": 9.993089861814402e-05,
+      "loss": 0.0499,
+      "step": 660
+    },
+    {
+      "epoch": 0.26682596575069695,
+      "grad_norm": 0.6320833563804626,
+      "learning_rate": 9.992193562076166e-05,
+      "loss": 0.0579,
+      "step": 670
+    },
+    {
+      "epoch": 0.2708084428514536,
+      "grad_norm": 0.48116907477378845,
+      "learning_rate": 9.991242668508954e-05,
+      "loss": 0.0533,
+      "step": 680
+    },
+    {
+      "epoch": 0.2747909199522103,
+      "grad_norm": 0.5594539046287537,
+      "learning_rate": 9.990237191511587e-05,
+      "loss": 0.0479,
+      "step": 690
+    },
+    {
+      "epoch": 0.27877339705296694,
+      "grad_norm": 0.6126905083656311,
+      "learning_rate": 9.989177142079802e-05,
+      "loss": 0.0449,
+      "step": 700
+    },
+    {
+      "epoch": 0.2827558741537236,
+      "grad_norm": 0.8031131625175476,
+      "learning_rate": 9.988062531806126e-05,
+      "loss": 0.0485,
+      "step": 710
+    },
+    {
+      "epoch": 0.2867383512544803,
+      "grad_norm": 0.4269757568836212,
+      "learning_rate": 9.986893372879762e-05,
+      "loss": 0.0463,
+      "step": 720
+    },
+    {
+      "epoch": 0.29072082835523694,
+      "grad_norm": 0.8300117254257202,
+      "learning_rate": 9.985669678086443e-05,
+      "loss": 0.0505,
+      "step": 730
+    },
+    {
+      "epoch": 0.2947033054559936,
+      "grad_norm": 0.6425809264183044,
+      "learning_rate": 9.984391460808298e-05,
+      "loss": 0.0407,
+      "step": 740
+    },
+    {
+      "epoch": 0.2986857825567503,
+      "grad_norm": 0.4019189774990082,
+      "learning_rate": 9.983058735023709e-05,
+      "loss": 0.044,
+      "step": 750
+    },
+    {
+      "epoch": 0.302668259657507,
+      "grad_norm": 1.2118290662765503,
+      "learning_rate": 9.98167151530715e-05,
+      "loss": 0.0435,
+      "step": 760
+    },
+    {
+      "epoch": 0.30665073675826365,
+      "grad_norm": 0.4535205662250519,
+      "learning_rate": 9.980229816829034e-05,
+      "loss": 0.043,
+      "step": 770
+    },
+    {
+      "epoch": 0.3106332138590203,
+      "grad_norm": 0.7236475348472595,
+      "learning_rate": 9.978733655355544e-05,
+      "loss": 0.0479,
+      "step": 780
+    },
+    {
+      "epoch": 0.314615690959777,
+      "grad_norm": 1.045904278755188,
+      "learning_rate": 9.977183047248464e-05,
+      "loss": 0.0458,
+      "step": 790
+    },
+    {
+      "epoch": 0.31859816806053365,
+      "grad_norm": 0.8453964591026306,
+      "learning_rate": 9.975578009464992e-05,
+      "loss": 0.0489,
+      "step": 800
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 0.8722575902938843,
+      "learning_rate": 9.97391855955757e-05,
+      "loss": 0.0496,
+      "step": 810
+    },
+    {
+      "epoch": 0.326563122262047,
+      "grad_norm": 0.5823293328285217,
+      "learning_rate": 9.972204715673669e-05,
+      "loss": 0.0444,
+      "step": 820
+    },
+    {
+      "epoch": 0.33054559936280364,
+      "grad_norm": 0.426830917596817,
+      "learning_rate": 9.970436496555617e-05,
+      "loss": 0.0429,
+      "step": 830
+    },
+    {
+      "epoch": 0.3345280764635603,
+      "grad_norm": 0.6528297066688538,
+      "learning_rate": 9.968613921540373e-05,
+      "loss": 0.0462,
+      "step": 840
+    },
+    {
+      "epoch": 0.33851055356431703,
+      "grad_norm": 0.8501228094100952,
+      "learning_rate": 9.966737010559326e-05,
+      "loss": 0.0483,
+      "step": 850
+    },
+    {
+      "epoch": 0.3424930306650737,
+      "grad_norm": 0.6673285365104675,
+      "learning_rate": 9.964805784138072e-05,
+      "loss": 0.0483,
+      "step": 860
+    },
+    {
+      "epoch": 0.34647550776583036,
+      "grad_norm": 0.6113673448562622,
+      "learning_rate": 9.962820263396195e-05,
+      "loss": 0.0439,
+      "step": 870
+    },
+    {
+      "epoch": 0.350457984866587,
+      "grad_norm": 0.8236457705497742,
+      "learning_rate": 9.960780470047033e-05,
+      "loss": 0.0425,
+      "step": 880
+    },
+    {
+      "epoch": 0.3544404619673437,
+      "grad_norm": 0.4798528552055359,
+      "learning_rate": 9.958686426397437e-05,
+      "loss": 0.0397,
+      "step": 890
+    },
+    {
+      "epoch": 0.35842293906810035,
+      "grad_norm": 0.5209172964096069,
+      "learning_rate": 9.956538155347534e-05,
+      "loss": 0.0496,
+      "step": 900
+    },
+    {
+      "epoch": 0.362405416168857,
+      "grad_norm": 0.549393892288208,
+      "learning_rate": 9.95433568039047e-05,
+      "loss": 0.0388,
+      "step": 910
+    },
+    {
+      "epoch": 0.3663878932696137,
+      "grad_norm": 0.6078306436538696,
+      "learning_rate": 9.952079025612162e-05,
+      "loss": 0.0467,
+      "step": 920
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.47643283009529114,
+      "learning_rate": 9.949768215691022e-05,
+      "loss": 0.0392,
+      "step": 930
+    },
+    {
+      "epoch": 0.374352847471127,
+      "grad_norm": 0.5230958461761475,
+      "learning_rate": 9.9474032758977e-05,
+      "loss": 0.0414,
+      "step": 940
+    },
+    {
+      "epoch": 0.37833532457188374,
+      "grad_norm": 0.5619562864303589,
+      "learning_rate": 9.944984232094794e-05,
+      "loss": 0.0448,
+      "step": 950
+    },
+    {
+      "epoch": 0.3823178016726404,
+      "grad_norm": 0.7934162616729736,
+      "learning_rate": 9.942511110736584e-05,
+      "loss": 0.0389,
+      "step": 960
+    },
+    {
+      "epoch": 0.38630027877339707,
+      "grad_norm": 0.7610427737236023,
+      "learning_rate": 9.939983938868726e-05,
+      "loss": 0.0383,
+      "step": 970
+    },
+    {
+      "epoch": 0.39028275587415373,
+      "grad_norm": 0.6311072111129761,
+      "learning_rate": 9.93740274412797e-05,
+      "loss": 0.0449,
+      "step": 980
+    },
+    {
+      "epoch": 0.3942652329749104,
+      "grad_norm": 0.3925153613090515,
+      "learning_rate": 9.934767554741846e-05,
+      "loss": 0.043,
+      "step": 990
+    },
+    {
+      "epoch": 0.39824771007566706,
+      "grad_norm": 0.4677866995334625,
+      "learning_rate": 9.932078399528361e-05,
+      "loss": 0.0414,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4022301871764237,
+      "grad_norm": 0.38546767830848694,
+      "learning_rate": 9.929335307895689e-05,
+      "loss": 0.0342,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4062126642771804,
+      "grad_norm": 0.5453174710273743,
+      "learning_rate": 9.926538309841839e-05,
+      "loss": 0.0421,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41019514137793706,
+      "grad_norm": 0.34743279218673706,
+      "learning_rate": 9.923687435954334e-05,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4141776184786937,
+      "grad_norm": 0.554025411605835,
+      "learning_rate": 9.920782717409873e-05,
+      "loss": 0.0469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41816009557945044,
+      "grad_norm": 0.6354169249534607,
+      "learning_rate": 9.917824185973994e-05,
+      "loss": 0.0411,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4221425726802071,
+      "grad_norm": 0.46389538049697876,
+      "learning_rate": 9.914811874000723e-05,
+      "loss": 0.0447,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42612504978096377,
+      "grad_norm": 0.8935972452163696,
+      "learning_rate": 9.911745814432218e-05,
+      "loss": 0.0454,
+      "step": 1070
+    },
+    {
+      "epoch": 0.43010752688172044,
+      "grad_norm": 1.0306254625320435,
+      "learning_rate": 9.90862604079842e-05,
+      "loss": 0.0438,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4340900039824771,
+      "grad_norm": 0.5918930768966675,
+      "learning_rate": 9.90545258721667e-05,
+      "loss": 0.0389,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43807248108323377,
+      "grad_norm": 0.5646054148674011,
+      "learning_rate": 9.90222548839135e-05,
+      "loss": 0.0395,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44205495818399043,
+      "grad_norm": 0.5279185175895691,
+      "learning_rate": 9.898944779613495e-05,
+      "loss": 0.0438,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4460374352847471,
+      "grad_norm": 0.41257861256599426,
+      "learning_rate": 9.89561049676041e-05,
+      "loss": 0.0397,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45001991238550376,
+      "grad_norm": 0.36252203583717346,
+      "learning_rate": 9.89222267629528e-05,
+      "loss": 0.043,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4540023894862604,
+      "grad_norm": 0.8424637913703918,
+      "learning_rate": 9.888781355266763e-05,
+      "loss": 0.0433,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45798486658701715,
+      "grad_norm": 0.5604090690612793,
+      "learning_rate": 9.885286571308598e-05,
+      "loss": 0.0452,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4619673436877738,
+      "grad_norm": 0.7178535461425781,
+      "learning_rate": 9.881738362639182e-05,
+      "loss": 0.0401,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4659498207885305,
+      "grad_norm": 0.7291957139968872,
+      "learning_rate": 9.878136768061154e-05,
+      "loss": 0.0368,
+      "step": 1170
+    },
+    {
+      "epoch": 0.46993229788928714,
+      "grad_norm": 0.48816534876823425,
+      "learning_rate": 9.874481826960979e-05,
+      "loss": 0.039,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4739147749900438,
+      "grad_norm": 0.813832700252533,
+      "learning_rate": 9.870773579308503e-05,
+      "loss": 0.0417,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4778972520908005,
+      "grad_norm": 0.5479532480239868,
+      "learning_rate": 9.867012065656533e-05,
+      "loss": 0.0428,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48187972919155714,
+      "grad_norm": 0.7760400772094727,
+      "learning_rate": 9.863197327140376e-05,
+      "loss": 0.0454,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4858622062923138,
+      "grad_norm": 0.6200589537620544,
+      "learning_rate": 9.859329405477403e-05,
+      "loss": 0.0377,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48984468339307047,
+      "grad_norm": 0.7709351778030396,
+      "learning_rate": 9.855408342966585e-05,
+      "loss": 0.045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49382716049382713,
+      "grad_norm": 0.44105854630470276,
+      "learning_rate": 9.851434182488033e-05,
+      "loss": 0.0374,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49780963759458385,
+      "grad_norm": 0.4224795401096344,
+      "learning_rate": 9.84740696750253e-05,
+      "loss": 0.0403,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5017921146953405,
+      "grad_norm": 0.49829116463661194,
+      "learning_rate": 9.843326742051055e-05,
+      "loss": 0.0427,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5057745917960972,
+      "grad_norm": 0.42388513684272766,
+      "learning_rate": 9.839193550754297e-05,
+      "loss": 0.0407,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5097570688968538,
+      "grad_norm": 0.8282580375671387,
+      "learning_rate": 9.835007438812177e-05,
+      "loss": 0.0422,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5137395459976105,
+      "grad_norm": 0.7779645323753357,
+      "learning_rate": 9.830768452003341e-05,
+      "loss": 0.044,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5177220230983672,
+      "grad_norm": 0.6992411017417908,
+      "learning_rate": 9.826476636684671e-05,
+      "loss": 0.0422,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5217045001991238,
+      "grad_norm": 0.5714141130447388,
+      "learning_rate": 9.822132039790773e-05,
+      "loss": 0.0394,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5256869772998806,
+      "grad_norm": 0.8175871968269348,
+      "learning_rate": 9.817734708833461e-05,
+      "loss": 0.0498,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5296694544006372,
+      "grad_norm": 0.6209958791732788,
+      "learning_rate": 9.813284691901243e-05,
+      "loss": 0.04,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5336519315013939,
+      "grad_norm": 0.39030686020851135,
+      "learning_rate": 9.808782037658792e-05,
+      "loss": 0.0414,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5376344086021505,
+      "grad_norm": 0.5858843922615051,
+      "learning_rate": 9.804226795346411e-05,
+      "loss": 0.0384,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5416168857029072,
+      "grad_norm": 0.812506914138794,
+      "learning_rate": 9.799619014779503e-05,
+      "loss": 0.0428,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5455993628036638,
+      "grad_norm": 0.5438332557678223,
+      "learning_rate": 9.794958746348013e-05,
+      "loss": 0.0344,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5495818399044206,
+      "grad_norm": 0.4357604384422302,
+      "learning_rate": 9.790246041015896e-05,
+      "loss": 0.0429,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5535643170051773,
+      "grad_norm": 0.6829274892807007,
+      "learning_rate": 9.785480950320538e-05,
+      "loss": 0.0352,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5575467941059339,
+      "grad_norm": 0.46741291880607605,
+      "learning_rate": 9.78066352637221e-05,
+      "loss": 0.0387,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5615292712066906,
+      "grad_norm": 0.8722621202468872,
+      "learning_rate": 9.775793821853488e-05,
+      "loss": 0.0364,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5655117483074472,
+      "grad_norm": 0.6563253402709961,
+      "learning_rate": 9.77087189001868e-05,
+      "loss": 0.0409,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5694942254082039,
+      "grad_norm": 0.6959318518638611,
+      "learning_rate": 9.765897784693243e-05,
+      "loss": 0.0349,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5734767025089605,
+      "grad_norm": 0.34205693006515503,
+      "learning_rate": 9.760871560273197e-05,
+      "loss": 0.036,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5774591796097173,
+      "grad_norm": 0.7076167464256287,
+      "learning_rate": 9.755793271724526e-05,
+      "loss": 0.0413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5814416567104739,
+      "grad_norm": 0.6335232257843018,
+      "learning_rate": 9.750662974582584e-05,
+      "loss": 0.0392,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5854241338112306,
+      "grad_norm": 0.7028225660324097,
+      "learning_rate": 9.745480724951473e-05,
+      "loss": 0.0391,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5894066109119872,
+      "grad_norm": 0.5494594573974609,
+      "learning_rate": 9.740246579503447e-05,
+      "loss": 0.0469,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5933890880127439,
+      "grad_norm": 0.3793744146823883,
+      "learning_rate": 9.734960595478284e-05,
+      "loss": 0.0372,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5973715651135006,
+      "grad_norm": 0.6068878769874573,
+      "learning_rate": 9.729622830682657e-05,
+      "loss": 0.0443,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6013540422142573,
+      "grad_norm": 0.6348056197166443,
+      "learning_rate": 9.724233343489504e-05,
+      "loss": 0.0388,
+      "step": 1510
+    },
+    {
+      "epoch": 0.605336519315014,
+      "grad_norm": 0.7185152173042297,
+      "learning_rate": 9.718792192837396e-05,
+      "loss": 0.0394,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6093189964157706,
+      "grad_norm": 0.29940369725227356,
+      "learning_rate": 9.713299438229886e-05,
+      "loss": 0.0373,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6133014735165273,
+      "grad_norm": 0.608589768409729,
+      "learning_rate": 9.707755139734855e-05,
+      "loss": 0.0444,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6172839506172839,
+      "grad_norm": 0.6535037755966187,
+      "learning_rate": 9.702159357983866e-05,
+      "loss": 0.0418,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6212664277180406,
+      "grad_norm": 0.389615923166275,
+      "learning_rate": 9.696512154171492e-05,
+      "loss": 0.0394,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6252489048187972,
+      "grad_norm": 0.5415939092636108,
+      "learning_rate": 9.690813590054645e-05,
+      "loss": 0.0374,
+      "step": 1570
+    },
+    {
+      "epoch": 0.629231381919554,
+      "grad_norm": 0.6598183512687683,
+      "learning_rate": 9.685063727951914e-05,
+      "loss": 0.0364,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6332138590203107,
+      "grad_norm": 0.4346562325954437,
+      "learning_rate": 9.679262630742865e-05,
+      "loss": 0.0368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6371963361210673,
+      "grad_norm": 0.7525681257247925,
+      "learning_rate": 9.673410361867373e-05,
+      "loss": 0.037,
+      "step": 1600
+    },
+    {
+      "epoch": 0.641178813221824,
+      "grad_norm": 0.4621691405773163,
+      "learning_rate": 9.667506985324909e-05,
+      "loss": 0.0313,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 0.5039979219436646,
+      "learning_rate": 9.661552565673855e-05,
+      "loss": 0.0309,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6491437674233373,
+      "grad_norm": 0.29736581444740295,
+      "learning_rate": 9.655547168030789e-05,
+      "loss": 0.0369,
+      "step": 1630
+    },
+    {
+      "epoch": 0.653126244524094,
+      "grad_norm": 0.4153502583503723,
+      "learning_rate": 9.649490858069777e-05,
+      "loss": 0.0349,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6571087216248507,
+      "grad_norm": 0.64329993724823,
+      "learning_rate": 9.643383702021658e-05,
+      "loss": 0.0422,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6610911987256073,
+      "grad_norm": 0.39090660214424133,
+      "learning_rate": 9.637225766673307e-05,
+      "loss": 0.0332,
+      "step": 1660
+    },
+    {
+      "epoch": 0.665073675826364,
+      "grad_norm": 0.4412473440170288,
+      "learning_rate": 9.631017119366922e-05,
+      "loss": 0.0374,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6690561529271206,
+      "grad_norm": 0.28402477502822876,
+      "learning_rate": 9.624757827999273e-05,
+      "loss": 0.0364,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6730386300278773,
+      "grad_norm": 0.5480361580848694,
+      "learning_rate": 9.618447961020971e-05,
+      "loss": 0.0381,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6770211071286341,
+      "grad_norm": 0.6572909355163574,
+      "learning_rate": 9.612087587435707e-05,
+      "loss": 0.037,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6810035842293907,
+      "grad_norm": 0.6667490601539612,
+      "learning_rate": 9.605676776799508e-05,
+      "loss": 0.04,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6849860613301474,
+      "grad_norm": 0.29837551712989807,
+      "learning_rate": 9.599215599219973e-05,
+      "loss": 0.0351,
+      "step": 1720
+    },
+    {
+      "epoch": 0.688968538430904,
+      "grad_norm": 0.6289225220680237,
+      "learning_rate": 9.592704125355505e-05,
+      "loss": 0.0377,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6929510155316607,
+      "grad_norm": 0.4489145576953888,
+      "learning_rate": 9.586142426414538e-05,
+      "loss": 0.0391,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6969334926324173,
+      "grad_norm": 0.5505160093307495,
+      "learning_rate": 9.57953057415476e-05,
+      "loss": 0.0371,
+      "step": 1750
+    },
+    {
+      "epoch": 0.700915969733174,
+      "grad_norm": 0.48338383436203003,
+      "learning_rate": 9.572868640882328e-05,
+      "loss": 0.0399,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7048984468339307,
+      "grad_norm": 0.3950949013233185,
+      "learning_rate": 9.56615669945108e-05,
+      "loss": 0.0411,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7088809239346874,
+      "grad_norm": 0.7186228036880493,
+      "learning_rate": 9.55939482326173e-05,
+      "loss": 0.0358,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7128634010354441,
+      "grad_norm": 0.36578911542892456,
+      "learning_rate": 9.552583086261069e-05,
+      "loss": 0.0402,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7168458781362007,
+      "grad_norm": 0.48990169167518616,
+      "learning_rate": 9.545721562941168e-05,
+      "loss": 0.0353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7208283552369574,
+      "grad_norm": 0.37718433141708374,
+      "learning_rate": 9.538810328338543e-05,
+      "loss": 0.0385,
+      "step": 1810
+    },
+    {
+      "epoch": 0.724810832337714,
+      "grad_norm": 0.40954500436782837,
+      "learning_rate": 9.531849458033349e-05,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7287933094384708,
+      "grad_norm": 0.6403422951698303,
+      "learning_rate": 9.524839028148547e-05,
+      "loss": 0.0385,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7327757865392274,
+      "grad_norm": 0.4989095628261566,
+      "learning_rate": 9.517779115349077e-05,
+      "loss": 0.0374,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7367582636399841,
+      "grad_norm": 0.4369076192378998,
+      "learning_rate": 9.510669796841014e-05,
+      "loss": 0.0353,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.6268195509910583,
+      "learning_rate": 9.503511150370727e-05,
+      "loss": 0.0407,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7447232178414974,
+      "grad_norm": 0.40719932317733765,
+      "learning_rate": 9.496303254224024e-05,
+      "loss": 0.037,
+      "step": 1870
+    },
+    {
+      "epoch": 0.748705694942254,
+      "grad_norm": 0.41097119450569153,
+      "learning_rate": 9.489046187225306e-05,
+      "loss": 0.0338,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7526881720430108,
+      "grad_norm": 0.3966093361377716,
+      "learning_rate": 9.481740028736692e-05,
+      "loss": 0.0318,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7566706491437675,
+      "grad_norm": 0.6017296314239502,
+      "learning_rate": 9.474384858657164e-05,
+      "loss": 0.0375,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7606531262445241,
+      "grad_norm": 0.6876013278961182,
+      "learning_rate": 9.466980757421679e-05,
+      "loss": 0.0381,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7646356033452808,
+      "grad_norm": 0.4606328010559082,
+      "learning_rate": 9.459527806000305e-05,
+      "loss": 0.0379,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7686180804460374,
+      "grad_norm": 0.9279587268829346,
+      "learning_rate": 9.452026085897325e-05,
+      "loss": 0.0351,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7726005575467941,
+      "grad_norm": 0.5607491135597229,
+      "learning_rate": 9.444475679150348e-05,
+      "loss": 0.0397,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7765830346475507,
+      "grad_norm": 0.7617636322975159,
+      "learning_rate": 9.436876668329411e-05,
+      "loss": 0.0357,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7805655117483075,
+      "grad_norm": 0.40550336241722107,
+      "learning_rate": 9.429229136536079e-05,
+      "loss": 0.0326,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7845479888490641,
+      "grad_norm": 0.7706924676895142,
+      "learning_rate": 9.421533167402534e-05,
+      "loss": 0.0395,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7885304659498208,
+      "grad_norm": 0.5256568789482117,
+      "learning_rate": 9.413788845090666e-05,
+      "loss": 0.04,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7925129430505775,
+      "grad_norm": 0.4805433452129364,
+      "learning_rate": 9.405996254291136e-05,
+      "loss": 0.0358,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7964954201513341,
+      "grad_norm": 0.4774327874183655,
+      "learning_rate": 9.398155480222474e-05,
+      "loss": 0.0323,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8004778972520908,
+      "grad_norm": 0.42436131834983826,
+      "learning_rate": 9.390266608630128e-05,
+      "loss": 0.0351,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8044603743528475,
+      "grad_norm": 0.43557778000831604,
+      "learning_rate": 9.38232972578553e-05,
+      "loss": 0.0385,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8084428514536042,
+      "grad_norm": 0.47707608342170715,
+      "learning_rate": 9.374344918485164e-05,
+      "loss": 0.0371,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8124253285543608,
+      "grad_norm": 0.4659009873867035,
+      "learning_rate": 9.366312274049602e-05,
+      "loss": 0.0407,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8164078056551175,
+      "grad_norm": 0.4538560211658478,
+      "learning_rate": 9.358231880322554e-05,
+      "loss": 0.0349,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8203902827558741,
+      "grad_norm": 0.6766425967216492,
+      "learning_rate": 9.350103825669916e-05,
+      "loss": 0.0311,
+      "step": 2060
+    },
+    {
+      "epoch": 0.8243727598566308,
+      "grad_norm": 0.3502272963523865,
+      "learning_rate": 9.341928198978787e-05,
+      "loss": 0.0347,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8283552369573874,
+      "grad_norm": 0.5337536931037903,
+      "learning_rate": 9.333705089656512e-05,
+      "loss": 0.03,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8323377140581442,
+      "grad_norm": 0.6512131690979004,
+      "learning_rate": 9.325434587629698e-05,
+      "loss": 0.0329,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8363201911589009,
+      "grad_norm": 0.5638608336448669,
+      "learning_rate": 9.31711678334323e-05,
+      "loss": 0.0311,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8403026682596575,
+      "grad_norm": 0.3121340572834015,
+      "learning_rate": 9.308751767759282e-05,
+      "loss": 0.0319,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8442851453604142,
+      "grad_norm": 0.6195731163024902,
+      "learning_rate": 9.300339632356325e-05,
+      "loss": 0.0318,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8482676224611708,
+      "grad_norm": 0.6970657110214233,
+      "learning_rate": 9.291880469128124e-05,
+      "loss": 0.0337,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8522500995619275,
+      "grad_norm": 0.5600506663322449,
+      "learning_rate": 9.283374370582732e-05,
+      "loss": 0.0371,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8562325766626842,
+      "grad_norm": 0.47252482175827026,
+      "learning_rate": 9.274821429741482e-05,
+      "loss": 0.0399,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8602150537634409,
+      "grad_norm": 0.511959969997406,
+      "learning_rate": 9.266221740137961e-05,
+      "loss": 0.0336,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 0.4836970567703247,
+      "learning_rate": 9.257575395817001e-05,
+      "loss": 0.0297,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8681800079649542,
+      "grad_norm": 0.6154841184616089,
+      "learning_rate": 9.248882491333637e-05,
+      "loss": 0.0369,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8721624850657109,
+      "grad_norm": 0.6111750602722168,
+      "learning_rate": 9.240143121752076e-05,
+      "loss": 0.0325,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8761449621664675,
+      "grad_norm": 0.4122430980205536,
+      "learning_rate": 9.23135738264467e-05,
+      "loss": 0.0325,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8801274392672243,
+      "grad_norm": 0.35100454092025757,
+      "learning_rate": 9.222525370090849e-05,
+      "loss": 0.0313,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8841099163679809,
+      "grad_norm": 0.5073012113571167,
+      "learning_rate": 9.213647180676088e-05,
+      "loss": 0.0337,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8880923934687376,
+      "grad_norm": 0.6666367650032043,
+      "learning_rate": 9.204722911490846e-05,
+      "loss": 0.0357,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8920748705694942,
+      "grad_norm": 0.43829846382141113,
+      "learning_rate": 9.1957526601295e-05,
+      "loss": 0.0309,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8960573476702509,
+      "grad_norm": 0.41505926847457886,
+      "learning_rate": 9.186736524689281e-05,
+      "loss": 0.0362,
+      "step": 2250
+    },
+    {
+      "epoch": 0.9000398247710075,
+      "grad_norm": 0.585198700428009,
+      "learning_rate": 9.177674603769204e-05,
+      "loss": 0.0373,
+      "step": 2260
+    },
+    {
+      "epoch": 0.9040223018717642,
+      "grad_norm": 0.5691582560539246,
+      "learning_rate": 9.168566996468983e-05,
+      "loss": 0.0297,
+      "step": 2270
+    },
+    {
+      "epoch": 0.9080047789725209,
+      "grad_norm": 0.568215012550354,
+      "learning_rate": 9.159413802387951e-05,
+      "loss": 0.0375,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9119872560732776,
+      "grad_norm": 0.41294440627098083,
+      "learning_rate": 9.150215121623974e-05,
+      "loss": 0.0348,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9159697331740343,
+      "grad_norm": 0.5145776271820068,
+      "learning_rate": 9.140971054772349e-05,
+      "loss": 0.0318,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9199522102747909,
+      "grad_norm": 0.4824906289577484,
+      "learning_rate": 9.131681702924713e-05,
+      "loss": 0.0383,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9239346873755476,
+      "grad_norm": 0.5607543587684631,
+      "learning_rate": 9.122347167667926e-05,
+      "loss": 0.0288,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9279171644763042,
+      "grad_norm": 0.7051650285720825,
+      "learning_rate": 9.112967551082973e-05,
+      "loss": 0.0393,
+      "step": 2330
+    },
+    {
+      "epoch": 0.931899641577061,
+      "grad_norm": 0.4049379825592041,
+      "learning_rate": 9.103542955743835e-05,
+      "loss": 0.0322,
+      "step": 2340
+    },
+    {
+      "epoch": 0.9358821186778176,
+      "grad_norm": 0.3805215060710907,
+      "learning_rate": 9.094073484716381e-05,
+      "loss": 0.0357,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9398645957785743,
+      "grad_norm": 0.44789791107177734,
+      "learning_rate": 9.084559241557226e-05,
+      "loss": 0.0291,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9438470728793309,
+      "grad_norm": 0.6356040835380554,
+      "learning_rate": 9.075000330312608e-05,
+      "loss": 0.0322,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9478295499800876,
+      "grad_norm": 0.504687488079071,
+      "learning_rate": 9.065396855517253e-05,
+      "loss": 0.03,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9518120270808443,
+      "grad_norm": 0.4105326533317566,
+      "learning_rate": 9.055748922193219e-05,
+      "loss": 0.0349,
+      "step": 2390
+    },
+    {
+      "epoch": 0.955794504181601,
+      "grad_norm": 0.4912046790122986,
+      "learning_rate": 9.046056635848761e-05,
+      "loss": 0.0384,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9597769812823577,
+      "grad_norm": 0.7549566030502319,
+      "learning_rate": 9.036320102477169e-05,
+      "loss": 0.0327,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9637594583831143,
+      "grad_norm": 0.36022019386291504,
+      "learning_rate": 9.02653942855561e-05,
+      "loss": 0.0331,
+      "step": 2420
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.48688042163848877,
+      "learning_rate": 9.016714721043971e-05,
+      "loss": 0.0318,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9717244125846276,
+      "grad_norm": 0.3235294222831726,
+      "learning_rate": 9.006846087383675e-05,
+      "loss": 0.0327,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9757068896853843,
+      "grad_norm": 0.5939168334007263,
+      "learning_rate": 8.996933635496523e-05,
+      "loss": 0.0314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9796893667861409,
+      "grad_norm": 0.7387416958808899,
+      "learning_rate": 8.986977473783498e-05,
+      "loss": 0.0374,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9836718438868977,
+      "grad_norm": 0.48453521728515625,
+      "learning_rate": 8.97697771112359e-05,
+      "loss": 0.0317,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9876543209876543,
+      "grad_norm": 0.40206247568130493,
+      "learning_rate": 8.966934456872602e-05,
+      "loss": 0.0303,
+      "step": 2480
+    },
+    {
+      "epoch": 0.991636798088411,
+      "grad_norm": 0.5897948741912842,
+      "learning_rate": 8.95684782086195e-05,
+      "loss": 0.0293,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9956192751891677,
+      "grad_norm": 0.3984488546848297,
+      "learning_rate": 8.946717913397476e-05,
+      "loss": 0.0374,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9996017522899243,
+      "grad_norm": 0.3679232597351074,
+      "learning_rate": 8.93654484525822e-05,
+      "loss": 0.0311,
+      "step": 2510
+    },
+    {
+      "epoch": 1.003584229390681,
+      "grad_norm": 0.3514699637889862,
+      "learning_rate": 8.926328727695226e-05,
+      "loss": 0.0282,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0075667064914378,
+      "grad_norm": 0.34111514687538147,
+      "learning_rate": 8.916069672430319e-05,
+      "loss": 0.0272,
+      "step": 2530
+    },
+    {
+      "epoch": 1.0115491835921944,
+      "grad_norm": 0.3726666569709778,
+      "learning_rate": 8.905767791654884e-05,
+      "loss": 0.0315,
+      "step": 2540
+    },
+    {
+      "epoch": 1.015531660692951,
+      "grad_norm": 0.5761587619781494,
+      "learning_rate": 8.895423198028638e-05,
+      "loss": 0.0363,
+      "step": 2550
+    },
+    {
+      "epoch": 1.0195141377937076,
+      "grad_norm": 0.5593805909156799,
+      "learning_rate": 8.885036004678402e-05,
+      "loss": 0.0311,
+      "step": 2560
+    },
+    {
+      "epoch": 1.0234966148944644,
+      "grad_norm": 0.3937326669692993,
+      "learning_rate": 8.874606325196857e-05,
+      "loss": 0.0339,
+      "step": 2570
+    },
+    {
+      "epoch": 1.027479091995221,
+      "grad_norm": 0.5169225931167603,
+      "learning_rate": 8.864134273641304e-05,
+      "loss": 0.03,
+      "step": 2580
+    },
+    {
+      "epoch": 1.0314615690959776,
+      "grad_norm": 0.5744480490684509,
+      "learning_rate": 8.853619964532427e-05,
+      "loss": 0.0324,
+      "step": 2590
+    },
+    {
+      "epoch": 1.0354440461967345,
+      "grad_norm": 0.555366039276123,
+      "learning_rate": 8.843063512853019e-05,
+      "loss": 0.0289,
+      "step": 2600
+    },
+    {
+      "epoch": 1.039426523297491,
+      "grad_norm": 0.4377165734767914,
+      "learning_rate": 8.832465034046749e-05,
+      "loss": 0.0296,
+      "step": 2610
+    },
+    {
+      "epoch": 1.0434090003982477,
+      "grad_norm": 0.5874027013778687,
+      "learning_rate": 8.821824644016882e-05,
+      "loss": 0.0317,
+      "step": 2620
+    },
+    {
+      "epoch": 1.0473914774990043,
+      "grad_norm": 0.7405006289482117,
+      "learning_rate": 8.811142459125019e-05,
+      "loss": 0.0308,
+      "step": 2630
+    },
+    {
+      "epoch": 1.0513739545997611,
+      "grad_norm": 0.4106619954109192,
+      "learning_rate": 8.800418596189822e-05,
+      "loss": 0.0252,
+      "step": 2640
+    },
+    {
+      "epoch": 1.0553564317005177,
+      "grad_norm": 0.510388195514679,
+      "learning_rate": 8.789653172485737e-05,
+      "loss": 0.0297,
+      "step": 2650
+    },
+    {
+      "epoch": 1.0593389088012743,
+      "grad_norm": 0.5874786972999573,
+      "learning_rate": 8.778846305741715e-05,
+      "loss": 0.0359,
+      "step": 2660
+    },
+    {
+      "epoch": 1.063321385902031,
+      "grad_norm": 0.5348223447799683,
+      "learning_rate": 8.767998114139918e-05,
+      "loss": 0.0313,
+      "step": 2670
+    },
+    {
+      "epoch": 1.0673038630027878,
+      "grad_norm": 0.3929119408130646,
+      "learning_rate": 8.757108716314429e-05,
+      "loss": 0.0329,
+      "step": 2680
+    },
+    {
+      "epoch": 1.0712863401035444,
+      "grad_norm": 0.5612719058990479,
+      "learning_rate": 8.746178231349962e-05,
+      "loss": 0.0312,
+      "step": 2690
+    },
+    {
+      "epoch": 1.075268817204301,
+      "grad_norm": 0.37800925970077515,
+      "learning_rate": 8.735206778780549e-05,
+      "loss": 0.0349,
+      "step": 2700
+    },
+    {
+      "epoch": 1.0792512943050578,
+      "grad_norm": 0.43637755513191223,
+      "learning_rate": 8.724194478588234e-05,
+      "loss": 0.0307,
+      "step": 2710
+    },
+    {
+      "epoch": 1.0832337714058144,
+      "grad_norm": 0.3608951270580292,
+      "learning_rate": 8.713141451201772e-05,
+      "loss": 0.0277,
+      "step": 2720
+    },
+    {
+      "epoch": 1.087216248506571,
+      "grad_norm": 0.5240746140480042,
+      "learning_rate": 8.702047817495295e-05,
+      "loss": 0.0302,
+      "step": 2730
+    },
+    {
+      "epoch": 1.0911987256073277,
+      "grad_norm": 0.3599265515804291,
+      "learning_rate": 8.69091369878701e-05,
+      "loss": 0.0313,
+      "step": 2740
+    },
+    {
+      "epoch": 1.0951812027080845,
+      "grad_norm": 0.6075289845466614,
+      "learning_rate": 8.679739216837849e-05,
+      "loss": 0.0296,
+      "step": 2750
+    },
+    {
+      "epoch": 1.099163679808841,
+      "grad_norm": 0.4289771318435669,
+      "learning_rate": 8.66852449385016e-05,
+      "loss": 0.0276,
+      "step": 2760
+    },
+    {
+      "epoch": 1.1031461569095977,
+      "grad_norm": 0.3706158697605133,
+      "learning_rate": 8.657269652466356e-05,
+      "loss": 0.0278,
+      "step": 2770
+    },
+    {
+      "epoch": 1.1071286340103543,
+      "grad_norm": 0.6201577186584473,
+      "learning_rate": 8.645974815767577e-05,
+      "loss": 0.0315,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5606251358985901,
+      "learning_rate": 8.634640107272351e-05,
+      "loss": 0.0274,
+      "step": 2790
+    },
+    {
+      "epoch": 1.1150935882118678,
+      "grad_norm": 0.4653207063674927,
+      "learning_rate": 8.623265650935234e-05,
+      "loss": 0.0293,
+      "step": 2800
+    },
+    {
+      "epoch": 1.1190760653126244,
+      "grad_norm": 0.4102509915828705,
+      "learning_rate": 8.611851571145456e-05,
+      "loss": 0.0311,
+      "step": 2810
+    },
+    {
+      "epoch": 1.1230585424133812,
+      "grad_norm": 0.5217996835708618,
+      "learning_rate": 8.600397992725566e-05,
+      "loss": 0.0248,
+      "step": 2820
+    },
+    {
+      "epoch": 1.1270410195141378,
+      "grad_norm": 0.5519301295280457,
+      "learning_rate": 8.588905040930061e-05,
+      "loss": 0.0314,
+      "step": 2830
+    },
+    {
+      "epoch": 1.1310234966148944,
+      "grad_norm": 0.43869367241859436,
+      "learning_rate": 8.577372841444022e-05,
+      "loss": 0.0289,
+      "step": 2840
+    },
+    {
+      "epoch": 1.135005973715651,
+      "grad_norm": 0.4673241078853607,
+      "learning_rate": 8.565801520381736e-05,
+      "loss": 0.026,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1389884508164079,
+      "grad_norm": 0.4510667622089386,
+      "learning_rate": 8.554191204285313e-05,
+      "loss": 0.0319,
+      "step": 2860
+    },
+    {
+      "epoch": 1.1429709279171645,
+      "grad_norm": 0.473105788230896,
+      "learning_rate": 8.542542020123315e-05,
+      "loss": 0.032,
+      "step": 2870
+    },
+    {
+      "epoch": 1.146953405017921,
+      "grad_norm": 0.4328536093235016,
+      "learning_rate": 8.530854095289347e-05,
+      "loss": 0.029,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1509358821186777,
+      "grad_norm": 0.45955684781074524,
+      "learning_rate": 8.519127557600688e-05,
+      "loss": 0.0274,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1549183592194345,
+      "grad_norm": 0.3034651577472687,
+      "learning_rate": 8.507362535296871e-05,
+      "loss": 0.0286,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1589008363201911,
+      "grad_norm": 0.6441288590431213,
+      "learning_rate": 8.495559157038299e-05,
+      "loss": 0.0377,
+      "step": 2910
+    },
+    {
+      "epoch": 1.1628833134209478,
+      "grad_norm": 0.43017473816871643,
+      "learning_rate": 8.483717551904823e-05,
+      "loss": 0.0297,
+      "step": 2920
+    },
+    {
+      "epoch": 1.1668657905217046,
+      "grad_norm": 0.5794181227684021,
+      "learning_rate": 8.47183784939434e-05,
+      "loss": 0.0281,
+      "step": 2930
+    },
+    {
+      "epoch": 1.1708482676224612,
+      "grad_norm": 0.32613155245780945,
+      "learning_rate": 8.459920179421374e-05,
+      "loss": 0.0324,
+      "step": 2940
+    },
+    {
+      "epoch": 1.1748307447232178,
+      "grad_norm": 0.514627993106842,
+      "learning_rate": 8.447964672315656e-05,
+      "loss": 0.0275,
+      "step": 2950
+    },
+    {
+      "epoch": 1.1788132218239746,
+      "grad_norm": 0.30379730463027954,
+      "learning_rate": 8.435971458820692e-05,
+      "loss": 0.0322,
+      "step": 2960
+    },
+    {
+      "epoch": 1.1827956989247312,
+      "grad_norm": 0.5878794193267822,
+      "learning_rate": 8.423940670092345e-05,
+      "loss": 0.0318,
+      "step": 2970
+    },
+    {
+      "epoch": 1.1867781760254879,
+      "grad_norm": 0.3879925012588501,
+      "learning_rate": 8.411872437697394e-05,
+      "loss": 0.0323,
+      "step": 2980
+    },
+    {
+      "epoch": 1.1907606531262445,
+      "grad_norm": 0.2640171945095062,
+      "learning_rate": 8.399766893612096e-05,
+      "loss": 0.0265,
+      "step": 2990
+    },
+    {
+      "epoch": 1.194743130227001,
+      "grad_norm": 0.4299219846725464,
+      "learning_rate": 8.38762417022074e-05,
+      "loss": 0.0312,
+      "step": 3000
+    },
+    {
+      "epoch": 1.198725607327758,
+      "grad_norm": 0.3073621690273285,
+      "learning_rate": 8.375444400314204e-05,
+      "loss": 0.0253,
+      "step": 3010
+    },
+    {
+      "epoch": 1.2027080844285145,
+      "grad_norm": 0.26146814227104187,
+      "learning_rate": 8.3632277170885e-05,
+      "loss": 0.0312,
+      "step": 3020
+    },
+    {
+      "epoch": 1.2066905615292711,
+      "grad_norm": 0.2975267767906189,
+      "learning_rate": 8.350974254143318e-05,
+      "loss": 0.0271,
+      "step": 3030
+    },
+    {
+      "epoch": 1.210673038630028,
+      "grad_norm": 0.20422956347465515,
+      "learning_rate": 8.338684145480566e-05,
+      "loss": 0.0259,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2146555157307846,
+      "grad_norm": 0.31191202998161316,
+      "learning_rate": 8.326357525502904e-05,
+      "loss": 0.0304,
+      "step": 3050
+    },
+    {
+      "epoch": 1.2186379928315412,
+      "grad_norm": 0.5126979947090149,
+      "learning_rate": 8.313994529012273e-05,
+      "loss": 0.0294,
+      "step": 3060
+    },
+    {
+      "epoch": 1.222620469932298,
+      "grad_norm": 0.3219705820083618,
+      "learning_rate": 8.301595291208422e-05,
+      "loss": 0.0305,
+      "step": 3070
+    },
+    {
+      "epoch": 1.2266029470330546,
+      "grad_norm": 0.4278619587421417,
+      "learning_rate": 8.289159947687427e-05,
+      "loss": 0.0297,
+      "step": 3080
+    },
+    {
+      "epoch": 1.2305854241338112,
+      "grad_norm": 0.5774158239364624,
+      "learning_rate": 8.276688634440216e-05,
+      "loss": 0.0296,
+      "step": 3090
+    },
+    {
+      "epoch": 1.2345679012345678,
+      "grad_norm": 0.5146026015281677,
+      "learning_rate": 8.26418148785107e-05,
+      "loss": 0.0311,
+      "step": 3100
+    },
+    {
+      "epoch": 1.2385503783353247,
+      "grad_norm": 0.347504198551178,
+      "learning_rate": 8.251638644696141e-05,
+      "loss": 0.0345,
+      "step": 3110
+    },
+    {
+      "epoch": 1.2425328554360813,
+      "grad_norm": 0.5153434872627258,
+      "learning_rate": 8.23906024214195e-05,
+      "loss": 0.0276,
+      "step": 3120
+    },
+    {
+      "epoch": 1.2465153325368379,
+      "grad_norm": 0.31597134470939636,
+      "learning_rate": 8.226446417743897e-05,
+      "loss": 0.0343,
+      "step": 3130
+    },
+    {
+      "epoch": 1.2504978096375945,
+      "grad_norm": 0.4005573093891144,
+      "learning_rate": 8.213797309444742e-05,
+      "loss": 0.0294,
+      "step": 3140
+    },
+    {
+      "epoch": 1.2544802867383513,
+      "grad_norm": 0.3009648025035858,
+      "learning_rate": 8.201113055573105e-05,
+      "loss": 0.0287,
+      "step": 3150
+    },
+    {
+      "epoch": 1.258462763839108,
+      "grad_norm": 0.6014096140861511,
+      "learning_rate": 8.188393794841958e-05,
+      "loss": 0.0261,
+      "step": 3160
+    },
+    {
+      "epoch": 1.2624452409398645,
+      "grad_norm": 0.38871604204177856,
+      "learning_rate": 8.175639666347094e-05,
+      "loss": 0.0316,
+      "step": 3170
+    },
+    {
+      "epoch": 1.2664277180406214,
+      "grad_norm": 0.4298296570777893,
+      "learning_rate": 8.162850809565623e-05,
+      "loss": 0.0248,
+      "step": 3180
+    },
+    {
+      "epoch": 1.270410195141378,
+      "grad_norm": 0.3726460039615631,
+      "learning_rate": 8.150027364354431e-05,
+      "loss": 0.0312,
+      "step": 3190
+    },
+    {
+      "epoch": 1.2743926722421346,
+      "grad_norm": 0.5679003000259399,
+      "learning_rate": 8.137169470948662e-05,
+      "loss": 0.0346,
+      "step": 3200
+    },
+    {
+      "epoch": 1.2783751493428912,
+      "grad_norm": 0.3676661252975464,
+      "learning_rate": 8.124277269960179e-05,
+      "loss": 0.0298,
+      "step": 3210
+    },
+    {
+      "epoch": 1.2823576264436478,
+      "grad_norm": 0.34625566005706787,
+      "learning_rate": 8.111350902376023e-05,
+      "loss": 0.0276,
+      "step": 3220
+    },
+    {
+      "epoch": 1.2863401035444046,
+      "grad_norm": 0.37914222478866577,
+      "learning_rate": 8.098390509556883e-05,
+      "loss": 0.028,
+      "step": 3230
+    },
+    {
+      "epoch": 1.2903225806451613,
+      "grad_norm": 0.6115908622741699,
+      "learning_rate": 8.085396233235536e-05,
+      "loss": 0.027,
+      "step": 3240
+    },
+    {
+      "epoch": 1.2943050577459179,
+      "grad_norm": 0.3943430781364441,
+      "learning_rate": 8.072368215515306e-05,
+      "loss": 0.0264,
+      "step": 3250
+    },
+    {
+      "epoch": 1.2982875348466747,
+      "grad_norm": 0.4377286434173584,
+      "learning_rate": 8.059306598868506e-05,
+      "loss": 0.0334,
+      "step": 3260
+    },
+    {
+      "epoch": 1.3022700119474313,
+      "grad_norm": 0.28060171008110046,
+      "learning_rate": 8.046211526134888e-05,
+      "loss": 0.0284,
+      "step": 3270
+    },
+    {
+      "epoch": 1.306252489048188,
+      "grad_norm": 0.4140307605266571,
+      "learning_rate": 8.033083140520065e-05,
+      "loss": 0.027,
+      "step": 3280
+    },
+    {
+      "epoch": 1.3102349661489447,
+      "grad_norm": 0.334888756275177,
+      "learning_rate": 8.019921585593962e-05,
+      "loss": 0.0295,
+      "step": 3290
+    },
+    {
+      "epoch": 1.3142174432497014,
+      "grad_norm": 0.5044397115707397,
+      "learning_rate": 8.006727005289232e-05,
+      "loss": 0.0239,
+      "step": 3300
+    },
+    {
+      "epoch": 1.318199920350458,
+      "grad_norm": 0.39227598905563354,
+      "learning_rate": 7.993499543899692e-05,
+      "loss": 0.029,
+      "step": 3310
+    },
+    {
+      "epoch": 1.3221823974512146,
+      "grad_norm": 0.5009192824363708,
+      "learning_rate": 7.980239346078742e-05,
+      "loss": 0.0276,
+      "step": 3320
+    },
+    {
+      "epoch": 1.3261648745519714,
+      "grad_norm": 0.33442339301109314,
+      "learning_rate": 7.966946556837778e-05,
+      "loss": 0.025,
+      "step": 3330
+    },
+    {
+      "epoch": 1.330147351652728,
+      "grad_norm": 0.44179999828338623,
+      "learning_rate": 7.953621321544616e-05,
+      "loss": 0.0292,
+      "step": 3340
+    },
+    {
+      "epoch": 1.3341298287534846,
+      "grad_norm": 0.48963797092437744,
+      "learning_rate": 7.940263785921896e-05,
+      "loss": 0.0287,
+      "step": 3350
+    },
+    {
+      "epoch": 1.3381123058542412,
+      "grad_norm": 0.35747164487838745,
+      "learning_rate": 7.926874096045482e-05,
+      "loss": 0.0257,
+      "step": 3360
+    },
+    {
+      "epoch": 1.342094782954998,
+      "grad_norm": 0.6534529328346252,
+      "learning_rate": 7.913452398342881e-05,
+      "loss": 0.036,
+      "step": 3370
+    },
+    {
+      "epoch": 1.3460772600557547,
+      "grad_norm": 0.4266543686389923,
+      "learning_rate": 7.89999883959163e-05,
+      "loss": 0.0307,
+      "step": 3380
+    },
+    {
+      "epoch": 1.3500597371565113,
+      "grad_norm": 0.5537866950035095,
+      "learning_rate": 7.886513566917687e-05,
+      "loss": 0.0307,
+      "step": 3390
+    },
+    {
+      "epoch": 1.3540422142572681,
+      "grad_norm": 0.35446301102638245,
+      "learning_rate": 7.872996727793838e-05,
+      "loss": 0.0323,
+      "step": 3400
+    },
+    {
+      "epoch": 1.3580246913580247,
+      "grad_norm": 0.4526813328266144,
+      "learning_rate": 7.859448470038069e-05,
+      "loss": 0.0275,
+      "step": 3410
+    },
+    {
+      "epoch": 1.3620071684587813,
+      "grad_norm": 0.49604639410972595,
+      "learning_rate": 7.845868941811956e-05,
+      "loss": 0.0317,
+      "step": 3420
+    },
+    {
+      "epoch": 1.3659896455595382,
+      "grad_norm": 0.3144626319408417,
+      "learning_rate": 7.832258291619043e-05,
+      "loss": 0.0276,
+      "step": 3430
+    },
+    {
+      "epoch": 1.3699721226602948,
+      "grad_norm": 0.5718449354171753,
+      "learning_rate": 7.81861666830322e-05,
+      "loss": 0.0261,
+      "step": 3440
+    },
+    {
+      "epoch": 1.3739545997610514,
+      "grad_norm": 0.3567497134208679,
+      "learning_rate": 7.804944221047097e-05,
+      "loss": 0.027,
+      "step": 3450
+    },
+    {
+      "epoch": 1.377937076861808,
+      "grad_norm": 0.5491267442703247,
+      "learning_rate": 7.791241099370364e-05,
+      "loss": 0.033,
+      "step": 3460
+    },
+    {
+      "epoch": 1.3819195539625646,
+      "grad_norm": 0.46909114718437195,
+      "learning_rate": 7.777507453128163e-05,
+      "loss": 0.0298,
+      "step": 3470
+    },
+    {
+      "epoch": 1.3859020310633214,
+      "grad_norm": 0.4308125376701355,
+      "learning_rate": 7.763743432509451e-05,
+      "loss": 0.0278,
+      "step": 3480
+    },
+    {
+      "epoch": 1.389884508164078,
+      "grad_norm": 0.4042797088623047,
+      "learning_rate": 7.749949188035353e-05,
+      "loss": 0.0312,
+      "step": 3490
+    },
+    {
+      "epoch": 1.3938669852648347,
+      "grad_norm": 0.4012243151664734,
+      "learning_rate": 7.736124870557516e-05,
+      "loss": 0.0296,
+      "step": 3500
+    },
+    {
+      "epoch": 1.3978494623655915,
+      "grad_norm": 0.31076422333717346,
+      "learning_rate": 7.722270631256459e-05,
+      "loss": 0.0306,
+      "step": 3510
+    },
+    {
+      "epoch": 1.401831939466348,
+      "grad_norm": 0.4105532467365265,
+      "learning_rate": 7.708386621639925e-05,
+      "loss": 0.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 1.4058144165671047,
+      "grad_norm": 0.4460810124874115,
+      "learning_rate": 7.694472993541219e-05,
+      "loss": 0.0269,
+      "step": 3530
+    },
+    {
+      "epoch": 1.4097968936678615,
+      "grad_norm": 0.4327501952648163,
+      "learning_rate": 7.680529899117547e-05,
+      "loss": 0.0313,
+      "step": 3540
+    },
+    {
+      "epoch": 1.4137793707686181,
+      "grad_norm": 0.4426930248737335,
+      "learning_rate": 7.666557490848358e-05,
+      "loss": 0.0289,
+      "step": 3550
+    },
+    {
+      "epoch": 1.4177618478693748,
+      "grad_norm": 0.4433678388595581,
+      "learning_rate": 7.65255592153367e-05,
+      "loss": 0.0307,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4217443249701314,
+      "grad_norm": 0.39277946949005127,
+      "learning_rate": 7.638525344292402e-05,
+      "loss": 0.0321,
+      "step": 3570
+    },
+    {
+      "epoch": 1.425726802070888,
+      "grad_norm": 0.4349759817123413,
+      "learning_rate": 7.624465912560697e-05,
+      "loss": 0.0319,
+      "step": 3580
+    },
+    {
+      "epoch": 1.4297092791716448,
+      "grad_norm": 0.36243054270744324,
+      "learning_rate": 7.610377780090249e-05,
+      "loss": 0.025,
+      "step": 3590
+    },
+    {
+      "epoch": 1.4336917562724014,
+      "grad_norm": 0.23596417903900146,
+      "learning_rate": 7.596261100946618e-05,
+      "loss": 0.0274,
+      "step": 3600
+    },
+    {
+      "epoch": 1.437674233373158,
+      "grad_norm": 0.3828240633010864,
+      "learning_rate": 7.582116029507542e-05,
+      "loss": 0.0259,
+      "step": 3610
+    },
+    {
+      "epoch": 1.4416567104739149,
+      "grad_norm": 0.4790317714214325,
+      "learning_rate": 7.56794272046126e-05,
+      "loss": 0.0278,
+      "step": 3620
+    },
+    {
+      "epoch": 1.4456391875746715,
+      "grad_norm": 0.46134695410728455,
+      "learning_rate": 7.55374132880481e-05,
+      "loss": 0.0298,
+      "step": 3630
+    },
+    {
+      "epoch": 1.449621664675428,
+      "grad_norm": 0.4513108730316162,
+      "learning_rate": 7.539512009842333e-05,
+      "loss": 0.0313,
+      "step": 3640
+    },
+    {
+      "epoch": 1.453604141776185,
+      "grad_norm": 0.5272055268287659,
+      "learning_rate": 7.525254919183382e-05,
+      "loss": 0.0283,
+      "step": 3650
+    },
+    {
+      "epoch": 1.4575866188769415,
+      "grad_norm": 0.43485143780708313,
+      "learning_rate": 7.510970212741215e-05,
+      "loss": 0.0272,
+      "step": 3660
+    },
+    {
+      "epoch": 1.4615690959776981,
+      "grad_norm": 0.44522616267204285,
+      "learning_rate": 7.496658046731096e-05,
+      "loss": 0.0281,
+      "step": 3670
+    },
+    {
+      "epoch": 1.4655515730784547,
+      "grad_norm": 0.7030194997787476,
+      "learning_rate": 7.482318577668578e-05,
+      "loss": 0.0336,
+      "step": 3680
+    },
+    {
+      "epoch": 1.4695340501792113,
+      "grad_norm": 0.47834673523902893,
+      "learning_rate": 7.467951962367796e-05,
+      "loss": 0.0276,
+      "step": 3690
+    },
+    {
+      "epoch": 1.4735165272799682,
+      "grad_norm": 0.4326513409614563,
+      "learning_rate": 7.453558357939755e-05,
+      "loss": 0.0268,
+      "step": 3700
+    },
+    {
+      "epoch": 1.4774990043807248,
+      "grad_norm": 0.4779656231403351,
+      "learning_rate": 7.439137921790606e-05,
+      "loss": 0.0322,
+      "step": 3710
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 0.5998985767364502,
+      "learning_rate": 7.42469081161993e-05,
+      "loss": 0.0257,
+      "step": 3720
+    },
+    {
+      "epoch": 1.4854639585822382,
+      "grad_norm": 0.44799843430519104,
+      "learning_rate": 7.410217185419006e-05,
+      "loss": 0.0235,
+      "step": 3730
+    },
+    {
+      "epoch": 1.4894464356829948,
+      "grad_norm": 0.335964560508728,
+      "learning_rate": 7.395717201469095e-05,
+      "loss": 0.0286,
+      "step": 3740
+    },
+    {
+      "epoch": 1.4934289127837514,
+      "grad_norm": 0.5583806037902832,
+      "learning_rate": 7.381191018339696e-05,
+      "loss": 0.0292,
+      "step": 3750
+    },
+    {
+      "epoch": 1.4974113898845083,
+      "grad_norm": 0.40853527188301086,
+      "learning_rate": 7.36663879488682e-05,
+      "loss": 0.024,
+      "step": 3760
+    },
+    {
+      "epoch": 1.5013938669852647,
+      "grad_norm": 0.5366830825805664,
+      "learning_rate": 7.352060690251254e-05,
+      "loss": 0.0278,
+      "step": 3770
+    },
+    {
+      "epoch": 1.5053763440860215,
+      "grad_norm": 0.5075726509094238,
+      "learning_rate": 7.337456863856811e-05,
+      "loss": 0.031,
+      "step": 3780
+    },
+    {
+      "epoch": 1.5093588211867783,
+      "grad_norm": 0.4533558487892151,
+      "learning_rate": 7.3228274754086e-05,
+      "loss": 0.0232,
+      "step": 3790
+    },
+    {
+      "epoch": 1.5133412982875347,
+      "grad_norm": 0.4715867340564728,
+      "learning_rate": 7.308172684891267e-05,
+      "loss": 0.0319,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5173237753882916,
+      "grad_norm": 0.2563737630844116,
+      "learning_rate": 7.293492652567255e-05,
+      "loss": 0.0239,
+      "step": 3810
+    },
+    {
+      "epoch": 1.5213062524890482,
+      "grad_norm": 0.3013695478439331,
+      "learning_rate": 7.278787538975043e-05,
+      "loss": 0.0302,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5252887295898048,
+      "grad_norm": 0.39960938692092896,
+      "learning_rate": 7.2640575049274e-05,
+      "loss": 0.0251,
+      "step": 3830
+    },
+    {
+      "epoch": 1.5292712066905616,
+      "grad_norm": 0.380015105009079,
+      "learning_rate": 7.249302711509616e-05,
+      "loss": 0.0231,
+      "step": 3840
+    },
+    {
+      "epoch": 1.5332536837913182,
+      "grad_norm": 0.2648374140262604,
+      "learning_rate": 7.23452332007775e-05,
+      "loss": 0.0225,
+      "step": 3850
+    },
+    {
+      "epoch": 1.5372361608920748,
+      "grad_norm": 0.32741981744766235,
+      "learning_rate": 7.219719492256858e-05,
+      "loss": 0.0272,
+      "step": 3860
+    },
+    {
+      "epoch": 1.5412186379928317,
+      "grad_norm": 0.5281572341918945,
+      "learning_rate": 7.20489138993923e-05,
+      "loss": 0.025,
+      "step": 3870
+    },
+    {
+      "epoch": 1.5452011150935883,
+      "grad_norm": 0.3067561388015747,
+      "learning_rate": 7.190039175282614e-05,
+      "loss": 0.0261,
+      "step": 3880
+    },
+    {
+      "epoch": 1.5491835921943449,
+      "grad_norm": 0.4421009421348572,
+      "learning_rate": 7.175163010708455e-05,
+      "loss": 0.0245,
+      "step": 3890
+    },
+    {
+      "epoch": 1.5531660692951017,
+      "grad_norm": 0.3433239758014679,
+      "learning_rate": 7.1602630589001e-05,
+      "loss": 0.027,
+      "step": 3900
+    },
+    {
+      "epoch": 1.557148546395858,
+      "grad_norm": 0.30050766468048096,
+      "learning_rate": 7.14533948280104e-05,
+      "loss": 0.0269,
+      "step": 3910
+    },
+    {
+      "epoch": 1.561131023496615,
+      "grad_norm": 0.3128851056098938,
+      "learning_rate": 7.130392445613109e-05,
+      "loss": 0.03,
+      "step": 3920
+    },
+    {
+      "epoch": 1.5651135005973715,
+      "grad_norm": 0.3643544912338257,
+      "learning_rate": 7.115422110794711e-05,
+      "loss": 0.0278,
+      "step": 3930
+    },
+    {
+      "epoch": 1.5690959776981281,
+      "grad_norm": 0.4426794648170471,
+      "learning_rate": 7.100428642059033e-05,
+      "loss": 0.0303,
+      "step": 3940
+    },
+    {
+      "epoch": 1.573078454798885,
+      "grad_norm": 0.3874496817588806,
+      "learning_rate": 7.08541220337224e-05,
+      "loss": 0.0277,
+      "step": 3950
+    },
+    {
+      "epoch": 1.5770609318996416,
+      "grad_norm": 0.3397146761417389,
+      "learning_rate": 7.070372958951706e-05,
+      "loss": 0.0271,
+      "step": 3960
+    },
+    {
+      "epoch": 1.5810434090003982,
+      "grad_norm": 0.6062551736831665,
+      "learning_rate": 7.055311073264194e-05,
+      "loss": 0.0334,
+      "step": 3970
+    },
+    {
+      "epoch": 1.585025886101155,
+      "grad_norm": 0.2893720269203186,
+      "learning_rate": 7.040226711024077e-05,
+      "loss": 0.0276,
+      "step": 3980
+    },
+    {
+      "epoch": 1.5890083632019116,
+      "grad_norm": 0.28936243057250977,
+      "learning_rate": 7.02512003719152e-05,
+      "loss": 0.0239,
+      "step": 3990
+    },
+    {
+      "epoch": 1.5929908403026682,
+      "grad_norm": 0.4626624286174774,
+      "learning_rate": 7.00999121697069e-05,
+      "loss": 0.0304,
+      "step": 4000
+    },
+    {
+      "epoch": 1.596973317403425,
+      "grad_norm": 0.4734528362751007,
+      "learning_rate": 6.99484041580794e-05,
+      "loss": 0.0228,
+      "step": 4010
+    },
+    {
+      "epoch": 1.6009557945041815,
+      "grad_norm": 0.6309609413146973,
+      "learning_rate": 6.979667799390004e-05,
+      "loss": 0.026,
+      "step": 4020
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 0.4279467463493347,
+      "learning_rate": 6.964473533642185e-05,
+      "loss": 0.0298,
+      "step": 4030
+    },
+    {
+      "epoch": 1.608920748705695,
+      "grad_norm": 0.29877039790153503,
+      "learning_rate": 6.949257784726539e-05,
+      "loss": 0.0328,
+      "step": 4040
+    },
+    {
+      "epoch": 1.6129032258064515,
+      "grad_norm": 0.48857632279396057,
+      "learning_rate": 6.934020719040056e-05,
+      "loss": 0.0262,
+      "step": 4050
+    },
+    {
+      "epoch": 1.6168857029072083,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 6.918762503212848e-05,
+      "loss": 0.0283,
+      "step": 4060
+    },
+    {
+      "epoch": 1.620868180007965,
+      "grad_norm": 0.3721228241920471,
+      "learning_rate": 6.903483304106319e-05,
+      "loss": 0.0265,
+      "step": 4070
+    },
+    {
+      "epoch": 1.6248506571087216,
+      "grad_norm": 0.3533932864665985,
+      "learning_rate": 6.888183288811341e-05,
+      "loss": 0.0258,
+      "step": 4080
+    },
+    {
+      "epoch": 1.6288331342094784,
+      "grad_norm": 0.2944384217262268,
+      "learning_rate": 6.87286262464643e-05,
+      "loss": 0.0244,
+      "step": 4090
+    },
+    {
+      "epoch": 1.632815611310235,
+      "grad_norm": 0.2960841953754425,
+      "learning_rate": 6.857521479155915e-05,
+      "loss": 0.0287,
+      "step": 4100
+    },
+    {
+      "epoch": 1.6367980884109916,
+      "grad_norm": 0.494831383228302,
+      "learning_rate": 6.842160020108104e-05,
+      "loss": 0.026,
+      "step": 4110
+    },
+    {
+      "epoch": 1.6407805655117484,
+      "grad_norm": 0.652524471282959,
+      "learning_rate": 6.826778415493455e-05,
+      "loss": 0.0254,
+      "step": 4120
+    },
+    {
+      "epoch": 1.6447630426125048,
+      "grad_norm": 0.315049409866333,
+      "learning_rate": 6.811376833522729e-05,
+      "loss": 0.0251,
+      "step": 4130
+    },
+    {
+      "epoch": 1.6487455197132617,
+      "grad_norm": 0.3198871910572052,
+      "learning_rate": 6.795955442625159e-05,
+      "loss": 0.0277,
+      "step": 4140
+    },
+    {
+      "epoch": 1.6527279968140183,
+      "grad_norm": 0.523373544216156,
+      "learning_rate": 6.780514411446608e-05,
+      "loss": 0.0255,
+      "step": 4150
+    },
+    {
+      "epoch": 1.6567104739147749,
+      "grad_norm": 0.4847145080566406,
+      "learning_rate": 6.765053908847716e-05,
+      "loss": 0.0197,
+      "step": 4160
+    },
+    {
+      "epoch": 1.6606929510155317,
+      "grad_norm": 0.4315938353538513,
+      "learning_rate": 6.749574103902064e-05,
+      "loss": 0.027,
+      "step": 4170
+    },
+    {
+      "epoch": 1.6646754281162883,
+      "grad_norm": 0.3840107023715973,
+      "learning_rate": 6.734075165894317e-05,
+      "loss": 0.0286,
+      "step": 4180
+    },
+    {
+      "epoch": 1.668657905217045,
+      "grad_norm": 0.42311540246009827,
+      "learning_rate": 6.71855726431838e-05,
+      "loss": 0.028,
+      "step": 4190
+    },
+    {
+      "epoch": 1.6726403823178018,
+      "grad_norm": 0.38411083817481995,
+      "learning_rate": 6.703020568875538e-05,
+      "loss": 0.0263,
+      "step": 4200
+    },
+    {
+      "epoch": 1.6766228594185584,
+      "grad_norm": 0.368691623210907,
+      "learning_rate": 6.687465249472603e-05,
+      "loss": 0.0266,
+      "step": 4210
+    },
+    {
+      "epoch": 1.680605336519315,
+      "grad_norm": 0.5589401125907898,
+      "learning_rate": 6.671891476220055e-05,
+      "loss": 0.0255,
+      "step": 4220
+    },
+    {
+      "epoch": 1.6845878136200718,
+      "grad_norm": 0.5339823365211487,
+      "learning_rate": 6.656299419430183e-05,
+      "loss": 0.0248,
+      "step": 4230
+    },
+    {
+      "epoch": 1.6885702907208282,
+      "grad_norm": 0.3141709566116333,
+      "learning_rate": 6.640689249615223e-05,
+      "loss": 0.0261,
+      "step": 4240
+    },
+    {
+      "epoch": 1.692552767821585,
+      "grad_norm": 0.31322765350341797,
+      "learning_rate": 6.625061137485491e-05,
+      "loss": 0.0275,
+      "step": 4250
+    },
+    {
+      "epoch": 1.6965352449223416,
+      "grad_norm": 0.35308682918548584,
+      "learning_rate": 6.609415253947517e-05,
+      "loss": 0.0288,
+      "step": 4260
+    },
+    {
+      "epoch": 1.7005177220230983,
+      "grad_norm": 0.32278379797935486,
+      "learning_rate": 6.593751770102178e-05,
+      "loss": 0.0214,
+      "step": 4270
+    },
+    {
+      "epoch": 1.704500199123855,
+      "grad_norm": 0.2799319922924042,
+      "learning_rate": 6.578070857242823e-05,
+      "loss": 0.0246,
+      "step": 4280
+    },
+    {
+      "epoch": 1.7084826762246117,
+      "grad_norm": 0.4078690707683563,
+      "learning_rate": 6.562372686853402e-05,
+      "loss": 0.022,
+      "step": 4290
+    },
+    {
+      "epoch": 1.7124651533253683,
+      "grad_norm": 0.32824915647506714,
+      "learning_rate": 6.546657430606593e-05,
+      "loss": 0.0226,
+      "step": 4300
+    },
+    {
+      "epoch": 1.7164476304261251,
+      "grad_norm": 0.4191490411758423,
+      "learning_rate": 6.530925260361918e-05,
+      "loss": 0.0237,
+      "step": 4310
+    },
+    {
+      "epoch": 1.7204301075268817,
+      "grad_norm": 0.37340426445007324,
+      "learning_rate": 6.515176348163871e-05,
+      "loss": 0.026,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7244125846276384,
+      "grad_norm": 0.44565045833587646,
+      "learning_rate": 6.499410866240032e-05,
+      "loss": 0.0217,
+      "step": 4330
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 0.37896549701690674,
+      "learning_rate": 6.48362898699919e-05,
+      "loss": 0.0215,
+      "step": 4340
+    },
+    {
+      "epoch": 1.7323775388291516,
+      "grad_norm": 0.42717358469963074,
+      "learning_rate": 6.467830883029443e-05,
+      "loss": 0.0241,
+      "step": 4350
+    },
+    {
+      "epoch": 1.7363600159299084,
+      "grad_norm": 0.5169128179550171,
+      "learning_rate": 6.452016727096326e-05,
+      "loss": 0.0244,
+      "step": 4360
+    },
+    {
+      "epoch": 1.7403424930306652,
+      "grad_norm": 0.4041356146335602,
+      "learning_rate": 6.436186692140916e-05,
+      "loss": 0.0234,
+      "step": 4370
+    },
+    {
+      "epoch": 1.7443249701314216,
+      "grad_norm": 0.41365042328834534,
+      "learning_rate": 6.420340951277938e-05,
+      "loss": 0.0214,
+      "step": 4380
+    },
+    {
+      "epoch": 1.7483074472321785,
+      "grad_norm": 0.5286877155303955,
+      "learning_rate": 6.404479677793874e-05,
+      "loss": 0.0259,
+      "step": 4390
+    },
+    {
+      "epoch": 1.752289924332935,
+      "grad_norm": 0.3863738775253296,
+      "learning_rate": 6.388603045145075e-05,
+      "loss": 0.0271,
+      "step": 4400
+    },
+    {
+      "epoch": 1.7562724014336917,
+      "grad_norm": 0.3407500088214874,
+      "learning_rate": 6.372711226955843e-05,
+      "loss": 0.0248,
+      "step": 4410
+    },
+    {
+      "epoch": 1.7602548785344485,
+      "grad_norm": 0.4132188558578491,
+      "learning_rate": 6.356804397016564e-05,
+      "loss": 0.0232,
+      "step": 4420
+    },
+    {
+      "epoch": 1.7642373556352051,
+      "grad_norm": 0.5538100004196167,
+      "learning_rate": 6.340882729281779e-05,
+      "loss": 0.0257,
+      "step": 4430
+    },
+    {
+      "epoch": 1.7682198327359617,
+      "grad_norm": 0.5813969969749451,
+      "learning_rate": 6.324946397868294e-05,
+      "loss": 0.0289,
+      "step": 4440
+    },
+    {
+      "epoch": 1.7722023098367186,
+      "grad_norm": 0.381994366645813,
+      "learning_rate": 6.308995577053276e-05,
+      "loss": 0.0241,
+      "step": 4450
+    },
+    {
+      "epoch": 1.776184786937475,
+      "grad_norm": 0.49612873792648315,
+      "learning_rate": 6.293030441272347e-05,
+      "loss": 0.0267,
+      "step": 4460
+    },
+    {
+      "epoch": 1.7801672640382318,
+      "grad_norm": 0.5249873995780945,
+      "learning_rate": 6.277051165117677e-05,
+      "loss": 0.0246,
+      "step": 4470
+    },
+    {
+      "epoch": 1.7841497411389886,
+      "grad_norm": 0.3832807242870331,
+      "learning_rate": 6.261057923336064e-05,
+      "loss": 0.0267,
+      "step": 4480
+    },
+    {
+      "epoch": 1.788132218239745,
+      "grad_norm": 0.31773999333381653,
+      "learning_rate": 6.245050890827042e-05,
+      "loss": 0.0276,
+      "step": 4490
+    },
+    {
+      "epoch": 1.7921146953405018,
+      "grad_norm": 0.275312215089798,
+      "learning_rate": 6.229030242640952e-05,
+      "loss": 0.0238,
+      "step": 4500
+    },
+    {
+      "epoch": 1.7960971724412584,
+      "grad_norm": 0.5737529397010803,
+      "learning_rate": 6.212996153977037e-05,
+      "loss": 0.0308,
+      "step": 4510
+    },
+    {
+      "epoch": 1.800079649542015,
+      "grad_norm": 0.33575618267059326,
+      "learning_rate": 6.196948800181523e-05,
+      "loss": 0.0258,
+      "step": 4520
+    },
+    {
+      "epoch": 1.8040621266427719,
+      "grad_norm": 0.6271135807037354,
+      "learning_rate": 6.180888356745695e-05,
+      "loss": 0.0267,
+      "step": 4530
+    },
+    {
+      "epoch": 1.8080446037435285,
+      "grad_norm": 0.5151987075805664,
+      "learning_rate": 6.164814999303995e-05,
+      "loss": 0.0239,
+      "step": 4540
+    },
+    {
+      "epoch": 1.812027080844285,
+      "grad_norm": 0.26632851362228394,
+      "learning_rate": 6.148728903632081e-05,
+      "loss": 0.0222,
+      "step": 4550
+    },
+    {
+      "epoch": 1.816009557945042,
+      "grad_norm": 0.4331364929676056,
+      "learning_rate": 6.132630245644921e-05,
+      "loss": 0.0226,
+      "step": 4560
+    },
+    {
+      "epoch": 1.8199920350457985,
+      "grad_norm": 0.26644977927207947,
+      "learning_rate": 6.116519201394857e-05,
+      "loss": 0.0242,
+      "step": 4570
+    },
+    {
+      "epoch": 1.8239745121465551,
+      "grad_norm": 0.45340025424957275,
+      "learning_rate": 6.10039594706969e-05,
+      "loss": 0.0233,
+      "step": 4580
+    },
+    {
+      "epoch": 1.827956989247312,
+      "grad_norm": 0.3398999869823456,
+      "learning_rate": 6.084260658990744e-05,
+      "loss": 0.0226,
+      "step": 4590
+    },
+    {
+      "epoch": 1.8319394663480684,
+      "grad_norm": 0.6932306885719299,
+      "learning_rate": 6.068113513610943e-05,
+      "loss": 0.0239,
+      "step": 4600
+    },
+    {
+      "epoch": 1.8359219434488252,
+      "grad_norm": 0.23555903136730194,
+      "learning_rate": 6.0519546875128876e-05,
+      "loss": 0.0249,
+      "step": 4610
+    },
+    {
+      "epoch": 1.8399044205495818,
+      "grad_norm": 0.49692243337631226,
+      "learning_rate": 6.035784357406906e-05,
+      "loss": 0.0241,
+      "step": 4620
+    },
+    {
+      "epoch": 1.8438868976503384,
+      "grad_norm": 0.32976606488227844,
+      "learning_rate": 6.01960270012914e-05,
+      "loss": 0.0237,
+      "step": 4630
+    },
+    {
+      "epoch": 1.8478693747510953,
+      "grad_norm": 0.4834267199039459,
+      "learning_rate": 6.003409892639599e-05,
+      "loss": 0.027,
+      "step": 4640
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 0.4596833884716034,
+      "learning_rate": 5.9872061120202336e-05,
+      "loss": 0.0246,
+      "step": 4650
+    },
+    {
+      "epoch": 1.8558343289526085,
+      "grad_norm": 0.427120178937912,
+      "learning_rate": 5.9709915354729914e-05,
+      "loss": 0.0269,
+      "step": 4660
+    },
+    {
+      "epoch": 1.8598168060533653,
+      "grad_norm": 0.2686680257320404,
+      "learning_rate": 5.9547663403178824e-05,
+      "loss": 0.0239,
+      "step": 4670
+    },
+    {
+      "epoch": 1.863799283154122,
+      "grad_norm": 0.3082379698753357,
+      "learning_rate": 5.9385307039910445e-05,
+      "loss": 0.0204,
+      "step": 4680
+    },
+    {
+      "epoch": 1.8677817602548785,
+      "grad_norm": 0.34263017773628235,
+      "learning_rate": 5.922284804042792e-05,
+      "loss": 0.0249,
+      "step": 4690
+    },
+    {
+      "epoch": 1.8717642373556354,
+      "grad_norm": 0.23308919370174408,
+      "learning_rate": 5.906028818135687e-05,
+      "loss": 0.0248,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8757467144563917,
+      "grad_norm": 0.29352062940597534,
+      "learning_rate": 5.889762924042585e-05,
+      "loss": 0.0231,
+      "step": 4710
+    },
+    {
+      "epoch": 1.8797291915571486,
+      "grad_norm": 0.45019692182540894,
+      "learning_rate": 5.873487299644699e-05,
+      "loss": 0.0265,
+      "step": 4720
+    },
+    {
+      "epoch": 1.8837116686579052,
+      "grad_norm": 0.4193218946456909,
+      "learning_rate": 5.857202122929649e-05,
+      "loss": 0.0228,
+      "step": 4730
+    },
+    {
+      "epoch": 1.8876941457586618,
+      "grad_norm": 0.5292001366615295,
+      "learning_rate": 5.840907571989518e-05,
+      "loss": 0.0218,
+      "step": 4740
+    },
+    {
+      "epoch": 1.8916766228594186,
+      "grad_norm": 0.36202308535575867,
+      "learning_rate": 5.824603825018904e-05,
+      "loss": 0.0229,
+      "step": 4750
+    },
+    {
+      "epoch": 1.8956590999601752,
+      "grad_norm": 0.2474525272846222,
+      "learning_rate": 5.808291060312975e-05,
+      "loss": 0.0259,
+      "step": 4760
+    },
+    {
+      "epoch": 1.8996415770609318,
+      "grad_norm": 0.23628737032413483,
+      "learning_rate": 5.7919694562655083e-05,
+      "loss": 0.0218,
+      "step": 4770
+    },
+    {
+      "epoch": 1.9036240541616887,
+      "grad_norm": 0.38689592480659485,
+      "learning_rate": 5.775639191366954e-05,
+      "loss": 0.0246,
+      "step": 4780
+    },
+    {
+      "epoch": 1.9076065312624453,
+      "grad_norm": 0.3524068593978882,
+      "learning_rate": 5.75930044420247e-05,
+      "loss": 0.0209,
+      "step": 4790
+    },
+    {
+      "epoch": 1.911589008363202,
+      "grad_norm": 0.3510373830795288,
+      "learning_rate": 5.74295339344998e-05,
+      "loss": 0.026,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9155714854639587,
+      "grad_norm": 0.5862729549407959,
+      "learning_rate": 5.726598217878211e-05,
+      "loss": 0.0229,
+      "step": 4810
+    },
+    {
+      "epoch": 1.919553962564715,
+      "grad_norm": 0.47685012221336365,
+      "learning_rate": 5.71023509634474e-05,
+      "loss": 0.0229,
+      "step": 4820
+    },
+    {
+      "epoch": 1.923536439665472,
+      "grad_norm": 0.5108020901679993,
+      "learning_rate": 5.693864207794049e-05,
+      "loss": 0.0281,
+      "step": 4830
+    },
+    {
+      "epoch": 1.9275189167662286,
+      "grad_norm": 0.45045313239097595,
+      "learning_rate": 5.677485731255545e-05,
+      "loss": 0.0287,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9315013938669852,
+      "grad_norm": 0.3624630868434906,
+      "learning_rate": 5.6610998458416296e-05,
+      "loss": 0.027,
+      "step": 4850
+    },
+    {
+      "epoch": 1.935483870967742,
+      "grad_norm": 0.3359379768371582,
+      "learning_rate": 5.644706730745716e-05,
+      "loss": 0.0205,
+      "step": 4860
+    },
+    {
+      "epoch": 1.9394663480684986,
+      "grad_norm": 0.2658320963382721,
+      "learning_rate": 5.628306565240287e-05,
+      "loss": 0.0222,
+      "step": 4870
+    },
+    {
+      "epoch": 1.9434488251692552,
+      "grad_norm": 0.16451801359653473,
+      "learning_rate": 5.611899528674923e-05,
+      "loss": 0.0249,
+      "step": 4880
+    },
+    {
+      "epoch": 1.947431302270012,
+      "grad_norm": 0.24440331757068634,
+      "learning_rate": 5.595485800474349e-05,
+      "loss": 0.0217,
+      "step": 4890
+    },
+    {
+      "epoch": 1.9514137793707687,
+      "grad_norm": 0.34016168117523193,
+      "learning_rate": 5.579065560136467e-05,
+      "loss": 0.0253,
+      "step": 4900
+    },
+    {
+      "epoch": 1.9553962564715253,
+      "grad_norm": 0.47430235147476196,
+      "learning_rate": 5.562638987230392e-05,
+      "loss": 0.0239,
+      "step": 4910
+    },
+    {
+      "epoch": 1.959378733572282,
+      "grad_norm": 0.40641021728515625,
+      "learning_rate": 5.546206261394498e-05,
+      "loss": 0.0216,
+      "step": 4920
+    },
+    {
+      "epoch": 1.9633612106730385,
+      "grad_norm": 0.39244401454925537,
+      "learning_rate": 5.529767562334437e-05,
+      "loss": 0.0236,
+      "step": 4930
+    },
+    {
+      "epoch": 1.9673436877737953,
+      "grad_norm": 0.3444770276546478,
+      "learning_rate": 5.5133230698211926e-05,
+      "loss": 0.0229,
+      "step": 4940
+    },
+    {
+      "epoch": 1.971326164874552,
+      "grad_norm": 0.40012794733047485,
+      "learning_rate": 5.496872963689096e-05,
+      "loss": 0.0233,
+      "step": 4950
+    },
+    {
+      "epoch": 1.9753086419753085,
+      "grad_norm": 0.39745375514030457,
+      "learning_rate": 5.4804174238338756e-05,
+      "loss": 0.0205,
+      "step": 4960
+    },
+    {
+      "epoch": 1.9792911190760654,
+      "grad_norm": 0.36429905891418457,
+      "learning_rate": 5.463956630210678e-05,
+      "loss": 0.0272,
+      "step": 4970
+    },
+    {
+      "epoch": 1.983273596176822,
+      "grad_norm": 0.3775866627693176,
+      "learning_rate": 5.4474907628321046e-05,
+      "loss": 0.0254,
+      "step": 4980
+    },
+    {
+      "epoch": 1.9872560732775786,
+      "grad_norm": 0.2797946333885193,
+      "learning_rate": 5.431020001766244e-05,
+      "loss": 0.0232,
+      "step": 4990
+    },
+    {
+      "epoch": 1.9912385503783354,
+      "grad_norm": 0.31640321016311646,
+      "learning_rate": 5.4145445271346986e-05,
+      "loss": 0.0236,
+      "step": 5000
+    },
+    {
+      "epoch": 1.995221027479092,
+      "grad_norm": 0.25763505697250366,
+      "learning_rate": 5.398064519110622e-05,
+      "loss": 0.025,
+      "step": 5010
+    },
+    {
+      "epoch": 1.9992035045798486,
+      "grad_norm": 0.3182986080646515,
+      "learning_rate": 5.3815801579167394e-05,
+      "loss": 0.0231,
+      "step": 5020
+    },
+    {
+      "epoch": 2.0031859816806055,
+      "grad_norm": 0.2998727262020111,
+      "learning_rate": 5.365091623823382e-05,
+      "loss": 0.0228,
+      "step": 5030
+    },
+    {
+      "epoch": 2.007168458781362,
+      "grad_norm": 0.3551591634750366,
+      "learning_rate": 5.348599097146521e-05,
+      "loss": 0.0232,
+      "step": 5040
+    },
+    {
+      "epoch": 2.0111509358821187,
+      "grad_norm": 0.3020910620689392,
+      "learning_rate": 5.3321027582457836e-05,
+      "loss": 0.0207,
+      "step": 5050
+    },
+    {
+      "epoch": 2.0151334129828755,
+      "grad_norm": 0.19936051964759827,
+      "learning_rate": 5.315602787522491e-05,
+      "loss": 0.0226,
+      "step": 5060
+    },
+    {
+      "epoch": 2.019115890083632,
+      "grad_norm": 0.3585205078125,
+      "learning_rate": 5.299099365417678e-05,
+      "loss": 0.0198,
+      "step": 5070
+    },
+    {
+      "epoch": 2.0230983671843887,
+      "grad_norm": 0.3065052926540375,
+      "learning_rate": 5.2825926724101236e-05,
+      "loss": 0.0224,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0270808442851456,
+      "grad_norm": 0.420714408159256,
+      "learning_rate": 5.26608288901438e-05,
+      "loss": 0.0227,
+      "step": 5090
+    },
+    {
+      "epoch": 2.031063321385902,
+      "grad_norm": 0.43053722381591797,
+      "learning_rate": 5.24957019577879e-05,
+      "loss": 0.025,
+      "step": 5100
+    },
+    {
+      "epoch": 2.035045798486659,
+      "grad_norm": 0.2843393385410309,
+      "learning_rate": 5.2330547732835266e-05,
+      "loss": 0.02,
+      "step": 5110
+    },
+    {
+      "epoch": 2.039028275587415,
+      "grad_norm": 0.43334928154945374,
+      "learning_rate": 5.2165368021385996e-05,
+      "loss": 0.027,
+      "step": 5120
+    },
+    {
+      "epoch": 2.043010752688172,
+      "grad_norm": 0.362897664308548,
+      "learning_rate": 5.200016462981897e-05,
+      "loss": 0.02,
+      "step": 5130
+    },
+    {
+      "epoch": 2.046993229788929,
+      "grad_norm": 0.23573912680149078,
+      "learning_rate": 5.1834939364772015e-05,
+      "loss": 0.0214,
+      "step": 5140
+    },
+    {
+      "epoch": 2.0509757068896852,
+      "grad_norm": 0.4564460217952728,
+      "learning_rate": 5.166969403312214e-05,
+      "loss": 0.0191,
+      "step": 5150
+    },
+    {
+      "epoch": 2.054958183990442,
+      "grad_norm": 0.3464418351650238,
+      "learning_rate": 5.1504430441965844e-05,
+      "loss": 0.0227,
+      "step": 5160
+    },
+    {
+      "epoch": 2.058940661091199,
+      "grad_norm": 0.31323158740997314,
+      "learning_rate": 5.133915039859923e-05,
+      "loss": 0.0165,
+      "step": 5170
+    },
+    {
+      "epoch": 2.0629231381919553,
+      "grad_norm": 0.3442908823490143,
+      "learning_rate": 5.1173855710498444e-05,
+      "loss": 0.0184,
+      "step": 5180
+    },
+    {
+      "epoch": 2.066905615292712,
+      "grad_norm": 0.34509140253067017,
+      "learning_rate": 5.100854818529967e-05,
+      "loss": 0.0221,
+      "step": 5190
+    },
+    {
+      "epoch": 2.070888092393469,
+      "grad_norm": 0.42281949520111084,
+      "learning_rate": 5.084322963077951e-05,
+      "loss": 0.0254,
+      "step": 5200
+    },
+    {
+      "epoch": 2.0748705694942253,
+      "grad_norm": 0.37458059191703796,
+      "learning_rate": 5.067790185483522e-05,
+      "loss": 0.0242,
+      "step": 5210
+    },
+    {
+      "epoch": 2.078853046594982,
+      "grad_norm": 0.32702142000198364,
+      "learning_rate": 5.0512566665464844e-05,
+      "loss": 0.022,
+      "step": 5220
+    },
+    {
+      "epoch": 2.0828355236957385,
+      "grad_norm": 0.3271017074584961,
+      "learning_rate": 5.034722587074755e-05,
+      "loss": 0.0221,
+      "step": 5230
+    },
+    {
+      "epoch": 2.0868180007964954,
+      "grad_norm": 0.24677887558937073,
+      "learning_rate": 5.018188127882375e-05,
+      "loss": 0.021,
+      "step": 5240
+    },
+    {
+      "epoch": 2.090800477897252,
+      "grad_norm": 0.46573442220687866,
+      "learning_rate": 5.0016534697875417e-05,
+      "loss": 0.0205,
+      "step": 5250
+    },
+    {
+      "epoch": 2.0947829549980086,
+      "grad_norm": 0.3796365261077881,
+      "learning_rate": 4.9851187936106294e-05,
+      "loss": 0.0234,
+      "step": 5260
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 0.43988627195358276,
+      "learning_rate": 4.968584280172206e-05,
+      "loss": 0.0215,
+      "step": 5270
+    },
+    {
+      "epoch": 2.1027479091995223,
+      "grad_norm": 0.33803004026412964,
+      "learning_rate": 4.95205011029106e-05,
+      "loss": 0.0259,
+      "step": 5280
+    },
+    {
+      "epoch": 2.1067303863002786,
+      "grad_norm": 0.41677144169807434,
+      "learning_rate": 4.935516464782227e-05,
+      "loss": 0.0228,
+      "step": 5290
+    },
+    {
+      "epoch": 2.1107128634010355,
+      "grad_norm": 0.42126816511154175,
+      "learning_rate": 4.918983524455003e-05,
+      "loss": 0.0203,
+      "step": 5300
+    },
+    {
+      "epoch": 2.1146953405017923,
+      "grad_norm": 0.37511423230171204,
+      "learning_rate": 4.9024514701109766e-05,
+      "loss": 0.0235,
+      "step": 5310
+    },
+    {
+      "epoch": 2.1186778176025487,
+      "grad_norm": 0.39171236753463745,
+      "learning_rate": 4.885920482542043e-05,
+      "loss": 0.0213,
+      "step": 5320
+    },
+    {
+      "epoch": 2.1226602947033055,
+      "grad_norm": 0.18626952171325684,
+      "learning_rate": 4.869390742528438e-05,
+      "loss": 0.0218,
+      "step": 5330
+    },
+    {
+      "epoch": 2.126642771804062,
+      "grad_norm": 0.3419274687767029,
+      "learning_rate": 4.852862430836744e-05,
+      "loss": 0.0223,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1306252489048187,
+      "grad_norm": 0.33058205246925354,
+      "learning_rate": 4.836335728217933e-05,
+      "loss": 0.0207,
+      "step": 5350
+    },
+    {
+      "epoch": 2.1346077260055756,
+      "grad_norm": 0.3550313115119934,
+      "learning_rate": 4.819810815405379e-05,
+      "loss": 0.0242,
+      "step": 5360
+    },
+    {
+      "epoch": 2.138590203106332,
+      "grad_norm": 0.19980837404727936,
+      "learning_rate": 4.803287873112877e-05,
+      "loss": 0.0228,
+      "step": 5370
+    },
+    {
+      "epoch": 2.142572680207089,
+      "grad_norm": 0.31689023971557617,
+      "learning_rate": 4.786767082032681e-05,
+      "loss": 0.0233,
+      "step": 5380
+    },
+    {
+      "epoch": 2.1465551573078456,
+      "grad_norm": 0.41753360629081726,
+      "learning_rate": 4.77024862283351e-05,
+      "loss": 0.0203,
+      "step": 5390
+    },
+    {
+      "epoch": 2.150537634408602,
+      "grad_norm": 0.39587217569351196,
+      "learning_rate": 4.753732676158593e-05,
+      "loss": 0.0228,
+      "step": 5400
+    },
+    {
+      "epoch": 2.154520111509359,
+      "grad_norm": 0.2790881097316742,
+      "learning_rate": 4.737219422623672e-05,
+      "loss": 0.0209,
+      "step": 5410
+    },
+    {
+      "epoch": 2.1585025886101157,
+      "grad_norm": 0.30612117052078247,
+      "learning_rate": 4.720709042815044e-05,
+      "loss": 0.0196,
+      "step": 5420
+    },
+    {
+      "epoch": 2.162485065710872,
+      "grad_norm": 0.281535804271698,
+      "learning_rate": 4.704201717287578e-05,
+      "loss": 0.021,
+      "step": 5430
+    },
+    {
+      "epoch": 2.166467542811629,
+      "grad_norm": 0.3152558505535126,
+      "learning_rate": 4.6876976265627404e-05,
+      "loss": 0.0207,
+      "step": 5440
+    },
+    {
+      "epoch": 2.1704500199123853,
+      "grad_norm": 0.34031733870506287,
+      "learning_rate": 4.671196951126626e-05,
+      "loss": 0.0237,
+      "step": 5450
+    },
+    {
+      "epoch": 2.174432497013142,
+      "grad_norm": 0.3888844847679138,
+      "learning_rate": 4.654699871427971e-05,
+      "loss": 0.0228,
+      "step": 5460
+    },
+    {
+      "epoch": 2.178414974113899,
+      "grad_norm": 0.4517046809196472,
+      "learning_rate": 4.6382065678762034e-05,
+      "loss": 0.0207,
+      "step": 5470
+    },
+    {
+      "epoch": 2.1823974512146553,
+      "grad_norm": 0.47930458188056946,
+      "learning_rate": 4.6217172208394424e-05,
+      "loss": 0.0191,
+      "step": 5480
+    },
+    {
+      "epoch": 2.186379928315412,
+      "grad_norm": 0.45588383078575134,
+      "learning_rate": 4.605232010642549e-05,
+      "loss": 0.0183,
+      "step": 5490
+    },
+    {
+      "epoch": 2.190362405416169,
+      "grad_norm": 0.4268426299095154,
+      "learning_rate": 4.588751117565142e-05,
+      "loss": 0.0185,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1943448825169254,
+      "grad_norm": 0.3531598746776581,
+      "learning_rate": 4.5722747218396214e-05,
+      "loss": 0.022,
+      "step": 5510
+    },
+    {
+      "epoch": 2.198327359617682,
+      "grad_norm": 0.40506526827812195,
+      "learning_rate": 4.5558030036492194e-05,
+      "loss": 0.0159,
+      "step": 5520
+    },
+    {
+      "epoch": 2.202309836718439,
+      "grad_norm": 0.40846410393714905,
+      "learning_rate": 4.539336143125999e-05,
+      "loss": 0.0242,
+      "step": 5530
+    },
+    {
+      "epoch": 2.2062923138191954,
+      "grad_norm": 0.32607802748680115,
+      "learning_rate": 4.522874320348916e-05,
+      "loss": 0.0191,
+      "step": 5540
+    },
+    {
+      "epoch": 2.2102747909199523,
+      "grad_norm": 0.2733158767223358,
+      "learning_rate": 4.506417715341821e-05,
+      "loss": 0.0162,
+      "step": 5550
+    },
+    {
+      "epoch": 2.2142572680207087,
+      "grad_norm": 0.33395612239837646,
+      "learning_rate": 4.489966508071511e-05,
+      "loss": 0.0218,
+      "step": 5560
+    },
+    {
+      "epoch": 2.2182397451214655,
+      "grad_norm": 0.41164472699165344,
+      "learning_rate": 4.4735208784457575e-05,
+      "loss": 0.0174,
+      "step": 5570
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.36547839641571045,
+      "learning_rate": 4.457081006311325e-05,
+      "loss": 0.0218,
+      "step": 5580
+    },
+    {
+      "epoch": 2.2262046993229787,
+      "grad_norm": 0.29824769496917725,
+      "learning_rate": 4.440647071452027e-05,
+      "loss": 0.0211,
+      "step": 5590
+    },
+    {
+      "epoch": 2.2301871764237355,
+      "grad_norm": 0.39595574140548706,
+      "learning_rate": 4.424219253586737e-05,
+      "loss": 0.0198,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2341696535244924,
+      "grad_norm": 0.41299372911453247,
+      "learning_rate": 4.407797732367443e-05,
+      "loss": 0.0235,
+      "step": 5610
+    },
+    {
+      "epoch": 2.2381521306252488,
+      "grad_norm": 0.37849029898643494,
+      "learning_rate": 4.391382687377268e-05,
+      "loss": 0.0205,
+      "step": 5620
+    },
+    {
+      "epoch": 2.2421346077260056,
+      "grad_norm": 0.28084832429885864,
+      "learning_rate": 4.374974298128512e-05,
+      "loss": 0.0193,
+      "step": 5630
+    },
+    {
+      "epoch": 2.2461170848267624,
+      "grad_norm": 0.21386095881462097,
+      "learning_rate": 4.358572744060699e-05,
+      "loss": 0.0194,
+      "step": 5640
+    },
+    {
+      "epoch": 2.250099561927519,
+      "grad_norm": 0.4740445017814636,
+      "learning_rate": 4.342178204538588e-05,
+      "loss": 0.0188,
+      "step": 5650
+    },
+    {
+      "epoch": 2.2540820390282756,
+      "grad_norm": 0.4500332474708557,
+      "learning_rate": 4.325790858850241e-05,
+      "loss": 0.0186,
+      "step": 5660
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": 0.640240490436554,
+      "learning_rate": 4.309410886205043e-05,
+      "loss": 0.022,
+      "step": 5670
+    },
+    {
+      "epoch": 2.262046993229789,
+      "grad_norm": 0.27766144275665283,
+      "learning_rate": 4.293038465731752e-05,
+      "loss": 0.0201,
+      "step": 5680
+    },
+    {
+      "epoch": 2.2660294703305457,
+      "grad_norm": 0.33782440423965454,
+      "learning_rate": 4.276673776476533e-05,
+      "loss": 0.021,
+      "step": 5690
+    },
+    {
+      "epoch": 2.270011947431302,
+      "grad_norm": 0.23944371938705444,
+      "learning_rate": 4.260316997401007e-05,
+      "loss": 0.0151,
+      "step": 5700
+    },
+    {
+      "epoch": 2.273994424532059,
+      "grad_norm": 0.39826247096061707,
+      "learning_rate": 4.243968307380293e-05,
+      "loss": 0.0209,
+      "step": 5710
+    },
+    {
+      "epoch": 2.2779769016328157,
+      "grad_norm": 0.3525907099246979,
+      "learning_rate": 4.22762788520104e-05,
+      "loss": 0.0229,
+      "step": 5720
+    },
+    {
+      "epoch": 2.281959378733572,
+      "grad_norm": 0.31052958965301514,
+      "learning_rate": 4.211295909559491e-05,
+      "loss": 0.0246,
+      "step": 5730
+    },
+    {
+      "epoch": 2.285941855834329,
+      "grad_norm": 0.25942838191986084,
+      "learning_rate": 4.194972559059511e-05,
+      "loss": 0.016,
+      "step": 5740
+    },
+    {
+      "epoch": 2.289924332935086,
+      "grad_norm": 0.25356385111808777,
+      "learning_rate": 4.178658012210651e-05,
+      "loss": 0.0191,
+      "step": 5750
+    },
+    {
+      "epoch": 2.293906810035842,
+      "grad_norm": 0.23378008604049683,
+      "learning_rate": 4.162352447426177e-05,
+      "loss": 0.0193,
+      "step": 5760
+    },
+    {
+      "epoch": 2.297889287136599,
+      "grad_norm": 0.4612410366535187,
+      "learning_rate": 4.146056043021135e-05,
+      "loss": 0.0191,
+      "step": 5770
+    },
+    {
+      "epoch": 2.3018717642373554,
+      "grad_norm": 0.32934215664863586,
+      "learning_rate": 4.1297689772103944e-05,
+      "loss": 0.0222,
+      "step": 5780
+    },
+    {
+      "epoch": 2.3058542413381122,
+      "grad_norm": 0.32064372301101685,
+      "learning_rate": 4.113491428106694e-05,
+      "loss": 0.019,
+      "step": 5790
+    },
+    {
+      "epoch": 2.309836718438869,
+      "grad_norm": 0.28313177824020386,
+      "learning_rate": 4.0972235737187055e-05,
+      "loss": 0.0194,
+      "step": 5800
+    },
+    {
+      "epoch": 2.313819195539626,
+      "grad_norm": 0.2753656208515167,
+      "learning_rate": 4.080965591949076e-05,
+      "loss": 0.0187,
+      "step": 5810
+    },
+    {
+      "epoch": 2.3178016726403823,
+      "grad_norm": 0.4407680928707123,
+      "learning_rate": 4.0647176605924924e-05,
+      "loss": 0.019,
+      "step": 5820
+    },
+    {
+      "epoch": 2.321784149741139,
+      "grad_norm": 0.3289397060871124,
+      "learning_rate": 4.0484799573337255e-05,
+      "loss": 0.0222,
+      "step": 5830
+    },
+    {
+      "epoch": 2.3257666268418955,
+      "grad_norm": 0.19007883965969086,
+      "learning_rate": 4.032252659745699e-05,
+      "loss": 0.0215,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3297491039426523,
+      "grad_norm": 0.3026656210422516,
+      "learning_rate": 4.016035945287539e-05,
+      "loss": 0.0249,
+      "step": 5850
+    },
+    {
+      "epoch": 2.333731581043409,
+      "grad_norm": 0.33095115423202515,
+      "learning_rate": 3.999829991302635e-05,
+      "loss": 0.0199,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3377140581441656,
+      "grad_norm": 0.3494427800178528,
+      "learning_rate": 3.983634975016707e-05,
+      "loss": 0.0193,
+      "step": 5870
+    },
+    {
+      "epoch": 2.3416965352449224,
+      "grad_norm": 0.45006734132766724,
+      "learning_rate": 3.967451073535854e-05,
+      "loss": 0.0214,
+      "step": 5880
+    },
+    {
+      "epoch": 2.3456790123456788,
+      "grad_norm": 0.34191861748695374,
+      "learning_rate": 3.951278463844633e-05,
+      "loss": 0.0205,
+      "step": 5890
+    },
+    {
+      "epoch": 2.3496614894464356,
+      "grad_norm": 0.2956344187259674,
+      "learning_rate": 3.935117322804111e-05,
+      "loss": 0.0216,
+      "step": 5900
+    },
+    {
+      "epoch": 2.3536439665471924,
+      "grad_norm": 0.29354357719421387,
+      "learning_rate": 3.918967827149938e-05,
+      "loss": 0.0198,
+      "step": 5910
+    },
+    {
+      "epoch": 2.3576264436479493,
+      "grad_norm": 0.28611132502555847,
+      "learning_rate": 3.9028301534904094e-05,
+      "loss": 0.0209,
+      "step": 5920
+    },
+    {
+      "epoch": 2.3616089207487057,
+      "grad_norm": 0.3092572093009949,
+      "learning_rate": 3.88670447830454e-05,
+      "loss": 0.0186,
+      "step": 5930
+    },
+    {
+      "epoch": 2.3655913978494625,
+      "grad_norm": 0.3288320004940033,
+      "learning_rate": 3.870590977940132e-05,
+      "loss": 0.0195,
+      "step": 5940
+    },
+    {
+      "epoch": 2.369573874950219,
+      "grad_norm": 0.4887750446796417,
+      "learning_rate": 3.8544898286118404e-05,
+      "loss": 0.0204,
+      "step": 5950
+    },
+    {
+      "epoch": 2.3735563520509757,
+      "grad_norm": 0.23452717065811157,
+      "learning_rate": 3.838401206399257e-05,
+      "loss": 0.0158,
+      "step": 5960
+    },
+    {
+      "epoch": 2.3775388291517325,
+      "grad_norm": 0.3787887394428253,
+      "learning_rate": 3.822325287244975e-05,
+      "loss": 0.0175,
+      "step": 5970
+    },
+    {
+      "epoch": 2.381521306252489,
+      "grad_norm": 0.35094520449638367,
+      "learning_rate": 3.8062622469526725e-05,
+      "loss": 0.0194,
+      "step": 5980
+    },
+    {
+      "epoch": 2.3855037833532458,
+      "grad_norm": 0.5035432577133179,
+      "learning_rate": 3.790212261185183e-05,
+      "loss": 0.0161,
+      "step": 5990
+    },
+    {
+      "epoch": 2.389486260454002,
+      "grad_norm": 0.2279941737651825,
+      "learning_rate": 3.7741755054625794e-05,
+      "loss": 0.0198,
+      "step": 6000
+    },
+    {
+      "epoch": 2.393468737554759,
+      "grad_norm": 0.33681097626686096,
+      "learning_rate": 3.758152155160255e-05,
+      "loss": 0.0167,
+      "step": 6010
+    },
+    {
+      "epoch": 2.397451214655516,
+      "grad_norm": 0.4447823166847229,
+      "learning_rate": 3.742142385506999e-05,
+      "loss": 0.0187,
+      "step": 6020
+    },
+    {
+      "epoch": 2.4014336917562726,
+      "grad_norm": 0.32111281156539917,
+      "learning_rate": 3.72614637158309e-05,
+      "loss": 0.0167,
+      "step": 6030
+    },
+    {
+      "epoch": 2.405416168857029,
+      "grad_norm": 0.3327321708202362,
+      "learning_rate": 3.710164288318371e-05,
+      "loss": 0.021,
+      "step": 6040
+    },
+    {
+      "epoch": 2.409398645957786,
+      "grad_norm": 0.3221536874771118,
+      "learning_rate": 3.694196310490345e-05,
+      "loss": 0.0172,
+      "step": 6050
+    },
+    {
+      "epoch": 2.4133811230585422,
+      "grad_norm": 0.2384720742702484,
+      "learning_rate": 3.678242612722259e-05,
+      "loss": 0.0172,
+      "step": 6060
+    },
+    {
+      "epoch": 2.417363600159299,
+      "grad_norm": 0.4310377240180969,
+      "learning_rate": 3.6623033694811953e-05,
+      "loss": 0.0207,
+      "step": 6070
+    },
+    {
+      "epoch": 2.421346077260056,
+      "grad_norm": 0.2742801904678345,
+      "learning_rate": 3.6463787550761665e-05,
+      "loss": 0.0204,
+      "step": 6080
+    },
+    {
+      "epoch": 2.4253285543608123,
+      "grad_norm": 0.30959945917129517,
+      "learning_rate": 3.630468943656202e-05,
+      "loss": 0.0171,
+      "step": 6090
+    },
+    {
+      "epoch": 2.429311031461569,
+      "grad_norm": 0.23991258442401886,
+      "learning_rate": 3.6145741092084523e-05,
+      "loss": 0.0158,
+      "step": 6100
+    },
+    {
+      "epoch": 2.433293508562326,
+      "grad_norm": 0.3445211350917816,
+      "learning_rate": 3.598694425556278e-05,
+      "loss": 0.0171,
+      "step": 6110
+    },
+    {
+      "epoch": 2.4372759856630823,
+      "grad_norm": 0.23148199915885925,
+      "learning_rate": 3.58283006635736e-05,
+      "loss": 0.0168,
+      "step": 6120
+    },
+    {
+      "epoch": 2.441258462763839,
+      "grad_norm": 0.34516337513923645,
+      "learning_rate": 3.566981205101781e-05,
+      "loss": 0.0214,
+      "step": 6130
+    },
+    {
+      "epoch": 2.445240939864596,
+      "grad_norm": 0.2975906729698181,
+      "learning_rate": 3.5511480151101556e-05,
+      "loss": 0.0182,
+      "step": 6140
+    },
+    {
+      "epoch": 2.4492234169653524,
+      "grad_norm": 0.3364192545413971,
+      "learning_rate": 3.5353306695317104e-05,
+      "loss": 0.0149,
+      "step": 6150
+    },
+    {
+      "epoch": 2.4532058940661092,
+      "grad_norm": 0.32481926679611206,
+      "learning_rate": 3.519529341342402e-05,
+      "loss": 0.0205,
+      "step": 6160
+    },
+    {
+      "epoch": 2.4571883711668656,
+      "grad_norm": 0.35478660464286804,
+      "learning_rate": 3.503744203343026e-05,
+      "loss": 0.0184,
+      "step": 6170
+    },
+    {
+      "epoch": 2.4611708482676224,
+      "grad_norm": 0.40364179015159607,
+      "learning_rate": 3.487975428157318e-05,
+      "loss": 0.0213,
+      "step": 6180
+    },
+    {
+      "epoch": 2.4651533253683793,
+      "grad_norm": 0.2646041512489319,
+      "learning_rate": 3.472223188230083e-05,
+      "loss": 0.0182,
+      "step": 6190
+    },
+    {
+      "epoch": 2.4691358024691357,
+      "grad_norm": 0.21933303773403168,
+      "learning_rate": 3.4564876558252866e-05,
+      "loss": 0.02,
+      "step": 6200
+    },
+    {
+      "epoch": 2.4731182795698925,
+      "grad_norm": 0.41874152421951294,
+      "learning_rate": 3.440769003024195e-05,
+      "loss": 0.0192,
+      "step": 6210
+    },
+    {
+      "epoch": 2.4771007566706493,
+      "grad_norm": 0.40349701046943665,
+      "learning_rate": 3.425067401723477e-05,
+      "loss": 0.0195,
+      "step": 6220
+    },
+    {
+      "epoch": 2.4810832337714057,
+      "grad_norm": 0.36892589926719666,
+      "learning_rate": 3.409383023633325e-05,
+      "loss": 0.0214,
+      "step": 6230
+    },
+    {
+      "epoch": 2.4850657108721625,
+      "grad_norm": 0.3317766785621643,
+      "learning_rate": 3.3937160402755894e-05,
+      "loss": 0.0179,
+      "step": 6240
+    },
+    {
+      "epoch": 2.4890481879729194,
+      "grad_norm": 0.28070494532585144,
+      "learning_rate": 3.378066622981885e-05,
+      "loss": 0.0227,
+      "step": 6250
+    },
+    {
+      "epoch": 2.4930306650736758,
+      "grad_norm": 0.23878398537635803,
+      "learning_rate": 3.362434942891738e-05,
+      "loss": 0.0203,
+      "step": 6260
+    },
+    {
+      "epoch": 2.4970131421744326,
+      "grad_norm": 0.29855674505233765,
+      "learning_rate": 3.346821170950693e-05,
+      "loss": 0.0188,
+      "step": 6270
+    },
+    {
+      "epoch": 2.500995619275189,
+      "grad_norm": 0.35947370529174805,
+      "learning_rate": 3.3312254779084585e-05,
+      "loss": 0.0203,
+      "step": 6280
+    },
+    {
+      "epoch": 2.504978096375946,
+      "grad_norm": 0.38355863094329834,
+      "learning_rate": 3.315648034317039e-05,
+      "loss": 0.0229,
+      "step": 6290
+    },
+    {
+      "epoch": 2.5089605734767026,
+      "grad_norm": 0.20965726673603058,
+      "learning_rate": 3.3000890105288564e-05,
+      "loss": 0.0156,
+      "step": 6300
+    },
+    {
+      "epoch": 2.512943050577459,
+      "grad_norm": 0.21126852929592133,
+      "learning_rate": 3.284548576694908e-05,
+      "loss": 0.0221,
+      "step": 6310
+    },
+    {
+      "epoch": 2.516925527678216,
+      "grad_norm": 0.29997190833091736,
+      "learning_rate": 3.2690269027628815e-05,
+      "loss": 0.0163,
+      "step": 6320
+    },
+    {
+      "epoch": 2.5209080047789723,
+      "grad_norm": 0.2688118815422058,
+      "learning_rate": 3.253524158475324e-05,
+      "loss": 0.018,
+      "step": 6330
+    },
+    {
+      "epoch": 2.524890481879729,
+      "grad_norm": 0.3369862139225006,
+      "learning_rate": 3.238040513367757e-05,
+      "loss": 0.0182,
+      "step": 6340
+    },
+    {
+      "epoch": 2.528872958980486,
+      "grad_norm": 0.17766013741493225,
+      "learning_rate": 3.222576136766843e-05,
+      "loss": 0.0159,
+      "step": 6350
+    },
+    {
+      "epoch": 2.5328554360812428,
+      "grad_norm": 0.2567964494228363,
+      "learning_rate": 3.2071311977885324e-05,
+      "loss": 0.0183,
+      "step": 6360
+    },
+    {
+      "epoch": 2.536837913181999,
+      "grad_norm": 0.2693711519241333,
+      "learning_rate": 3.191705865336197e-05,
+      "loss": 0.0195,
+      "step": 6370
+    },
+    {
+      "epoch": 2.540820390282756,
+      "grad_norm": 0.2565217912197113,
+      "learning_rate": 3.1763003080988075e-05,
+      "loss": 0.0175,
+      "step": 6380
+    },
+    {
+      "epoch": 2.5448028673835124,
+      "grad_norm": 0.44722431898117065,
+      "learning_rate": 3.160914694549063e-05,
+      "loss": 0.0198,
+      "step": 6390
+    },
+    {
+      "epoch": 2.548785344484269,
+      "grad_norm": 0.3705827593803406,
+      "learning_rate": 3.145549192941573e-05,
+      "loss": 0.019,
+      "step": 6400
+    },
+    {
+      "epoch": 2.552767821585026,
+      "grad_norm": 0.3155789077281952,
+      "learning_rate": 3.130203971310999e-05,
+      "loss": 0.0189,
+      "step": 6410
+    },
+    {
+      "epoch": 2.5567502986857824,
+      "grad_norm": 0.29949137568473816,
+      "learning_rate": 3.114879197470225e-05,
+      "loss": 0.0188,
+      "step": 6420
+    },
+    {
+      "epoch": 2.5607327757865392,
+      "grad_norm": 0.3367830216884613,
+      "learning_rate": 3.0995750390085285e-05,
+      "loss": 0.0175,
+      "step": 6430
+    },
+    {
+      "epoch": 2.5647152528872956,
+      "grad_norm": 0.2421615719795227,
+      "learning_rate": 3.084291663289728e-05,
+      "loss": 0.0192,
+      "step": 6440
+    },
+    {
+      "epoch": 2.5686977299880525,
+      "grad_norm": 0.17980587482452393,
+      "learning_rate": 3.069029237450375e-05,
+      "loss": 0.0155,
+      "step": 6450
+    },
+    {
+      "epoch": 2.5726802070888093,
+      "grad_norm": 0.42298945784568787,
+      "learning_rate": 3.053787928397911e-05,
+      "loss": 0.0169,
+      "step": 6460
+    },
+    {
+      "epoch": 2.576662684189566,
+      "grad_norm": 0.2914910316467285,
+      "learning_rate": 3.0385679028088526e-05,
+      "loss": 0.0195,
+      "step": 6470
+    },
+    {
+      "epoch": 2.5806451612903225,
+      "grad_norm": 0.40466681122779846,
+      "learning_rate": 3.023369327126959e-05,
+      "loss": 0.0191,
+      "step": 6480
+    },
+    {
+      "epoch": 2.5846276383910793,
+      "grad_norm": 0.260161429643631,
+      "learning_rate": 3.0081923675614198e-05,
+      "loss": 0.0164,
+      "step": 6490
+    },
+    {
+      "epoch": 2.5886101154918357,
+      "grad_norm": 0.348817378282547,
+      "learning_rate": 2.993037190085034e-05,
+      "loss": 0.0155,
+      "step": 6500
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 0.22140339016914368,
+      "learning_rate": 2.977903960432392e-05,
+      "loss": 0.0192,
+      "step": 6510
+    },
+    {
+      "epoch": 2.5965750696933494,
+      "grad_norm": 0.3535783886909485,
+      "learning_rate": 2.9627928440980722e-05,
+      "loss": 0.0196,
+      "step": 6520
+    },
+    {
+      "epoch": 2.600557546794106,
+      "grad_norm": 0.229234978556633,
+      "learning_rate": 2.9477040063348183e-05,
+      "loss": 0.0206,
+      "step": 6530
+    },
+    {
+      "epoch": 2.6045400238948626,
+      "grad_norm": 0.30883148312568665,
+      "learning_rate": 2.9326376121517456e-05,
+      "loss": 0.0195,
+      "step": 6540
+    },
+    {
+      "epoch": 2.608522500995619,
+      "grad_norm": 0.4454684257507324,
+      "learning_rate": 2.9175938263125236e-05,
+      "loss": 0.024,
+      "step": 6550
+    },
+    {
+      "epoch": 2.612504978096376,
+      "grad_norm": 0.34252026677131653,
+      "learning_rate": 2.9025728133335873e-05,
+      "loss": 0.0206,
+      "step": 6560
+    },
+    {
+      "epoch": 2.6164874551971327,
+      "grad_norm": 0.410495400428772,
+      "learning_rate": 2.8875747374823288e-05,
+      "loss": 0.0201,
+      "step": 6570
+    },
+    {
+      "epoch": 2.6204699322978895,
+      "grad_norm": 0.2930971384048462,
+      "learning_rate": 2.872599762775298e-05,
+      "loss": 0.0242,
+      "step": 6580
+    },
+    {
+      "epoch": 2.624452409398646,
+      "grad_norm": 0.1941741406917572,
+      "learning_rate": 2.857648052976425e-05,
+      "loss": 0.0168,
+      "step": 6590
+    },
+    {
+      "epoch": 2.6284348864994027,
+      "grad_norm": 0.4398362338542938,
+      "learning_rate": 2.8427197715952047e-05,
+      "loss": 0.019,
+      "step": 6600
+    },
+    {
+      "epoch": 2.632417363600159,
+      "grad_norm": 0.434218168258667,
+      "learning_rate": 2.8278150818849393e-05,
+      "loss": 0.0188,
+      "step": 6610
+    },
+    {
+      "epoch": 2.636399840700916,
+      "grad_norm": 0.29979050159454346,
+      "learning_rate": 2.812934146840922e-05,
+      "loss": 0.0175,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6403823178016728,
+      "grad_norm": 0.27494296431541443,
+      "learning_rate": 2.7980771291986764e-05,
+      "loss": 0.0175,
+      "step": 6630
+    },
+    {
+      "epoch": 2.644364794902429,
+      "grad_norm": 0.3515009582042694,
+      "learning_rate": 2.783244191432167e-05,
+      "loss": 0.0185,
+      "step": 6640
+    },
+    {
+      "epoch": 2.648347272003186,
+      "grad_norm": 0.3444755971431732,
+      "learning_rate": 2.768435495752022e-05,
+      "loss": 0.0171,
+      "step": 6650
+    },
+    {
+      "epoch": 2.652329749103943,
+      "grad_norm": 0.2616831362247467,
+      "learning_rate": 2.753651204103771e-05,
+      "loss": 0.02,
+      "step": 6660
+    },
+    {
+      "epoch": 2.656312226204699,
+      "grad_norm": 0.2663615643978119,
+      "learning_rate": 2.7388914781660523e-05,
+      "loss": 0.0149,
+      "step": 6670
+    },
+    {
+      "epoch": 2.660294703305456,
+      "grad_norm": 0.21043306589126587,
+      "learning_rate": 2.7241564793488693e-05,
+      "loss": 0.0202,
+      "step": 6680
+    },
+    {
+      "epoch": 2.664277180406213,
+      "grad_norm": 0.45657920837402344,
+      "learning_rate": 2.7094463687918037e-05,
+      "loss": 0.0151,
+      "step": 6690
+    },
+    {
+      "epoch": 2.6682596575069693,
+      "grad_norm": 0.37648776173591614,
+      "learning_rate": 2.694761307362268e-05,
+      "loss": 0.0192,
+      "step": 6700
+    },
+    {
+      "epoch": 2.672242134607726,
+      "grad_norm": 0.26603221893310547,
+      "learning_rate": 2.6801014556537467e-05,
+      "loss": 0.0169,
+      "step": 6710
+    },
+    {
+      "epoch": 2.6762246117084825,
+      "grad_norm": 0.3080855906009674,
+      "learning_rate": 2.6654669739840243e-05,
+      "loss": 0.0169,
+      "step": 6720
+    },
+    {
+      "epoch": 2.6802070888092393,
+      "grad_norm": 0.3766150176525116,
+      "learning_rate": 2.650858022393451e-05,
+      "loss": 0.0183,
+      "step": 6730
+    },
+    {
+      "epoch": 2.684189565909996,
+      "grad_norm": 0.2229013293981552,
+      "learning_rate": 2.6362747606431747e-05,
+      "loss": 0.0205,
+      "step": 6740
+    },
+    {
+      "epoch": 2.688172043010753,
+      "grad_norm": 0.24441877007484436,
+      "learning_rate": 2.6217173482134172e-05,
+      "loss": 0.0182,
+      "step": 6750
+    },
+    {
+      "epoch": 2.6921545201115094,
+      "grad_norm": 0.25608956813812256,
+      "learning_rate": 2.6071859443017044e-05,
+      "loss": 0.013,
+      "step": 6760
+    },
+    {
+      "epoch": 2.696136997212266,
+      "grad_norm": 0.3526802957057953,
+      "learning_rate": 2.5926807078211414e-05,
+      "loss": 0.0153,
+      "step": 6770
+    },
+    {
+      "epoch": 2.7001194743130226,
+      "grad_norm": 0.46395474672317505,
+      "learning_rate": 2.5782017973986728e-05,
+      "loss": 0.0181,
+      "step": 6780
+    },
+    {
+      "epoch": 2.7041019514137794,
+      "grad_norm": 0.23045793175697327,
+      "learning_rate": 2.5637493713733374e-05,
+      "loss": 0.0161,
+      "step": 6790
+    },
+    {
+      "epoch": 2.7080844285145362,
+      "grad_norm": 0.32080161571502686,
+      "learning_rate": 2.549323587794559e-05,
+      "loss": 0.0196,
+      "step": 6800
+    },
+    {
+      "epoch": 2.7120669056152926,
+      "grad_norm": 0.23438672721385956,
+      "learning_rate": 2.5349246044203895e-05,
+      "loss": 0.0143,
+      "step": 6810
+    },
+    {
+      "epoch": 2.7160493827160495,
+      "grad_norm": 0.33166348934173584,
+      "learning_rate": 2.520552578715808e-05,
+      "loss": 0.0144,
+      "step": 6820
+    },
+    {
+      "epoch": 2.720031859816806,
+      "grad_norm": 0.2601594626903534,
+      "learning_rate": 2.506207667850981e-05,
+      "loss": 0.0159,
+      "step": 6830
+    },
+    {
+      "epoch": 2.7240143369175627,
+      "grad_norm": 0.3093375265598297,
+      "learning_rate": 2.4918900286995555e-05,
+      "loss": 0.0141,
+      "step": 6840
+    },
+    {
+      "epoch": 2.7279968140183195,
+      "grad_norm": 0.15893106162548065,
+      "learning_rate": 2.4775998178369458e-05,
+      "loss": 0.0161,
+      "step": 6850
+    },
+    {
+      "epoch": 2.7319792911190763,
+      "grad_norm": 0.3865691125392914,
+      "learning_rate": 2.4633371915386017e-05,
+      "loss": 0.0188,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7359617682198327,
+      "grad_norm": 0.2376730591058731,
+      "learning_rate": 2.4491023057783235e-05,
+      "loss": 0.0192,
+      "step": 6870
+    },
+    {
+      "epoch": 2.7399442453205896,
+      "grad_norm": 0.38163626194000244,
+      "learning_rate": 2.4348953162265375e-05,
+      "loss": 0.0182,
+      "step": 6880
+    },
+    {
+      "epoch": 2.743926722421346,
+      "grad_norm": 0.22240246832370758,
+      "learning_rate": 2.420716378248607e-05,
+      "loss": 0.0217,
+      "step": 6890
+    },
+    {
+      "epoch": 2.7479091995221028,
+      "grad_norm": 0.4573044180870056,
+      "learning_rate": 2.4065656469031266e-05,
+      "loss": 0.0165,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7518916766228596,
+      "grad_norm": 0.22964206337928772,
+      "learning_rate": 2.3924432769402268e-05,
+      "loss": 0.0186,
+      "step": 6910
+    },
+    {
+      "epoch": 2.755874153723616,
+      "grad_norm": 0.30862241983413696,
+      "learning_rate": 2.3783494227998844e-05,
+      "loss": 0.0224,
+      "step": 6920
+    },
+    {
+      "epoch": 2.759856630824373,
+      "grad_norm": 0.22101591527462006,
+      "learning_rate": 2.3642842386102264e-05,
+      "loss": 0.0163,
+      "step": 6930
+    },
+    {
+      "epoch": 2.763839107925129,
+      "grad_norm": 0.2185278832912445,
+      "learning_rate": 2.3502478781858567e-05,
+      "loss": 0.0145,
+      "step": 6940
+    },
+    {
+      "epoch": 2.767821585025886,
+      "grad_norm": 0.24134941399097443,
+      "learning_rate": 2.3362404950261628e-05,
+      "loss": 0.019,
+      "step": 6950
+    },
+    {
+      "epoch": 2.771804062126643,
+      "grad_norm": 0.2902449071407318,
+      "learning_rate": 2.3222622423136458e-05,
+      "loss": 0.0165,
+      "step": 6960
+    },
+    {
+      "epoch": 2.7757865392273997,
+      "grad_norm": 0.3769952058792114,
+      "learning_rate": 2.3083132729122332e-05,
+      "loss": 0.0135,
+      "step": 6970
+    },
+    {
+      "epoch": 2.779769016328156,
+      "grad_norm": 0.22340670228004456,
+      "learning_rate": 2.294393739365621e-05,
+      "loss": 0.019,
+      "step": 6980
+    },
+    {
+      "epoch": 2.783751493428913,
+      "grad_norm": 0.33232781291007996,
+      "learning_rate": 2.2805037938956e-05,
+      "loss": 0.0162,
+      "step": 6990
+    },
+    {
+      "epoch": 2.7877339705296693,
+      "grad_norm": 0.33404746651649475,
+      "learning_rate": 2.266643588400386e-05,
+      "loss": 0.0162,
+      "step": 7000
+    },
+    {
+      "epoch": 2.791716447630426,
+      "grad_norm": 0.2362033873796463,
+      "learning_rate": 2.252813274452969e-05,
+      "loss": 0.0166,
+      "step": 7010
+    },
+    {
+      "epoch": 2.795698924731183,
+      "grad_norm": 0.15253150463104248,
+      "learning_rate": 2.2390130032994427e-05,
+      "loss": 0.0153,
+      "step": 7020
+    },
+    {
+      "epoch": 2.7996814018319394,
+      "grad_norm": 0.36513105034828186,
+      "learning_rate": 2.2252429258573633e-05,
+      "loss": 0.0172,
+      "step": 7030
+    },
+    {
+      "epoch": 2.803663878932696,
+      "grad_norm": 0.22622640430927277,
+      "learning_rate": 2.2115031927140904e-05,
+      "loss": 0.0158,
+      "step": 7040
+    },
+    {
+      "epoch": 2.8076463560334526,
+      "grad_norm": 0.3483319580554962,
+      "learning_rate": 2.1977939541251463e-05,
+      "loss": 0.0218,
+      "step": 7050
+    },
+    {
+      "epoch": 2.8116288331342094,
+      "grad_norm": 0.3104790449142456,
+      "learning_rate": 2.1841153600125684e-05,
+      "loss": 0.0165,
+      "step": 7060
+    },
+    {
+      "epoch": 2.8156113102349662,
+      "grad_norm": 0.2423543781042099,
+      "learning_rate": 2.170467559963267e-05,
+      "loss": 0.0167,
+      "step": 7070
+    },
+    {
+      "epoch": 2.819593787335723,
+      "grad_norm": 0.3841968774795532,
+      "learning_rate": 2.1568507032273982e-05,
+      "loss": 0.0135,
+      "step": 7080
+    },
+    {
+      "epoch": 2.8235762644364795,
+      "grad_norm": 0.2059573382139206,
+      "learning_rate": 2.1432649387167264e-05,
+      "loss": 0.015,
+      "step": 7090
+    },
+    {
+      "epoch": 2.8275587415372363,
+      "grad_norm": 0.22446751594543457,
+      "learning_rate": 2.1297104150029973e-05,
+      "loss": 0.0162,
+      "step": 7100
+    },
+    {
+      "epoch": 2.8315412186379927,
+      "grad_norm": 0.36766108870506287,
+      "learning_rate": 2.116187280316307e-05,
+      "loss": 0.0172,
+      "step": 7110
+    },
+    {
+      "epoch": 2.8355236957387495,
+      "grad_norm": 0.3884134292602539,
+      "learning_rate": 2.1026956825434908e-05,
+      "loss": 0.0182,
+      "step": 7120
+    },
+    {
+      "epoch": 2.8395061728395063,
+      "grad_norm": 0.3192227780818939,
+      "learning_rate": 2.0892357692265017e-05,
+      "loss": 0.0145,
+      "step": 7130
+    },
+    {
+      "epoch": 2.8434886499402627,
+      "grad_norm": 0.2538623511791229,
+      "learning_rate": 2.0758076875607947e-05,
+      "loss": 0.0191,
+      "step": 7140
+    },
+    {
+      "epoch": 2.8474711270410196,
+      "grad_norm": 0.2836097478866577,
+      "learning_rate": 2.0624115843937207e-05,
+      "loss": 0.0201,
+      "step": 7150
+    },
+    {
+      "epoch": 2.851453604141776,
+      "grad_norm": 0.2728939652442932,
+      "learning_rate": 2.0490476062229157e-05,
+      "loss": 0.0176,
+      "step": 7160
+    },
+    {
+      "epoch": 2.855436081242533,
+      "grad_norm": 0.3548661172389984,
+      "learning_rate": 2.035715899194704e-05,
+      "loss": 0.0161,
+      "step": 7170
+    },
+    {
+      "epoch": 2.8594185583432896,
+      "grad_norm": 0.3930123448371887,
+      "learning_rate": 2.022416609102499e-05,
+      "loss": 0.0177,
+      "step": 7180
+    },
+    {
+      "epoch": 2.8634010354440464,
+      "grad_norm": 0.510944664478302,
+      "learning_rate": 2.009149881385205e-05,
+      "loss": 0.0222,
+      "step": 7190
+    },
+    {
+      "epoch": 2.867383512544803,
+      "grad_norm": 0.3476032018661499,
+      "learning_rate": 1.995915861125634e-05,
+      "loss": 0.0176,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8713659896455597,
+      "grad_norm": 0.2559760510921478,
+      "learning_rate": 1.9827146930489065e-05,
+      "loss": 0.0149,
+      "step": 7210
+    },
+    {
+      "epoch": 2.875348466746316,
+      "grad_norm": 0.20961345732212067,
+      "learning_rate": 1.9695465215208848e-05,
+      "loss": 0.018,
+      "step": 7220
+    },
+    {
+      "epoch": 2.879330943847073,
+      "grad_norm": 0.29862138628959656,
+      "learning_rate": 1.9564114905465813e-05,
+      "loss": 0.0156,
+      "step": 7230
+    },
+    {
+      "epoch": 2.8833134209478297,
+      "grad_norm": 0.3706551492214203,
+      "learning_rate": 1.9433097437685936e-05,
+      "loss": 0.0166,
+      "step": 7240
+    },
+    {
+      "epoch": 2.887295898048586,
+      "grad_norm": 0.4077451825141907,
+      "learning_rate": 1.930241424465521e-05,
+      "loss": 0.0139,
+      "step": 7250
+    },
+    {
+      "epoch": 2.891278375149343,
+      "grad_norm": 0.3151760399341583,
+      "learning_rate": 1.9172066755504115e-05,
+      "loss": 0.0164,
+      "step": 7260
+    },
+    {
+      "epoch": 2.8952608522500993,
+      "grad_norm": 0.29641613364219666,
+      "learning_rate": 1.9042056395691914e-05,
+      "loss": 0.0168,
+      "step": 7270
+    },
+    {
+      "epoch": 2.899243329350856,
+      "grad_norm": 0.3831641376018524,
+      "learning_rate": 1.8912384586991066e-05,
+      "loss": 0.0147,
+      "step": 7280
+    },
+    {
+      "epoch": 2.903225806451613,
+      "grad_norm": 0.3114636540412903,
+      "learning_rate": 1.8783052747471717e-05,
+      "loss": 0.0144,
+      "step": 7290
+    },
+    {
+      "epoch": 2.90720828355237,
+      "grad_norm": 0.26268333196640015,
+      "learning_rate": 1.865406229148611e-05,
+      "loss": 0.0185,
+      "step": 7300
+    },
+    {
+      "epoch": 2.911190760653126,
+      "grad_norm": 0.22112445533275604,
+      "learning_rate": 1.8525414629653233e-05,
+      "loss": 0.0203,
+      "step": 7310
+    },
+    {
+      "epoch": 2.915173237753883,
+      "grad_norm": 0.2656763195991516,
+      "learning_rate": 1.8397111168843255e-05,
+      "loss": 0.0158,
+      "step": 7320
+    },
+    {
+      "epoch": 2.9191557148546394,
+      "grad_norm": 0.341366171836853,
+      "learning_rate": 1.8269153312162323e-05,
+      "loss": 0.0176,
+      "step": 7330
+    },
+    {
+      "epoch": 2.9231381919553963,
+      "grad_norm": 0.27272844314575195,
+      "learning_rate": 1.8141542458937054e-05,
+      "loss": 0.0155,
+      "step": 7340
+    },
+    {
+      "epoch": 2.927120669056153,
+      "grad_norm": 0.4220792353153229,
+      "learning_rate": 1.8014280004699268e-05,
+      "loss": 0.0173,
+      "step": 7350
+    },
+    {
+      "epoch": 2.9311031461569095,
+      "grad_norm": 0.2644200325012207,
+      "learning_rate": 1.788736734117078e-05,
+      "loss": 0.0111,
+      "step": 7360
+    },
+    {
+      "epoch": 2.9350856232576663,
+      "grad_norm": 0.27255773544311523,
+      "learning_rate": 1.7760805856248152e-05,
+      "loss": 0.0166,
+      "step": 7370
+    },
+    {
+      "epoch": 2.9390681003584227,
+      "grad_norm": 0.17350824177265167,
+      "learning_rate": 1.7634596933987518e-05,
+      "loss": 0.016,
+      "step": 7380
+    },
+    {
+      "epoch": 2.9430505774591795,
+      "grad_norm": 0.23067346215248108,
+      "learning_rate": 1.7508741954589404e-05,
+      "loss": 0.0164,
+      "step": 7390
+    },
+    {
+      "epoch": 2.9470330545599364,
+      "grad_norm": 0.3143824636936188,
+      "learning_rate": 1.7383242294383717e-05,
+      "loss": 0.0166,
+      "step": 7400
+    },
+    {
+      "epoch": 2.951015531660693,
+      "grad_norm": 0.2438683658838272,
+      "learning_rate": 1.7258099325814632e-05,
+      "loss": 0.0129,
+      "step": 7410
+    },
+    {
+      "epoch": 2.9549980087614496,
+      "grad_norm": 0.31693488359451294,
+      "learning_rate": 1.7133314417425594e-05,
+      "loss": 0.02,
+      "step": 7420
+    },
+    {
+      "epoch": 2.9589804858622064,
+      "grad_norm": 0.26909369230270386,
+      "learning_rate": 1.7008888933844408e-05,
+      "loss": 0.0155,
+      "step": 7430
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.29988786578178406,
+      "learning_rate": 1.6884824235768172e-05,
+      "loss": 0.0173,
+      "step": 7440
+    },
+    {
+      "epoch": 2.9669454400637196,
+      "grad_norm": 0.2735227048397064,
+      "learning_rate": 1.6761121679948592e-05,
+      "loss": 0.0148,
+      "step": 7450
+    },
+    {
+      "epoch": 2.9709279171644765,
+      "grad_norm": 0.23975975811481476,
+      "learning_rate": 1.663778261917695e-05,
+      "loss": 0.0177,
+      "step": 7460
+    },
+    {
+      "epoch": 2.974910394265233,
+      "grad_norm": 0.3303283452987671,
+      "learning_rate": 1.651480840226952e-05,
+      "loss": 0.0154,
+      "step": 7470
+    },
+    {
+      "epoch": 2.9788928713659897,
+      "grad_norm": 0.3179773688316345,
+      "learning_rate": 1.639220037405258e-05,
+      "loss": 0.017,
+      "step": 7480
+    },
+    {
+      "epoch": 2.982875348466746,
+      "grad_norm": 0.26732003688812256,
+      "learning_rate": 1.6269959875347906e-05,
+      "loss": 0.0162,
+      "step": 7490
+    },
+    {
+      "epoch": 2.986857825567503,
+      "grad_norm": 0.35051149129867554,
+      "learning_rate": 1.614808824295802e-05,
+      "loss": 0.0161,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9908403026682597,
+      "grad_norm": 0.24838776886463165,
+      "learning_rate": 1.602658680965152e-05,
+      "loss": 0.0115,
+      "step": 7510
+    },
+    {
+      "epoch": 2.9948227797690166,
+      "grad_norm": 0.3378634452819824,
+      "learning_rate": 1.5905456904148686e-05,
+      "loss": 0.0183,
+      "step": 7520
+    },
+    {
+      "epoch": 2.998805256869773,
+      "grad_norm": 0.28400248289108276,
+      "learning_rate": 1.57846998511067e-05,
+      "loss": 0.0165,
+      "step": 7530
+    },
+    {
+      "epoch": 3.00278773397053,
+      "grad_norm": 0.2319607138633728,
+      "learning_rate": 1.566431697110538e-05,
+      "loss": 0.0137,
+      "step": 7540
+    },
+    {
+      "epoch": 3.006770211071286,
+      "grad_norm": 0.326729953289032,
+      "learning_rate": 1.554430958063259e-05,
+      "loss": 0.0135,
+      "step": 7550
+    },
+    {
+      "epoch": 3.010752688172043,
+      "grad_norm": 0.2378934919834137,
+      "learning_rate": 1.5424678992069912e-05,
+      "loss": 0.0152,
+      "step": 7560
+    },
+    {
+      "epoch": 3.0147351652728,
+      "grad_norm": 0.24295467138290405,
+      "learning_rate": 1.5305426513678362e-05,
+      "loss": 0.0142,
+      "step": 7570
+    },
+    {
+      "epoch": 3.018717642373556,
+      "grad_norm": 0.2576531767845154,
+      "learning_rate": 1.518655344958388e-05,
+      "loss": 0.0181,
+      "step": 7580
+    },
+    {
+      "epoch": 3.022700119474313,
+      "grad_norm": 0.18377450108528137,
+      "learning_rate": 1.5068061099763275e-05,
+      "loss": 0.0166,
+      "step": 7590
+    },
+    {
+      "epoch": 3.02668259657507,
+      "grad_norm": 0.27830517292022705,
+      "learning_rate": 1.494995076002988e-05,
+      "loss": 0.0154,
+      "step": 7600
+    },
+    {
+      "epoch": 3.0306650736758263,
+      "grad_norm": 0.21844340860843658,
+      "learning_rate": 1.4832223722019456e-05,
+      "loss": 0.012,
+      "step": 7610
+    },
+    {
+      "epoch": 3.034647550776583,
+      "grad_norm": 0.2617688775062561,
+      "learning_rate": 1.4714881273176035e-05,
+      "loss": 0.0174,
+      "step": 7620
+    },
+    {
+      "epoch": 3.0386300278773395,
+      "grad_norm": 0.32421252131462097,
+      "learning_rate": 1.4597924696737835e-05,
+      "loss": 0.0145,
+      "step": 7630
+    },
+    {
+      "epoch": 3.0426125049780963,
+      "grad_norm": 0.29088929295539856,
+      "learning_rate": 1.4481355271723252e-05,
+      "loss": 0.0159,
+      "step": 7640
+    },
+    {
+      "epoch": 3.046594982078853,
+      "grad_norm": 0.33224666118621826,
+      "learning_rate": 1.4365174272916809e-05,
+      "loss": 0.0172,
+      "step": 7650
+    },
+    {
+      "epoch": 3.0505774591796095,
+      "grad_norm": 0.28133267164230347,
+      "learning_rate": 1.4249382970855319e-05,
+      "loss": 0.0164,
+      "step": 7660
+    },
+    {
+      "epoch": 3.0545599362803664,
+      "grad_norm": 0.2961582839488983,
+      "learning_rate": 1.4133982631813903e-05,
+      "loss": 0.0174,
+      "step": 7670
+    },
+    {
+      "epoch": 3.058542413381123,
+      "grad_norm": 0.19143448770046234,
+      "learning_rate": 1.4018974517792194e-05,
+      "loss": 0.0148,
+      "step": 7680
+    },
+    {
+      "epoch": 3.0625248904818796,
+      "grad_norm": 0.26252588629722595,
+      "learning_rate": 1.390435988650048e-05,
+      "loss": 0.0143,
+      "step": 7690
+    },
+    {
+      "epoch": 3.0665073675826364,
+      "grad_norm": 0.19971930980682373,
+      "learning_rate": 1.3790139991346006e-05,
+      "loss": 0.0125,
+      "step": 7700
+    },
+    {
+      "epoch": 3.0704898446833933,
+      "grad_norm": 0.2495674192905426,
+      "learning_rate": 1.367631608141926e-05,
+      "loss": 0.0155,
+      "step": 7710
+    },
+    {
+      "epoch": 3.0744723217841496,
+      "grad_norm": 0.22202928364276886,
+      "learning_rate": 1.3562889401480278e-05,
+      "loss": 0.0148,
+      "step": 7720
+    },
+    {
+      "epoch": 3.0784547988849065,
+      "grad_norm": 0.4576508402824402,
+      "learning_rate": 1.3449861191945074e-05,
+      "loss": 0.0165,
+      "step": 7730
+    },
+    {
+      "epoch": 3.0824372759856633,
+      "grad_norm": 0.3544761836528778,
+      "learning_rate": 1.3337232688872009e-05,
+      "loss": 0.0139,
+      "step": 7740
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 0.3484187722206116,
+      "learning_rate": 1.3225005123948364e-05,
+      "loss": 0.0147,
+      "step": 7750
+    },
+    {
+      "epoch": 3.0904022301871765,
+      "grad_norm": 0.19573178887367249,
+      "learning_rate": 1.311317972447681e-05,
+      "loss": 0.0127,
+      "step": 7760
+    },
+    {
+      "epoch": 3.094384707287933,
+      "grad_norm": 0.19815529882907867,
+      "learning_rate": 1.3001757713361996e-05,
+      "loss": 0.0109,
+      "step": 7770
+    },
+    {
+      "epoch": 3.0983671843886897,
+      "grad_norm": 0.35429829359054565,
+      "learning_rate": 1.2890740309097204e-05,
+      "loss": 0.0161,
+      "step": 7780
+    },
+    {
+      "epoch": 3.1023496614894466,
+      "grad_norm": 0.2911655008792877,
+      "learning_rate": 1.2780128725750944e-05,
+      "loss": 0.0138,
+      "step": 7790
+    },
+    {
+      "epoch": 3.106332138590203,
+      "grad_norm": 0.270168662071228,
+      "learning_rate": 1.266992417295379e-05,
+      "loss": 0.015,
+      "step": 7800
+    },
+    {
+      "epoch": 3.11031461569096,
+      "grad_norm": 0.32108160853385925,
+      "learning_rate": 1.2560127855885073e-05,
+      "loss": 0.0163,
+      "step": 7810
+    },
+    {
+      "epoch": 3.1142970927917166,
+      "grad_norm": 0.24168479442596436,
+      "learning_rate": 1.2450740975259745e-05,
+      "loss": 0.0167,
+      "step": 7820
+    },
+    {
+      "epoch": 3.118279569892473,
+      "grad_norm": 0.30409395694732666,
+      "learning_rate": 1.234176472731517e-05,
+      "loss": 0.0221,
+      "step": 7830
+    },
+    {
+      "epoch": 3.12226204699323,
+      "grad_norm": 0.3229791522026062,
+      "learning_rate": 1.2233200303798158e-05,
+      "loss": 0.0147,
+      "step": 7840
+    },
+    {
+      "epoch": 3.1262445240939867,
+      "grad_norm": 0.26919838786125183,
+      "learning_rate": 1.2125048891951846e-05,
+      "loss": 0.0158,
+      "step": 7850
+    },
+    {
+      "epoch": 3.130227001194743,
+      "grad_norm": 0.23068082332611084,
+      "learning_rate": 1.2017311674502745e-05,
+      "loss": 0.013,
+      "step": 7860
+    },
+    {
+      "epoch": 3.1342094782955,
+      "grad_norm": 0.17686747014522552,
+      "learning_rate": 1.1909989829647822e-05,
+      "loss": 0.0144,
+      "step": 7870
+    },
+    {
+      "epoch": 3.1381919553962563,
+      "grad_norm": 0.45290425419807434,
+      "learning_rate": 1.1803084531041553e-05,
+      "loss": 0.0173,
+      "step": 7880
+    },
+    {
+      "epoch": 3.142174432497013,
+      "grad_norm": 0.2763400673866272,
+      "learning_rate": 1.1696596947783162e-05,
+      "loss": 0.0144,
+      "step": 7890
+    },
+    {
+      "epoch": 3.14615690959777,
+      "grad_norm": 0.2585810422897339,
+      "learning_rate": 1.1590528244403803e-05,
+      "loss": 0.0175,
+      "step": 7900
+    },
+    {
+      "epoch": 3.1501393866985263,
+      "grad_norm": 0.22105610370635986,
+      "learning_rate": 1.148487958085382e-05,
+      "loss": 0.0151,
+      "step": 7910
+    },
+    {
+      "epoch": 3.154121863799283,
+      "grad_norm": 0.21400152146816254,
+      "learning_rate": 1.1379652112490086e-05,
+      "loss": 0.0177,
+      "step": 7920
+    },
+    {
+      "epoch": 3.15810434090004,
+      "grad_norm": 0.1969025582075119,
+      "learning_rate": 1.1274846990063315e-05,
+      "loss": 0.0136,
+      "step": 7930
+    },
+    {
+      "epoch": 3.1620868180007964,
+      "grad_norm": 0.2094409465789795,
+      "learning_rate": 1.117046535970554e-05,
+      "loss": 0.0151,
+      "step": 7940
+    },
+    {
+      "epoch": 3.166069295101553,
+      "grad_norm": 0.29152101278305054,
+      "learning_rate": 1.106650836291755e-05,
+      "loss": 0.0195,
+      "step": 7950
+    },
+    {
+      "epoch": 3.17005177220231,
+      "grad_norm": 0.28160348534584045,
+      "learning_rate": 1.0962977136556418e-05,
+      "loss": 0.0184,
+      "step": 7960
+    },
+    {
+      "epoch": 3.1740342493030664,
+      "grad_norm": 0.3710784614086151,
+      "learning_rate": 1.0859872812823024e-05,
+      "loss": 0.0144,
+      "step": 7970
+    },
+    {
+      "epoch": 3.1780167264038233,
+      "grad_norm": 0.23486924171447754,
+      "learning_rate": 1.0757196519249747e-05,
+      "loss": 0.0189,
+      "step": 7980
+    },
+    {
+      "epoch": 3.1819992035045797,
+      "grad_norm": 0.31155335903167725,
+      "learning_rate": 1.0654949378688077e-05,
+      "loss": 0.0156,
+      "step": 7990
+    },
+    {
+      "epoch": 3.1859816806053365,
+      "grad_norm": 0.21536493301391602,
+      "learning_rate": 1.0553132509296376e-05,
+      "loss": 0.0146,
+      "step": 8000
+    },
+    {
+      "epoch": 3.1899641577060933,
+      "grad_norm": 0.25504568219184875,
+      "learning_rate": 1.0451747024527613e-05,
+      "loss": 0.0139,
+      "step": 8010
+    },
+    {
+      "epoch": 3.1939466348068497,
+      "grad_norm": 0.43125614523887634,
+      "learning_rate": 1.0350794033117189e-05,
+      "loss": 0.017,
+      "step": 8020
+    },
+    {
+      "epoch": 3.1979291119076065,
+      "grad_norm": 0.3463977873325348,
+      "learning_rate": 1.0250274639070856e-05,
+      "loss": 0.0153,
+      "step": 8030
+    },
+    {
+      "epoch": 3.2019115890083634,
+      "grad_norm": 0.33657532930374146,
+      "learning_rate": 1.0150189941652599e-05,
+      "loss": 0.0136,
+      "step": 8040
+    },
+    {
+      "epoch": 3.2058940661091198,
+      "grad_norm": 0.27286818623542786,
+      "learning_rate": 1.0050541035372635e-05,
+      "loss": 0.0123,
+      "step": 8050
+    },
+    {
+      "epoch": 3.2098765432098766,
+      "grad_norm": 0.3115975260734558,
+      "learning_rate": 9.951329009975458e-06,
+      "loss": 0.0149,
+      "step": 8060
+    },
+    {
+      "epoch": 3.2138590203106334,
+      "grad_norm": 0.2783370018005371,
+      "learning_rate": 9.852554950427845e-06,
+      "loss": 0.015,
+      "step": 8070
+    },
+    {
+      "epoch": 3.21784149741139,
+      "grad_norm": 0.2135641872882843,
+      "learning_rate": 9.754219936907105e-06,
+      "loss": 0.0145,
+      "step": 8080
+    },
+    {
+      "epoch": 3.2218239745121466,
+      "grad_norm": 0.2889596223831177,
+      "learning_rate": 9.656325044789194e-06,
+      "loss": 0.0125,
+      "step": 8090
+    },
+    {
+      "epoch": 3.225806451612903,
+      "grad_norm": 0.16843768954277039,
+      "learning_rate": 9.55887134463697e-06,
+      "loss": 0.0116,
+      "step": 8100
+    },
+    {
+      "epoch": 3.22978892871366,
+      "grad_norm": 0.22345881164073944,
+      "learning_rate": 9.461859902188475e-06,
+      "loss": 0.0133,
+      "step": 8110
+    },
+    {
+      "epoch": 3.2337714058144167,
+      "grad_norm": 0.4386395812034607,
+      "learning_rate": 9.365291778345303e-06,
+      "loss": 0.0166,
+      "step": 8120
+    },
+    {
+      "epoch": 3.237753882915173,
+      "grad_norm": 0.15999703109264374,
+      "learning_rate": 9.269168029160991e-06,
+      "loss": 0.0103,
+      "step": 8130
+    },
+    {
+      "epoch": 3.24173636001593,
+      "grad_norm": 0.33131685853004456,
+      "learning_rate": 9.173489705829447e-06,
+      "loss": 0.0152,
+      "step": 8140
+    },
+    {
+      "epoch": 3.2457188371166867,
+      "grad_norm": 0.18595287203788757,
+      "learning_rate": 9.078257854673516e-06,
+      "loss": 0.0136,
+      "step": 8150
+    },
+    {
+      "epoch": 3.249701314217443,
+      "grad_norm": 0.18805378675460815,
+      "learning_rate": 8.983473517133429e-06,
+      "loss": 0.0141,
+      "step": 8160
+    },
+    {
+      "epoch": 3.2536837913182,
+      "grad_norm": 0.15438763797283173,
+      "learning_rate": 8.889137729755537e-06,
+      "loss": 0.013,
+      "step": 8170
+    },
+    {
+      "epoch": 3.257666268418957,
+      "grad_norm": 0.27492639422416687,
+      "learning_rate": 8.79525152418087e-06,
+      "loss": 0.0169,
+      "step": 8180
+    },
+    {
+      "epoch": 3.261648745519713,
+      "grad_norm": 0.28761956095695496,
+      "learning_rate": 8.701815927133961e-06,
+      "loss": 0.014,
+      "step": 8190
+    },
+    {
+      "epoch": 3.26563122262047,
+      "grad_norm": 0.17063534259796143,
+      "learning_rate": 8.608831960411534e-06,
+      "loss": 0.0139,
+      "step": 8200
+    },
+    {
+      "epoch": 3.2696136997212264,
+      "grad_norm": 0.22604522109031677,
+      "learning_rate": 8.516300640871321e-06,
+      "loss": 0.0164,
+      "step": 8210
+    },
+    {
+      "epoch": 3.2735961768219832,
+      "grad_norm": 0.27093005180358887,
+      "learning_rate": 8.424222980421038e-06,
+      "loss": 0.0165,
+      "step": 8220
+    },
+    {
+      "epoch": 3.27757865392274,
+      "grad_norm": 0.2355274260044098,
+      "learning_rate": 8.332599986007184e-06,
+      "loss": 0.0151,
+      "step": 8230
+    },
+    {
+      "epoch": 3.2815611310234964,
+      "grad_norm": 0.23121079802513123,
+      "learning_rate": 8.241432659604203e-06,
+      "loss": 0.0144,
+      "step": 8240
+    },
+    {
+      "epoch": 3.2855436081242533,
+      "grad_norm": 0.1323615461587906,
+      "learning_rate": 8.150721998203331e-06,
+      "loss": 0.0128,
+      "step": 8250
+    },
+    {
+      "epoch": 3.28952608522501,
+      "grad_norm": 0.24003800749778748,
+      "learning_rate": 8.06046899380184e-06,
+      "loss": 0.0123,
+      "step": 8260
+    },
+    {
+      "epoch": 3.2935085623257665,
+      "grad_norm": 0.24698399007320404,
+      "learning_rate": 7.970674633392133e-06,
+      "loss": 0.0166,
+      "step": 8270
+    },
+    {
+      "epoch": 3.2974910394265233,
+      "grad_norm": 0.38070154190063477,
+      "learning_rate": 7.881339898950924e-06,
+      "loss": 0.018,
+      "step": 8280
+    },
+    {
+      "epoch": 3.30147351652728,
+      "grad_norm": 0.1986345499753952,
+      "learning_rate": 7.792465767428597e-06,
+      "loss": 0.0136,
+      "step": 8290
+    },
+    {
+      "epoch": 3.3054559936280365,
+      "grad_norm": 0.21766434609889984,
+      "learning_rate": 7.704053210738376e-06,
+      "loss": 0.0132,
+      "step": 8300
+    },
+    {
+      "epoch": 3.3094384707287934,
+      "grad_norm": 0.20243440568447113,
+      "learning_rate": 7.6161031957458494e-06,
+      "loss": 0.0152,
+      "step": 8310
+    },
+    {
+      "epoch": 3.3134209478295498,
+      "grad_norm": 0.2816754877567291,
+      "learning_rate": 7.5286166842582605e-06,
+      "loss": 0.0148,
+      "step": 8320
+    },
+    {
+      "epoch": 3.3174034249303066,
+      "grad_norm": 0.2514406442642212,
+      "learning_rate": 7.4415946330140814e-06,
+      "loss": 0.0145,
+      "step": 8330
+    },
+    {
+      "epoch": 3.3213859020310634,
+      "grad_norm": 0.2709660530090332,
+      "learning_rate": 7.3550379936725644e-06,
+      "loss": 0.0141,
+      "step": 8340
+    },
+    {
+      "epoch": 3.32536837913182,
+      "grad_norm": 0.2837410569190979,
+      "learning_rate": 7.2689477128032035e-06,
+      "loss": 0.018,
+      "step": 8350
+    },
+    {
+      "epoch": 3.3293508562325766,
+      "grad_norm": 0.131383016705513,
+      "learning_rate": 7.183324731875551e-06,
+      "loss": 0.0105,
+      "step": 8360
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.31221866607666016,
+      "learning_rate": 7.098169987248782e-06,
+      "loss": 0.012,
+      "step": 8370
+    },
+    {
+      "epoch": 3.33731581043409,
+      "grad_norm": 0.2039610892534256,
+      "learning_rate": 7.013484410161553e-06,
+      "loss": 0.0135,
+      "step": 8380
+    },
+    {
+      "epoch": 3.3412982875348467,
+      "grad_norm": 0.22186747193336487,
+      "learning_rate": 6.92926892672176e-06,
+      "loss": 0.0131,
+      "step": 8390
+    },
+    {
+      "epoch": 3.3452807646356035,
+      "grad_norm": 0.1861848533153534,
+      "learning_rate": 6.845524457896446e-06,
+      "loss": 0.0124,
+      "step": 8400
+    },
+    {
+      "epoch": 3.34926324173636,
+      "grad_norm": 0.23007585108280182,
+      "learning_rate": 6.7622519195017165e-06,
+      "loss": 0.0126,
+      "step": 8410
+    },
+    {
+      "epoch": 3.3532457188371168,
+      "grad_norm": 0.26495233178138733,
+      "learning_rate": 6.679452222192684e-06,
+      "loss": 0.0136,
+      "step": 8420
+    },
+    {
+      "epoch": 3.357228195937873,
+      "grad_norm": 0.2193382978439331,
+      "learning_rate": 6.597126271453579e-06,
+      "loss": 0.011,
+      "step": 8430
+    },
+    {
+      "epoch": 3.36121067303863,
+      "grad_norm": 0.10426363348960876,
+      "learning_rate": 6.51527496758782e-06,
+      "loss": 0.0114,
+      "step": 8440
+    },
+    {
+      "epoch": 3.365193150139387,
+      "grad_norm": 0.16592855751514435,
+      "learning_rate": 6.433899205708155e-06,
+      "loss": 0.0131,
+      "step": 8450
+    },
+    {
+      "epoch": 3.369175627240143,
+      "grad_norm": 0.1602918803691864,
+      "learning_rate": 6.352999875726856e-06,
+      "loss": 0.0121,
+      "step": 8460
+    },
+    {
+      "epoch": 3.3731581043409,
+      "grad_norm": 0.16960707306861877,
+      "learning_rate": 6.272577862346052e-06,
+      "loss": 0.0115,
+      "step": 8470
+    },
+    {
+      "epoch": 3.377140581441657,
+      "grad_norm": 0.29499271512031555,
+      "learning_rate": 6.192634045047996e-06,
+      "loss": 0.0129,
+      "step": 8480
+    },
+    {
+      "epoch": 3.3811230585424132,
+      "grad_norm": 0.23193804919719696,
+      "learning_rate": 6.113169298085458e-06,
+      "loss": 0.0194,
+      "step": 8490
+    },
+    {
+      "epoch": 3.38510553564317,
+      "grad_norm": 0.3416202962398529,
+      "learning_rate": 6.034184490472195e-06,
+      "loss": 0.0114,
+      "step": 8500
+    },
+    {
+      "epoch": 3.389088012743927,
+      "grad_norm": 0.22498588263988495,
+      "learning_rate": 5.955680485973386e-06,
+      "loss": 0.0156,
+      "step": 8510
+    },
+    {
+      "epoch": 3.3930704898446833,
+      "grad_norm": 0.3182886838912964,
+      "learning_rate": 5.877658143096265e-06,
+      "loss": 0.0132,
+      "step": 8520
+    },
+    {
+      "epoch": 3.39705296694544,
+      "grad_norm": 0.1463838666677475,
+      "learning_rate": 5.800118315080661e-06,
+      "loss": 0.0129,
+      "step": 8530
+    },
+    {
+      "epoch": 3.4010354440461965,
+      "grad_norm": 0.23471392691135406,
+      "learning_rate": 5.723061849889716e-06,
+      "loss": 0.0126,
+      "step": 8540
+    },
+    {
+      "epoch": 3.4050179211469533,
+      "grad_norm": 0.1969936192035675,
+      "learning_rate": 5.646489590200604e-06,
+      "loss": 0.0161,
+      "step": 8550
+    },
+    {
+      "epoch": 3.40900039824771,
+      "grad_norm": 0.15309295058250427,
+      "learning_rate": 5.570402373395256e-06,
+      "loss": 0.0125,
+      "step": 8560
+    },
+    {
+      "epoch": 3.4129828753484666,
+      "grad_norm": 0.4474526643753052,
+      "learning_rate": 5.494801031551305e-06,
+      "loss": 0.0163,
+      "step": 8570
+    },
+    {
+      "epoch": 3.4169653524492234,
+      "grad_norm": 0.18500779569149017,
+      "learning_rate": 5.41968639143291e-06,
+      "loss": 0.0139,
+      "step": 8580
+    },
+    {
+      "epoch": 3.4209478295499802,
+      "grad_norm": 0.19193483889102936,
+      "learning_rate": 5.345059274481751e-06,
+      "loss": 0.0127,
+      "step": 8590
+    },
+    {
+      "epoch": 3.4249303066507366,
+      "grad_norm": 0.15665030479431152,
+      "learning_rate": 5.270920496808002e-06,
+      "loss": 0.0159,
+      "step": 8600
+    },
+    {
+      "epoch": 3.4289127837514934,
+      "grad_norm": 0.16787682473659515,
+      "learning_rate": 5.1972708691814695e-06,
+      "loss": 0.0116,
+      "step": 8610
+    },
+    {
+      "epoch": 3.4328952608522503,
+      "grad_norm": 0.29282400012016296,
+      "learning_rate": 5.124111197022674e-06,
+      "loss": 0.0145,
+      "step": 8620
+    },
+    {
+      "epoch": 3.4368777379530067,
+      "grad_norm": 0.1538035124540329,
+      "learning_rate": 5.051442280394081e-06,
+      "loss": 0.0118,
+      "step": 8630
+    },
+    {
+      "epoch": 3.4408602150537635,
+      "grad_norm": 0.16790461540222168,
+      "learning_rate": 4.979264913991322e-06,
+      "loss": 0.0132,
+      "step": 8640
+    },
+    {
+      "epoch": 3.44484269215452,
+      "grad_norm": 0.1722331941127777,
+      "learning_rate": 4.907579887134489e-06,
+      "loss": 0.0134,
+      "step": 8650
+    },
+    {
+      "epoch": 3.4488251692552767,
+      "grad_norm": 0.21935425698757172,
+      "learning_rate": 4.836387983759572e-06,
+      "loss": 0.0137,
+      "step": 8660
+    },
+    {
+      "epoch": 3.4528076463560335,
+      "grad_norm": 0.2668359875679016,
+      "learning_rate": 4.765689982409816e-06,
+      "loss": 0.0121,
+      "step": 8670
+    },
+    {
+      "epoch": 3.45679012345679,
+      "grad_norm": 0.34474870562553406,
+      "learning_rate": 4.695486656227233e-06,
+      "loss": 0.0178,
+      "step": 8680
+    },
+    {
+      "epoch": 3.4607726005575468,
+      "grad_norm": 0.3360903859138489,
+      "learning_rate": 4.625778772944156e-06,
+      "loss": 0.013,
+      "step": 8690
+    },
+    {
+      "epoch": 3.4647550776583036,
+      "grad_norm": 0.1198967769742012,
+      "learning_rate": 4.556567094874825e-06,
+      "loss": 0.0139,
+      "step": 8700
+    },
+    {
+      "epoch": 3.46873755475906,
+      "grad_norm": 0.12995925545692444,
+      "learning_rate": 4.487852378907059e-06,
+      "loss": 0.0099,
+      "step": 8710
+    },
+    {
+      "epoch": 3.472720031859817,
+      "grad_norm": 0.14079661667346954,
+      "learning_rate": 4.419635376493986e-06,
+      "loss": 0.0133,
+      "step": 8720
+    },
+    {
+      "epoch": 3.4767025089605736,
+      "grad_norm": 0.23179714381694794,
+      "learning_rate": 4.351916833645825e-06,
+      "loss": 0.0145,
+      "step": 8730
+    },
+    {
+      "epoch": 3.48068498606133,
+      "grad_norm": 0.19353191554546356,
+      "learning_rate": 4.284697490921691e-06,
+      "loss": 0.013,
+      "step": 8740
+    },
+    {
+      "epoch": 3.484667463162087,
+      "grad_norm": 0.2545132040977478,
+      "learning_rate": 4.2179780834215585e-06,
+      "loss": 0.0161,
+      "step": 8750
+    },
+    {
+      "epoch": 3.4886499402628433,
+      "grad_norm": 0.22561277449131012,
+      "learning_rate": 4.151759340778178e-06,
+      "loss": 0.0142,
+      "step": 8760
+    },
+    {
+      "epoch": 3.4926324173636,
+      "grad_norm": 0.25932180881500244,
+      "learning_rate": 4.086041987149109e-06,
+      "loss": 0.0131,
+      "step": 8770
+    },
+    {
+      "epoch": 3.496614894464357,
+      "grad_norm": 0.23832671344280243,
+      "learning_rate": 4.020826741208811e-06,
+      "loss": 0.016,
+      "step": 8780
+    },
+    {
+      "epoch": 3.5005973715651137,
+      "grad_norm": 0.1888727992773056,
+      "learning_rate": 3.956114316140746e-06,
+      "loss": 0.0165,
+      "step": 8790
+    },
+    {
+      "epoch": 3.50457984866587,
+      "grad_norm": 0.2623044550418854,
+      "learning_rate": 3.891905419629643e-06,
+      "loss": 0.0125,
+      "step": 8800
+    },
+    {
+      "epoch": 3.508562325766627,
+      "grad_norm": 0.25887444615364075,
+      "learning_rate": 3.8282007538536946e-06,
+      "loss": 0.0164,
+      "step": 8810
+    },
+    {
+      "epoch": 3.5125448028673834,
+      "grad_norm": 0.21378953754901886,
+      "learning_rate": 3.7650010154769265e-06,
+      "loss": 0.0126,
+      "step": 8820
+    },
+    {
+      "epoch": 3.51652727996814,
+      "grad_norm": 0.2530067563056946,
+      "learning_rate": 3.7023068956415608e-06,
+      "loss": 0.0168,
+      "step": 8830
+    },
+    {
+      "epoch": 3.520509757068897,
+      "grad_norm": 0.27777713537216187,
+      "learning_rate": 3.6401190799604303e-06,
+      "loss": 0.0132,
+      "step": 8840
+    },
+    {
+      "epoch": 3.5244922341696534,
+      "grad_norm": 0.16841277480125427,
+      "learning_rate": 3.578438248509536e-06,
+      "loss": 0.015,
+      "step": 8850
+    },
+    {
+      "epoch": 3.5284747112704102,
+      "grad_norm": 0.22934165596961975,
+      "learning_rate": 3.5172650758205583e-06,
+      "loss": 0.0158,
+      "step": 8860
+    },
+    {
+      "epoch": 3.5324571883711666,
+      "grad_norm": 0.2117910385131836,
+      "learning_rate": 3.45660023087353e-06,
+      "loss": 0.0138,
+      "step": 8870
+    },
+    {
+      "epoch": 3.5364396654719235,
+      "grad_norm": 0.12349478155374527,
+      "learning_rate": 3.3964443770894528e-06,
+      "loss": 0.0115,
+      "step": 8880
+    },
+    {
+      "epoch": 3.5404221425726803,
+      "grad_norm": 0.25816065073013306,
+      "learning_rate": 3.3367981723231245e-06,
+      "loss": 0.013,
+      "step": 8890
+    },
+    {
+      "epoch": 3.544404619673437,
+      "grad_norm": 0.24896445870399475,
+      "learning_rate": 3.2776622688558746e-06,
+      "loss": 0.0134,
+      "step": 8900
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.20246760547161102,
+      "learning_rate": 3.2190373133884677e-06,
+      "loss": 0.0141,
+      "step": 8910
+    },
+    {
+      "epoch": 3.5523695738749503,
+      "grad_norm": 0.17225037515163422,
+      "learning_rate": 3.1609239470340446e-06,
+      "loss": 0.0125,
+      "step": 8920
+    },
+    {
+      "epoch": 3.5563520509757067,
+      "grad_norm": 0.16104808449745178,
+      "learning_rate": 3.1033228053110373e-06,
+      "loss": 0.0127,
+      "step": 8930
+    },
+    {
+      "epoch": 3.5603345280764636,
+      "grad_norm": 0.25064268708229065,
+      "learning_rate": 3.0462345181363314e-06,
+      "loss": 0.0121,
+      "step": 8940
+    },
+    {
+      "epoch": 3.5643170051772204,
+      "grad_norm": 0.177175834774971,
+      "learning_rate": 2.9896597098182654e-06,
+      "loss": 0.0145,
+      "step": 8950
+    },
+    {
+      "epoch": 3.5682994822779768,
+      "grad_norm": 0.23675449192523956,
+      "learning_rate": 2.933598999049891e-06,
+      "loss": 0.0133,
+      "step": 8960
+    },
+    {
+      "epoch": 3.5722819593787336,
+      "grad_norm": 0.19365286827087402,
+      "learning_rate": 2.8780529989021697e-06,
+      "loss": 0.0126,
+      "step": 8970
+    },
+    {
+      "epoch": 3.57626443647949,
+      "grad_norm": 0.3542676270008087,
+      "learning_rate": 2.823022316817242e-06,
+      "loss": 0.0162,
+      "step": 8980
+    },
+    {
+      "epoch": 3.580246913580247,
+      "grad_norm": 0.2057904750108719,
+      "learning_rate": 2.7685075546018456e-06,
+      "loss": 0.0134,
+      "step": 8990
+    },
+    {
+      "epoch": 3.5842293906810037,
+      "grad_norm": 0.19681024551391602,
+      "learning_rate": 2.7145093084206598e-06,
+      "loss": 0.0158,
+      "step": 9000
+    },
+    {
+      "epoch": 3.5882118677817605,
+      "grad_norm": 0.11298860609531403,
+      "learning_rate": 2.661028168789892e-06,
+      "loss": 0.0114,
+      "step": 9010
+    },
+    {
+      "epoch": 3.592194344882517,
+      "grad_norm": 0.20377224683761597,
+      "learning_rate": 2.6080647205706855e-06,
+      "loss": 0.0115,
+      "step": 9020
+    },
+    {
+      "epoch": 3.5961768219832737,
+      "grad_norm": 0.20502862334251404,
+      "learning_rate": 2.555619542962834e-06,
+      "loss": 0.0141,
+      "step": 9030
+    },
+    {
+      "epoch": 3.60015929908403,
+      "grad_norm": 0.2239837795495987,
+      "learning_rate": 2.503693209498409e-06,
+      "loss": 0.0108,
+      "step": 9040
+    },
+    {
+      "epoch": 3.604141776184787,
+      "grad_norm": 0.21607056260108948,
+      "learning_rate": 2.452286288035449e-06,
+      "loss": 0.0138,
+      "step": 9050
+    },
+    {
+      "epoch": 3.6081242532855438,
+      "grad_norm": 0.23609691858291626,
+      "learning_rate": 2.4013993407518363e-06,
+      "loss": 0.0129,
+      "step": 9060
+    },
+    {
+      "epoch": 3.6121067303863,
+      "grad_norm": 0.20945118367671967,
+      "learning_rate": 2.351032924139063e-06,
+      "loss": 0.0117,
+      "step": 9070
+    },
+    {
+      "epoch": 3.616089207487057,
+      "grad_norm": 0.180077463388443,
+      "learning_rate": 2.30118758899619e-06,
+      "loss": 0.0146,
+      "step": 9080
+    },
+    {
+      "epoch": 3.6200716845878134,
+      "grad_norm": 0.25069552659988403,
+      "learning_rate": 2.2518638804238157e-06,
+      "loss": 0.0135,
+      "step": 9090
+    },
+    {
+      "epoch": 3.62405416168857,
+      "grad_norm": 0.14733609557151794,
+      "learning_rate": 2.203062337818118e-06,
+      "loss": 0.0135,
+      "step": 9100
+    },
+    {
+      "epoch": 3.628036638789327,
+      "grad_norm": 0.27784958481788635,
+      "learning_rate": 2.1547834948649483e-06,
+      "loss": 0.014,
+      "step": 9110
+    },
+    {
+      "epoch": 3.632019115890084,
+      "grad_norm": 0.18988502025604248,
+      "learning_rate": 2.1070278795340017e-06,
+      "loss": 0.0148,
+      "step": 9120
+    },
+    {
+      "epoch": 3.6360015929908402,
+      "grad_norm": 0.15056854486465454,
+      "learning_rate": 2.059796014073029e-06,
+      "loss": 0.0098,
+      "step": 9130
+    },
+    {
+      "epoch": 3.639984070091597,
+      "grad_norm": 0.25632742047309875,
+      "learning_rate": 2.01308841500214e-06,
+      "loss": 0.0121,
+      "step": 9140
+    },
+    {
+      "epoch": 3.6439665471923535,
+      "grad_norm": 0.33377549052238464,
+      "learning_rate": 1.9669055931081704e-06,
+      "loss": 0.0153,
+      "step": 9150
+    },
+    {
+      "epoch": 3.6479490242931103,
+      "grad_norm": 0.24696041643619537,
+      "learning_rate": 1.9212480534390507e-06,
+      "loss": 0.0153,
+      "step": 9160
+    },
+    {
+      "epoch": 3.651931501393867,
+      "grad_norm": 0.1778692901134491,
+      "learning_rate": 1.8761162952983246e-06,
+      "loss": 0.0139,
+      "step": 9170
+    },
+    {
+      "epoch": 3.6559139784946235,
+      "grad_norm": 0.31593841314315796,
+      "learning_rate": 1.8315108122396618e-06,
+      "loss": 0.0148,
+      "step": 9180
+    },
+    {
+      "epoch": 3.6598964555953803,
+      "grad_norm": 0.2725008726119995,
+      "learning_rate": 1.787432092061475e-06,
+      "loss": 0.0126,
+      "step": 9190
+    },
+    {
+      "epoch": 3.6638789326961367,
+      "grad_norm": 0.2079121172428131,
+      "learning_rate": 1.743880616801602e-06,
+      "loss": 0.0168,
+      "step": 9200
+    },
+    {
+      "epoch": 3.6678614097968936,
+      "grad_norm": 0.1617252379655838,
+      "learning_rate": 1.7008568627319865e-06,
+      "loss": 0.0125,
+      "step": 9210
+    },
+    {
+      "epoch": 3.6718438868976504,
+      "grad_norm": 0.23413202166557312,
+      "learning_rate": 1.6583613003535226e-06,
+      "loss": 0.0139,
+      "step": 9220
+    },
+    {
+      "epoch": 3.6758263639984072,
+      "grad_norm": 0.20422157645225525,
+      "learning_rate": 1.6163943943908522e-06,
+      "loss": 0.0129,
+      "step": 9230
+    },
+    {
+      "epoch": 3.6798088410991636,
+      "grad_norm": 0.3413521349430084,
+      "learning_rate": 1.5749566037873476e-06,
+      "loss": 0.0133,
+      "step": 9240
+    },
+    {
+      "epoch": 3.6837913181999205,
+      "grad_norm": 0.1363775134086609,
+      "learning_rate": 1.5340483817000428e-06,
+      "loss": 0.012,
+      "step": 9250
+    },
+    {
+      "epoch": 3.687773795300677,
+      "grad_norm": 0.11363986134529114,
+      "learning_rate": 1.4936701754947101e-06,
+      "loss": 0.0116,
+      "step": 9260
+    },
+    {
+      "epoch": 3.6917562724014337,
+      "grad_norm": 0.27134454250335693,
+      "learning_rate": 1.4538224267409361e-06,
+      "loss": 0.0147,
+      "step": 9270
+    },
+    {
+      "epoch": 3.6957387495021905,
+      "grad_norm": 0.16270877420902252,
+      "learning_rate": 1.414505571207314e-06,
+      "loss": 0.0111,
+      "step": 9280
+    },
+    {
+      "epoch": 3.699721226602947,
+      "grad_norm": 0.23508696258068085,
+      "learning_rate": 1.3757200388566816e-06,
+      "loss": 0.0122,
+      "step": 9290
+    },
+    {
+      "epoch": 3.7037037037037037,
+      "grad_norm": 0.18475975096225739,
+      "learning_rate": 1.3374662538414074e-06,
+      "loss": 0.0147,
+      "step": 9300
+    },
+    {
+      "epoch": 3.70768618080446,
+      "grad_norm": 0.23747357726097107,
+      "learning_rate": 1.2997446344987617e-06,
+      "loss": 0.0127,
+      "step": 9310
+    },
+    {
+      "epoch": 3.711668657905217,
+      "grad_norm": 0.25293728709220886,
+      "learning_rate": 1.262555593346315e-06,
+      "loss": 0.0124,
+      "step": 9320
+    },
+    {
+      "epoch": 3.7156511350059738,
+      "grad_norm": 0.3373745381832123,
+      "learning_rate": 1.2258995370774685e-06,
+      "loss": 0.0153,
+      "step": 9330
+    },
+    {
+      "epoch": 3.7196336121067306,
+      "grad_norm": 0.21809877455234528,
+      "learning_rate": 1.1897768665569798e-06,
+      "loss": 0.0164,
+      "step": 9340
+    },
+    {
+      "epoch": 3.723616089207487,
+      "grad_norm": 0.21654918789863586,
+      "learning_rate": 1.1541879768165954e-06,
+      "loss": 0.0111,
+      "step": 9350
+    },
+    {
+      "epoch": 3.727598566308244,
+      "grad_norm": 0.19067105650901794,
+      "learning_rate": 1.1191332570507085e-06,
+      "loss": 0.0143,
+      "step": 9360
+    },
+    {
+      "epoch": 3.731581043409,
+      "grad_norm": 0.20294006168842316,
+      "learning_rate": 1.0846130906121132e-06,
+      "loss": 0.0172,
+      "step": 9370
+    },
+    {
+      "epoch": 3.735563520509757,
+      "grad_norm": 0.2206583172082901,
+      "learning_rate": 1.0506278550078131e-06,
+      "loss": 0.0137,
+      "step": 9380
+    },
+    {
+      "epoch": 3.739545997610514,
+      "grad_norm": 0.18981283903121948,
+      "learning_rate": 1.0171779218949185e-06,
+      "loss": 0.0158,
+      "step": 9390
+    },
+    {
+      "epoch": 3.7435284747112703,
+      "grad_norm": 0.21733026206493378,
+      "learning_rate": 9.842636570765174e-07,
+      "loss": 0.0133,
+      "step": 9400
+    },
+    {
+      "epoch": 3.747510951812027,
+      "grad_norm": 0.2571982741355896,
+      "learning_rate": 9.518854204977612e-07,
+      "loss": 0.013,
+      "step": 9410
+    },
+    {
+      "epoch": 3.7514934289127835,
+      "grad_norm": 0.2336360365152359,
+      "learning_rate": 9.200435662418349e-07,
+      "loss": 0.0144,
+      "step": 9420
+    },
+    {
+      "epoch": 3.7554759060135403,
+      "grad_norm": 0.25008511543273926,
+      "learning_rate": 8.887384425261658e-07,
+      "loss": 0.0111,
+      "step": 9430
+    },
+    {
+      "epoch": 3.759458383114297,
+      "grad_norm": 0.23758894205093384,
+      "learning_rate": 8.579703916985648e-07,
+      "loss": 0.0137,
+      "step": 9440
+    },
+    {
+      "epoch": 3.763440860215054,
+      "grad_norm": 0.27957940101623535,
+      "learning_rate": 8.277397502335194e-07,
+      "loss": 0.0143,
+      "step": 9450
+    },
+    {
+      "epoch": 3.7674233373158104,
+      "grad_norm": 0.2032625526189804,
+      "learning_rate": 7.980468487284675e-07,
+      "loss": 0.0153,
+      "step": 9460
+    },
+    {
+      "epoch": 3.771405814416567,
+      "grad_norm": 0.2791658341884613,
+      "learning_rate": 7.688920119002297e-07,
+      "loss": 0.0126,
+      "step": 9470
+    },
+    {
+      "epoch": 3.7753882915173236,
+      "grad_norm": 0.14666704833507538,
+      "learning_rate": 7.402755585814269e-07,
+      "loss": 0.0126,
+      "step": 9480
+    },
+    {
+      "epoch": 3.7793707686180804,
+      "grad_norm": 0.2378731667995453,
+      "learning_rate": 7.121978017170073e-07,
+      "loss": 0.0145,
+      "step": 9490
+    },
+    {
+      "epoch": 3.7833532457188372,
+      "grad_norm": 0.3094591796398163,
+      "learning_rate": 6.846590483608306e-07,
+      "loss": 0.0122,
+      "step": 9500
+    },
+    {
+      "epoch": 3.7873357228195936,
+      "grad_norm": 0.14007677137851715,
+      "learning_rate": 6.576595996722834e-07,
+      "loss": 0.016,
+      "step": 9510
+    },
+    {
+      "epoch": 3.7913181999203505,
+      "grad_norm": 0.24854406714439392,
+      "learning_rate": 6.311997509130141e-07,
+      "loss": 0.013,
+      "step": 9520
+    },
+    {
+      "epoch": 3.7953006770211073,
+      "grad_norm": 0.22404152154922485,
+      "learning_rate": 6.052797914436803e-07,
+      "loss": 0.0152,
+      "step": 9530
+    },
+    {
+      "epoch": 3.7992831541218637,
+      "grad_norm": 0.2653384804725647,
+      "learning_rate": 5.799000047208181e-07,
+      "loss": 0.0149,
+      "step": 9540
+    },
+    {
+      "epoch": 3.8032656312226205,
+      "grad_norm": 0.1700735241174698,
+      "learning_rate": 5.550606682937054e-07,
+      "loss": 0.0148,
+      "step": 9550
+    },
+    {
+      "epoch": 3.8072481083233773,
+      "grad_norm": 0.3729400336742401,
+      "learning_rate": 5.307620538013481e-07,
+      "loss": 0.0163,
+      "step": 9560
+    },
+    {
+      "epoch": 3.8112305854241337,
+      "grad_norm": 0.28273651003837585,
+      "learning_rate": 5.070044269694874e-07,
+      "loss": 0.0148,
+      "step": 9570
+    },
+    {
+      "epoch": 3.8152130625248906,
+      "grad_norm": 0.25636887550354004,
+      "learning_rate": 4.837880476077417e-07,
+      "loss": 0.0149,
+      "step": 9580
+    },
+    {
+      "epoch": 3.819195539625647,
+      "grad_norm": 0.11277643591165543,
+      "learning_rate": 4.6111316960670835e-07,
+      "loss": 0.0132,
+      "step": 9590
+    },
+    {
+      "epoch": 3.823178016726404,
+      "grad_norm": 0.31709930300712585,
+      "learning_rate": 4.389800409352218e-07,
+      "loss": 0.0141,
+      "step": 9600
+    },
+    {
+      "epoch": 3.8271604938271606,
+      "grad_norm": 0.1908944696187973,
+      "learning_rate": 4.173889036376277e-07,
+      "loss": 0.015,
+      "step": 9610
+    },
+    {
+      "epoch": 3.831142970927917,
+      "grad_norm": 0.2939547300338745,
+      "learning_rate": 3.963399938311463e-07,
+      "loss": 0.0177,
+      "step": 9620
+    },
+    {
+      "epoch": 3.835125448028674,
+      "grad_norm": 0.20435106754302979,
+      "learning_rate": 3.7583354170328545e-07,
+      "loss": 0.0137,
+      "step": 9630
+    },
+    {
+      "epoch": 3.8391079251294307,
+      "grad_norm": 0.177963525056839,
+      "learning_rate": 3.558697715093207e-07,
+      "loss": 0.0117,
+      "step": 9640
+    },
+    {
+      "epoch": 3.843090402230187,
+      "grad_norm": 0.23722724616527557,
+      "learning_rate": 3.3644890156983576e-07,
+      "loss": 0.0142,
+      "step": 9650
+    },
+    {
+      "epoch": 3.847072879330944,
+      "grad_norm": 0.24979689717292786,
+      "learning_rate": 3.175711442683638e-07,
+      "loss": 0.0139,
+      "step": 9660
+    },
+    {
+      "epoch": 3.8510553564317007,
+      "grad_norm": 0.13695870339870453,
+      "learning_rate": 2.9923670604902197e-07,
+      "loss": 0.0127,
+      "step": 9670
+    },
+    {
+      "epoch": 3.855037833532457,
+      "grad_norm": 0.2963074743747711,
+      "learning_rate": 2.814457874143028e-07,
+      "loss": 0.0165,
+      "step": 9680
+    },
+    {
+      "epoch": 3.859020310633214,
+      "grad_norm": 0.2667098641395569,
+      "learning_rate": 2.641985829228366e-07,
+      "loss": 0.0134,
+      "step": 9690
+    },
+    {
+      "epoch": 3.8630027877339703,
+      "grad_norm": 0.21023236215114594,
+      "learning_rate": 2.474952811872877e-07,
+      "loss": 0.0131,
+      "step": 9700
+    },
+    {
+      "epoch": 3.866985264834727,
+      "grad_norm": 0.21310463547706604,
+      "learning_rate": 2.3133606487228397e-07,
+      "loss": 0.0135,
+      "step": 9710
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 0.2762566804885864,
+      "learning_rate": 2.157211106924295e-07,
+      "loss": 0.0148,
+      "step": 9720
+    },
+    {
+      "epoch": 3.874950219036241,
+      "grad_norm": 0.2990756928920746,
+      "learning_rate": 2.006505894103672e-07,
+      "loss": 0.0147,
+      "step": 9730
+    },
+    {
+      "epoch": 3.878932696136997,
+      "grad_norm": 0.17009320855140686,
+      "learning_rate": 1.8612466583489696e-07,
+      "loss": 0.0143,
+      "step": 9740
+    },
+    {
+      "epoch": 3.882915173237754,
+      "grad_norm": 0.1569436490535736,
+      "learning_rate": 1.7214349881918834e-07,
+      "loss": 0.0132,
+      "step": 9750
+    },
+    {
+      "epoch": 3.8868976503385104,
+      "grad_norm": 0.12430369853973389,
+      "learning_rate": 1.5870724125904845e-07,
+      "loss": 0.0106,
+      "step": 9760
+    },
+    {
+      "epoch": 3.8908801274392673,
+      "grad_norm": 0.2661726176738739,
+      "learning_rate": 1.4581604009124006e-07,
+      "loss": 0.0132,
+      "step": 9770
+    },
+    {
+      "epoch": 3.894862604540024,
+      "grad_norm": 0.10029175132513046,
+      "learning_rate": 1.334700362918717e-07,
+      "loss": 0.0113,
+      "step": 9780
+    },
+    {
+      "epoch": 3.8988450816407805,
+      "grad_norm": 0.24978956580162048,
+      "learning_rate": 1.2166936487486015e-07,
+      "loss": 0.0125,
+      "step": 9790
+    },
+    {
+      "epoch": 3.9028275587415373,
+      "grad_norm": 0.4270276725292206,
+      "learning_rate": 1.1041415489045914e-07,
+      "loss": 0.0131,
+      "step": 9800
+    },
+    {
+      "epoch": 3.9068100358422937,
+      "grad_norm": 0.22719305753707886,
+      "learning_rate": 9.970452942384412e-08,
+      "loss": 0.0126,
+      "step": 9810
+    },
+    {
+      "epoch": 3.9107925129430505,
+      "grad_norm": 0.20977602899074554,
+      "learning_rate": 8.954060559375754e-08,
+      "loss": 0.0114,
+      "step": 9820
+    },
+    {
+      "epoch": 3.9147749900438074,
+      "grad_norm": 0.1370612531900406,
+      "learning_rate": 7.99224945512489e-08,
+      "loss": 0.018,
+      "step": 9830
+    },
+    {
+      "epoch": 3.918757467144564,
+      "grad_norm": 0.17637065052986145,
+      "learning_rate": 7.085030147843675e-08,
+      "loss": 0.0149,
+      "step": 9840
+    },
+    {
+      "epoch": 3.9227399442453206,
+      "grad_norm": 0.22800922393798828,
+      "learning_rate": 6.232412558736523e-08,
+      "loss": 0.0166,
+      "step": 9850
+    },
+    {
+      "epoch": 3.9267224213460774,
+      "grad_norm": 0.23249153792858124,
+      "learning_rate": 5.434406011893822e-08,
+      "loss": 0.0172,
+      "step": 9860
+    },
+    {
+      "epoch": 3.930704898446834,
+      "grad_norm": 0.17791615426540375,
+      "learning_rate": 4.6910192341864664e-08,
+      "loss": 0.0113,
+      "step": 9870
+    },
+    {
+      "epoch": 3.9346873755475906,
+      "grad_norm": 0.21019835770130157,
+      "learning_rate": 4.0022603551737035e-08,
+      "loss": 0.0146,
+      "step": 9880
+    },
+    {
+      "epoch": 3.9386698526483475,
+      "grad_norm": 0.1602124720811844,
+      "learning_rate": 3.3681369070120985e-08,
+      "loss": 0.0127,
+      "step": 9890
+    },
+    {
+      "epoch": 3.942652329749104,
+      "grad_norm": 0.17522773146629333,
+      "learning_rate": 2.7886558243744866e-08,
+      "loss": 0.0145,
+      "step": 9900
+    },
+    {
+      "epoch": 3.9466348068498607,
+      "grad_norm": 0.2072092741727829,
+      "learning_rate": 2.2638234443722596e-08,
+      "loss": 0.0123,
+      "step": 9910
+    },
+    {
+      "epoch": 3.950617283950617,
+      "grad_norm": 0.1036510095000267,
+      "learning_rate": 1.7936455064887504e-08,
+      "loss": 0.016,
+      "step": 9920
+    },
+    {
+      "epoch": 3.954599761051374,
+      "grad_norm": 0.08399386703968048,
+      "learning_rate": 1.378127152514841e-08,
+      "loss": 0.0114,
+      "step": 9930
+    },
+    {
+      "epoch": 3.9585822381521307,
+      "grad_norm": 0.27939972281455994,
+      "learning_rate": 1.0172729264917857e-08,
+      "loss": 0.0167,
+      "step": 9940
+    },
+    {
+      "epoch": 3.9625647152528876,
+      "grad_norm": 0.17596809566020966,
+      "learning_rate": 7.1108677466458215e-09,
+      "loss": 0.0142,
+      "step": 9950
+    },
+    {
+      "epoch": 3.966547192353644,
+      "grad_norm": 0.1545400619506836,
+      "learning_rate": 4.595720454353414e-09,
+      "loss": 0.0145,
+      "step": 9960
+    },
+    {
+      "epoch": 3.970529669454401,
+      "grad_norm": 0.24510076642036438,
+      "learning_rate": 2.627314893294264e-09,
+      "loss": 0.0124,
+      "step": 9970
+    },
+    {
+      "epoch": 3.974512146555157,
+      "grad_norm": 0.2673027217388153,
+      "learning_rate": 1.2056725896270048e-09,
+      "loss": 0.0118,
+      "step": 9980
+    },
+    {
+      "epoch": 3.978494623655914,
+      "grad_norm": 0.2962305545806885,
+      "learning_rate": 3.308090902098826e-10,
+      "loss": 0.0156,
+      "step": 9990
+    },
+    {
+      "epoch": 3.982477100756671,
+      "grad_norm": 0.3653580844402313,
+      "learning_rate": 2.7339624120159555e-12,
+      "loss": 0.0137,
+      "step": 10000
+    },
+    {
+      "epoch": 3.982477100756671,
+      "step": 10000,
+      "total_flos": 0.0,
+      "train_loss": 0.029824630606919526,
+      "train_runtime": 5859.1243,
+      "train_samples_per_second": 54.616,
+      "train_steps_per_second": 1.707
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/training_args.bin b/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b1cc6b13bad500b1913c2ae225362d195aeeedb5
--- /dev/null
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18e007b5f421b0dc7ee312e8ebf0f15871ce9ea2989cc2cb5ee33733e4be89fa
+size 5304