End of training

Browse files

Files changed (12) hide show

README.md +43 -45
adapter_config.json +6 -6
adapter_model.bin +2 -2
adapter_model.safetensors +2 -2
last-checkpoint/adapter_config.json +6 -6
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +322 -321
last-checkpoint/training_args.bin +2 -2
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -5,7 +5,7 @@ tags:
 - axolotl
 - generated_from_trainer
 model-index:
-- name: a9e7a6db-0def-40a4-a8a4-0bf2c657692a
   results: []
 ---
@@ -17,16 +17,11 @@ should probably proofread and complete it, then remove this comment. -->
 axolotl version: `0.4.1`
 ```yaml
-accelerate_config:
-  dynamo_backend: inductor
-  mixed_precision: bf16
-  num_machines: 1
-  num_processes: auto
-  use_cpu: false
 adapter: lora
 base_model: peft-internal-testing/tiny-dummy-qwen2
-bf16: auto
 chat_template: llama3
 dataset_prepared_path: null
 datasets:
 - data_files:
@@ -44,63 +39,67 @@ datasets:
 debug: null
 deepspeed: null
 device_map: auto
-early_stopping_patience: null
 eval_max_new_tokens: 128
 eval_table_size: null
-evals_per_epoch: 4
-flash_attention: false
-fp16: null
 fsdp: null
 fsdp_config: null
-gradient_accumulation_steps: 16
 gradient_checkpointing: true
-group_by_length: false
 hub_model_id: null
 hub_repo: null
 hub_strategy: checkpoint
 hub_token: null
 learning_rate: 0.0001
 local_rank: null
-logging_steps: 1
-lora_alpha: 16
 lora_dropout: 0.05
 lora_fan_in_fan_out: null
 lora_model_dir: null
-lora_r: 8
 lora_target_linear: true
-lora_target_modules:
-- q_proj
-- v_proj
 lr_scheduler: cosine
 max_memory:
-  0: 70GiB
-max_steps: 100
-micro_batch_size: 2
 mlflow_experiment_name: /tmp/c5efe3191618858d_train_data.json
 model_type: AutoModelForCausalLM
-num_epochs: 1
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
-quantization_config:
-  llm_int8_enable_fp32_cpu_offload: true
-  load_in_8bit: true
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
-saves_per_epoch: 4
-sequence_len: 512
 strict: false
-tf32: false
 tokenizer_type: AutoTokenizer
-torch_compile: true
 train_on_inputs: false
 trust_remote_code: true
 val_set_size: 0.05
-wandb_entity: null
 wandb_mode: online
 wandb_name: a9e7a6db-0def-40a4-a8a4-0bf2c657692a
-wandb_project: Gradients-On-Demand
 wandb_run: your_name
 wandb_runid: a9e7a6db-0def-40a4-a8a4-0bf2c657692a
 warmup_steps: 10
@@ -111,11 +110,11 @@ xformers_attention: null
 </details><br>
-# a9e7a6db-0def-40a4-a8a4-0bf2c657692a
 This model is a fine-tuned version of [peft-internal-testing/tiny-dummy-qwen2](https://huggingface.co/peft-internal-testing/tiny-dummy-qwen2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 11.9285
 ## Model description
@@ -135,25 +134,24 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
-- gradient_accumulation_steps: 16
 - total_train_batch_size: 32
-- optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- training_steps: 56
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 11.9287       | 0.0179 | 1    | 11.9288         |
-| 11.9286       | 0.2503 | 14   | 11.9287         |
-| 11.9304       | 0.5006 | 28   | 11.9286         |
-| 11.9279       | 0.7508 | 42   | 11.9285         |
-| 13.9592       | 1.0034 | 56   | 11.9285         |
 ### Framework versions

 - axolotl
 - generated_from_trainer
 model-index:
+- name: 20aee596-a3f3-4852-b720-d6bfbd74ec2b
   results: []
 ---
 axolotl version: `0.4.1`
 ```yaml
 adapter: lora
 base_model: peft-internal-testing/tiny-dummy-qwen2
+bf16: true
 chat_template: llama3
+data_processes: 16
 dataset_prepared_path: null
 datasets:
 - data_files:
 debug: null
 deepspeed: null
 device_map: auto
+do_eval: true
+early_stopping_patience: 5
+eval_batch_size: 4
 eval_max_new_tokens: 128
+eval_steps: 50
 eval_table_size: null
+evals_per_epoch: null
+flash_attention: true
+fp16: false
 fsdp: null
 fsdp_config: null
+gradient_accumulation_steps: 4
 gradient_checkpointing: true
+group_by_length: true
 hub_model_id: null
 hub_repo: null
 hub_strategy: checkpoint
 hub_token: null
 learning_rate: 0.0001
+load_in_4bit: false
+load_in_8bit: false
 local_rank: null
+logging_steps: 3
+lora_alpha: 128
 lora_dropout: 0.05
 lora_fan_in_fan_out: null
 lora_model_dir: null
+lora_r: 64
 lora_target_linear: true
 lr_scheduler: cosine
+max_grad_norm: 1.0
 max_memory:
+  0: 75GB
+max_steps: 200
+micro_batch_size: 8
 mlflow_experiment_name: /tmp/c5efe3191618858d_train_data.json
 model_type: AutoModelForCausalLM
+num_epochs: 3
+optim_args:
+  adam_beta1: 0.9
+  adam_beta2: 0.95
+  adam_epsilon: 1e-5
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
 resume_from_checkpoint: null
 s2_attention: null
 sample_packing: false
+save_steps: 50
+saves_per_epoch: null
+sequence_len: 1024
 strict: false
+tf32: true
 tokenizer_type: AutoTokenizer
 train_on_inputs: false
 trust_remote_code: true
 val_set_size: 0.05
+wandb_entity: techspear-hub
 wandb_mode: online
 wandb_name: a9e7a6db-0def-40a4-a8a4-0bf2c657692a
+wandb_project: Gradients-On-Three
 wandb_run: your_name
 wandb_runid: a9e7a6db-0def-40a4-a8a4-0bf2c657692a
 warmup_steps: 10
 </details><br>
+# 20aee596-a3f3-4852-b720-d6bfbd74ec2b
 This model is a fine-tuned version of [peft-internal-testing/tiny-dummy-qwen2](https://huggingface.co/peft-internal-testing/tiny-dummy-qwen2) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 11.9103
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 8
+- eval_batch_size: 4
 - seed: 42
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=adam_beta1=0.9,adam_beta2=0.95,adam_epsilon=1e-5
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- training_steps: 168
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| No log        | 0.0179 | 1    | 11.9290         |
+| 11.9211       | 0.8929 | 50   | 11.9188         |
+| 11.9154       | 1.7857 | 100  | 11.9130         |
+| 11.9095       | 2.6786 | 150  | 11.9103         |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -10,23 +10,23 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "down_proj",
     "k_proj",
     "q_proj",
-    "gate_proj",
-    "o_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 128,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "v_proj",
+    "gate_proj",
     "k_proj",
     "q_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a5a6287d8823fe0879ab294b3da41caa5a430114dba79e42f0253a5f6dba7af
-size 21378

 version https://git-lfs.github.com/spec/v1
+oid sha256:23be886be29d08119ba7e77cd77202bd2500cfc5ec768b28e1017011d87d3242
+size 100226

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e019a9f57ecb8b85aec8bb6eee672a122e591e36bd2565bc6c4c332b190d0fc5
-size 14696

 version https://git-lfs.github.com/spec/v1
+oid sha256:70358ddbab6095a18b2d8241d01d9a1150eb787eb05c75962fee72ff2f1282b1
+size 93608

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -10,23 +10,23 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "down_proj",
     "k_proj",
     "q_proj",
-    "gate_proj",
-    "o_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 128,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "v_proj",
+    "gate_proj",
     "k_proj",
     "q_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e019a9f57ecb8b85aec8bb6eee672a122e591e36bd2565bc6c4c332b190d0fc5
-size 14696

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d65eca5df530a9cf1f21b7ea60a51be0bb3c1def5e92182931659838d1a3ae1
+size 93608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdac6c649202ef2291ed5061c16538bc0530983fc22e3831ec5e6375e3ece8d5
-size 39398

 version https://git-lfs.github.com/spec/v1
+oid sha256:92d385166cc29cae40ac00f90a7df30af287e10af88ef6ea0770cf9b6e721e42
+size 197158

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3f3d68d08c427bfcb26826cb256501e784dd1de9309d24ccf5d718c10dd6b5c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:332d7236d1b47460701a6a346289bf62d000f5ae00d25856256e9d7e62fe1ee4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e41d236d9989ea458dc3f7994dccaa194aab3668a60eebd5db6cd4583a97af79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f09a84ebe5bd3a3aeb21e49457549d7dd6ed93b0deb63e91ac3af1cc132c6c3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,452 +1,453 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0033519553072625,
-  "eval_steps": 14,
-  "global_step": 56,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.017877094972067038,
-      "grad_norm": 0.008051837794482708,
-      "learning_rate": 1e-05,
-      "loss": 11.9287,
       "step": 1
     },
     {
-      "epoch": 0.017877094972067038,
-      "eval_loss": 11.928812026977539,
-      "eval_runtime": 17.7636,
-      "eval_samples_per_second": 5.348,
-      "eval_steps_per_second": 2.702,
-      "step": 1
     },
     {
-      "epoch": 0.035754189944134075,
-      "grad_norm": 0.008926309645175934,
-      "learning_rate": 2e-05,
-      "loss": 11.9296,
-      "step": 2
     },
     {
-      "epoch": 0.053631284916201116,
-      "grad_norm": 0.00831968616694212,
-      "learning_rate": 3e-05,
-      "loss": 11.9287,
-      "step": 3
     },
     {
-      "epoch": 0.07150837988826815,
-      "grad_norm": 0.007635825779289007,
-      "learning_rate": 4e-05,
-      "loss": 11.9297,
-      "step": 4
     },
     {
-      "epoch": 0.0893854748603352,
-      "grad_norm": 0.006136827636510134,
-      "learning_rate": 5e-05,
-      "loss": 11.9308,
-      "step": 5
     },
     {
-      "epoch": 0.10726256983240223,
-      "grad_norm": 0.008952487260103226,
-      "learning_rate": 6e-05,
-      "loss": 11.9298,
-      "step": 6
     },
     {
-      "epoch": 0.12513966480446928,
-      "grad_norm": 0.008229999803006649,
-      "learning_rate": 7e-05,
-      "loss": 11.9316,
-      "step": 7
     },
     {
-      "epoch": 0.1430167597765363,
-      "grad_norm": 0.008337481878697872,
-      "learning_rate": 8e-05,
-      "loss": 11.9323,
-      "step": 8
     },
     {
-      "epoch": 0.16089385474860335,
-      "grad_norm": 0.0077857039868831635,
-      "learning_rate": 9e-05,
-      "loss": 11.9287,
-      "step": 9
     },
     {
-      "epoch": 0.1787709497206704,
-      "grad_norm": 0.007779798936098814,
-      "learning_rate": 0.0001,
-      "loss": 11.9293,
-      "step": 10
     },
     {
-      "epoch": 0.19664804469273742,
-      "grad_norm": 0.010903590358793736,
-      "learning_rate": 9.988343845952697e-05,
-      "loss": 11.9297,
-      "step": 11
     },
     {
-      "epoch": 0.21452513966480447,
-      "grad_norm": 0.008899732492864132,
-      "learning_rate": 9.953429730181653e-05,
-      "loss": 11.929,
-      "step": 12
     },
     {
-      "epoch": 0.2324022346368715,
-      "grad_norm": 0.008686481043696404,
-      "learning_rate": 9.895420438411616e-05,
-      "loss": 11.9327,
-      "step": 13
     },
     {
-      "epoch": 0.25027932960893856,
-      "grad_norm": 0.008174674585461617,
-      "learning_rate": 9.814586436738998e-05,
-      "loss": 11.9286,
-      "step": 14
     },
     {
-      "epoch": 0.25027932960893856,
-      "eval_loss": 11.928715705871582,
-      "eval_runtime": 0.3873,
-      "eval_samples_per_second": 245.313,
-      "eval_steps_per_second": 123.947,
-      "step": 14
     },
     {
-      "epoch": 0.2681564245810056,
-      "grad_norm": 0.008636604063212872,
-      "learning_rate": 9.711304610594104e-05,
-      "loss": 11.9307,
-      "step": 15
     },
     {
-      "epoch": 0.2860335195530726,
-      "grad_norm": 0.009689634665846825,
-      "learning_rate": 9.586056507527266e-05,
-      "loss": 11.9291,
-      "step": 16
     },
     {
-      "epoch": 0.3039106145251397,
-      "grad_norm": 0.007181845605373383,
-      "learning_rate": 9.439426092011875e-05,
-      "loss": 11.9316,
-      "step": 17
     },
     {
-      "epoch": 0.3217877094972067,
-      "grad_norm": 0.00760689377784729,
-      "learning_rate": 9.272097022732443e-05,
-      "loss": 11.9297,
-      "step": 18
     },
     {
-      "epoch": 0.3396648044692737,
-      "grad_norm": 0.007029213942587376,
-      "learning_rate": 9.08484946505221e-05,
-      "loss": 11.9308,
-      "step": 19
     },
     {
-      "epoch": 0.3575418994413408,
-      "grad_norm": 0.009038039483129978,
-      "learning_rate": 8.8785564535221e-05,
-      "loss": 11.931,
-      "step": 20
     },
     {
-      "epoch": 0.3754189944134078,
-      "grad_norm": 0.0075072660110890865,
-      "learning_rate": 8.654179821390621e-05,
-      "loss": 11.9313,
-      "step": 21
     },
     {
-      "epoch": 0.39329608938547483,
-      "grad_norm": 0.00974891148507595,
-      "learning_rate": 8.412765716093272e-05,
-      "loss": 11.9313,
-      "step": 22
     },
     {
-      "epoch": 0.4111731843575419,
-      "grad_norm": 0.0073928870260715485,
-      "learning_rate": 8.155439721630264e-05,
-      "loss": 11.9301,
-      "step": 23
     },
     {
-      "epoch": 0.42905027932960893,
-      "grad_norm": 0.009019100107252598,
-      "learning_rate": 7.883401610574336e-05,
-      "loss": 11.9291,
-      "step": 24
     },
     {
-      "epoch": 0.44692737430167595,
-      "grad_norm": 0.007918241433799267,
-      "learning_rate": 7.597919750177168e-05,
-      "loss": 11.9313,
-      "step": 25
     },
     {
-      "epoch": 0.464804469273743,
-      "grad_norm": 0.009383410215377808,
-      "learning_rate": 7.300325188655761e-05,
-      "loss": 11.9298,
-      "step": 26
     },
     {
-      "epoch": 0.48268156424581005,
-      "grad_norm": 0.008459771983325481,
-      "learning_rate": 6.992005449231208e-05,
-      "loss": 11.9309,
-      "step": 27
     },
     {
-      "epoch": 0.5005586592178771,
-      "grad_norm": 0.008441867306828499,
-      "learning_rate": 6.674398060854931e-05,
-      "loss": 11.9304,
-      "step": 28
     },
     {
-      "epoch": 0.5005586592178771,
-      "eval_loss": 11.928580284118652,
-      "eval_runtime": 0.3886,
-      "eval_samples_per_second": 244.488,
-      "eval_steps_per_second": 123.531,
-      "step": 28
     },
     {
-      "epoch": 0.5184357541899441,
-      "grad_norm": 0.010095364414155483,
-      "learning_rate": 6.348983855785121e-05,
-      "loss": 11.9277,
-      "step": 29
     },
     {
-      "epoch": 0.5363128491620112,
-      "grad_norm": 0.007604570593684912,
-      "learning_rate": 6.01728006526317e-05,
-      "loss": 11.9298,
-      "step": 30
     },
     {
-      "epoch": 0.5541899441340782,
-      "grad_norm": 0.0103254783898592,
-      "learning_rate": 5.680833245481234e-05,
-      "loss": 11.9283,
-      "step": 31
     },
     {
-      "epoch": 0.5720670391061452,
-      "grad_norm": 0.00810755044221878,
-      "learning_rate": 5.341212066823355e-05,
-      "loss": 11.931,
-      "step": 32
     },
     {
-      "epoch": 0.5899441340782123,
-      "grad_norm": 0.007562727201730013,
-      "learning_rate": 5e-05,
-      "loss": 11.9287,
-      "step": 33
     },
     {
-      "epoch": 0.6078212290502794,
-      "grad_norm": 0.008853144943714142,
-      "learning_rate": 4.658787933176646e-05,
-      "loss": 11.9304,
-      "step": 34
     },
     {
-      "epoch": 0.6256983240223464,
-      "grad_norm": 0.009539203718304634,
-      "learning_rate": 4.319166754518768e-05,
-      "loss": 11.93,
-      "step": 35
     },
     {
-      "epoch": 0.6435754189944134,
-      "grad_norm": 0.009173383004963398,
-      "learning_rate": 3.982719934736832e-05,
-      "loss": 11.9296,
-      "step": 36
     },
     {
-      "epoch": 0.6614525139664804,
-      "grad_norm": 0.008169720880687237,
-      "learning_rate": 3.651016144214878e-05,
-      "loss": 11.9302,
-      "step": 37
     },
     {
-      "epoch": 0.6793296089385474,
-      "grad_norm": 0.008827430196106434,
-      "learning_rate": 3.325601939145069e-05,
-      "loss": 11.9295,
-      "step": 38
     },
     {
-      "epoch": 0.6972067039106146,
-      "grad_norm": 0.010021938011050224,
-      "learning_rate": 3.007994550768793e-05,
-      "loss": 11.9299,
-      "step": 39
     },
     {
-      "epoch": 0.7150837988826816,
-      "grad_norm": 0.010521038435399532,
-      "learning_rate": 2.6996748113442394e-05,
-      "loss": 11.9308,
-      "step": 40
     },
     {
-      "epoch": 0.7329608938547486,
-      "grad_norm": 0.009070714004337788,
-      "learning_rate": 2.4020802498228335e-05,
-      "loss": 11.93,
-      "step": 41
     },
     {
-      "epoch": 0.7508379888268156,
-      "grad_norm": 0.008820487186312675,
-      "learning_rate": 2.1165983894256647e-05,
-      "loss": 11.9279,
-      "step": 42
     },
     {
-      "epoch": 0.7508379888268156,
-      "eval_loss": 11.928503036499023,
-      "eval_runtime": 0.3804,
-      "eval_samples_per_second": 249.752,
-      "eval_steps_per_second": 126.19,
-      "step": 42
     },
     {
-      "epoch": 0.7687150837988826,
-      "grad_norm": 0.010876229964196682,
-      "learning_rate": 1.8445602783697374e-05,
-      "loss": 11.9305,
-      "step": 43
     },
     {
-      "epoch": 0.7865921787709497,
-      "grad_norm": 0.008084769360721111,
-      "learning_rate": 1.5872342839067306e-05,
-      "loss": 11.9299,
-      "step": 44
     },
     {
-      "epoch": 0.8044692737430168,
-      "grad_norm": 0.009019813500344753,
-      "learning_rate": 1.3458201786093794e-05,
-      "loss": 11.9283,
-      "step": 45
     },
     {
-      "epoch": 0.8223463687150838,
-      "grad_norm": 0.008098295889794827,
-      "learning_rate": 1.1214435464779006e-05,
-      "loss": 11.9292,
-      "step": 46
     },
     {
-      "epoch": 0.8402234636871508,
-      "grad_norm": 0.008133570663630962,
-      "learning_rate": 9.151505349477902e-06,
-      "loss": 11.9289,
-      "step": 47
     },
     {
-      "epoch": 0.8581005586592179,
-      "grad_norm": 0.012650455348193645,
-      "learning_rate": 7.2790297726755716e-06,
-      "loss": 11.9302,
-      "step": 48
     },
     {
-      "epoch": 0.8759776536312849,
-      "grad_norm": 0.009691119194030762,
-      "learning_rate": 5.605739079881239e-06,
-      "loss": 11.9307,
-      "step": 49
     },
     {
-      "epoch": 0.8938547486033519,
-      "grad_norm": 0.009178046137094498,
-      "learning_rate": 4.139434924727359e-06,
-      "loss": 11.9297,
-      "step": 50
     },
     {
-      "epoch": 0.911731843575419,
-      "grad_norm": 0.008271483704447746,
-      "learning_rate": 2.88695389405898e-06,
-      "loss": 11.9291,
-      "step": 51
     },
     {
-      "epoch": 0.929608938547486,
-      "grad_norm": 0.00795311015099287,
-      "learning_rate": 1.8541356326100433e-06,
-      "loss": 11.9286,
-      "step": 52
     },
     {
-      "epoch": 0.9474860335195531,
-      "grad_norm": 0.008445663377642632,
-      "learning_rate": 1.0457956158838544e-06,
-      "loss": 11.932,
-      "step": 53
     },
     {
-      "epoch": 0.9653631284916201,
-      "grad_norm": 0.009014743380248547,
-      "learning_rate": 4.6570269818346224e-07,
-      "loss": 11.9283,
-      "step": 54
     },
     {
-      "epoch": 0.9832402234636871,
-      "grad_norm": 0.009628918021917343,
-      "learning_rate": 1.1656154047303691e-07,
-      "loss": 11.9317,
-      "step": 55
     },
     {
-      "epoch": 1.0033519553072625,
-      "grad_norm": 0.00985956471413374,
       "learning_rate": 0.0,
-      "loss": 13.9592,
-      "step": 56
-    },
-    {
-      "epoch": 1.0033519553072625,
-      "eval_loss": 11.928487777709961,
-      "eval_runtime": 0.3738,
-      "eval_samples_per_second": 254.136,
-      "eval_steps_per_second": 128.405,
-      "step": 56
     }
   ],
-  "logging_steps": 1,
-  "max_steps": 56,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
-  "save_steps": 14,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
@@ -458,8 +459,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 26468155392.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 11.9102783203125,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 3.0,
+  "eval_steps": 50,
+  "global_step": 168,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.017857142857142856,
+      "eval_loss": 11.9290132522583,
+      "eval_runtime": 0.5421,
+      "eval_samples_per_second": 175.25,
+      "eval_steps_per_second": 44.274,
       "step": 1
     },
     {
+      "epoch": 0.05357142857142857,
+      "grad_norm": 0.019959961995482445,
+      "learning_rate": 3e-05,
+      "loss": 11.9303,
+      "step": 3
     },
     {
+      "epoch": 0.10714285714285714,
+      "grad_norm": 0.022794105112552643,
+      "learning_rate": 6e-05,
+      "loss": 11.9305,
+      "step": 6
     },
     {
+      "epoch": 0.16071428571428573,
+      "grad_norm": 0.0353395938873291,
+      "learning_rate": 9e-05,
+      "loss": 11.9295,
+      "step": 9
     },
     {
+      "epoch": 0.21428571428571427,
+      "grad_norm": 0.03792329132556915,
+      "learning_rate": 9.996046986136509e-05,
+      "loss": 11.93,
+      "step": 12
     },
     {
+      "epoch": 0.26785714285714285,
+      "grad_norm": 0.03241180628538132,
+      "learning_rate": 9.975310752612137e-05,
+      "loss": 11.9276,
+      "step": 15
     },
     {
+      "epoch": 0.32142857142857145,
+      "grad_norm": 0.05070869252085686,
+      "learning_rate": 9.936876709681668e-05,
+      "loss": 11.9291,
+      "step": 18
     },
     {
+      "epoch": 0.375,
+      "grad_norm": 0.05852275714278221,
+      "learning_rate": 9.880881572095256e-05,
+      "loss": 11.9291,
+      "step": 21
     },
     {
+      "epoch": 0.42857142857142855,
+      "grad_norm": 0.08124187588691711,
+      "learning_rate": 9.807524521637102e-05,
+      "loss": 11.9278,
+      "step": 24
     },
     {
+      "epoch": 0.48214285714285715,
+      "grad_norm": 0.05361940711736679,
+      "learning_rate": 9.717066498610673e-05,
+      "loss": 11.9256,
+      "step": 27
     },
     {
+      "epoch": 0.5357142857142857,
+      "grad_norm": 0.0750463530421257,
+      "learning_rate": 9.609829273641034e-05,
+      "loss": 11.9261,
+      "step": 30
     },
     {
+      "epoch": 0.5892857142857143,
+      "grad_norm": 0.08543704450130463,
+      "learning_rate": 9.486194303096062e-05,
+      "loss": 11.9248,
+      "step": 33
     },
     {
+      "epoch": 0.6428571428571429,
+      "grad_norm": 0.09016852080821991,
+      "learning_rate": 9.346601372197914e-05,
+      "loss": 11.9243,
+      "step": 36
     },
     {
+      "epoch": 0.6964285714285714,
+      "grad_norm": 0.10736904293298721,
+      "learning_rate": 9.191547030651383e-05,
+      "loss": 11.9206,
+      "step": 39
     },
     {
+      "epoch": 0.75,
+      "grad_norm": 0.0793285071849823,
+      "learning_rate": 9.021582826353824e-05,
+      "loss": 11.9232,
+      "step": 42
     },
     {
+      "epoch": 0.8035714285714286,
+      "grad_norm": 0.05057210102677345,
+      "learning_rate": 8.83731334346954e-05,
+      "loss": 11.9215,
+      "step": 45
     },
     {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.05617088824510574,
+      "learning_rate": 8.639394051847472e-05,
+      "loss": 11.9211,
+      "step": 48
     },
     {
+      "epoch": 0.8928571428571429,
+      "eval_loss": 11.918818473815918,
+      "eval_runtime": 0.5369,
+      "eval_samples_per_second": 176.942,
+      "eval_steps_per_second": 44.701,
+      "step": 50
     },
     {
+      "epoch": 0.9107142857142857,
+      "grad_norm": 0.06780627369880676,
+      "learning_rate": 8.428528975432066e-05,
+      "loss": 11.9193,
+      "step": 51
     },
     {
+      "epoch": 0.9642857142857143,
+      "grad_norm": 0.03634953871369362,
+      "learning_rate": 8.2054681879611e-05,
+      "loss": 11.9178,
+      "step": 54
     },
     {
+      "epoch": 1.0178571428571428,
+      "grad_norm": 0.04605906456708908,
+      "learning_rate": 7.971005144858553e-05,
+      "loss": 11.9182,
+      "step": 57
     },
     {
+      "epoch": 1.0714285714285714,
+      "grad_norm": 0.025876272469758987,
+      "learning_rate": 7.725973860813338e-05,
+      "loss": 11.9199,
+      "step": 60
     },
     {
+      "epoch": 1.125,
+      "grad_norm": 0.04855341464281082,
+      "learning_rate": 7.471245943083615e-05,
+      "loss": 11.9185,
+      "step": 63
     },
     {
+      "epoch": 1.1785714285714286,
+      "grad_norm": 0.03910359740257263,
+      "learning_rate": 7.20772749107956e-05,
+      "loss": 11.9184,
+      "step": 66
     },
     {
+      "epoch": 1.2321428571428572,
+      "grad_norm": 0.08992303162813187,
+      "learning_rate": 6.936355873253206e-05,
+      "loss": 11.9154,
+      "step": 69
     },
     {
+      "epoch": 1.2857142857142856,
+      "grad_norm": 0.04321262612938881,
+      "learning_rate": 6.65809639276034e-05,
+      "loss": 11.919,
+      "step": 72
     },
     {
+      "epoch": 1.3392857142857144,
+      "grad_norm": 0.049111876636743546,
+      "learning_rate": 6.373938853755126e-05,
+      "loss": 11.9185,
+      "step": 75
     },
     {
+      "epoch": 1.3928571428571428,
+      "grad_norm": 0.0660889744758606,
+      "learning_rate": 6.08489404053159e-05,
+      "loss": 11.9156,
+      "step": 78
     },
     {
+      "epoch": 1.4464285714285714,
+      "grad_norm": 0.0920424684882164,
+      "learning_rate": 5.791990122036075e-05,
+      "loss": 11.9151,
+      "step": 81
     },
     {
+      "epoch": 1.5,
+      "grad_norm": 0.04646582156419754,
+      "learning_rate": 5.496268994540309e-05,
+      "loss": 11.9162,
+      "step": 84
     },
     {
+      "epoch": 1.5535714285714286,
+      "grad_norm": 0.053827133029699326,
+      "learning_rate": 5.19878257548463e-05,
+      "loss": 11.9172,
+      "step": 87
     },
     {
+      "epoch": 1.6071428571428572,
+      "grad_norm": 0.04865885153412819,
+      "learning_rate": 4.900589061674649e-05,
+      "loss": 11.9165,
+      "step": 90
     },
     {
+      "epoch": 1.6607142857142856,
+      "grad_norm": 0.0875491127371788,
+      "learning_rate": 4.602749165141428e-05,
+      "loss": 11.9132,
+      "step": 93
     },
     {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.04339161515235901,
+      "learning_rate": 4.3063223400546594e-05,
+      "loss": 11.9123,
+      "step": 96
     },
     {
+      "epoch": 1.7678571428571428,
+      "grad_norm": 0.04742836579680443,
+      "learning_rate": 4.012363014110237e-05,
+      "loss": 11.9154,
+      "step": 99
     },
     {
+      "epoch": 1.7857142857142856,
+      "eval_loss": 11.913043975830078,
+      "eval_runtime": 0.5398,
+      "eval_samples_per_second": 175.99,
+      "eval_steps_per_second": 44.461,
+      "step": 100
     },
     {
+      "epoch": 1.8214285714285714,
+      "grad_norm": 0.04398871585726738,
+      "learning_rate": 3.721916837797627e-05,
+      "loss": 11.9137,
+      "step": 102
     },
     {
+      "epoch": 1.875,
+      "grad_norm": 0.05781185254454613,
+      "learning_rate": 3.436016964888865e-05,
+      "loss": 11.9125,
+      "step": 105
     },
     {
+      "epoch": 1.9285714285714286,
+      "grad_norm": 0.08808522671461105,
+      "learning_rate": 3.1556803773799614e-05,
+      "loss": 11.9077,
+      "step": 108
     },
     {
+      "epoch": 1.9821428571428572,
+      "grad_norm": 0.06021308898925781,
+      "learning_rate": 2.8819042679573617e-05,
+      "loss": 11.9141,
+      "step": 111
     },
     {
+      "epoch": 2.0357142857142856,
+      "grad_norm": 0.048566147685050964,
+      "learning_rate": 2.6156624928574707e-05,
+      "loss": 11.9136,
+      "step": 114
     },
     {
+      "epoch": 2.0892857142857144,
+      "grad_norm": 0.04223039001226425,
+      "learning_rate": 2.3579021077369046e-05,
+      "loss": 11.9142,
+      "step": 117
     },
     {
+      "epoch": 2.142857142857143,
+      "grad_norm": 0.04601627215743065,
+      "learning_rate": 2.1095399988757574e-05,
+      "loss": 11.9133,
+      "step": 120
     },
     {
+      "epoch": 2.1964285714285716,
+      "grad_norm": 0.05840318650007248,
+      "learning_rate": 1.8714596216972007e-05,
+      "loss": 11.9112,
+      "step": 123
     },
     {
+      "epoch": 2.25,
+      "grad_norm": 0.035777896642684937,
+      "learning_rate": 1.6445078582048155e-05,
+      "loss": 11.9091,
+      "step": 126
     },
     {
+      "epoch": 2.3035714285714284,
+      "grad_norm": 0.037539299577474594,
+      "learning_rate": 1.4294920045162513e-05,
+      "loss": 11.9146,
+      "step": 129
     },
     {
+      "epoch": 2.357142857142857,
+      "grad_norm": 0.042784880846738815,
+      "learning_rate": 1.2271768992088489e-05,
+      "loss": 11.9117,
+      "step": 132
     },
     {
+      "epoch": 2.4107142857142856,
+      "grad_norm": 0.05495860055088997,
+      "learning_rate": 1.038282202692129e-05,
+      "loss": 11.9109,
+      "step": 135
     },
     {
+      "epoch": 2.4642857142857144,
+      "grad_norm": 0.07855169475078583,
+      "learning_rate": 8.634798372847148e-06,
+      "loss": 11.9069,
+      "step": 138
     },
     {
+      "epoch": 2.517857142857143,
+      "grad_norm": 0.03630689159035683,
+      "learning_rate": 7.033915971016952e-06,
+      "loss": 11.9139,
+      "step": 141
     },
     {
+      "epoch": 2.571428571428571,
+      "grad_norm": 0.048760075122117996,
+      "learning_rate": 5.585869362543416e-06,
+      "loss": 11.9124,
+      "step": 144
     },
     {
+      "epoch": 2.625,
+      "grad_norm": 0.04377627745270729,
+      "learning_rate": 4.29580943229827e-06,
+      "loss": 11.9118,
+      "step": 147
     },
     {
+      "epoch": 2.678571428571429,
+      "grad_norm": 0.05847623199224472,
+      "learning_rate": 3.1683250865636114e-06,
+      "loss": 11.9095,
+      "step": 150
     },
     {
+      "epoch": 2.678571428571429,
+      "eval_loss": 11.9102783203125,
+      "eval_runtime": 0.5392,
+      "eval_samples_per_second": 176.177,
+      "eval_steps_per_second": 44.508,
+      "step": 150
     },
     {
+      "epoch": 2.732142857142857,
+      "grad_norm": 0.034065768122673035,
+      "learning_rate": 2.2074269297119587e-06,
+      "loss": 11.9088,
+      "step": 153
     },
     {
+      "epoch": 2.7857142857142856,
+      "grad_norm": 0.04465312138199806,
+      "learning_rate": 1.4165329979794973e-06,
+      "loss": 11.9133,
+      "step": 156
     },
     {
+      "epoch": 2.8392857142857144,
+      "grad_norm": 0.043062131851911545,
+      "learning_rate": 7.984566010789674e-07,
+      "loss": 11.9122,
+      "step": 159
     },
     {
+      "epoch": 2.892857142857143,
+      "grad_norm": 0.05254960432648659,
+      "learning_rate": 3.553963149013295e-07,
+      "loss": 11.9094,
+      "step": 162
     },
     {
+      "epoch": 2.946428571428571,
+      "grad_norm": 0.032099399715662,
+      "learning_rate": 8.892816090335099e-08,
+      "loss": 11.9082,
+      "step": 165
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 0.09737348556518555,
       "learning_rate": 0.0,
+      "loss": 11.908,
+      "step": 168
     }
   ],
+  "logging_steps": 3,
+  "max_steps": 168,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50,
   "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
       "attributes": {}
     }
   },
+  "total_flos": 808543272960.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b493acda86013cdad96ddc1c8b15ecd048f77916680ceff7b36913b4abf1f138
-size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0e57d43ac703b2028bdad9e5663a68ee010037b928221f2ef946ca8bb5c20a4
+size 6840

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b493acda86013cdad96ddc1c8b15ecd048f77916680ceff7b36913b4abf1f138
-size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0e57d43ac703b2028bdad9e5663a68ee010037b928221f2ef946ca8bb5c20a4
+size 6840