Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

winglian commited on Dec 12, 2023

Commit

5f79b82

unverified ·

1 Parent(s): f1de29d

new evals_per_epoch and saves_per_epoch to make things cleaner (#944)

Browse files

* new evals_per_epoch and saves_per_epoch to make things cleaner

* update per PR feedback

Files changed (37) hide show

README.md +3 -1
examples/cerebras/btlm-ft.yml +2 -2
examples/cerebras/qlora.yml +2 -2
examples/code-llama/13b/lora.yml +2 -2
examples/code-llama/13b/qlora.yml +2 -2
examples/code-llama/34b/lora.yml +2 -2
examples/code-llama/34b/qlora.yml +2 -2
examples/code-llama/7b/lora.yml +2 -2
examples/code-llama/7b/qlora.yml +2 -2
examples/falcon/config-7b-lora.yml +2 -2
examples/falcon/config-7b-qlora.yml +2 -2
examples/falcon/config-7b.yml +2 -2
examples/gptj/qlora.yml +2 -2
examples/jeopardy-bot/config.yml +2 -2
examples/llama-2/fft_optimized.yml +2 -2
examples/llama-2/gptq-lora.yml +2 -2
examples/llama-2/lora.yml +2 -2
examples/llama-2/qlora.yml +2 -2
examples/llama-2/relora.yml +2 -2
examples/llama-2/tiny-llama.yml +2 -2
examples/mamba/config.yml +2 -2
examples/mistral/config.yml +2 -2
examples/mistral/mixtral.yml +2 -2
examples/mistral/qlora.yml +2 -2
examples/mpt-7b/config.yml +2 -2
examples/openllama-3b/config.yml +2 -2
examples/openllama-3b/lora.yml +2 -2
examples/openllama-3b/qlora.yml +2 -2
examples/phi/phi-ft.yml +2 -2
examples/phi/phi-qlora.yml +2 -2
examples/pythia/lora.yml +1 -1
examples/qwen/lora.yml +2 -2
examples/qwen/qlora.yml +2 -2
examples/redpajama/config-3b.yml +2 -2
examples/replit-3b/config-lora.yml +2 -2
examples/xgen-7b/xgen-7b-8k-qlora.yml +2 -2
src/axolotl/utils/config.py +30 -0

README.md CHANGED Viewed

@@ -691,9 +691,11 @@ warmup_ratio: 0.05  # cannot use with warmup_steps
 learning_rate: 0.00003
 lr_quadratic_warmup:
 logging_steps:
 save_strategy: # Set to `no` to skip checkpoint saves
 save_steps: # Leave empty to save at each epoch
-eval_steps: # Leave empty to eval at each epoch, integers for every N steps. decimal for fraction of total steps
 save_total_limit: # Checkpoints saved at a time
 # Maximum number of iterations to train for. It precedes num_epochs which means that
 # if both are set, num_epochs will not be guaranteed.

 learning_rate: 0.00003
 lr_quadratic_warmup:
 logging_steps:
+eval_steps: # Leave empty to eval at each epoch, integers for every N steps. decimal for fraction of total steps
+evals_per_epoch: # number of times per epoch to run evals, mutually exclusive with eval_steps
 save_strategy: # Set to `no` to skip checkpoint saves
 save_steps: # Leave empty to save at each epoch
+saves_per_epoch: # number of times per epoch to save a checkpoint, mutually exclusive with save_steps
 save_total_limit: # Checkpoints saved at a time
 # Maximum number of iterations to train for. It precedes num_epochs which means that
 # if both are set, num_epochs will not be guaranteed.

examples/cerebras/btlm-ft.yml CHANGED Viewed

@@ -72,8 +72,8 @@ gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 32
-eval_steps:
-save_steps:
 save_total_limit:
 debug:

 gptq_model_v1:
 warmup_steps: 32
+evals_per_epoch: 4
+saves_per_epoch: 1
 save_total_limit:
 debug:

examples/cerebras/qlora.yml CHANGED Viewed

@@ -49,8 +49,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/code-llama/13b/lora.yml CHANGED Viewed

@@ -54,8 +54,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/code-llama/13b/qlora.yml CHANGED Viewed

@@ -56,8 +56,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/code-llama/34b/lora.yml CHANGED Viewed

@@ -54,8 +54,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/code-llama/34b/qlora.yml CHANGED Viewed

@@ -56,8 +56,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/code-llama/7b/lora.yml CHANGED Viewed

@@ -54,8 +54,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/code-llama/7b/qlora.yml CHANGED Viewed

@@ -56,8 +56,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/falcon/config-7b-lora.yml CHANGED Viewed

@@ -51,8 +51,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 40
-eval_steps: 5
-save_steps: 43
 debug:
 deepspeed:
 weight_decay: 0.0

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 40
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/falcon/config-7b-qlora.yml CHANGED Viewed

@@ -80,8 +80,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
-eval_steps: 5
-save_steps: 10
 debug:
 deepspeed:
 weight_decay: 0.000001

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.000001

examples/falcon/config-7b.yml CHANGED Viewed

@@ -51,8 +51,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 40
-eval_steps: 5
-save_steps: 43
 debug:
 deepspeed:
 weight_decay: 0.0

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 40
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/gptj/qlora.yml CHANGED Viewed

@@ -46,8 +46,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/jeopardy-bot/config.yml CHANGED Viewed

@@ -42,8 +42,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 110
-save_steps: 660
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/llama-2/fft_optimized.yml CHANGED Viewed

@@ -58,9 +58,9 @@ flash_attn_fuse_qkv: false
 flash_attn_fuse_mlp: true
 warmup_steps: 100
-eval_steps: 0.05
 eval_table_size:
-save_steps:
 debug:
 deepspeed: #deepspeed/zero2.json # multi-gpu only
 weight_decay: 0.1

 flash_attn_fuse_mlp: true
 warmup_steps: 100
+evals_per_epoch: 4
 eval_table_size:
+saves_per_epoch: 1
 debug:
 deepspeed: #deepspeed/zero2.json # multi-gpu only
 weight_decay: 0.1

examples/llama-2/gptq-lora.yml CHANGED Viewed

@@ -62,8 +62,8 @@ flash_attention:
 sdp_attention:
 flash_optimum:
 warmup_steps: 100
-eval_steps:
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 sdp_attention:
 flash_optimum:
 warmup_steps: 100
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/llama-2/lora.yml CHANGED Viewed

@@ -54,10 +54,10 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/llama-2/qlora.yml CHANGED Viewed

@@ -56,9 +56,9 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/llama-2/relora.yml CHANGED Viewed

@@ -60,8 +60,8 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
-save_steps: 50
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/llama-2/tiny-llama.yml CHANGED Viewed

@@ -54,9 +54,9 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/mamba/config.yml CHANGED Viewed

@@ -47,10 +47,10 @@ xformers_attention:
 flash_attention:
 warmup_steps: 10
-eval_steps:
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:  0.25
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention:
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/mistral/config.yml CHANGED Viewed

@@ -46,10 +46,10 @@ xformers_attention:
 flash_attention: true
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention: true
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/mistral/mixtral.yml CHANGED Viewed

@@ -67,10 +67,10 @@ loss_watchdog_threshold: 5.0
 loss_watchdog_patience: 3
 warmup_steps: 10
-eval_steps:
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed: deepspeed/zero2.json
 weight_decay: 0.0

 loss_watchdog_patience: 3
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed: deepspeed/zero2.json
 weight_decay: 0.0

examples/mistral/qlora.yml CHANGED Viewed

@@ -66,10 +66,10 @@ loss_watchdog_threshold: 5.0
 loss_watchdog_patience: 3
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 loss_watchdog_patience: 3
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/mpt-7b/config.yml CHANGED Viewed

@@ -44,8 +44,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 110
-save_steps: 660
 debug:
 deepspeed:
 weight_decay: 0.0001

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0001

examples/openllama-3b/config.yml CHANGED Viewed

@@ -49,8 +49,8 @@ flash_attention: true
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/openllama-3b/lora.yml CHANGED Viewed

@@ -54,8 +54,8 @@ flash_attention: true
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/openllama-3b/qlora.yml CHANGED Viewed

@@ -48,8 +48,8 @@ flash_attention: true
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/phi/phi-ft.yml CHANGED Viewed

@@ -59,8 +59,8 @@ xformers_attention:
 flash_attention:
 warmup_steps: 100
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 flash_attention:
 warmup_steps: 100
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/phi/phi-qlora.yml CHANGED Viewed

@@ -59,8 +59,8 @@ xformers_attention:
 flash_attention:
 warmup_steps: 100
-eval_steps: 0.05
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.1

 flash_attention:
 warmup_steps: 100
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.1

examples/pythia/lora.yml CHANGED Viewed

@@ -33,5 +33,5 @@ early_stopping_patience:
 resume_from_checkpoint:
 local_rank:
 weight_decay: 0.1
-eval_steps: 0.05
 logging_steps: 1

 resume_from_checkpoint:
 local_rank:
 weight_decay: 0.1
+evals_per_epoch: 4
 logging_steps: 1

examples/qwen/lora.yml CHANGED Viewed

@@ -56,10 +56,10 @@ xformers_attention:
 flash_attention:
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention:
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/qwen/qlora.yml CHANGED Viewed

@@ -56,10 +56,10 @@ xformers_attention:
 flash_attention:
 warmup_steps: 10
-eval_steps: 0.05
 eval_table_size:
 eval_table_max_new_tokens: 128
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0.0

 flash_attention:
 warmup_steps: 10
+evals_per_epoch: 4
 eval_table_size:
 eval_table_max_new_tokens: 128
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

examples/redpajama/config-3b.yml CHANGED Viewed

@@ -45,8 +45,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 110
-save_steps: 660
 debug:
 deepspeed:
 weight_decay: 0.0001

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0001

examples/replit-3b/config-lora.yml CHANGED Viewed

@@ -45,8 +45,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
-eval_steps: 50
-save_steps:
 debug:
 deepspeed:
 weight_decay: 0

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 20
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0

examples/xgen-7b/xgen-7b-8k-qlora.yml CHANGED Viewed

@@ -78,8 +78,8 @@ flash_attention:
 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
-eval_steps: 50
-save_steps: 50
 debug:
 deepspeed:
 weight_decay: 0.0

 gptq_groupsize:
 gptq_model_v1:
 warmup_steps: 10
+evals_per_epoch: 4
+saves_per_epoch: 1
 debug:
 deepspeed:
 weight_decay: 0.0

src/axolotl/utils/config.py CHANGED Viewed

@@ -77,6 +77,15 @@ def normalize_config(cfg):
     else:
         cfg.torch_dtype = torch.float32
     cfg.dataset_processes = cfg.dataset_processes or os.cpu_count()
     if not cfg.base_model_config:
@@ -352,6 +361,27 @@ def validate_config(cfg):
                 cfg.datasets[idx].type = cfg.datasets[idx].type.replace(
                     "sharegpt_simple", "sharegpt"
                 )
     if cfg.save_strategy and cfg.save_steps and cfg.save_strategy != "steps":
         raise ValueError(
             "save_strategy and save_steps mismatch. Please set save_strategy to 'steps' or remove save_steps."

     else:
         cfg.torch_dtype = torch.float32
+    if cfg.saves_per_epoch:
+        save_steps = 1.0 / (cfg.saves_per_epoch * cfg.num_epochs)
+        if save_steps < 1.0:  # prevent saves on every step
+            cfg.save_steps = save_steps
+    if cfg.evals_per_epoch:
+        eval_steps = 1.0 / (cfg.evals_per_epoch * cfg.num_epochs)
+        if eval_steps < 1.0:  # prevent evals on every step
+            cfg.eval_steps = eval_steps
     cfg.dataset_processes = cfg.dataset_processes or os.cpu_count()
     if not cfg.base_model_config:
                 cfg.datasets[idx].type = cfg.datasets[idx].type.replace(
                     "sharegpt_simple", "sharegpt"
                 )
+    if cfg.saves_per_epoch and cfg.save_steps:
+        raise ValueError(
+            "save_steps and saves_per_epoch are mutually exclusive and cannot be used together."
+        )
+    if cfg.saves_per_epoch and cfg.save_strategy and cfg.save_strategy != "steps":
+        raise ValueError(
+            "save_strategy must be empty or set to `steps` when used with saves_per_epoch."
+        )
+    if cfg.evals_per_epoch and cfg.eval_steps:
+        raise ValueError(
+            "eval_steps and evals_per_epoch are mutually exclusive and cannot be used together."
+        )
+    if (
+        cfg.evals_per_epoch
+        and cfg.evaluation_strategy
+        and cfg.evaluation_strategy != "steps"
+    ):
+        raise ValueError(
+            "evaluation_strategy must be empty or set to `steps` when used with evals_per_epoch."
+        )
     if cfg.save_strategy and cfg.save_steps and cfg.save_strategy != "steps":
         raise ValueError(
             "save_strategy and save_steps mismatch. Please set save_strategy to 'steps' or remove save_steps."