Spaces:

Dovakiins
/

qwerrwe

Build error

winglian commited on Jun 25, 2023

Commit

de8ed22

unverified ·

2 Parent(s): 478d8c7 47d601f

Merge pull request #240 from OpenAccess-AI-Collective/tokenizer-fast

Files changed (3) hide show

README.md CHANGED Viewed

@@ -302,6 +302,8 @@ model_type: AutoModelForCausalLM
 tokenizer_type: AutoTokenizer
 # Trust remote code for untrusted source
 trust_remote_code:
 # whether you are training a 4-bit GPTQ quantized model
 gptq: true

 tokenizer_type: AutoTokenizer
 # Trust remote code for untrusted source
 trust_remote_code:
+# use_fast option for tokenizer loading from_pretrained, default to True
+tokenizer_use_fast:
 # whether you are training a 4-bit GPTQ quantized model
 gptq: true

src/axolotl/utils/models.py CHANGED Viewed

@@ -34,15 +34,20 @@ def load_tokenizer(
     tokenizer_type,
     cfg,
 ):
     if tokenizer_type:
         tokenizer = getattr(transformers, tokenizer_type).from_pretrained(
             tokenizer_config,
             trust_remote_code=cfg.trust_remote_code or False,
         )
     else:
         tokenizer = AutoTokenizer.from_pretrained(
             tokenizer_config,
             trust_remote_code=cfg.trust_remote_code or False,
         )
     logging.debug(f"EOS: {tokenizer.eos_token_id} / {tokenizer.eos_token}")

     tokenizer_type,
     cfg,
 ):
+    use_fast = True  # this is the default
+    if cfg.tokenizer_use_fast is not None:
+        use_fast = cfg.tokenizer_use_fast
     if tokenizer_type:
         tokenizer = getattr(transformers, tokenizer_type).from_pretrained(
             tokenizer_config,
             trust_remote_code=cfg.trust_remote_code or False,
+            use_fast=use_fast,
         )
     else:
         tokenizer = AutoTokenizer.from_pretrained(
             tokenizer_config,
             trust_remote_code=cfg.trust_remote_code or False,
+            use_fast=use_fast,
         )
     logging.debug(f"EOS: {tokenizer.eos_token_id} / {tokenizer.eos_token}")

tests/test_tokenizers.py ADDED Viewed

+"""
+Test cases for the tokenizer loading
+"""
+import unittest
+from axolotl.utils.dict import DictDefault
+from axolotl.utils.models import load_tokenizer
+class TestTokenizers(unittest.TestCase):
+    """
+    test class for the load_tokenizer fn
+    """
+    def test_default_use_fast(self):
+        cfg = DictDefault({})
+        tokenizer = load_tokenizer("huggyllama/llama-7b", None, cfg)
+        assert "Fast" in tokenizer.__class__.__name__
+    def test_dont_use_fast(self):
+        cfg = DictDefault(
+            {
+                "tokenizer_use_fast": False,
+            }
+        )
+        tokenizer = load_tokenizer("huggyllama/llama-7b", None, cfg)
+        assert "Fast" not in tokenizer.__class__.__name__
+if __name__ == "__main__":
+    unittest.main()