Spaces:

nroggendorff
/

train-llama

Runtime error

nroggendorff commited on Sep 2, 2024

Commit

85c4894

verified ·

1 Parent(s): 3c67b8d

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -36,7 +36,7 @@ def create_tokenizer(training_corpus):
     tokenizer = ByteLevelBPETokenizer()
     special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
     if INSTRUCT_FINETUNE_BOOL:
-        special_tokens.append("<|user|>", "<|bot|>", "<|end|>")
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,
@@ -50,7 +50,7 @@ def create_tokenizer(training_corpus):
 def load_tokenizer(training_corpus):
     tokenizer = AutoTokenizer.from_pretrained(OUTPUT_REPO)
     special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
-    special_tokens.append("<|user|>", "<|bot|>", "<|end|>")
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,

     tokenizer = ByteLevelBPETokenizer()
     special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
     if INSTRUCT_FINETUNE_BOOL:
+        special_tokens.append(["<|user|>", "<|bot|>", "<|end|>"])
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,
 def load_tokenizer(training_corpus):
     tokenizer = AutoTokenizer.from_pretrained(OUTPUT_REPO)
     special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
+    special_tokens.append(["<|user|>", "<|bot|>", "<|end|>"])
     tokenizer.train_from_iterator(
         training_corpus,
         vocab_size=VOCAB_SIZE,