Spaces:

Dovakiins
/

qwerrwe

Build error

winglian commited on Jun 7, 2023

Commit

59bb219

1 Parent(s): 9a02e7e

fix camel ai, add guanaco/oasst mapping for sharegpt

Files changed (2) hide show

src/axolotl/prompt_strategies/alpaca_chat.py CHANGED Viewed

@@ -49,7 +49,7 @@ class CamelAIPromptTokenizingStrategy(InstructionPromptTokenizingStrategy):
         return (
             prompt["message_1"],
             "",
-            prompt["message_1"],
         )

         return (
             prompt["message_1"],
             "",
+            prompt["message_2"],
         )

src/axolotl/prompt_strategies/sharegpt_simple.py ADDED Viewed

+"""Module containing the SimpleShareGPTPromptTokenizingStrategy class"""
+from axolotl.prompt_tokenizers import ShareGPTPromptTokenizingStrategy
+from axolotl.prompters import PromptStyle, ShareGPTPrompter
+def load(tokenizer, cfg):
+    return SimpleShareGPTPromptTokenizingStrategy(
+        ShareGPTPrompter(PromptStyle.CHAT.value),
+        tokenizer,
+        cfg.train_on_inputs,
+        cfg.sequence_len,
+    )
+def load_guanaco(tokenizer, cfg):
+    return GuanacoShareGPTPromptTokenizingStrategy(
+        ShareGPTPrompter(PromptStyle.CHAT.value),
+        tokenizer,
+        cfg.train_on_inputs,
+        cfg.sequence_len,
+    )
+class SimpleShareGPTPromptTokenizingStrategy(ShareGPTPromptTokenizingStrategy):
+    """
+    basic sharegpt strategy to grab conversations from the sample row
+    """
+    def get_conversation_thread(self, prompt):
+        return prompt["conversations"]
+class GuanacoShareGPTPromptTokenizingStrategy(ShareGPTPromptTokenizingStrategy):
+    """
+    sharegpt strategy that remaps oasst data to sharegpt format
+    """
+    def get_conversation_thread(self, prompt):
+        conversations = prompt["conversations"]
+        # remap role: prompter/assistant, text: ... => from: human/gpt, value: ...
+        role_map = {"prompter": "human", "assistant": "gpt"}
+        turns = [
+            {"from": role_map[t["role"]], "value": t["text"]} for t in conversations
+        ]
+        return turns