Spaces:

VincentGOURBIN
/

swift-mlx-qwen3-chatbot

Running on Zero

App Files Files Community

VincentGOURBIN commited on Aug 23

Commit

c892afd

verified ·

1 Parent(s): 72e5939

Upload step03_chatbot.py with huggingface_hub

Browse files

Files changed (1) hide show

step03_chatbot.py +56 -22

step03_chatbot.py CHANGED Viewed

@@ -638,6 +638,10 @@ class GenericRAGChatbot:
             print("  - Chargement du tokenizer...")
             self.generation_tokenizer = AutoTokenizer.from_pretrained(self.generation_model_name)
             # Configuration du modèle selon la plateforme
             model_kwargs = self._get_generation_model_config()
@@ -838,13 +842,31 @@ Instructions importantes:
         messages.append({"role": "user", "content": user_message})
         try:
             # Tokenisation
-            inputs = self.generation_tokenizer.apply_chat_template(
-                messages,
-                tokenize=True,
-                add_generation_prompt=True,
-                return_tensors="pt"
-            ).to(self.device)
             # Génération streamée
             from transformers import TextIteratorStreamer
@@ -858,13 +880,15 @@ Instructions importantes:
             )
             generation_kwargs = {
-                "input_ids": inputs,
                 "streamer": streamer,
-                "max_new_tokens": 1024,
                 "temperature": 0.7,
                 "do_sample": True,
-                "pad_token_id": self.generation_tokenizer.eos_token_id,
                 "eos_token_id": self.generation_tokenizer.eos_token_id,
             }
             # Lancer la génération dans un thread séparé
@@ -919,33 +943,43 @@ Réponds à cette question en te basant sur le contexte fourni."""
         # Formatage pour le modèle
         try:
-            # Appliquer le template de chat du modèle
-            formatted_prompt = self.generation_tokenizer.apply_chat_template(
-                messages,
-                tokenize=False,
-                add_generation_prompt=True
-            )
-            # Tokenisation
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
-                max_length=4096
             )
             # Déplacement vers le device
             inputs = {k: v.to(self.generation_device) for k, v in inputs.items()}
-            # Génération
             with torch.no_grad():
                 outputs = self.generation_model.generate(
-                    **inputs,
-                    max_new_tokens=1024,
                     temperature=0.7,
                     do_sample=True,
-                    pad_token_id=self.generation_tokenizer.eos_token_id,
                     eos_token_id=self.generation_tokenizer.eos_token_id,
                 )
             # Décodage de la réponse

             print("  - Chargement du tokenizer...")
             self.generation_tokenizer = AutoTokenizer.from_pretrained(self.generation_model_name)
+            # Configuration correcte pour Qwen3
+            if self.generation_tokenizer.pad_token is None:
+                self.generation_tokenizer.pad_token = self.generation_tokenizer.eos_token
             # Configuration du modèle selon la plateforme
             model_kwargs = self._get_generation_model_config()
         messages.append({"role": "user", "content": user_message})
         try:
+            # Formatage manuel plus stable pour ZeroGPU
+            formatted_messages = []
+            for msg in messages:
+                if msg["role"] == "system":
+                    formatted_messages.append(f"<|im_start|>system\n{msg['content']}<|im_end|>")
+                elif msg["role"] == "user":
+                    formatted_messages.append(f"<|im_start|>user\n{msg['content']}<|im_end|>")
+                elif msg["role"] == "assistant":
+                    formatted_messages.append(f"<|im_start|>assistant\n{msg['content']}<|im_end|>")
+            # Ajouter le prompt de génération
+            formatted_messages.append("<|im_start|>assistant\n")
+            formatted_prompt = "\n".join(formatted_messages)
             # Tokenisation
+            inputs = self.generation_tokenizer(
+                formatted_prompt,
+                return_tensors="pt",
+                truncation=True,
+                max_length=4096,
+                padding=True
+            )
+            # Déplacement vers le device
+            inputs = {k: v.to(self.generation_device) for k, v in inputs.items()}
             # Génération streamée
             from transformers import TextIteratorStreamer
             )
             generation_kwargs = {
+                "input_ids": inputs["input_ids"],
+                "attention_mask": inputs["attention_mask"],
                 "streamer": streamer,
+                "max_new_tokens": 512,
                 "temperature": 0.7,
                 "do_sample": True,
+                "pad_token_id": self.generation_tokenizer.pad_token_id,
                 "eos_token_id": self.generation_tokenizer.eos_token_id,
+                "use_cache": True
             }
             # Lancer la génération dans un thread séparé
         # Formatage pour le modèle
         try:
+            # Formatage manuel plus stable pour ZeroGPU
+            formatted_messages = []
+            for msg in messages:
+                if msg["role"] == "system":
+                    formatted_messages.append(f"<|im_start|>system\n{msg['content']}<|im_end|>")
+                elif msg["role"] == "user":
+                    formatted_messages.append(f"<|im_start|>user\n{msg['content']}<|im_end|>")
+                elif msg["role"] == "assistant":
+                    formatted_messages.append(f"<|im_start|>assistant\n{msg['content']}<|im_end|>")
+            # Ajouter le prompt de génération
+            formatted_messages.append("<|im_start|>assistant\n")
+            formatted_prompt = "\n".join(formatted_messages)
+            # Tokenisation avec padding et attention mask appropriés
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
+                max_length=4096,
+                padding=True
             )
             # Déplacement vers le device
             inputs = {k: v.to(self.generation_device) for k, v in inputs.items()}
+            # Génération avec paramètres simplifiés
             with torch.no_grad():
                 outputs = self.generation_model.generate(
+                    input_ids=inputs["input_ids"],
+                    attention_mask=inputs["attention_mask"],
+                    max_new_tokens=512,
                     temperature=0.7,
                     do_sample=True,
+                    pad_token_id=self.generation_tokenizer.pad_token_id,
                     eos_token_id=self.generation_tokenizer.eos_token_id,
+                    use_cache=True
                 )
             # Décodage de la réponse