Spaces:

VincentGOURBIN
/

swift-mlx-qwen3-chatbot

Running on Zero

App Files Files Community

VincentGOURBIN commited on Aug 23

Commit

4448628

verified ·

1 Parent(s): 68ce604

Upload step03_chatbot.py with huggingface_hub

Browse files

Files changed (1) hide show

step03_chatbot.py +3 -16

step03_chatbot.py CHANGED Viewed

@@ -334,11 +334,7 @@ class Qwen3Reranker:
             print("  - Reranker non disponible, scores neutres retournés")
             return [0.5] * len(documents)
-        # Assurer que le modèle est sur GPU dans ZeroGPU
-        if torch.cuda.is_available() and not next(self.model.parameters()).is_cuda:
-            print("  - Déplacement du reranker vers GPU...")
-            self.model = self.model.cuda()
-            self.device = torch.device("cuda")
         if instruction is None:
             instruction = self._get_default_instruction()
@@ -440,6 +436,7 @@ class GenericRAGChatbot:
         if self.is_zerogpu:
             print("🚀 Environnement ZeroGPU détecté - optimisations cloud")
             self.use_flash_attention = False  # Désactiver Flash Attention temporairement sur ZeroGPU
         elif self.is_mps and use_flash_attention:
             print("🍎 Mac avec MPS détecté - désactivation automatique de Flash Attention")
             self.use_flash_attention = False
@@ -705,7 +702,6 @@ class GenericRAGChatbot:
         except:
             return 0.0
-    @spaces.GPU(duration=120)  # ZeroGPU: GPU pour embedding et reranking
     def search_documents(self, query: str, final_k: int = None, use_reranking: bool = None) -> List[Dict]:
         """
         Recherche avancée avec reranking en deux étapes
@@ -716,16 +712,7 @@ class GenericRAGChatbot:
         print(f"🔍 Recherche en deux étapes: {initial_k} candidats → reranking → {k} finaux")
-        # Assurer que le modèle embedding est sur GPU dans ZeroGPU
-        if torch.cuda.is_available() and hasattr(self.embedding_model, '_modules'):
-            try:
-                # Vérifier si le modèle principal est sur GPU
-                first_param = next(self.embedding_model.parameters(), None)
-                if first_param is not None and not first_param.is_cuda:
-                    print("  - Déplacement du modèle embedding vers GPU...")
-                    self.embedding_model = self.embedding_model.cuda()
-            except Exception as e:
-                print(f"  - Erreur lors du déplacement embedding vers GPU: {e}")
         # Étape 1: Recherche par embedding avec FAISS
         if hasattr(self.embedding_model, 'prompts') and 'query' in self.embedding_model.prompts:

             print("  - Reranker non disponible, scores neutres retournés")
             return [0.5] * len(documents)
+        # Le reranker fonctionne sur son device d'origine
         if instruction is None:
             instruction = self._get_default_instruction()
         if self.is_zerogpu:
             print("🚀 Environnement ZeroGPU détecté - optimisations cloud")
             self.use_flash_attention = False  # Désactiver Flash Attention temporairement sur ZeroGPU
+            # Sur ZeroGPU, utiliser CPU pour embedding/reranking, GPU seulement pour génération
         elif self.is_mps and use_flash_attention:
             print("🍎 Mac avec MPS détecté - désactivation automatique de Flash Attention")
             self.use_flash_attention = False
         except:
             return 0.0
     def search_documents(self, query: str, final_k: int = None, use_reranking: bool = None) -> List[Dict]:
         """
         Recherche avancée avec reranking en deux étapes
         print(f"🔍 Recherche en deux étapes: {initial_k} candidats → reranking → {k} finaux")
+        # Les modèles d'embedding fonctionnent bien sur CPU sur ZeroGPU
         # Étape 1: Recherche par embedding avec FAISS
         if hasattr(self.embedding_model, 'prompts') and 'query' in self.embedding_model.prompts: