Spaces:

NathanPap
/

TinyLlama-TinyLlama-1.1B-Chat-v1.0

Sleeping

App Files Files Community

NathanPap commited on Feb 16

Commit

7a70056

verified ·

1 Parent(s): 6fd7196

Update utils.py

Browse files

Files changed (1) hide show

utils.py +23 -21

utils.py CHANGED Viewed

@@ -21,46 +21,48 @@ class CSVAnalyzer:
             )
         except Exception as e:
-            print(f"Erreur d'initialisation: {str(e)}")
             raise
     def prepare_context(self, df: pd.DataFrame) -> str:
-        """Prépare le contexte avec les données du DataFrame."""
         try:
-            context = "Contenu des données:\n\n"
-            # Limite le nombre de lignes pour éviter un contexte trop long
             max_rows = min(len(df), 50)
-            for idx, row in df.head(max_rows).iterrows():
                 row_text = ""
                 for col in df.columns:
                     if pd.notna(row[col]):
                         row_text += f"{col}: {str(row[col]).strip()}\n"
-                context += f"Entrée {idx + 1}:\n{row_text}\n---\n"
             return context.strip()
         except Exception as e:
-            raise Exception(f"Erreur lors de la préparation du contexte: {str(e)}")
     def generate_response(self, context: str, query: str) -> str:
-        """Génère une réponse à la question en utilisant le contexte."""
-        # Format spécifique pour TinyLlama Chat
-        prompt = f"""<|system|>Tu es un assistant spécialisé dans l'analyse de données pour une entreprise de Facility Management.
-Réponds de manière précise et concise, en te basant uniquement sur les informations fournies.
-Indique l'e-mail concerné avec la date et l'expéditeur.
-Crée des tableaux d'analyse si nécessaire pour présenter les informations de manière structurée.
-<|user|>Contexte:
 {context}
-Question: {query}
 <|assistant|>"""
         try:
-            # Tokenization
             inputs = self.tokenizer(
                 prompt,
                 return_tensors="pt",
@@ -70,7 +72,7 @@ Question: {query}
                 return_attention_mask=True
             ).to(self.model.device)
-            # Génération de la réponse
             with torch.no_grad():
                 outputs = self.model.generate(
                     input_ids=inputs["input_ids"],
@@ -84,17 +86,17 @@ Question: {query}
                     eos_token_id=self.tokenizer.eos_token_id
                 )
-            # Décodage et nettoyage de la réponse
             response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             response = response.split("<|assistant|>")[-1].strip()
             return response
         except Exception as e:
-            return f"Erreur de génération: {str(e)}"
 def analyze_csv(df: pd.DataFrame, query: str) -> str:
-    """Fonction principale pour l'analyse CSV et la réponse aux questions."""
     try:
         analyzer = CSVAnalyzer()
         context = analyzer.prepare_context(df)
@@ -102,4 +104,4 @@ def analyze_csv(df: pd.DataFrame, query: str) -> str:
         return response
     except Exception as e:
-        return f"Erreur d'analyse: {str(e)}"

             )
         except Exception as e:
+            print(f"Initialisierungsfehler: {str(e)}")
             raise
     def prepare_context(self, df: pd.DataFrame) -> str:
+        """Bereitet den Kontext mit DataFrame-Daten vor."""
         try:
+            context = "Dateninhalt:\n\n"
+            # Zeilen begrenzen, um Kontextüberlauf zu vermeiden
             max_rows = min(len(df), 50)
+            # Sichere Konvertierung der Indexwerte zu Strings
+            for i in range(max_rows):
+                row = df.iloc[i]
                 row_text = ""
                 for col in df.columns:
                     if pd.notna(row[col]):
                         row_text += f"{col}: {str(row[col]).strip()}\n"
+                context += f"Eintrag {str(i + 1)}:\n{row_text}\n---\n"
             return context.strip()
         except Exception as e:
+            raise Exception(f"Fehler bei der Kontextvorbereitung: {str(e)}")
     def generate_response(self, context: str, query: str) -> str:
+        """Generiert eine Antwort auf die Frage unter Verwendung des Kontexts."""
+        # Spezifisches Format für TinyLlama Chat
+        prompt = f"""<|system|>Du bist ein Assistent, der auf Datenanalyse in einem Facility Management Unternehmen spezialisiert ist.
+Antworte präzise und knapp, basierend ausschließlich auf den bereitgestellten Informationen.
+Gib das betreffende E-Mail inklusive Datum und Absender an.
+Erstelle bei Bedarf Analyse-Tabellen, um die Informationen strukturiert darzustellen.
+<|user|>Kontext:
 {context}
+Frage: {query}
 <|assistant|>"""
         try:
+            # Tokenisierung
             inputs = self.tokenizer(
                 prompt,
                 return_tensors="pt",
                 return_attention_mask=True
             ).to(self.model.device)
+            # Antwortgenerierung
             with torch.no_grad():
                 outputs = self.model.generate(
                     input_ids=inputs["input_ids"],
                     eos_token_id=self.tokenizer.eos_token_id
                 )
+            # Antwort dekodieren und bereinigen
             response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             response = response.split("<|assistant|>")[-1].strip()
             return response
         except Exception as e:
+            return f"Generierungsfehler: {str(e)}"
 def analyze_csv(df: pd.DataFrame, query: str) -> str:
+    """Hauptfunktion für CSV-Analyse und Fragenbeantwortung."""
     try:
         analyzer = CSVAnalyzer()
         context = analyzer.prepare_context(df)
         return response
     except Exception as e:
+        return f"Analysefehler: {str(e)}"