Spaces:

NathanPap
/

Mail_Analyser_2

Sleeping

App Files Files Community

NathanPap commited on Feb 16

Commit

1389457

verified ·

1 Parent(s): 22cef48

Update utils.py

Browse files

Files changed (1) hide show

utils.py +20 -106

utils.py CHANGED Viewed

@@ -1,109 +1,23 @@
-import pandas as pd
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
-class CSVAnalyzer:
-    def __init__(self):
-        self.model_name = "mistralai/Mistral-7B-Instruct-v0.2"
-        try:
-            # Tokenizer initialization with specific configuration
-            self.tokenizer = AutoTokenizer.from_pretrained(
-                self.model_name,
-                trust_remote_code=True,
-                use_fast=False
-            )
-            # Padding token configuration
-            if self.tokenizer.pad_token is None:
-                self.tokenizer.pad_token = self.tokenizer.eos_token
-                self.tokenizer.padding_side = "right"
-            # Model initialization
-            self.model = AutoModelForCausalLM.from_pretrained(
-                self.model_name,
-                torch_dtype=torch.float16,
-                device_map="auto",
-                trust_remote_code=True
-            )
-            # Ensure model knows the pad_token
-            self.model.config.pad_token_id = self.tokenizer.pad_token_id
-        except Exception as e:
-            print(f"Initialisierungsfehler: {str(e)}")
-            raise
-    def prepare_context(self, df: pd.DataFrame) -> str:
-        """Bereitet den Kontext mit den DataFrame-Daten vor."""
-        try:
-            context = "Dateninhalt:\n\n"
-            # Limit rows to avoid context overflow
-            max_rows = min(len(df), 50)  # Maximum 50 rows
-            for idx, row in df.head(max_rows).iterrows():
-                row_text = ""
-                for col in df.columns:
-                    if pd.notna(row[col]):
-                        row_text += f"{col}: {str(row[col]).strip()}\n"
-                context += f"Eintrag {idx + 1}:\n{row_text}\n---\n"
-            return context.strip()
-        except Exception as e:
-            raise Exception(f"Fehler bei der Kontextvorbereitung: {str(e)}")
-    def generate_response(self, context: str, query: str) -> str:
-        """Generiert eine Antwort auf die Frage unter Verwendung des Kontexts."""
-        prompt = f"""<s>[INST] Du bist ein Assistent, der auf Datenanalyse spezialisiert ist in ein Facility Management Unternehmen.
-Datenkontext:
-{context}
-Frage: {query}
-Antworte präzise und knapp, basierend ausschließlich auf den bereitgestellten Informationen. Gib das betreffende E-Mail inklusive Datum und Absender an. Erstelle bei Bedarf Analyse-Tabellen, um die Informationen strukturiert darzustellen. [/INST]"""
-        try:
-            # Tokenization with explicit padding handling
-            inputs = self.tokenizer(
-                prompt,
-                return_tensors="pt",
-                padding=True,
-                truncation=True,
-                max_length=2048,
-                pad_to_multiple_of=8,
-                return_attention_mask=True
-            ).to(self.model.device)
-            # Response generation
-            with torch.no_grad():
-                outputs = self.model.generate(
-                    input_ids=inputs["input_ids"],
-                    attention_mask=inputs["attention_mask"],
-                    max_new_tokens=512,
-                    temperature=0.7,
-                    top_p=0.95,
-                    repetition_penalty=1.15,
-                    do_sample=True,
-                    num_beams=1,
-                    pad_token_id=self.tokenizer.pad_token_id,
-                    eos_token_id=self.tokenizer.eos_token_id
-                )
-            # Response decoding and cleaning
-            response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
-            response = response.split("[/INST]")[-1].strip()
-            return response
-        except Exception as e:
-            return f"Generierungsfehler: {str(e)}"
-def analyze_csv(df: pd.DataFrame, query: str) -> str:
-    """Hauptfunktion zur CSV-Analyse und Fragenbeantwortung."""
     try:
-        analyzer = CSVAnalyzer()
-        context = analyzer.prepare_context(df)
-        response = analyzer.generate_response(context, query)
-        return response
     except Exception as e:
-        return f"Fehler bei der Analyse: {str(e)}"

+def prepare_context(self, df: pd.DataFrame) -> str:
+    """Prépare le contexte avec les données du DataFrame en s'assurant que toutes les valeurs sont traitées comme du texte."""
     try:
+        context = "Dateninhalt:\n\n"
+        # Limiter le nombre de lignes pour éviter un dépassement de contexte
+        max_rows = min(len(df), 50)  # Maximum 50 lignes
+        # Conversion sécurisée des données
+        for idx in range(max_rows):
+            row = df.iloc[idx]
+            row_text = ""
+            for col in df.columns:
+                if pd.notna(row[col]):
+                    # Conversion explicite en chaîne de caractères
+                    value = str(row[col]).strip()
+                    row_text += f"{col}: {value}\n"
+            context += f"Eintrag {idx + 1}:\n{row_text}\n---\n"
+        return context.strip()
     except Exception as e:
+        raise Exception(f"Fehler bei der Kontextvorbereitung: {str(e)}")