SucheRAG

Sleeping

App Files Files Community

alexkueck commited on Jul 6, 2024

Commit

f320011

verified ·

1 Parent(s): e34d975

Update utils.py

Browse files

Files changed (1) hide show

utils.py +65 -19

utils.py CHANGED Viewed

@@ -131,8 +131,8 @@ CHROMA_WORD = './chroma/kkg/word'
 CHROMA_EXCEL = './chroma/kkg/excel'
 YOUTUBE_DIR = "/youtube"
 HISTORY_PFAD = "/data/history"
-DOCS_DIR = "chroma/kkg/pdf"
 ###############################################
 #URLs zu Dokumenten oder andere Inhalte, die einbezogen werden sollen
 PDF_URL       = "https://arxiv.org/pdf/2303.08774.pdf"
@@ -242,20 +242,8 @@ def clean_text(text):
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################
 ##################################################
-# Directory Loader Konfigurieren
 ##################################################
-# Funktion, um für einen best. File-typ ein directory-loader zu definieren
-def create_directory_loaderBack(file_type, directory_path):
-    #verscheidene Dokument loaders:
-    loaders = {
-        '.pdf': PyPDFLoader,
-        '.word': UnstructuredWordDocumentLoader,
-    }
-    return DirectoryLoader(
-        path=directory_path,
-        glob=f"**/*{file_type}",
-        loader_cls=loaders[file_type],
-    )
 #besseren directory Loader als CustomLoader definieren, der den inhalt des dokuemnts, die seitenzahlen, die überschriften und die pfadezu den dokumenten extrahieren
 def create_directory_loader(file_type, directory_path):
@@ -345,7 +333,9 @@ def document_loading_splitting():
     # Document splitting
     text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
     splits = text_splitter.split_documents(docs)
     return splits
 ###########################################
@@ -481,6 +471,49 @@ def rag_chain(llm, prompt,  retriever):
     return result
 #############################################################
 #in einem Dictionary die wichtigen Infos zu jedem Dok zusammenstellen
@@ -579,11 +612,23 @@ def download_link(doc):
 def display_files():
-    files = os.listdir(DOCS_DIR)
     files_table = "<table style='width:100%; border-collapse: collapse;'>"
     files_table += "<tr style='background-color: #930BBA; color: white; font-weight: bold; font-size: larger;'><th>Dateiname</th><th>Größe (KB)</th></tr>"
     for i, file in enumerate(files):
-        file_path = os.path.join(DOCS_DIR, file)
         file_size = os.path.getsize(file_path) / 1024  # Größe in KB
         row_color = "#4f4f4f" if i % 2 == 0 else "#3a3a3a"  # Wechselnde Zeilenfarben
         files_table += f"<tr style='background-color: {row_color}; border-bottom: 1px solid #ddd;'>"
@@ -594,11 +639,12 @@ def display_files():
 # gefundene relevante Dokumente auflisten (links)
 def list_pdfs():
     if not os.path.exists(DOCS_DIR):
         return []
     return [f for f in os.listdir(SAVE_DIR) if f.endswith('.pdf')]
 ##########################################
 #Extension des hochgeladenen Files bestimmen
 def analyze_file(file):

 CHROMA_EXCEL = './chroma/kkg/excel'
 YOUTUBE_DIR = "/youtube"
 HISTORY_PFAD = "/data/history"
+DOCS_DIR_PDF = "chroma/kkg/pdf"
+DOCS_DIR_WORD = "chroma/kkg/word"
 ###############################################
 #URLs zu Dokumenten oder andere Inhalte, die einbezogen werden sollen
 PDF_URL       = "https://arxiv.org/pdf/2303.08774.pdf"
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################
 ##################################################
+# Directory Loader Konfigurieren um Text zu extrahieren
 ##################################################
 #besseren directory Loader als CustomLoader definieren, der den inhalt des dokuemnts, die seitenzahlen, die überschriften und die pfadezu den dokumenten extrahieren
 def create_directory_loader(file_type, directory_path):
     # Document splitting
     text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
     splits = text_splitter.split_documents(docs)
+    for split in splits:
+    if 'DIVIS' in split['content']:
+        print("DIVIS found in chunk:", split)
     return splits
 ###########################################
     return result
+#############################################
+#keine History des chatbots einbeziehen, keine Zusammenfassung am Anfang - nur mit Vektorstore arbeiten, um relevante Dokumente anzuzeigen
+def rag_chain_simple( prompt,  retriever):
+    #Langgraph nutzen für ein wenig mehr Intelligenz beim Dokumente suchen
+    relevant_docs=[]
+    most_relevant_docs=[]
+    #passend zum Prompt relevante Dokuemnte raussuchen
+    relevant_docs = retriever.invoke(prompt)
+    #zu jedem relevanten Dokument die wichtigen Informationen zusammenstellen (im Dict)
+    extracted_docs = extract_document_info(relevant_docs)
+    if (len(extracted_docs)>0):
+        # Inahlte Abrufen der relevanten Dokumente
+        doc_contents = [doc["content"] for doc in extracted_docs]
+        #Berechne die Ähnlichkeiten und finde das relevanteste Dokument
+        question_embedding = embedder_modell.encode(prompt, convert_to_tensor=True)
+        doc_embeddings = embedder_modell.encode(doc_contents, convert_to_tensor=True)
+        similarity_scores = util.pytorch_cos_sim(question_embedding, doc_embeddings)
+        most_relevant_doc_indices = similarity_scores.argsort(descending=True).squeeze().tolist()
+        #Erstelle eine Liste der relevantesten Dokumente
+        most_relevant_docs = [extracted_docs[i] for i in most_relevant_doc_indices]
+        #Kombiniere die Inhalte aller relevanten Dokumente
+        combined_content = " ".join([doc["content"] for doc in most_relevant_docs])
+        # Erstelle das Ergebnis-Dictionary
+        result = {
+            "answer": "Folgende relevante Dokumente wurden gefunden:",
+            "relevant_docs": most_relevant_docs
+        }
+    else:
+        # keine relevanten Dokumente gefunden
+        result = {
+            "answer": "Keine relevanten Dokumente gefunden",
+            "relevant_docs": most_relevant_docs
+        }
+    return result
 #############################################################
 #in einem Dictionary die wichtigen Infos zu jedem Dok zusammenstellen
 def display_files():
+    files = os.listdir(DOCS_DIR_PDF)
     files_table = "<table style='width:100%; border-collapse: collapse;'>"
     files_table += "<tr style='background-color: #930BBA; color: white; font-weight: bold; font-size: larger;'><th>Dateiname</th><th>Größe (KB)</th></tr>"
     for i, file in enumerate(files):
+        file_path = os.path.join(DOCS_DIR_PDF, file)
+        file_size = os.path.getsize(file_path) / 1024  # Größe in KB
+        row_color = "#4f4f4f" if i % 2 == 0 else "#3a3a3a"  # Wechselnde Zeilenfarben
+        files_table += f"<tr style='background-color: {row_color}; border-bottom: 1px solid #ddd;'>"
+        files_table += f"<td><b>{download_link(file)}</b></td>"
+        files_table += f"<td>{file_size:.2f}</td></tr>"
+    files_table += "</table>"
+    files = os.listdir(DOCS_DIR_WORD)
+    files_table += "<table style='width:100%; border-collapse: collapse;'>"
+    files_table += "<tr style='background-color: #930BBA; color: white; font-weight: bold; font-size: larger;'><th>Dateiname</th><th>Größe (KB)</th></tr>"
+    for i, file in enumerate(files):
+        file_path = os.path.join(DOCS_DIR_WORD, file)
         file_size = os.path.getsize(file_path) / 1024  # Größe in KB
         row_color = "#4f4f4f" if i % 2 == 0 else "#3a3a3a"  # Wechselnde Zeilenfarben
         files_table += f"<tr style='background-color: {row_color}; border-bottom: 1px solid #ddd;'>"
 # gefundene relevante Dokumente auflisten (links)
+"""
 def list_pdfs():
     if not os.path.exists(DOCS_DIR):
         return []
     return [f for f in os.listdir(SAVE_DIR) if f.endswith('.pdf')]
+"""
 ##########################################
 #Extension des hochgeladenen Files bestimmen
 def analyze_file(file):