SucheRAG

Sleeping

alexkueck commited on Jul 6, 2024

Commit

ce5c639

verified ·

1 Parent(s): e5f92c6

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -99,6 +99,9 @@ HF_WRITE = os.getenv("HF_WRITE")
 # HfApi-Instanz erstellen
 api = HfApi()
 #################################################
 #Gesetzte Werte für Pfade, Prompts und Keys..
 #################################################
@@ -313,6 +316,11 @@ def load_word_with_metadata(file_path):
 def split_documents_with_id(docs, text_splitter):
     splits = []
     for doc in docs:
         doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
         for split_content in doc_splits:
             split_id = str(uuid.uuid4())  # Erzeuge eine eindeutige ID für jeden Split
@@ -370,11 +378,8 @@ def document_loading_splitting():
     # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
     split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
-    print("Splits...........................")
-    for split in preprocessed_splits:
-        if 'divis' in split.page_content:
-            print("DIVIS found in chunk:", split)
     return preprocessed_splits,  split_to_original_mapping

 # HfApi-Instanz erstellen
 api = HfApi()
+#Maoing für die Splits (orginal und Preprocessed
+split_to_original_mapping = []
 #################################################
 #Gesetzte Werte für Pfade, Prompts und Keys..
 #################################################
 def split_documents_with_id(docs, text_splitter):
     splits = []
     for doc in docs:
+        if not doc.metadata['title']:
+            doc.metadata['title'] = "Dokument"
+        if not doc.page_content:
+            doc.page_content = "leer"
         doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
         for split_content in doc_splits:
             split_id = str(uuid.uuid4())  # Erzeuge eine eindeutige ID für jeden Split
     # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
     split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
+    # Sicherstellen, dass das Mapping nicht leer ist
+    assert split_to_original_mapping, "Das Mapping von Splits wurde nicht korrekt erstellt"
     return preprocessed_splits,  split_to_original_mapping