Update utils.py
Browse files
utils.py
CHANGED
|
@@ -99,6 +99,9 @@ HF_WRITE = os.getenv("HF_WRITE")
|
|
| 99 |
# HfApi-Instanz erstellen
|
| 100 |
api = HfApi()
|
| 101 |
|
|
|
|
|
|
|
|
|
|
| 102 |
#################################################
|
| 103 |
#Gesetzte Werte für Pfade, Prompts und Keys..
|
| 104 |
#################################################
|
|
@@ -313,6 +316,11 @@ def load_word_with_metadata(file_path):
|
|
| 313 |
def split_documents_with_id(docs, text_splitter):
|
| 314 |
splits = []
|
| 315 |
for doc in docs:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 316 |
doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
|
| 317 |
for split_content in doc_splits:
|
| 318 |
split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
|
|
@@ -370,11 +378,8 @@ def document_loading_splitting():
|
|
| 370 |
# Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
|
| 371 |
split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
|
| 372 |
|
| 373 |
-
|
| 374 |
-
|
| 375 |
-
for split in preprocessed_splits:
|
| 376 |
-
if 'divis' in split.page_content:
|
| 377 |
-
print("DIVIS found in chunk:", split)
|
| 378 |
|
| 379 |
return preprocessed_splits, split_to_original_mapping
|
| 380 |
|
|
|
|
| 99 |
# HfApi-Instanz erstellen
|
| 100 |
api = HfApi()
|
| 101 |
|
| 102 |
+
#Maoing für die Splits (orginal und Preprocessed
|
| 103 |
+
split_to_original_mapping = []
|
| 104 |
+
|
| 105 |
#################################################
|
| 106 |
#Gesetzte Werte für Pfade, Prompts und Keys..
|
| 107 |
#################################################
|
|
|
|
| 316 |
def split_documents_with_id(docs, text_splitter):
|
| 317 |
splits = []
|
| 318 |
for doc in docs:
|
| 319 |
+
if not doc.metadata['title']:
|
| 320 |
+
doc.metadata['title'] = "Dokument"
|
| 321 |
+
if not doc.page_content:
|
| 322 |
+
doc.page_content = "leer"
|
| 323 |
+
|
| 324 |
doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
|
| 325 |
for split_content in doc_splits:
|
| 326 |
split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
|
|
|
|
| 378 |
# Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
|
| 379 |
split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
|
| 380 |
|
| 381 |
+
# Sicherstellen, dass das Mapping nicht leer ist
|
| 382 |
+
assert split_to_original_mapping, "Das Mapping von Splits wurde nicht korrekt erstellt"
|
|
|
|
|
|
|
|
|
|
| 383 |
|
| 384 |
return preprocessed_splits, split_to_original_mapping
|
| 385 |
|