Spaces:

opllegaltech
/

weknow

Sleeping

legaltechgc commited on Sep 23, 2024

Commit

cfdb962

verified ·

1 Parent(s): 90a61b2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import numpy as np
 from transformers import pipeline, M2M100ForConditionalGeneration, M2M100Tokenizer
 from sentence_transformers import SentenceTransformer
 from docx import Document
-import PyMuPDF
 import requests
 from bs4 import BeautifulSoup
 from langdetect import detect, LangDetectException
@@ -47,10 +47,10 @@ if page == "Upload Knowledge":
         for file in uploaded_files:
             try:
                 if file.type == "application/pdf":
-                    pdf_file = PyMuPDF.open(stream=file.read())
                     text = ""
-                    for page in pdf_file.pages():
-                        text += page.get_text()
                 elif file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
                     doc = Document(file)
                     text = " ".join([para.text for para in doc.paragraphs])
@@ -88,7 +88,6 @@ if page == "Upload Knowledge":
                     st.write(f"Detected language: {detected_lang}")
                 except LangDetectException:
                     st.error("Could not detect the language of the webpage.")
-                    # Skip further processing of this URL
                     url = None  # Set URL to None or skip to prevent further processing
                 if url:  # Continue only if URL processing is valid

 from transformers import pipeline, M2M100ForConditionalGeneration, M2M100Tokenizer
 from sentence_transformers import SentenceTransformer
 from docx import Document
+import PyPDF2  # Use PyPDF2 instead of PyMuPDF
 import requests
 from bs4 import BeautifulSoup
 from langdetect import detect, LangDetectException
         for file in uploaded_files:
             try:
                 if file.type == "application/pdf":
+                    pdf_reader = PyPDF2.PdfReader(file)  # Use PyPDF2 for PDF reading
                     text = ""
+                    for page in pdf_reader.pages:
+                        text += page.extract_text()
                 elif file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
                     doc = Document(file)
                     text = " ".join([para.text for para in doc.paragraphs])
                     st.write(f"Detected language: {detected_lang}")
                 except LangDetectException:
                     st.error("Could not detect the language of the webpage.")
                     url = None  # Set URL to None or skip to prevent further processing
                 if url:  # Continue only if URL processing is valid