Spaces:

talhashoaib
/

AI-Notes-Detector

Sleeping

talhashoaib commited on Aug 26

Commit

6c75a17

verified ·

1 Parent(s): 69ea95d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import pdfplumber
 from pdf2image import convert_from_path
 import pytesseract
 import shutil
-import os
 def extract_text_debug(file_path):
     logs = []
@@ -13,7 +12,7 @@ def extract_text_debug(file_path):
     logs.append(f"pdftoppm path: {shutil.which('pdftoppm')}")
     logs.append(f"pdftocairo path: {shutil.which('pdftocairo')}")
-    # 1️⃣ Try pdfplumber
     try:
         with pdfplumber.open(file_path) as pdf:
             for page in pdf.pages:
@@ -27,12 +26,10 @@ def extract_text_debug(file_path):
     except Exception as e:
         logs.append(f"❌ pdfplumber failed: {e}")
-    # 2️⃣ OCR fallback
     try:
         images = convert_from_path(file_path, dpi=200, poppler_path="/usr/bin")
-        ocr_text = []
-        for img in images[:2]:
-            ocr_text.append(pytesseract.image_to_string(img))
         text = "\n".join(ocr_text)
         if text.strip():
             logs.append("✅ OCR worked via pdf2image + Tesseract")

 from pdf2image import convert_from_path
 import pytesseract
 import shutil
 def extract_text_debug(file_path):
     logs = []
     logs.append(f"pdftoppm path: {shutil.which('pdftoppm')}")
     logs.append(f"pdftocairo path: {shutil.which('pdftocairo')}")
+    # Try pdfplumber
     try:
         with pdfplumber.open(file_path) as pdf:
             for page in pdf.pages:
     except Exception as e:
         logs.append(f"❌ pdfplumber failed: {e}")
+    # OCR fallback
     try:
         images = convert_from_path(file_path, dpi=200, poppler_path="/usr/bin")
+        ocr_text = [pytesseract.image_to_string(img) for img in images[:2]]
         text = "\n".join(ocr_text)
         if text.strip():
             logs.append("✅ OCR worked via pdf2image + Tesseract")