Spaces:

suprimedev
/

pdftotextz

Running

suprimedev commited on Aug 23

Commit

452f6ea

verified ·

1 Parent(s): 038e3a9

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+import easyocr
+from pdf2image import convert_from_path
+from PIL import Image
+# مدل OCR فارسی و انگلیسی
+reader = easyocr.Reader(['fa', 'en'])
+def pdf_to_text(pdf_file):
+    try:
+        # تبدیل صفحات PDF به تصاویر
+        images = convert_from_path(pdf_file.name)
+        full_text = ""
+        for img in images:
+            # OCR روی هر تصویر
+            text = reader.readtext(img, detail=0)
+            full_text += "\n".join(text) + "\n\n"
+        return full_text
+    except Exception as e:
+        return f"خطا در پردازش PDF: {str(e)}"
+# رابط Gradio
+iface = gr.Interface(
+    fn=pdf_to_text,
+    inputs=gr.File(label="آپلود PDF"),
+    outputs=gr.Textbox(label="متن استخراج شده", lines=20),
+    title="Persian PDF OCR",
+    description="فایل PDF خود را آپلود کنید تا متن فارسی و انگلیسی آن استخراج شود."
+)
+iface.launch()