Spaces:

MohammadReza-Halakoo
/

TrustOCR-Demo

Sleeping

App Files Files Community

MohammadReza-Halakoo commited on Sep 6

Commit

cf7e59c

verified ·

1 Parent(s): 6e426d3

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -18

app.py CHANGED Viewed

@@ -710,6 +710,9 @@
 # -*- coding: utf-8 -*-
 # TRUST OCR DEMO – Streamlit app (Surya OCR + مدل شخصی)
 import os
 import io
 import tempfile
@@ -718,7 +721,7 @@ from typing import List
 import numpy as np
 import cv2
-from PIL import Image
 import pypdfium2
 import pytesseract
@@ -742,7 +745,6 @@ os.environ.setdefault("HF_HOME", "/tmp/hf_home")
 os.environ.setdefault("TRANSFORMERS_CACHE", "/tmp/hf_home")
 # جلوگیری از sdpa backend که با Surya ordering ممکن است ناسازگار باشد
 os.environ.setdefault("TRANSFORMERS_ATTENTION_BACKEND", "eager")
 # مسیرهای استاتیک/کش به /tmp برای جلوگیری از Permission denied
 os.environ.setdefault("STREAMLIT_STATIC_DIR", "/tmp/streamlit_static")
 os.environ.setdefault("MPLCONFIGDIR", "/tmp/mpl")
@@ -800,8 +802,9 @@ from surya.model.ordering.processor import load_processor as load_order_processo
 from surya.ordering import batch_ordering
 from surya.ocr import run_ocr
-from surya.postprocessing.heatmap import draw_polys_on_image
-from surya.postprocessing.text import draw_text_on_image
 from surya.languages import CODE_TO_LANGUAGE
 from surya.input.langs import replace_lang_with_code
 from surya.schema import OCRResult, TextDetectionResult, LayoutResult, OrderResult
@@ -855,6 +858,26 @@ def page_count(pdf_file) -> int:
     doc = open_pdf(pdf_file)
     return len(doc)
 # ===================== Streamlit UI =====================
 st.set_page_config(page_title="TRUST OCR DEMO", layout="wide")
 st.markdown("# TRUST OCR DEMO")
@@ -891,7 +914,6 @@ def load_layout_cached():
 @st.cache_resource(show_spinner=True)
 def load_order_cached():
-    # اگر باز هم خطای sdpa دیدی، می‌تونی موقتاً این را disable کنی.
     return load_order_model(checkpoint="vikp/surya_order"), load_order_processor(checkpoint="vikp/surya_order")
 # ---------- PERSONAL RECOGNITION ONLY ----------
@@ -902,7 +924,7 @@ PERSONAL_HF_REPO = os.environ.get("TRUSTOCR_REPO")     # ریپوی مدل HF
 def load_rec_personal():
     """
     اولویت با مدل شخصی است. اگر تنظیم نبود، به یک مدل عمومی Surya فالبک می‌شود.
-    اگر نمی‌خواهی فالبک داشته باشی، بخش آخر را حذف کن و به‌جایش RuntimeError بده.
     """
     if PERSONAL_MODEL_PATH and os.path.isdir(PERSONAL_MODEL_PATH):
         m = load_rec_model(checkpoint=PERSONAL_MODEL_PATH)
@@ -953,14 +975,15 @@ def _apply_auto_rotate(pil_img: Image.Image) -> Image.Image:
 def text_detection(pil_img: Image.Image):
     pred: TextDetectionResult = batch_text_detection([pil_img], det_model, det_processor)[0]
     polygons = [p.polygon for p in pred.bboxes]
-    det_img = draw_polys_on_image(polygons, pil_img.copy())
     return det_img, pred
 def layout_detection(pil_img: Image.Image):
     _, det_pred = text_detection(pil_img)
     pred: LayoutResult = batch_layout_detection([pil_img], layout_model, layout_processor, [det_pred])[0]
-    polygons = [p.polygon for p in pred.bboxes]; labels = [p.label for p in pred.bboxes]
-    layout_img = draw_polys_on_image(polygons, pil_img.copy(), labels=labels, label_font_size=40)
     return layout_img, pred
 def order_detection(pil_img: Image.Image):
@@ -969,20 +992,21 @@ def order_detection(pil_img: Image.Image):
     _, layout_pred = layout_detection(pil_img)
     bboxes = [l.bbox for l in layout_pred.bboxes]
     pred: OrderResult = batch_ordering([pil_img], [bboxes], order_model, order_processor)[0]
-    polys = [l.polygon for l in pred.bboxes]; positions = [str(l.position) for l in pred.bboxes]
-    order_img = draw_polys_on_image(polys, pil_img.copy(), labels=positions, label_font_size=40)
     return order_img, pred
 def ocr_page(pil_img: Image.Image, langs: List[str]):
     langs = list(langs) if langs else ["Persian"]
     replace_lang_with_code(langs)
     if det_model and det_processor and rec_model and rec_processor:
         img_pred: OCRResult = run_ocr([pil_img], [langs], det_model, det_processor, rec_model, rec_processor)[0]
     else:
         img_pred: OCRResult = run_ocr([pil_img], [langs], rec_model=rec_model, rec_processor=rec_processor)[0]
-    bboxes = [l.bbox for l in img_pred.text_lines]; text = [l.text for l in img_pred.text_lines]
-    rec_img = draw_text_on_image(bboxes, text, pil_img.size, langs, has_math="_math" in langs)
-    return rec_img, img_pred
 # ===================== Input Handling =====================
@@ -997,8 +1021,7 @@ else:
     bytes_data = in_file.getvalue()
     temp_dir = os.path.join(tempfile.gettempdir(), "trustocr_temp"); os.makedirs(temp_dir, exist_ok=True)
     file_path = os.path.join(temp_dir, in_file.name)
-    with open(file_path, "wb") as f:
-        f.write(bytes_data)
     out_file = os.path.splitext(file_path)[0] + "-1.JPG"
     try:
         if auto_border:
@@ -1041,8 +1064,10 @@ with col1:
         try:
             rec_img, ocr_pred = ocr_page(pil_image, languages)
             text_tab, json_tab = st.tabs(["متن صفحه | Page Text", "JSON"])
-            with text_tab: st.text("\n".join([p.text for p in ocr_pred.text_lines]))
-            with json_tab: st.json(ocr_pred.model_dump(), expanded=False)
         except Exception as e:
             st.error(f"خطا در بازشناسی متن (Recognition): {e}")

 # -*- coding: utf-8 -*-
 # TRUST OCR DEMO – Streamlit app (Surya OCR + مدل شخصی)
+# -*- coding: utf-8 -*-
+# TRUST OCR DEMO – Streamlit app (Surya OCR + مدل شخصی)
 import os
 import io
 import tempfile
 import numpy as np
 import cv2
+from PIL import Image, ImageDraw, ImageFont
 import pypdfium2
 import pytesseract
 os.environ.setdefault("TRANSFORMERS_CACHE", "/tmp/hf_home")
 # جلوگیری از sdpa backend که با Surya ordering ممکن است ناسازگار باشد
 os.environ.setdefault("TRANSFORMERS_ATTENTION_BACKEND", "eager")
 # مسیرهای استاتیک/کش به /tmp برای جلوگیری از Permission denied
 os.environ.setdefault("STREAMLIT_STATIC_DIR", "/tmp/streamlit_static")
 os.environ.setdefault("MPLCONFIGDIR", "/tmp/mpl")
 from surya.ordering import batch_ordering
 from surya.ocr import run_ocr
+# مهم: دیگر از surya.postprocessing.* استفاده نمی‌کنیم تا چیزی در site-packages ننویسد
+# from surya.postprocessing.heatmap import draw_polys_on_image
+# from surya.postprocessing.text import draw_text_on_image
 from surya.languages import CODE_TO_LANGUAGE
 from surya.input.langs import replace_lang_with_code
 from surya.schema import OCRResult, TextDetectionResult, LayoutResult, OrderResult
     doc = open_pdf(pdf_file)
     return len(doc)
+# ----- رسم سبک خودمان (بدون وابستگی به surya.postprocessing) -----
+def _norm_poly(polygon) -> list[tuple[int, int]]:
+    arr = np.array(polygon).reshape(-1, 2)
+    return [(int(x), int(y)) for x, y in arr]
+def draw_polys_simple(pil_img: Image.Image, polygons, labels=None) -> Image.Image:
+    """Draw polygons (and optional labels) using Pillow only. No disk writes."""
+    img = pil_img.copy()
+    draw = ImageDraw.Draw(img)
+    font = ImageFont.load_default()
+    for i, poly in enumerate(polygons):
+        pts = _norm_poly(poly)
+        # خطوط چندضلعی
+        draw.polygon(pts, outline=(0, 255, 0))
+        # برچسب اختیاری
+        if labels is not None and i < len(labels):
+            x, y = pts[0]
+            draw.text((x, max(0, y - 12)), str(labels[i]), fill=(255, 0, 0), font=font)
+    return img
 # ===================== Streamlit UI =====================
 st.set_page_config(page_title="TRUST OCR DEMO", layout="wide")
 st.markdown("# TRUST OCR DEMO")
 @st.cache_resource(show_spinner=True)
 def load_order_cached():
     return load_order_model(checkpoint="vikp/surya_order"), load_order_processor(checkpoint="vikp/surya_order")
 # ---------- PERSONAL RECOGNITION ONLY ----------
 def load_rec_personal():
     """
     اولویت با مدل شخصی است. اگر تنظیم نبود، به یک مدل عمومی Surya فالبک می‌شود.
+    اگر فالبک نمی‌خواهی، بخش آخر را حذف کن و به‌جایش RuntimeError بده.
     """
     if PERSONAL_MODEL_PATH and os.path.isdir(PERSONAL_MODEL_PATH):
         m = load_rec_model(checkpoint=PERSONAL_MODEL_PATH)
 def text_detection(pil_img: Image.Image):
     pred: TextDetectionResult = batch_text_detection([pil_img], det_model, det_processor)[0]
     polygons = [p.polygon for p in pred.bboxes]
+    det_img = draw_polys_simple(pil_img, polygons)  # ← نسخه سبک خودمان
     return det_img, pred
 def layout_detection(pil_img: Image.Image):
     _, det_pred = text_detection(pil_img)
     pred: LayoutResult = batch_layout_detection([pil_img], layout_model, layout_processor, [det_pred])[0]
+    polygons = [p.polygon for p in pred.bboxes]
+    labels = [p.label for p in pred.bboxes]
+    layout_img = draw_polys_simple(pil_img, polygons, labels=labels)  # ← نسخه سبک خودمان
     return layout_img, pred
 def order_detection(pil_img: Image.Image):
     _, layout_pred = layout_detection(pil_img)
     bboxes = [l.bbox for l in layout_pred.bboxes]
     pred: OrderResult = batch_ordering([pil_img], [bboxes], order_model, order_processor)[0]
+    polys = [l.polygon for l in pred.bboxes]
+    positions = [str(l.position) for l in pred.bboxes]
+    order_img = draw_polys_simple(pil_img, polys, labels=positions)  # ← نسخه سبک خودمان
     return order_img, pred
 def ocr_page(pil_img: Image.Image, langs: List[str]):
     langs = list(langs) if langs else ["Persian"]
     replace_lang_with_code(langs)
+    # مهم: دیگر draw_text_on_image نمی‌سازیم تا نیازی به فونت/استاتیک نباشد
     if det_model and det_processor and rec_model and rec_processor:
         img_pred: OCRResult = run_ocr([pil_img], [langs], det_model, det_processor, rec_model, rec_processor)[0]
     else:
         img_pred: OCRResult = run_ocr([pil_img], [langs], rec_model=rec_model, rec_processor=rec_processor)[0]
+    # برای نمایش، فقط متن را می‌گذاریم؛ تصویر چسبانده نمی‌شود تا وابستگی به فونت نباشد
+    return None, img_pred
 # ===================== Input Handling =====================
     bytes_data = in_file.getvalue()
     temp_dir = os.path.join(tempfile.gettempdir(), "trustocr_temp"); os.makedirs(temp_dir, exist_ok=True)
     file_path = os.path.join(temp_dir, in_file.name)
+    with open(file_path, "wb") as f: f.write(bytes_data)
     out_file = os.path.splitext(file_path)[0] + "-1.JPG"
     try:
         if auto_border:
         try:
             rec_img, ocr_pred = ocr_page(pil_image, languages)
             text_tab, json_tab = st.tabs(["متن صفحه | Page Text", "JSON"])
+            with text_tab:
+                st.text("\n".join([p.text for p in ocr_pred.text_lines]))
+            with json_tab:
+                st.json(ocr_pred.model_dump(), expanded=False)
         except Exception as e:
             st.error(f"خطا در بازشناسی متن (Recognition): {e}")