Spaces:

Pavan147
/

Docling_Image

Sleeping

App Files Files Community

Pavan147 commited on Aug 9

Commit

b85af28

verified ·

1 Parent(s): 8dc569d

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -98

app.py CHANGED Viewed

@@ -1,101 +1,3 @@
-# import gradio as gr
-# from transformers import AutoProcessor, AutoModelForImageTextToText
-# from PIL import Image
-# import re
-# # Load SmolDocling model & processor once
-# processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
-# model = AutoModelForImageTextToText.from_pretrained("ds4sd/SmolDocling-256M-preview")
-# def extract_fcel_values_from_image(image, prompt_text):
-#     """Run SmolDocling on an image and return numeric values inside <fcel> tags."""
-#     # Prepare prompt for the model
-#     messages = [
-#         {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt_text}]}
-#     ]
-#     prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-#     inputs = processor(text=prompt, images=[image], return_tensors="pt")
-#     # Generate output
-#     outputs = model.generate(**inputs, max_new_tokens=2048)
-#     prompt_length = inputs.input_ids.shape[1]
-#     generated = outputs[:, prompt_length:]
-#     result = processor.batch_decode(generated, skip_special_tokens=False)[0]
-#     clean_text = result.replace("<end_of_utterance>", "").strip()
-#     # Extract only <fcel> values
-#     values = re.findall(r"<fcel>([\d.]+)", clean_text)
-#     values = [float(v) for v in values]  # convert to floats
-#     return values, clean_text
-# def compare_images(image1, image2, prompt_text):
-#     # Extract fcel values from both images
-#     values1, raw1 = extract_fcel_values_from_image(image1, prompt_text)
-#     values2, raw2 = extract_fcel_values_from_image(image2, prompt_text)
-#     # Calculate accuracy
-#     if len(values1) == len(values2) and values1 == values2:
-#         accuracy = 100.0
-#     else:
-#         matches = sum(1 for a, b in zip(values1, values2) if a == b)
-#         total = max(len(values1), len(values2))
-#         accuracy = (matches / total) * 100 if total > 0 else 0
-#     return {
-#         # "Extracted Values 1": values1,
-#         # "Extracted Values 2": values2,
-#         "Accuracy (%)": accuracy
-#     }
-# # Gradio UI
-# demo = gr.Interface(
-#     fn=compare_images,
-#     inputs=[
-#         gr.Image(type="pil", label="Upload First Table Image"),
-#         gr.Image(type="pil", label="Upload Second Table Image"),
-#         gr.Textbox(lines=1, placeholder="Enter prompt (e.g. Extract table as OTSL)", label="Prompt")
-#     ],
-#     outputs="json",
-#     title="Table Data Accuracy Checker (SmolDocling)",
-#     description="Uploads two table images, extracts only <fcel> values from OTSL output, and compares them for accuracy."
-# )
-# demo.launch()
-# import gradio as gr
-# from transformers import AutoProcessor, AutoModelForImageTextToText
-# from PIL import Image
-# # Load model & processor once at startup
-# processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
-# model = AutoModelForImageTextToText.from_pretrained("ds4sd/SmolDocling-256M-preview")
-# def smoldocling_readimage(image, prompt_text):
-#     messages = [
-#         {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt_text}]}
-#     ]
-#     prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-#     inputs = processor(text=prompt, images=[image], return_tensors="pt")
-#     outputs = model.generate(**inputs, max_new_tokens=1024)
-#     prompt_length = inputs.input_ids.shape[1]
-#     generated = outputs[:, prompt_length:]
-#     result = processor.batch_decode(generated, skip_special_tokens=False)[0]
-#     return result.replace("<end_of_utterance>", "").strip()
-# # Gradio UI
-# demo = gr.Interface(
-#     fn=smoldocling_readimage,
-#     inputs=[
-#         gr.Image(type="pil", label="Upload Image"),
-#         gr.Textbox(lines=1, placeholder="Enter prompt (e.g. Convert to docling)", label="Prompt"),
-#     ],
-#     outputs="html",
-#     title="SmolDocling Web App",
-#     description="Upload a document image and convert it to structured docling format."
-# )
-# demo.launch()
 import re
 import gradio as gr
@@ -162,3 +64,77 @@ demo = gr.Interface(
 )
 demo.launch()

 import re
 import gradio as gr
 )
 demo.launch()
+import re
+import gradio as gr
+from transformers import AutoProcessor, AutoModelForImageTextToText
+from PIL import Image
+# Load model & processor once at startup
+processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
+model = AutoModelForImageTextToText.from_pretrained("ds4sd/SmolDocling-256M-preview")
+def smoldocling_readimage(image, prompt_text="Convert to docling"):
+    messages = [
+        {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt_text}]}
+    ]
+    prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+    inputs = processor(text=prompt, images=[image], return_tensors="pt")
+    outputs = model.generate(**inputs, max_new_tokens=1024)
+    prompt_length = inputs.input_ids.shape[1]
+    generated = outputs[:, prompt_length:]
+    result = processor.batch_decode(generated, skip_special_tokens=False)[0]
+    return result.replace("<end_of_utterance>", "").strip()
+def extract_numbers(docling_text):
+    # Extract all floating numbers from the docling text
+    numbers = re.findall(r"[-+]?\d*\.\d+|\d+", docling_text)
+    return list(map(float, numbers))
+def compare_outputs(img1, img2):
+    # Get outputs
+    output1 = smoldocling_readimage(img1)
+    output2 = smoldocling_readimage(img2)
+    # Extract numbers
+    nums1 = extract_numbers(output1)
+    nums2 = extract_numbers(output2)
+    length = min(len(nums1), len(nums2))
+    matches = 0
+    mismatches = []
+    for i in range(length):
+        if abs(nums1[i] - nums2[i]) < 1e-3:
+            matches += 1
+        else:
+            mismatches.append(f"Pos {i+1}: {nums1[i]}  ≠  {nums2[i]}")
+    total = max(len(nums1), len(nums2))
+    accuracy = (matches / total) * 100 if total > 0 else 0
+    mismatch_text = "\n".join(mismatches) if mismatches else "✅ All values match."
+    result_text = (
+        f"📄 Output for Image 1:\n{output1}\n\n"
+        f"📄 Output for Image 2:\n{output2}\n\n"
+        f"🔍 Similarity Accuracy: {accuracy:.2f}%\n"
+        f"✅ Matching Values: {matches} / {total}\n"
+        f"❌ Mismatches:\n{mismatch_text}"
+    )
+    return result_text
+# Gradio UI
+demo = gr.Interface(
+    fn=compare_outputs,
+    inputs=[
+        gr.Image(type="pil", label="Upload Image 1"),
+        gr.Image(type="pil", label="Upload Image 2"),
+    ],
+    outputs="text",
+    title="SmolDocling Image Comparison",
+    description="Upload two document images to extract values and compare similarity, with detailed mismatches."
+)
+demo.launch()