Spaces:

SynaptechX
/

ImgTextParser

Running on Zero

App Files Files Community

SynaptechX commited on 26 days ago

Commit

3bf5b34

verified ·

1 Parent(s): b90b5f2

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -277

app.py CHANGED Viewed

@@ -5,8 +5,6 @@ from transformers import AutoModel, AutoTokenizer
 import warnings
 import os
 import spaces
-import markdown
-import re
 # 禁用警告信息
 warnings.filterwarnings("ignore")
@@ -138,199 +136,6 @@ def clean_text_output(text):
     return '\n'.join(text_lines)
-def detect_content_types(text):
-    """检测文本中包含的内容类型"""
-    content_types = set()
-    # 检测表格（Markdown格式）
-    if '|' in text and any(line.count('|') >= 2 for line in text.split('\n')):
-        content_types.add('table')
-    # 检测公式（LaTeX格式）
-    formula_indicators = ['$', '\\frac', '\\sum', '\\int', '\\sqrt', '\\alpha', '\\beta', '\\gamma', '\\delta',
-                         '\\theta', '\\pi', '\\sigma', '\\omega', '\\infty', '\\partial', '\\nabla']
-    if any(indicator in text for indicator in formula_indicators) or \
-       (any(symbol in text for symbol in ['{', '}', '^', '_']) and any(char.isdigit() for char in text)):
-        content_types.add('formula')
-    # 总是包含文本
-    content_types.add('text')
-    return content_types
-def render_mixed_content(text):
-    """渲染混合内容（文本+表格+公式）"""
-    if not text.strip():
-        return text
-    # 检测内容类型
-    content_types = detect_content_types(text)
-    # 如果只有纯文本，简单处理
-    if content_types == {'text'}:
-        return f"<div style='padding: 15px; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{text}</div>"
-    # 处理混合内容
-    lines = text.split('\n')
-    rendered_parts = []
-    current_block = []
-    current_type = 'text'
-    i = 0
-    while i < len(lines):
-        line = lines[i].strip()
-        # 检测表格开始
-        if '|' in line and line.count('|') >= 2:
-            # 先处理之前累积的文本块
-            if current_block and current_type == 'text':
-                text_content = '\n'.join(current_block)
-                if text_content.strip():
-                    rendered_parts.append(f"<div style='padding: 10px 0; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{text_content}</div>")
-                current_block = []
-            # 收集表格行
-            table_lines = []
-            while i < len(lines) and '|' in lines[i]:
-                table_lines.append(lines[i])
-                i += 1
-            # 渲染表格
-            if table_lines:
-                table_markdown = '\n'.join(table_lines)
-                table_html = render_markdown_table(table_markdown)
-                rendered_parts.append(table_html)
-            current_type = 'text'
-            continue
-        # 检测公式（简单检测包含LaTeX符号的行）
-        elif any(symbol in line for symbol in ['$', '\\frac', '\\sum', '\\int', '\\sqrt']) and current_type != 'formula':
-            # 先处理之前累积的文本块
-            if current_block and current_type == 'text':
-                text_content = '\n'.join(current_block)
-                if text_content.strip():
-                    rendered_parts.append(f"<div style='padding: 10px 0; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{text_content}</div>")
-                current_block = []
-            # 收集公式行
-            formula_lines = [line]
-            i += 1
-            while i < len(lines):
-                next_line = lines[i].strip()
-                if any(symbol in next_line for symbol in ['$', '\\', '{', '}', '^', '_']) or \
-                   any(char.isdigit() or char in '+-*/=()[]{}^_' for char in next_line):
-                    formula_lines.append(next_line)
-                    i += 1
-                else:
-                    break
-            # 渲染公式
-            if formula_lines:
-                formula_text = '\n'.join(formula_lines)
-                formula_html = render_latex_formula(formula_text)
-                rendered_parts.append(formula_html)
-            current_type = 'text'
-            continue
-        # 普通文本行
-        else:
-            current_block.append(lines[i])
-            current_type = 'text'
-            i += 1
-    # 处理最后剩余的文本块
-    if current_block:
-        text_content = '\n'.join(current_block)
-        if text_content.strip():
-            rendered_parts.append(f"<div style='padding: 10px 0; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{text_content}</div>")
-    # 合并所有渲染部分
-    if rendered_parts:
-        return '<div style="padding: 5px;">' + ''.join(rendered_parts) + '</div>'
-    else:
-        return f"<div style='padding: 15px; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{text}</div>"
-def render_markdown_table(markdown_text):
-    """将Markdown表格转换为HTML渲染格式"""
-    if not markdown_text.strip():
-        return markdown_text
-    # 使用markdown库转换为HTML
-    html_content = markdown.markdown(markdown_text, extensions=['tables'])
-    # 添加表格样式
-    styled_html = f"""
-    <div style="overflow-x: auto; margin: 10px 0;">
-        <style>
-            table {{
-                border-collapse: collapse;
-                width: 100%;
-                margin: 10px 0;
-                font-family: Arial, sans-serif;
-            }}
-            th, td {{
-                border: 1px solid #ddd;
-                padding: 8px 12px;
-                text-align: left;
-            }}
-            th {{
-                background-color: #f2f2f2;
-                font-weight: bold;
-            }}
-            tr:nth-child(even) {{
-                background-color: #f9f9f9;
-            }}
-            tr:hover {{
-                background-color: #f5f5f5;
-            }}
-        </style>
-        {html_content}
-    </div>
-    """
-    return styled_html
-def render_latex_formula(latex_text):
-    """将LaTeX公式转换为可渲染的HTML格式"""
-    if not latex_text.strip():
-        return latex_text
-    # 处理LaTeX公式，确保正确的MathJax格式
-    lines = latex_text.strip().split('\n')
-    processed_lines = []
-    for line in lines:
-        line = line.strip()
-        if line:
-            # 检查是否已经有$符号包围
-            if not (line.startswith('$') and line.endswith('$')):
-                # 如果是单行公式，用$$包围（块级公式）
-                if '=' in line or any(symbol in line for symbol in ['\\', '{', '}', '^', '_']):
-                    line = f"$${line}$$"
-                else:
-                    line = f"${line}$"
-            processed_lines.append(line)
-    formula_html = '<br>'.join(processed_lines)
-    # 添加MathJax支持的HTML
-    html_content = f"""
-    <div style="margin: 10px 0; padding: 15px; background-color: #f8f9fa; border-left: 4px solid #007bff; border-radius: 4px;">
-        <div style="font-family: 'Times New Roman', serif; font-size: 16px; line-height: 1.6;">
-            {formula_html}
-        </div>
-    </div>
-    <script>
-        if (typeof MathJax !== 'undefined') {{
-            MathJax.typesetPromise();
-        }}
-    </script>
-    """
-    return html_content
 @spaces.GPU
 def parse_image(image, parse_type):
     """解析图片内容为指定格式"""
@@ -370,36 +175,24 @@ def parse_image(image, parse_type):
         for new_text in res:
             generated_text += new_text
-        # 根据类型清理输出并渲染
         if parse_type == "表格解析":
-            cleaned_result = clean_markdown_output(generated_text)
-            rendered_result = render_markdown_table(cleaned_result)
-            output_format = "Markdown表格"
-            return rendered_result, cleaned_result, f"解析完成 - 输出格式: {output_format}"
         elif parse_type == "公式解析":
-            cleaned_result = clean_formula_output(generated_text)
-            rendered_result = render_latex_formula(cleaned_result)
-            output_format = "LaTeX公式"
-            return rendered_result, cleaned_result, f"解析完成 - 输出格式: {output_format}"
         elif parse_type == "文本解析":
-            cleaned_result = clean_text_output(generated_text)
-            # 检测是否包含表格或公式，智能渲染
-            content_types = detect_content_types(cleaned_result)
-            if len(content_types) > 1:  # 包含多种内容类型
-                rendered_result = render_mixed_content(cleaned_result)
-                output_format = "混合内容（文本+表格+公式）"
-            else:
-                rendered_result = f"<div style='padding: 15px; white-space: pre-wrap; font-family: Arial, sans-serif; line-height: 1.6;'>{cleaned_result}</div>"
-                output_format = "纯文本"
-            return rendered_result, cleaned_result, f"解析完成 - 输出格式: {output_format}"
         else:
             result = generated_text.strip()
             output_format = "原始输出"
-            return f"<div style='padding: 15px; white-space: pre-wrap; font-family: monospace;'>{result}</div>", result, f"解析完成 - 输出格式: {output_format}"
     except Exception as e:
-        error_html = f"<div style='color: red; padding: 15px; border: 1px solid red; border-radius: 4px;'>解析失败: {str(e)}</div>"
-        return error_html, str(e), "错误"
 def create_interface():
     """创建Gradio界面"""
@@ -413,50 +206,9 @@ def create_interface():
         font-family: 'Courier New', monospace;
         font-size: 14px;
     }
-    .rendered-output {
-        font-family: Arial, sans-serif;
-        line-height: 1.6;
-    }
-    .rendered-output table {
-        border-collapse: collapse;
-        width: 100%;
-        margin: 10px 0;
-    }
-    .rendered-output th, .rendered-output td {
-        border: 1px solid #ddd;
-        padding: 8px 12px;
-        text-align: left;
-    }
-    .rendered-output th {
-        background-color: #f2f2f2;
-        font-weight: bold;
-    }
-    .rendered-output tr:nth-child(even) {
-        background-color: #f9f9f9;
-    }
     """
-    # MathJax配置
-    mathjax_config = """
-    <script>
-    window.MathJax = {
-        tex: {
-            inlineMath: [['$', '$'], ['\\(', '\\)']],
-            displayMath: [['$$', '$$'], ['\\[', '\\]']],
-            processEscapes: true,
-            processEnvironments: true
-        },
-        options: {
-            ignoreHtmlClass: 'tex2jax_ignore',
-            processHtmlClass: 'tex2jax_process'
-        }
-    };
-    </script>
-    <script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
-    <script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
-    """
-    with gr.Blocks(css=css, title="MiniCPM 多模态内容解析工具", analytics_enabled=False, head=mathjax_config) as interface:
         gr.Markdown("""
         # 🚀 MiniCPM 多模态内容解析工具
@@ -465,12 +217,12 @@ def create_interface():
         ## 📋 使用说明
         1. **上传图片**: 支持 PNG、JPG、JPEG 等格式
         2. **选择解析类型**: 根据图片内容选择相应的解析模式
-        3. **获取结果**: 自动渲染显示，表格和公式直接可视化
         ## 🎯 解析类型说明
-        - **📊 表格解析**: 将表格图片转换为可视化表格
-        - **🧮 公式解析**: 识别数学公式并渲染显示
-        - **📝 文本解析**: 提取图片中的所有文字内容，智能识别并渲染其中的表格和公式
         """)
         with gr.Row():
@@ -503,20 +255,14 @@ def create_interface():
                     interactive=False
                 )
-                result_output = gr.HTML(
-                    label="📄 解析结果（渲染视图）",
-                    value="<p style='color: #666; text-align: center; padding: 20px;'>解析结果将在这里显示...</p>",
-                    elem_classes=["rendered-output"]
-                )
-                raw_output = gr.Textbox(
-                    label="📝 原始代码（可复制）",
-                    lines=8,
-                    max_lines=15,
                     show_copy_button=True,
                     elem_classes=["output-text"],
-                    placeholder="原始Markdown/LaTeX代码将在这里显示...",
-                    visible=False
                 )
         # 示例图片
@@ -537,7 +283,7 @@ def create_interface():
         parse_button.click(
             fn=parse_image,
             inputs=[image_input, parse_type],
-            outputs=[result_output, raw_output, status_output]
         )
         # 添加页脚信息
@@ -548,7 +294,6 @@ def create_interface():
         - 复杂表格建议分段处理
         - 公式图片建议使用高分辨率
         - 文字图片避免模糊、倾斜或光线不足
-        - **文本解析**现在支持智能识别：如果文本中包含表格或公式，会自动渲染显示
         ### 🔧 技术支持
         - 模型: MiniCPM-o-2.6

 import warnings
 import os
 import spaces
 # 禁用警告信息
 warnings.filterwarnings("ignore")
     return '\n'.join(text_lines)
 @spaces.GPU
 def parse_image(image, parse_type):
     """解析图片内容为指定格式"""
         for new_text in res:
             generated_text += new_text
+        # 根据类型清理输出
         if parse_type == "表格解析":
+            result = clean_markdown_output(generated_text)
+            output_format = "Markdown"
         elif parse_type == "公式解析":
+            result = clean_formula_output(generated_text)
+            output_format = "LaTeX"
         elif parse_type == "文本解析":
+            result = clean_text_output(generated_text)
+            output_format = "纯文本"
         else:
             result = generated_text.strip()
             output_format = "原始输出"
+        return result, f"解析完成 - 输出格式: {output_format}"
     except Exception as e:
+        return f"解析失败: {str(e)}", "错误"
 def create_interface():
     """创建Gradio界面"""
         font-family: 'Courier New', monospace;
         font-size: 14px;
     }
     """
+    with gr.Blocks(css=css, title="MiniCPM 多模态内容解析工具", analytics_enabled=False) as interface:
         gr.Markdown("""
         # 🚀 MiniCPM 多模态内容解析工具
         ## 📋 使用说明
         1. **上传图片**: 支持 PNG、JPG、JPEG 等格式
         2. **选择解析类型**: 根据图片内容选择相应的解析模式
+        3. **获取结果**: 自动清理输出，获得纯净的解析结果
         ## 🎯 解析类型说明
+        - **📊 表格解析**: 将表格图片转换为Markdown格式
+        - **🧮 公式解析**: 识别数学公式并输出LaTeX格式
+        - **📝 文本解析**: 提取图片中的所有文字内容
         """)
         with gr.Row():
                     interactive=False
                 )
+                result_output = gr.Textbox(
+                    label="📄 解析结果",
+                    lines=20,
+                    max_lines=30,
                     show_copy_button=True,
                     elem_classes=["output-text"],
+                    placeholder="解析结果将在这里显示...",
+                    interactive=True
                 )
         # 示例图片
         parse_button.click(
             fn=parse_image,
             inputs=[image_input, parse_type],
+            outputs=[result_output, status_output]
         )
         # 添加页脚信息
         - 复杂表格建议分段处理
         - 公式图片建议使用高分辨率
         - 文字图片避免模糊、倾斜或光线不足
         ### 🔧 技术支持
         - 模型: MiniCPM-o-2.6