Spaces:

charles-azam
/

deepdraft

Sleeping

App Files Files Community

Charles Azam commited on Jul 6

Commit

f0e5174

1 Parent(s): 84c66cd

feat: add new tools for pdfs along with tests

Browse files

Files changed (4) hide show

data/report_thermal_neutron.json +0 -0
src/deepengineer/webcrawler/pdf_tools.py +71 -78
tests/webcrawler/test_async_search.py +34 -3
tests/webcrawler/test_pdfs_tools.py +27 -3

data/report_thermal_neutron.json ADDED Viewed

The diff for this file is too large to render. See raw diff

src/deepengineer/webcrawler/pdf_tools.py CHANGED Viewed

@@ -19,7 +19,7 @@ MAX_SIZE_BYTES = 49 * 1024 * 1024
 async def convert_pdf_to_markdown_async(
     pdf_path: Path,
     with_image_description: bool = False,
-) -> tuple[str, OCRResponse]:
     mistral_client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))
@@ -39,92 +39,85 @@ async def convert_pdf_to_markdown_async(
         include_image_base64=True,
     )
     print(f"Processing PDF: {pdf_path.name}")
-    return (
-        _get_combined_markdown(
-            ocr_response=ocr_response, with_image_description=with_image_description
-        ),
-        ocr_response,
-    )
-def _get_image_description_using_llm(
-    base_64_str: str, model: str = "mistral/mistral-small-latest"
-) -> str | None:
-    assert base_64_str.startswith("data:image/jpeg;base64")
-    messages = [
-        {
-            "role": "user",
-            "content": [
-                {"type": "text", "text": "Describe this image in detail:"},
-                {"type": "image_url", "image_url": {"url": base_64_str}},
-            ],
-        }
-    ]
-    try:
-        response = completion(
-            model=model,  # LiteLLM naming convention
-            messages=messages,
-            temperature=0.0,
-            stream=False,
-        )
-        output = dict(response)["choices"][0].message.content
-    except BadRequestError:
-        output = ""
-    return output
-def _replace_images_in_markdown(markdown_str: str, images_dict: dict) -> str:
-    """
-    Replace image placeholders in markdown with base64-encoded images.
-    Args:
-        markdown_str: Markdown text containing image placeholders
-        images_dict: Dictionary mapping image IDs to base64 strings
-    Returns:
-        Markdown text with images replaced by base64 data
     """
-    for img_name, base64_str in images_dict.items():
-        print(f"Processing image: {img_name}")
-        try:
-            image_description = _get_image_description_using_llm(base_64_str=base64_str)
-        except RetryError:
-            image_description = "Image not found"
-        formatted_description = f"""> [Image {img_name} Replaced with Description Below]
-> {image_description.replace('\n', '\n> ')}
-"""
-        markdown_str = markdown_str.replace(
-            f"![{img_name}]({img_name})", formatted_description
-        )
-    return markdown_str
-def _get_combined_markdown(
-    ocr_response: OCRResponse, with_image_description: bool
-) -> str:
-    """
-    Combine OCR text and images into a single markdown document.
     Args:
-        ocr_response: Response from OCR processing containing text and images
     Returns:
-        Combined markdown string with embedded images
     """
-    markdowns: list[str] = []
-    # Extract images from page
-    for page in ocr_response.pages:
-        # Replace image placeholders with actual images
-        if with_image_description:
-            image_data = {}
-            for img in page.images:
-                image_data[img.id] = img.image_base64
-            page_description = _replace_images_in_markdown(page.markdown, image_data)
-        else:
-            page_description = page.markdown
-        markdowns.append(page_description)
-    return "\n\n".join(markdowns)

 async def convert_pdf_to_markdown_async(
     pdf_path: Path,
     with_image_description: bool = False,
+) -> tuple[OCRResponse]:
     mistral_client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))
         include_image_base64=True,
     )
     print(f"Processing PDF: {pdf_path.name}")
+    return ocr_response
+def convert_ocr_response_to_markdown(
+    ocr_response: OCRResponse
+) -> str:
+    markdowns: list[str] = []
+    for page in ocr_response.pages:
+        page_description = page.markdown
+        markdowns.append(page_description)
+    return "\n\n".join(markdowns)
+def get_markdown_by_page_numbers(markdown: OCRResponse, page_numbers: list[int]) -> str:
+    markdowns: list[str] = []
+    for page_number in page_numbers:
+        markdowns.append(f"*Page {page_number}*\n{markdown.pages[page_number].markdown}")
+    return "\n\n".join(markdowns)
+def find_in_pdf(markdown: OCRResponse, search_query: str) -> list[int]:
     """
+    Find the page numbers of the pdf that contain the search query.
     Args:
+        markdown (OCRResponse): The markdown of the pdf.
+        search_query (str): The search query.
     Returns:
+        list[int]: The page numbers of the pdf that contain the search query.
     """
+    page_numbers: list[int] = []
+    for page_number, page in enumerate(markdown.pages):
+        if search_query.lower() in page.markdown.lower():
+            page_numbers.append(page_number)
+    return page_numbers
+def table_of_contents_per_page_pdf(markdown: OCRResponse) -> str:
+    """
+    Get the table of contents of the pdf.
+    Finds all the titles of the pdf to reconstruct the table of contents.
+    """
+    title_to_page_number: dict[str, int] = {}
+    for page_number, page in enumerate(markdown.pages):
+        lines = page.markdown.split("\n")
+        for line in lines:
+            line = line.strip()
+            if line.startswith("#"):
+                title_to_page_number[line] = page_number
+    table_of_contents = "\n".join([f"{title} - Page {page_number}" for title, page_number in title_to_page_number.items()])
+    return table_of_contents
+def get_images_from_pdf(pdf_path: Path, image_ids: list[str]) -> list[str]:
+    raise NotImplementedError("Not implemented")
+    def get_image_description_using_llm(
+        base_64_str: str, model: str = "mistral/mistral-small-latest"
+    ) -> str | None:
+        assert base_64_str.startswith("data:image/jpeg;base64")
+        messages = [
+            {
+                "role": "user",
+                "content": [
+                    {"type": "text", "text": "Describe this image in detail:"},
+                    {"type": "image_url", "image_url": {"url": base_64_str}},
+                ],
+            }
+        ]
+        try:
+            response = completion(
+                model=model,  # LiteLLM naming convention
+                messages=messages,
+                temperature=0.0,
+                stream=False,
+            )
+            output = dict(response)["choices"][0].message.content
+        except BadRequestError:
+            output = ""
+        return output

tests/webcrawler/test_async_search.py CHANGED Viewed

@@ -5,8 +5,10 @@ from deepengineer.webcrawler.async_search import (
     SearchResponse,
     get_tavily_usage,
     linkup_search_async,
-    get_linkup_balance
 )
 @pytest.mark.expensive
@@ -34,7 +36,8 @@ async def test_tavily_search_async():
     assert response.search_results[0].title is not None
     assert response.search_results[0].url is not None
     assert response.search_results[0].content is not None
-    assert any(result.raw_content is not None for result in response.search_results)
     usage_after = get_tavily_usage()
     print(usage_after)
@@ -65,4 +68,32 @@ async def test_linkup_search_async():
     balance_after = get_linkup_balance()
     print(balance_after)
-    assert balance_after == balance_before - 0.005

     SearchResponse,
     get_tavily_usage,
     linkup_search_async,
+    get_linkup_balance,
+    arxiv_search_async
 )
+import numpy as np
 @pytest.mark.expensive
     assert response.search_results[0].title is not None
     assert response.search_results[0].url is not None
     assert response.search_results[0].content is not None
+    # raw content is often not available for tavily
+    # assert any(result.raw_content is not None for result in response.search_results)
     usage_after = get_tavily_usage()
     print(usage_after)
     balance_after = get_linkup_balance()
     print(balance_after)
+    assert np.isclose(balance_after, balance_before - 0.005)
+@pytest.mark.expensive
+@pytest.mark.asyncio
+async def test_arxiv_search_async():
+    balance_before = get_linkup_balance()
+    response = await arxiv_search_async(
+        search_query="Would it be possible to make a thermal reactor with graphite and lead?",
+    )
+    assert response is not None
+    assert isinstance(response, SearchResponse)
+    assert response.query is not None
+    assert response.answer is not None
+    assert response.search_results is not None
+    assert len(response.search_results) >= 10
+    assert any(result.url.startswith("https://arxiv.org/abs/") for result in response.search_results)
+    balance_after = get_linkup_balance()
+    assert np.isclose(balance_after, balance_before - 0.005)

tests/webcrawler/test_pdfs_tools.py CHANGED Viewed

@@ -1,16 +1,40 @@
-from deepengineer.webcrawler.pdf_tools import convert_pdf_to_markdown_async
 from mistralai import OCRResponse
 from deepengineer.common_path import DATA_DIR
 import pytest
 @pytest.mark.expensive
 @pytest.mark.asyncio
 async def test_convert_pdf_to_markdown_async():
     pdf_path = DATA_DIR / "report_thermal_neutron.pdf"
     assert pdf_path.exists()
-    markdown, ocr_response = await convert_pdf_to_markdown_async(pdf_path)
     assert isinstance(ocr_response, OCRResponse)
     assert len(ocr_response.pages) == 16
-    assert isinstance(markdown, str)
     assert "where each cylinder represent" in markdown

+from deepengineer.webcrawler.pdf_tools import convert_pdf_to_markdown_async, convert_ocr_response_to_markdown, find_in_pdf, table_of_contents_per_page_pdf, get_markdown_by_page_numbers
 from mistralai import OCRResponse
 from deepengineer.common_path import DATA_DIR
 import pytest
+def load_mock_ocr_response() -> OCRResponse:
+    with open(DATA_DIR / "report_thermal_neutron.json", "r") as f:
+        return OCRResponse.model_validate_json(f.read())
 @pytest.mark.expensive
 @pytest.mark.asyncio
 async def test_convert_pdf_to_markdown_async():
     pdf_path = DATA_DIR / "report_thermal_neutron.pdf"
     assert pdf_path.exists()
+    ocr_response = await convert_pdf_to_markdown_async(pdf_path)
+    markdown = convert_ocr_response_to_markdown(ocr_response)
     assert isinstance(ocr_response, OCRResponse)
     assert len(ocr_response.pages) == 16
     assert "where each cylinder represent" in markdown
+def test_table_of_contents_per_page_pdf():
+    ocr_response = load_mock_ocr_response()
+    table_of_contents = table_of_contents_per_page_pdf(ocr_response)
+    assert "References - Page 15" in table_of_contents
+def test_find_in_pdf():
+    ocr_response = load_mock_ocr_response()
+    page_numbers = find_in_pdf(ocr_response, "where each cylinder represent")
+    assert page_numbers == [7]
+def test_get_markdown_by_page_numbers():
+    ocr_response = load_mock_ocr_response()
+    page_numbers = [7, 15]
+    markdown = get_markdown_by_page_numbers(ocr_response, page_numbers)
+    assert "Page 7" in markdown
+    assert "Page 15" in markdown
+    assert "References" in markdown
+    assert "where each cylinder represent" in markdown