Spaces:

asony999
/

documents

Sleeping

asony999 commited on Feb 21

Commit

93ae8be

verified ·

1 Parent(s): a850594

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,8 +7,6 @@ from pdf2image import convert_from_path
 from google.cloud import documentai_v1 as documentai
 from presidio_analyzer import AnalyzerEngine
 from presidio_anonymizer import AnonymizerEngine
-from google.cloud import documentai_v1 as documentai
 # ✅ Step 1: Set Google Cloud Credentials
 os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "document-ai-anonymizer.json"
@@ -22,15 +20,20 @@ anonymizer = AnonymizerEngine()
 def extract_text_from_pdf(pdf_path):
     """
-    Extracts text from PDF files using Google Document AI.
     """
     with open(pdf_path, "rb") as f:
         pdf_bytes = f.read()
-    # Configure Document AI request
-    document = {"content": pdf_bytes, "mime_type": "application/pdf"}
-    request = {"name": f"projects/presidio-450223/locations/us/processors/5cbc64853974c755", "raw_document": document}
     result = client.process_document(request=request)
     return result.document.text if result.document.text else "No text detected."
 def extract_text_from_image(image_path):
@@ -41,7 +44,7 @@ def extract_text_from_image(image_path):
 def redact_document(uploaded_file):
     """
-    1. Extracts text from PDFs or images.
     2. Uses Presidio to redact sensitive PII.
     """
     file_ext = uploaded_file.name.split(".")[-1].lower()

 from google.cloud import documentai_v1 as documentai
 from presidio_analyzer import AnalyzerEngine
 from presidio_anonymizer import AnonymizerEngine
 # ✅ Step 1: Set Google Cloud Credentials
 os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "document-ai-anonymizer.json"
 def extract_text_from_pdf(pdf_path):
     """
+    Extracts text from PDF files using Google Cloud Document AI.
     """
     with open(pdf_path, "rb") as f:
         pdf_bytes = f.read()
+    # Set up the request for Document AI
+    document = documentai.RawDocument(content=pdf_bytes, mime_type="application/pdf")
+    name = f"projects/presidio-450223/locations/us/processors/5cbc64853974c755"
+    request = documentai.ProcessRequest(name=name, raw_document=document)
+    # Call the Document AI API
     result = client.process_document(request=request)
     return result.document.text if result.document.text else "No text detected."
 def extract_text_from_image(image_path):
 def redact_document(uploaded_file):
     """
+    1. Extracts text from PDFs, Word, or Image files.
     2. Uses Presidio to redact sensitive PII.
     """
     file_ext = uploaded_file.name.split(".")[-1].lower()