Spaces:

DrishtiSharma
/

docqa-with-deepseek-r1

Running

App Files Files Community

DrishtiSharma commited on 10 days ago

Commit

7208469

verified ·

1 Parent(s): a4e4b71

Update lab/title_issue.py

Browse files

Files changed (1) hide show

lab/title_issue.py +53 -32

lab/title_issue.py CHANGED Viewed

@@ -1,12 +1,14 @@
 import streamlit as st
 import os
 import requests
 import chromadb
 from langchain.document_loaders import PDFPlumberLoader
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_experimental.text_splitter import SemanticChunker
 from langchain_chroma import Chroma
-from langchain.chains import LLMChain, SequentialChain
 from langchain.prompts import PromptTemplate
 from langchain_groq import ChatGroq
 from prompts import rag_prompt, relevancy_prompt, relevant_context_picker_prompt, response_synth
@@ -18,8 +20,9 @@ st.title("Blah-1")
 # ----------------- API Keys -----------------
 os.environ["GROQ_API_KEY"] = st.secrets.get("GROQ_API_KEY", "")
-# ----------------- Clear ChromaDB Cache -----------------
-chromadb.api.client.SharedSystemClient.clear_system_cache()
 # ----------------- Initialize Session State -----------------
 if "pdf_loaded" not in st.session_state:
@@ -33,47 +36,48 @@ if "processed_chunks" not in st.session_state:
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
-# ----------------- Load Models -----------------
-llm_judge = ChatGroq(model="deepseek-r1-distill-llama-70b")
-rag_llm = ChatGroq(model="mixtral-8x7b-32768")
-# Enable verbose logging for debugging
-llm_judge.verbose = True
-rag_llm.verbose = True
 # ----------------- PDF Selection -----------------
-#st.subheader("PDF Selection")
 pdf_source = st.radio("Choose a PDF source:", ["Upload a PDF file", "Enter a PDF URL"], index=0, horizontal=True)
 if pdf_source == "Upload a PDF file":
     uploaded_file = st.file_uploader("Upload your PDF file", type=["pdf"])
     if uploaded_file:
-        st.session_state.pdf_path = "temp.pdf"
         with open(st.session_state.pdf_path, "wb") as f:
             f.write(uploaded_file.getbuffer())
         st.session_state.pdf_loaded = False
         st.session_state.chunked = False
         st.session_state.vector_created = False
-elif pdf_source == "Enter a PDF URL":
-    pdf_url = st.text_input("Enter PDF URL:")
-    if pdf_url and not st.session_state.pdf_loaded:
-        with st.spinner("🔄 Downloading PDF..."):
-            try:
-                response = requests.get(pdf_url)
-                if response.status_code == 200:
-                    st.session_state.pdf_path = "temp.pdf"
-                    with open(st.session_state.pdf_path, "wb") as f:
-                        f.write(response.content)
-                    st.session_state.pdf_loaded = False
-                    st.session_state.chunked = False
-                    st.session_state.vector_created = False
-                    st.success("✅ PDF Downloaded Successfully!")
-                else:
-                    st.error("❌ Failed to download PDF. Check the URL.")
-            except Exception as e:
-                st.error(f"Error downloading PDF: {e}")
 # ----------------- Process PDF -----------------
 if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
     with st.spinner("🔄 Processing document... Please wait."):
@@ -81,14 +85,29 @@ if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
         docs = loader.load()
         st.json(docs[0].metadata)
         # Embedding Model
         model_name = "nomic-ai/modernbert-embed-base"
-        embedding_model = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": "cpu"}, encode_kwargs = {'normalize_embeddings': False})
         # Prevent unnecessary re-chunking
         if not st.session_state.chunked:
             text_splitter = SemanticChunker(embedding_model)
             document_chunks = text_splitter.split_documents(docs)
             st.session_state.processed_chunks = document_chunks
             st.session_state.chunked = True
@@ -99,6 +118,7 @@ if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
 if not st.session_state.vector_created and st.session_state.processed_chunks:
     with st.spinner("🔄 Initializing Vector Store..."):
         st.session_state.vector_store = Chroma(
             collection_name="deepseek_collection",
             collection_metadata={"hnsw:space": "cosine"},
             embedding_function=embedding_model
@@ -107,6 +127,7 @@ if not st.session_state.vector_created and st.session_state.processed_chunks:
         st.session_state.vector_created = True
         st.success("✅ Vector store initialized successfully!")
 # ----------------- Query Input -----------------
 query = st.text_input("🔍 Ask a question about the document:")
@@ -151,4 +172,4 @@ if query:
     st.json(final_response["relevant_contexts"])
     st.subheader("RAG Response Statement")
-    st.json(final_response["final_response"])

 import streamlit as st
 import os
 import requests
+import pdfplumber
 import chromadb
+import re
 from langchain.document_loaders import PDFPlumberLoader
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_experimental.text_splitter import SemanticChunker
 from langchain_chroma import Chroma
+from langchain.chains import LLMChain
 from langchain.prompts import PromptTemplate
 from langchain_groq import ChatGroq
 from prompts import rag_prompt, relevancy_prompt, relevant_context_picker_prompt, response_synth
 # ----------------- API Keys -----------------
 os.environ["GROQ_API_KEY"] = st.secrets.get("GROQ_API_KEY", "")
+# ----------------- ChromaDB Persistent Directory -----------------
+CHROMA_DB_DIR = "/mnt/data/chroma_db"
+os.makedirs(CHROMA_DB_DIR, exist_ok=True)
 # ----------------- Initialize Session State -----------------
 if "pdf_loaded" not in st.session_state:
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
+# ----------------- Improved Metadata Extraction -----------------
+def extract_metadata(pdf_path):
+    """Extracts title, author, emails, and affiliations from PDF."""
+    with pdfplumber.open(pdf_path) as pdf:
+        metadata = pdf.metadata or {}
+        # Extract title
+        title = metadata.get("Title", "").strip()
+        if not title and pdf.pages:
+            text = pdf.pages[0].extract_text()
+            title_match = re.search(r"(?i)title[:\-]?\s*(.*)", text or "")
+            title = title_match.group(1) if title_match else text.split("\n")[0] if text else "Untitled Document"
+        # Extract author
+        author = metadata.get("Author", "").strip()
+        if not author and pdf.pages:
+            author_match = re.search(r"(?i)by\s+([A-Za-z\s,]+)", pdf.pages[0].extract_text() or "")
+            author = author_match.group(1).strip() if author_match else "Unknown Author"
+        # Extract emails
+        emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", pdf.pages[0].extract_text() or "")
+        email_str = ", ".join(emails) if emails else "No emails found"
+        # Extract affiliations
+        affiliations = re.findall(r"(?:Department|Faculty|Institute|University|College|School)\s+[\w\s]+", pdf.pages[0].extract_text() or "")
+        affiliation_str = ", ".join(affiliations) if affiliations else "No affiliations found"
+    return title, author, email_str, affiliation_str
 # ----------------- PDF Selection -----------------
 pdf_source = st.radio("Choose a PDF source:", ["Upload a PDF file", "Enter a PDF URL"], index=0, horizontal=True)
 if pdf_source == "Upload a PDF file":
     uploaded_file = st.file_uploader("Upload your PDF file", type=["pdf"])
     if uploaded_file:
+        st.session_state.pdf_path = "/mnt/data/temp.pdf"
         with open(st.session_state.pdf_path, "wb") as f:
             f.write(uploaded_file.getbuffer())
         st.session_state.pdf_loaded = False
         st.session_state.chunked = False
         st.session_state.vector_created = False
 # ----------------- Process PDF -----------------
 if not st.session_state.pdf_loaded and "pdf_path" in st.session_state:
     with st.spinner("🔄 Processing document... Please wait."):
         docs = loader.load()
         st.json(docs[0].metadata)
+        # Extract metadata
+        title, author, email_str, affiliation_str = extract_metadata(st.session_state.pdf_path)
+        # Display extracted metadata
+        st.subheader("📄 Extracted Document Metadata")
+        st.write(f"**Title:** {title}")
+        st.write(f"**Author:** {author}")
+        st.write(f"**Emails:** {email_str}")
+        st.write(f"**Affiliations:** {affiliation_str}")
         # Embedding Model
         model_name = "nomic-ai/modernbert-embed-base"
+        embedding_model = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
+        # Convert metadata into a retrievable chunk
+        metadata_text = f"Title: {title}\nAuthor: {author}\nEmails: {email_str}\nAffiliations: {affiliation_str}"
+        metadata_doc = {"page_content": metadata_text, "metadata": {"source": "metadata"}}
         # Prevent unnecessary re-chunking
         if not st.session_state.chunked:
             text_splitter = SemanticChunker(embedding_model)
             document_chunks = text_splitter.split_documents(docs)
+            document_chunks.insert(0, metadata_doc)  # Insert metadata as a retrievable document
             st.session_state.processed_chunks = document_chunks
             st.session_state.chunked = True
 if not st.session_state.vector_created and st.session_state.processed_chunks:
     with st.spinner("🔄 Initializing Vector Store..."):
         st.session_state.vector_store = Chroma(
+            persist_directory=CHROMA_DB_DIR,  # <-- Ensures persistence
             collection_name="deepseek_collection",
             collection_metadata={"hnsw:space": "cosine"},
             embedding_function=embedding_model
         st.session_state.vector_created = True
         st.success("✅ Vector store initialized successfully!")
 # ----------------- Query Input -----------------
 query = st.text_input("🔍 Ask a question about the document:")
     st.json(final_response["relevant_contexts"])
     st.subheader("RAG Response Statement")
+    st.json(final_response["final_response"])