Spaces:

DrishtiSharma
/

docqa-with-deepseek-r1

Running

App Files Files Community

DrishtiSharma commited on 12 days ago

Commit

bca3677

verified ·

1 Parent(s): e37ff79

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -30

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import chromadb
 import requests
 import streamlit as st
-from langchain.chains import SequentialChain, LLMChain
 from langchain.prompts import PromptTemplate
 from langchain_groq import ChatGroq
 from langchain.document_loaders import PDFPlumberLoader
@@ -11,7 +11,6 @@ from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_chroma import Chroma
 from prompts import rag_prompt, relevancy_prompt, relevant_context_picker_prompt, response_synth
 # Set API Keys
 os.environ["GROQ_API_KEY"] = st.secrets.get("GROQ_API_KEY", "")
@@ -25,13 +24,15 @@ rag_llm.verbose = True
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
-st.title("❓")
 # Initialize session state variables
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
 if "documents" not in st.session_state:
     st.session_state.documents = None
 if "pdf_loaded" not in st.session_state:
     st.session_state.pdf_loaded = False
 if "chunked" not in st.session_state:
@@ -42,44 +43,43 @@ if "vector_created" not in st.session_state:
 # Step 1: Choose PDF Source
 pdf_source = st.radio("Upload or provide a link to a PDF:", ["Upload a PDF file", "Enter a PDF URL"], index=0, horizontal=True)
-pdf_path = None
 if pdf_source == "Upload a PDF file":
     uploaded_file = st.file_uploader("Upload your PDF file", type="pdf")
     if uploaded_file:
-        pdf_path = "temp.pdf"
-        with open(pdf_path, "wb") as f:
             f.write(uploaded_file.getbuffer())
-        st.session_state.pdf_loaded = False
         st.session_state.chunked = False
         st.session_state.vector_created = False
 elif pdf_source == "Enter a PDF URL":
     pdf_url = st.text_input("Enter PDF URL:", value="https://arxiv.org/pdf/2406.06998")
-    if pdf_url:
         with st.spinner("Downloading PDF..."):
             try:
                 response = requests.get(pdf_url)
                 if response.status_code == 200:
-                    pdf_path = "temp.pdf"
-                    with open(pdf_path, "wb") as f:
                         f.write(response.content)
-                    st.success("✅ PDF Downloaded Successfully!")
                     st.session_state.pdf_loaded = False
                     st.session_state.chunked = False
                     st.session_state.vector_created = False
                 else:
                     st.error("❌ Failed to download PDF. Check the URL.")
-            except Exception as e:
                 st.error(f"Error downloading PDF: {e}")
 # Step 2: Process PDF
-if pdf_path and not st.session_state.pdf_loaded:
-    with st.spinner("Loading PDF..."):
-        loader = PDFPlumberLoader(pdf_path)
         docs = loader.load()
         st.session_state.documents = docs
-        st.session_state.pdf_loaded = True
         st.success(f"✅ **PDF Loaded!** Total Pages: {len(docs)}")
 # Step 3: Chunking (Only if Not Already Done)
@@ -90,7 +90,7 @@ if st.session_state.pdf_loaded and not st.session_state.chunked:
         text_splitter = SemanticChunker(embedding_model)
         documents = text_splitter.split_documents(st.session_state.documents)
         st.session_state.documents = documents
-        st.session_state.chunked = True
         st.success(f"✅ **Document Chunked!** Total Chunks: {len(documents)}")
 # Step 4: Setup Vectorstore
@@ -103,8 +103,8 @@ if st.session_state.chunked and not st.session_state.vector_created:
         )
         vector_store.add_documents(st.session_state.documents)
         num_documents = len(vector_store.get()["documents"])
-        st.session_state.vector_store = vector_store
-        st.session_state.vector_created = True
         st.success(f"✅ **Vector Store Created!** Total documents stored: {num_documents}")
 # Step 5: Query Input
@@ -156,14 +156,5 @@ if st.session_state.vector_created:
         st.subheader("🟥 RAG Final Response")
         st.success(final_response['final_response'])
-        # Final + Intermediate Outputs
-        st.subheader("🔍 **Full Workflow Breakdown:**")
-        st.json({
-            "Context Relevancy Evaluation": relevancy_response["relevancy_response"],
-            "Relevant Contexts": relevant_response["context_number"],
-            "Extracted Contexts": final_contexts["relevant_contexts"],
-            "Final Answer": final_response["final_response"]
-        })
 else:
-    st.warning("📄 Please upload or provide a PDF URL first.")

 import chromadb
 import requests
 import streamlit as st
+from langchain.chains import LLMChain
 from langchain.prompts import PromptTemplate
 from langchain_groq import ChatGroq
 from langchain.document_loaders import PDFPlumberLoader
 from langchain_chroma import Chroma
 from prompts import rag_prompt, relevancy_prompt, relevant_context_picker_prompt, response_synth
 # Set API Keys
 os.environ["GROQ_API_KEY"] = st.secrets.get("GROQ_API_KEY", "")
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
+st.title("🔍 PDF-based RAG System")
 # Initialize session state variables
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
 if "documents" not in st.session_state:
     st.session_state.documents = None
+if "pdf_path" not in st.session_state:
+    st.session_state.pdf_path = None
 if "pdf_loaded" not in st.session_state:
     st.session_state.pdf_loaded = False
 if "chunked" not in st.session_state:
 # Step 1: Choose PDF Source
 pdf_source = st.radio("Upload or provide a link to a PDF:", ["Upload a PDF file", "Enter a PDF URL"], index=0, horizontal=True)
 if pdf_source == "Upload a PDF file":
     uploaded_file = st.file_uploader("Upload your PDF file", type="pdf")
     if uploaded_file:
+        st.session_state.pdf_path = "temp.pdf"
+        with open(st.session_state.pdf_path, "wb") as f:
             f.write(uploaded_file.getbuffer())
+        st.session_state.pdf_loaded = False
         st.session_state.chunked = False
         st.session_state.vector_created = False
+        st.success("✅ PDF Uploaded Successfully!")
 elif pdf_source == "Enter a PDF URL":
     pdf_url = st.text_input("Enter PDF URL:", value="https://arxiv.org/pdf/2406.06998")
+    if pdf_url and st.session_state.pdf_path is None:
         with st.spinner("Downloading PDF..."):
             try:
                 response = requests.get(pdf_url)
                 if response.status_code == 200:
+                    st.session_state.pdf_path = "temp.pdf"
+                    with open(st.session_state.pdf_path, "wb") as f:
                         f.write(response.content)
                     st.session_state.pdf_loaded = False
                     st.session_state.chunked = False
                     st.session_state.vector_created = False
+                    st.success("✅ PDF Downloaded Successfully!")
                 else:
                     st.error("❌ Failed to download PDF. Check the URL.")
+            except Exception as e:
                 st.error(f"Error downloading PDF: {e}")
 # Step 2: Process PDF
+if st.session_state.pdf_path and not st.session_state.pdf_loaded:
+    with st.spinner("Loading and processing PDF..."):
+        loader = PDFPlumberLoader(st.session_state.pdf_path)
         docs = loader.load()
         st.session_state.documents = docs
+        st.session_state.pdf_loaded = True
         st.success(f"✅ **PDF Loaded!** Total Pages: {len(docs)}")
 # Step 3: Chunking (Only if Not Already Done)
         text_splitter = SemanticChunker(embedding_model)
         documents = text_splitter.split_documents(st.session_state.documents)
         st.session_state.documents = documents
+        st.session_state.chunked = True
         st.success(f"✅ **Document Chunked!** Total Chunks: {len(documents)}")
 # Step 4: Setup Vectorstore
         )
         vector_store.add_documents(st.session_state.documents)
         num_documents = len(vector_store.get()["documents"])
+        st.session_state.vector_store = vector_store
+        st.session_state.vector_created = True
         st.success(f"✅ **Vector Store Created!** Total documents stored: {num_documents}")
 # Step 5: Query Input
         st.subheader("🟥 RAG Final Response")
         st.success(final_response['final_response'])
 else:
+    st.warning("📄 Please upload or provide a PDF URL first.")