Spaces:

PebinAPJ
/

ChatPdfs

Running

App Files Files Community

PebinAPJ commited on 5 days ago

Commit

464c6df

verified ·

1 Parent(s): 419b9d5

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -25

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter  # Correct (from langchain)
-from langchain_huggingface import HuggingFaceEmbeddings# Correct (from langchain_community)
 from langchain_community.vectorstores import FAISS  # Correct (from langchain_community)
 from langchain_community.chat_models import ChatOpenAI  # Correct (from langchain_community)
 from langchain.memory import ConversationBufferMemory  # Correct (from langchain)
@@ -12,14 +12,6 @@ from langchain_community.llms import HuggingFaceHub  # Correct (from langchain_c
 from langchain_huggingface import HuggingFaceEndpoint
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
@@ -41,25 +33,27 @@ def get_text_chunks(text):
 def get_vectorstore(text_chunks):
-    #embeddings = OpenAIEmbeddings()
-    embeddings = HuggingFaceEmbeddings(model_name="hkunlp/instructor-xl")
     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore
 def get_conversation_chain(vectorstore):
-    # Use HuggingFaceEndpoint with explicitly passed parameters
     llm = HuggingFaceEndpoint(
-        repo_id="sshleifer/distilbart-cnn-12-6",
-        temperature=0.5,
-        max_new_tokens=128,  # Explicit parameter
-    )
-    # Initialize memory
     memory = ConversationBufferMemory(
         memory_key="chat_history", return_messages=True
     )
-    # Create Conversational Retrieval Chain
     conversation_chain = ConversationalRetrievalChain.from_llm(
         llm=llm,
         retriever=vectorstore.as_retriever(),
@@ -67,6 +61,7 @@ def get_conversation_chain(vectorstore):
     )
     return conversation_chain
 def handle_userinput(user_question):
     response = st.session_state.conversation({'question': user_question})
     st.session_state.chat_history = response['chat_history']
@@ -82,8 +77,7 @@ def handle_userinput(user_question):
 def main():
     load_dotenv()
-    st.set_page_config(page_title="Chat with multiple PDFs",
-                       page_icon=":books:")
     st.write(css, unsafe_allow_html=True)
     if "conversation" not in st.session_state:
@@ -98,8 +92,7 @@ def main():
     with st.sidebar:
         st.subheader("Your documents")
-        pdf_docs = st.file_uploader(
-            "Upload your PDFs here and click on 'Process'", accept_multiple_files=True)
         if st.button("Process"):
             with st.spinner("Processing"):
                 # get pdf text
@@ -112,9 +105,8 @@ def main():
                 vectorstore = get_vectorstore(text_chunks)
                 # create conversation chain
-                st.session_state.conversation = get_conversation_chain(
-                    vectorstore)
 if __name__ == '__main__':
-    main()

 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter  # Correct (from langchain)
+from langchain_huggingface import HuggingFaceEmbeddings  # Correct (from langchain_community)
 from langchain_community.vectorstores import FAISS  # Correct (from langchain_community)
 from langchain_community.chat_models import ChatOpenAI  # Correct (from langchain_community)
 from langchain.memory import ConversationBufferMemory  # Correct (from langchain)
 from langchain_huggingface import HuggingFaceEndpoint
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
 def get_vectorstore(text_chunks):
+    embeddings = HuggingFaceEmbeddings(model_name="hkunlp/instructor-base")  # Using the lightweight instructor model
     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore
 def get_conversation_chain(vectorstore):
+    # Using a lightweight LLM, e.g., distilgpt2 or distilbart
     llm = HuggingFaceEndpoint(
+    repo_id="distilgpt2",            # Low-end model (DistilGPT2)
+    temperature=0.5,                 # Randomness control
+    max_new_tokens=128,              # Maximum tokens for generation
+    top_p=0.95,                      # Nucleus sampling
+    top_k=50,                        # Limit token options during generation
+    repetition_penalty=1.2           # Prevent repetitive answers
+)
     memory = ConversationBufferMemory(
         memory_key="chat_history", return_messages=True
     )
     conversation_chain = ConversationalRetrievalChain.from_llm(
         llm=llm,
         retriever=vectorstore.as_retriever(),
     )
     return conversation_chain
 def handle_userinput(user_question):
     response = st.session_state.conversation({'question': user_question})
     st.session_state.chat_history = response['chat_history']
 def main():
     load_dotenv()
+    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
     st.write(css, unsafe_allow_html=True)
     if "conversation" not in st.session_state:
     with st.sidebar:
         st.subheader("Your documents")
+        pdf_docs = st.file_uploader("Upload your PDFs here and click on 'Process'", accept_multiple_files=True)
         if st.button("Process"):
             with st.spinner("Processing"):
                 # get pdf text
                 vectorstore = get_vectorstore(text_chunks)
                 # create conversation chain
+                st.session_state.conversation = get_conversation_chain(vectorstore)
 if __name__ == '__main__':
+    main()