Spaces:

darshan8950
/

chat_csv

Runtime error

App Files Files Community

darshan8950 commited on May 11, 2024

Commit

39729db

verified ·

1 Parent(s): 7d04a4b

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -29

app.py CHANGED Viewed

@@ -1,16 +1,19 @@
-from langchain.document_loaders.csv_loader import CSVLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
-from langchain.llms import CTransformers
-from langchain.chains import ConversationalRetrievalChain
 import streamlit as st
 import tempfile
 def main():
-    st.set_page_config(page_title="👨‍💻 Talk with your CSV")
-    st.title("👨‍💻 Talk with borrower data")
     uploaded_file = st.sidebar.file_uploader("Upload your Data", type="csv")
     query = st.text_input("Send a Message")
@@ -18,6 +21,7 @@ def main():
         DB_FAISS_PATH = "vectorstore/db_faiss"
         if uploaded_file :
             with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
                 tmp_file.write(uploaded_file.getvalue())
                 tmp_file_path = tmp_file.name
@@ -26,27 +30,33 @@ def main():
                         'delimiter': ','})
             data = loader.load()
             st.write(data)
-            text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=40)
-            text_chunks = text_splitter.split_documents(data)
-            embeddings = HuggingFaceEmbeddings(model_name = 'sentence-transformers/all-MiniLM-L6-v2')
-            docsearch = FAISS.from_documents(text_chunks, embeddings)
-            docsearch = docsearch.as_retriever(search_type="similarity", search_kwargs={"k":1})
-            docsearch.save_local(DB_FAISS_PATH)
-            llm = CTransformers(model="models/llama-2-7b-chat.ggmlv3.q4_0.bin",
-                                model_type="llama",
-                                max_new_tokens=512,
-                                temperature=0.1)
-            qa = ConversationalRetrievalChain.from_llm(llm, retriever=docsearch)
-            result = qa(query)
-            st.write(result)
 if __name__ == '__main__':
     main()

 import streamlit as st
 import tempfile
+import pandas as pd
+from langchain import HuggingFacePipeline
+from transformers import AutoTokenizer
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.document_loaders.csv_loader import CSVLoader
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+import transformers
+import torch
+import textwrap
 def main():
+    st.set_page_config(page_title="👨‍💻 Talk with BORROWER data")
+    st.title("👨‍💻 Talk with BORROWER data")
     uploaded_file = st.sidebar.file_uploader("Upload your Data", type="csv")
     query = st.text_input("Send a Message")
         DB_FAISS_PATH = "vectorstore/db_faiss"
         if uploaded_file :
+        #use tempfile because CSVLoader only accepts a file_path
             with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
                 tmp_file.write(uploaded_file.getvalue())
                 tmp_file_path = tmp_file.name
                         'delimiter': ','})
             data = loader.load()
             st.write(data)
+            model = "daryl149/llama-2-7b-chat-hf"
+            tokenizer = AutoTokenizer.from_pretrained(model)
+            pipeline = transformers.pipeline("text-generation", #task
+                                              model=model,
+                                              tokenizer=tokenizer,
+                                              torch_dtype=torch.bfloat16,
+                                              trust_remote_code=True,
+                                              device_map="auto",
+                                              max_length=1000,
+                                              do_sample=True,
+                                              top_k=10,
+                                              num_return_sequences=1,
+                                              eos_token_id=tokenizer.eos_token_id
+            )
+            llm = HuggingFacePipeline(pipeline = pipeline, model_kwargs = {'temperature':0})
+            embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')
+            vectorstore = FAISS.from_documents(data, embeddings)
+            vectorstore.save_local(DB_FAISS_PATH)
+            chain =  RetrievalQA.from_chain_type(llm=llm, chain_type = "stuff",return_source_documents=True, retriever=vectorstore.as_retriever())
+            result=chain(query)
+            wrapped_text = textwrap.fill(result['result'], width=500)
+            st.write(wrapped_text)
 if __name__ == '__main__':
     main()