Spaces:

QAI
/

Chat_QnA_v2

Runtime error

App Files Files Community

binh99 commited on Jul 26, 2023

Commit

8c5ce8c

1 Parent(s): d037cdf

abcd

Browse files

Files changed (7) hide show

chains/__pycache__/multi_queries.cpython-39.pyc +0 -0
chains/__pycache__/openai_model.cpython-39.pyc +0 -0
chains/multi_queries.py +26 -0
chains/openai_model.py +37 -16
prompts/__pycache__/multi_queries.cpython-39.pyc +0 -0
prompts/multi_queries.py +4 -0
test.py +66 -0

chains/__pycache__/multi_queries.cpython-39.pyc ADDED Viewed

Binary file (1.43 kB). View file

chains/__pycache__/openai_model.cpython-39.pyc CHANGED Viewed

Binary files a/chains/__pycache__/openai_model.cpython-39.pyc and b/chains/__pycache__/openai_model.cpython-39.pyc differ

chains/multi_queries.py ADDED Viewed

	@@ -0,0 +1,26 @@

+from langchain.chains.llm import LLMChain
+from langchain.prompts.chat import (
+    ChatPromptTemplate,
+    SystemMessagePromptTemplate,
+    HumanMessagePromptTemplate)
+from prompts.multi_queries import system_template, human_template
+from config import OPENAI_API_TYPE, OPENAI_API_VERSION, OPENAI_API_KEY, OPENAI_API_BASE, DEPLOYMENT_ID
+from chains.azure_openai import CustomAzureOpenAI
+class MultiQueries(LLMChain):
+    llm = CustomAzureOpenAI(deployment_name=DEPLOYMENT_ID,
+                    openai_api_type=OPENAI_API_TYPE,
+                    openai_api_base=OPENAI_API_BASE,
+                    openai_api_version=OPENAI_API_VERSION,
+                    openai_api_key=OPENAI_API_KEY,
+                    temperature=0.0)
+    prompt = ChatPromptTemplate.from_messages(
+        [
+            SystemMessagePromptTemplate.from_template(system_template),
+            HumanMessagePromptTemplate.from_template(human_template)
+        ])
+if __name__ == "__main__":
+    queries_chain = MultiQueries()
+    out = queries_chain.predict(question="Where can I request for my event's permit in Penang?")
+    print(out.strip().split('\n\n')[1])
+    print(list(map(lambda x: x.split(': ')[-1], out.split('\n\n'))))

chains/openai_model.py CHANGED Viewed

@@ -104,7 +104,8 @@ class OpenAIModel:
             from chains.web_search import GoogleWebSearch
             from config import GOOGLE_API_KEY, GOOGLE_CSE_ID, CUSTOM_API_KEY, CUSTOM_CSE_ID
             from chains.summary import WebSummary
             status_text = "Retrieving information from the web"
             yield chatbot, status_text
             if use_websearch:
@@ -114,23 +115,37 @@ class OpenAIModel:
                 google_api_key = CUSTOM_API_KEY
                 google_cse_id = CUSTOM_CSE_ID
             search = GoogleSearchAPIWrapper(google_api_key=google_api_key, google_cse_id=google_cse_id)
-            results = search.results(inputs,4)
             reference_results = []
             display_append = []
             for idx, result in enumerate(results):
-                print(result['link'])
-                response = requests.get(result['link'])
-                soup = BeautifulSoup(response.content, "html.parser")
                 try:
-                    summary = WebSummary.predict(question=inputs, doc=soup.get_text())
-                    print("Can access", result['link'])
                 except:
-                    print("Cannot access ", result['link'])
-                    summary = result['snippet']
-                reference_results.append([summary, result['link']])
-                display_append.append(
-                    f"<a href=\"{result['link']}\" target=\"_blank\">{idx+1}.&nbsp;{result['title']}</a>"
-                )
             reference_results = add_source_numbers(reference_results)
             display_append = '<div class = "source-a">' + "\n".join(display_append) + '</div>'
@@ -181,8 +196,10 @@ class OpenAIModel:
             status_text = "Request URL: " + OPENAI_API_BASE
             yield chatbot, status_text
             # Create a funciton to call - this will run in a thread
             def task():
                 # Converation + RetrivalChain
                 qa = CustomConversationalRetrievalChain.from_llm(llm, vectorstore.as_retriever(k=5),
@@ -191,10 +208,12 @@ class OpenAIModel:
                                                 combine_docs_chain_kwargs={"prompt": qa_prompt},
                                                 return_source_documents=True)
                 # query with input and chat history
-                global response
                 response = qa({"question": inputs, "chat_history": self.history})
                 q.put(job_done)
             thread = Thread(target=task)
             thread.start()
             chatbot.append((inputs, ""))
@@ -211,6 +230,8 @@ class OpenAIModel:
                     continue
             # add citation info to response
             relevant_docs = response["source_documents"]
             reference_results = [d.page_content for d in relevant_docs]
             display_append = add_details(reference_results)

             from chains.web_search import GoogleWebSearch
             from config import GOOGLE_API_KEY, GOOGLE_CSE_ID, CUSTOM_API_KEY, CUSTOM_CSE_ID
             from chains.summary import WebSummary
+            from chains.multi_queries import MultiQueries
             status_text = "Retrieving information from the web"
             yield chatbot, status_text
             if use_websearch:
                 google_api_key = CUSTOM_API_KEY
                 google_cse_id = CUSTOM_CSE_ID
             search = GoogleSearchAPIWrapper(google_api_key=google_api_key, google_cse_id=google_cse_id)
+            queries_chain = MultiQueries()
+            out = queries_chain.predict(question=inputs)
+            queries = list(map(lambda x: x.split(': ')[-1], out.split('\n\n')))
+            print(queries)
+            results = []
+            for query in queries:
+                search_rs = search.results(query, 2)
+                results.extend(search_rs)
             reference_results = []
             display_append = []
             for idx, result in enumerate(results):
                 try:
+                    head = requests.head(result['link'])
+                    if "text/html" in head.headers['Content-Type']:
+                        html_response = requests.get(result['link'])
+                        soup = BeautifulSoup(html_response.content, "html.parser")
+                        try:
+                            web_summary = WebSummary()
+                            summary = web_summary.predict(question=inputs, doc=soup.get_text())
+                            print("Can access", result['link'])
+                        except:
+                            print("Cannot access ", result['link'])
+                            summary = result['snippet']
+                        reference_results.append([summary, result['link']])
+                        display_append.append(
+                            f"<a href=\"{result['link']}\" target=\"_blank\">{idx+1}.&nbsp;{result['title']}</a>"
+                        )
                 except:
+                    continue
             reference_results = add_source_numbers(reference_results)
             display_append = '<div class = "source-a">' + "\n".join(display_append) + '</div>'
             status_text = "Request URL: " + OPENAI_API_BASE
             yield chatbot, status_text
             # Create a funciton to call - this will run in a thread
+            # Create a Queue object
+            response_queue = SimpleQueue()
             def task():
                 # Converation + RetrivalChain
                 qa = CustomConversationalRetrievalChain.from_llm(llm, vectorstore.as_retriever(k=5),
                                                 combine_docs_chain_kwargs={"prompt": qa_prompt},
                                                 return_source_documents=True)
                 # query with input and chat history
                 response = qa({"question": inputs, "chat_history": self.history})
+                # Put response in the queue
+                response_queue.put(response)
                 q.put(job_done)
             thread = Thread(target=task)
             thread.start()
             chatbot.append((inputs, ""))
                     continue
             # add citation info to response
+            # Get the response from the queue
+            response = response_queue.get()
             relevant_docs = response["source_documents"]
             reference_results = [d.page_content for d in relevant_docs]
             display_append = add_details(reference_results)

prompts/__pycache__/multi_queries.cpython-39.pyc ADDED Viewed

Binary file (336 Bytes). View file

prompts/multi_queries.py ADDED Viewed

	@@ -0,0 +1,4 @@

+system_template = "You are an AI helpful assistant"
+human_template = """Translate the following original question into English and Malaysian.
+original question:{question}"""

test.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import pinecone
+import os
+import PyPDF2
+import shutil
+import gradio as gr
+from tqdm import tqdm
+from pydantic import Field
+from typing import List, Optional
+from langchain.load.serializable import Serializable
+from langchain.vectorstores import Pinecone
+from config import PINECONE_API_KEY, PINECONE_ENVIRONMENT, INDEX_NAME, SAVE_DIR
+from config import OPENAI_API_BASE, OPENAI_API_KEY, OPENAI_API_TYPE, OPENAI_API_VERSION, EMBEDDING_DEPLOYMENT_ID
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.text_splitter import TokenTextSplitter
+class Document(Serializable):
+    """Class for storing a piece of text and associated metadata."""
+    page_content: str
+    """String text."""
+    metadata: dict = Field(default_factory=dict)
+    """Arbitrary metadata about the page content (e.g., source, relationships to other
+        documents, etc.).
+    """
+filepath = "documents\STANDARD_SOFTWARE LIFECYCLES.pdf"
+pdftext = ""
+text_splitter = TokenTextSplitter(chunk_size=500, chunk_overlap=30)
+doc_chunks = []
+documents = []
+with open(filepath, "rb") as pdfFileObj:
+    pdf_reader = PyPDF2.PdfReader(pdfFileObj)
+    for page in tqdm(pdf_reader.pages):
+        pdftext += page.extract_text()
+    texts = [Document(page_content=pdftext, metadata={"source": filepath})]
+    texts = text_splitter.split_documents(texts)
+    documents.extend(texts)
+print(documents[:3])
+# for (idx, docs) in enumerate(documents):
+#     docs.page_content = f"[{idx}] " + docs.page_content
+def add_source_numbers(lst, source_name = "Source", use_source = True):
+    if use_source:
+        return [f'[{idx+1}]\t "{item[0]}"\n{source_name}: {item[1]}' for idx, item in enumerate(lst)]
+    else:
+        return [f'[{idx+1}]\t "{item}"' for idx, item in enumerate(lst)]
+for (idx, d) in enumerate(documents):
+    item = [d.page_content.strip("�"), os.path.basename(d.metadata["source"])]
+    d.page_content = f'[{idx+1}]\t "{item[0]}"\nSource: {item[1]}'
+# print(reference_results)
+# print("----------------")
+# print(documents[:3])
+def add_details(lst):
+    nodes = []
+    for txt in lst:
+        brief = txt[:25].replace("\n", "")
+        nodes.append(
+            f"<details><summary>{brief}...</summary><p>{txt}</p></details>"
+        )
+    return nodes
+reference_results = [d.page_content for d in documents[:3]]
+display_append = add_details(reference_results)
+print(display_append)