Spaces:

anakib1
/

wisdom

Sleeping

App Files Files Community

anakib1 commited on Apr 9, 2024

Commit

ed74064

1 Parent(s): 4e7b4ba

Added gradio

Browse files

Files changed (8) hide show

.gitignore +1 -1
app.py +31 -0
requirements.txt +3 -1
src/.env +0 -1
src/__init__.py +0 -0
src/chains.py +50 -0
src/clients.py +51 -0
src/complex.ipynb +256 -0

.gitignore CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- ~~src/.~~env
2	.idea/


1	+ .env
2	.idea/

app.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import gradio as gr
+from dotenv import load_dotenv
+from src.clients import AcademicClient
+load_dotenv()
+client = AcademicClient()
+def perform_qa(query):
+    return client.answer(query)
+css = """
+body {
+    text-align: center;
+    display:block;
+}
+"""
+with gr.Blocks(css=css) as demo:
+    gr.Markdown('Wisdom.AI'),
+    gr.Image('misc/wisdom.jpg', height=600, width=400)
+    with gr.Row():
+        inp = gr.Textbox('Що б ви хотіли дізнатися у мудрого?')
+        out = gr.Textbox('Мудрий каже...')
+    btn = gr.Button('Спитати')
+    btn.click(fn=perform_qa, inputs=inp, outputs=out)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -5,4 +5,6 @@ langchain-openai
 chromadb
 openai
 sentence_transformers
-pypdf

 chromadb
 openai
 sentence_transformers
+pypdf
+gradio
+gdown

src/.env DELETED Viewed

	@@ -1 +0,0 @@
1	- OPENAI_API_KEY=

src/__init__.py ADDED Viewed

File without changes

src/chains.py ADDED Viewed

	@@ -0,0 +1,50 @@

+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough, RunnableLambda
+from langchain_openai import ChatOpenAI
+from langchain.prompts import PromptTemplate
+from langchain_community.utilities import GoogleSerperAPIWrapper
+CUSTOM_RAG_PROMPT = """
+Використай наступні **надійні** елементи, для того, щоб відповісти на питання в кінці.
+Якщо вони не містять відповіді, зверни увагу на відповідь з інтернету, хоча вона може бути не надійною.
+Якщо ти не знаєш відповіді, використаши всі свої джерела, то просто скажи про це, не потрібно вигадувати відповідь.
+Використовуй не більше трьох речень, та намагайся відповісти коротко та чітко.
+{context}
+Відповідь з інтернету: {internet}
+Питання: {question}
+Корисна відповідь:"""
+CUSTOM_RAG_PROMPT = PromptTemplate.from_template(CUSTOM_RAG_PROMPT)
+def documents_parser(docs):
+    return "\n\n".join(doc.page_content for doc in docs)
+class PdfAndGoogleChain:
+    def use_google_search(self, query):
+        try:
+            return self.search.run(query)
+        except Exception as ex:
+            return 'NONE'
+    def __init__(self, retriever, llm_name: str = "gpt-3.5-turbo-0125"):
+        self.search = GoogleSerperAPIWrapper()
+        self.llm = ChatOpenAI(model=llm_name)
+        self.rag_chain = (
+                {"context": retriever | documents_parser, "internet": RunnableLambda(self.use_google_search),
+                 "question": RunnablePassthrough()}
+                | CUSTOM_RAG_PROMPT
+                | self.llm
+                | StrOutputParser()
+        )
+    def answer(self, query: str):
+        return self.rag_chain.invoke(query)

src/clients.py ADDED Viewed

	@@ -0,0 +1,51 @@

+from langchain_openai import OpenAIEmbeddings
+from langchain_community.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.document_loaders import PyPDFLoader
+import pathlib
+import gdown
+from .chains import PdfAndGoogleChain
+def embed_pdf(folder: str = 'data', name: str = 'book.pdf'):
+    pathlib.Path(folder).mkdir(exist_ok=True)
+    path = pathlib.Path(folder).joinpath(name)
+    if not path.exists():
+        print('Downloading book PDF.')
+        gdown.download('https://drive.google.com/file/d/1CwhFM4gInp9xV4G4sdnYE_rN0StmqQ2z/view?usp=sharing',
+                       str(path))
+    loader = PyPDFLoader(str(path))
+    documents = loader.load()
+    splitter = RecursiveCharacterTextSplitter(
+        chunk_size=1000,
+        chunk_overlap=100)
+    return splitter.split_documents(
+        documents
+    )
+class AcademicClient:
+    def create_vectordb(self):
+        if pathlib.Path('db').exists():
+            self.vectordb = Chroma(persist_directory='db', embedding_function=OpenAIEmbeddings())
+        elif pathlib.Path('src/db').exists():
+            self.vectordb = Chroma(persist_directory='src/db', embedding_function=OpenAIEmbeddings())
+        else:
+            print('Not found cached DB. Rebuilding DB state, could use money from OPENAI!!!!')
+            raise Exception('BAAAAAAAAAAd')
+            return
+            texts = embed_pdf()
+            self.vectordb = Chroma.from_documents(
+                documents=texts,
+                embedding=OpenAIEmbeddings(),
+                persist_directory="db"
+            )
+            self.vectordb.persist()
+    def __init__(self):
+        self.create_vectordb()
+        self.chain = PdfAndGoogleChain(self.vectordb.as_retriever())
+    def answer(self, query):
+        return self.chain.answer(query)

src/complex.ipynb ADDED Viewed

	@@ -0,0 +1,256 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "\n",
+    "from langchain_openai import OpenAIEmbeddings\n",
+    "from langchain.vectorstores import Chroma\n",
+    "from langchain.text_splitter import RecursiveCharacterTextSplitter\n",
+    "from langchain_core.output_parsers import StrOutputParser\n",
+    "from langchain_core.runnables import RunnablePassthrough, RunnableLambda\n",
+    "from langchain.document_loaders import PyPDFLoader\n",
+    "from langchain_openai import ChatOpenAI\n",
+    "from dotenv import load_dotenv\n",
+    "from langchain.prompts import PromptTemplate\n",
+    "from langchain_community.utilities import GoogleSerperAPIWrapper"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:50.973351600Z",
+     "start_time": "2024-04-09T13:31:48.724776800Z"
+    }
+   },
+   "id": "6ced23bcbc0e28e5"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "initial_id",
+   "metadata": {
+    "collapsed": true,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:50.992692600Z",
+     "start_time": "2024-04-09T13:31:50.975349700Z"
+    }
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": "True"
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "load_dotenv()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "outputs": [],
+   "source": [
+    "os.environ[\"LANGCHAIN_TRACING_V2\"] = \"true\""
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:50.996689600Z",
+     "start_time": "2024-04-09T13:31:50.989345500Z"
+    }
+   },
+   "id": "a6de359e6f0e68ac"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "outputs": [],
+   "source": [
+    "llm = ChatOpenAI(model=\"gpt-3.5-turbo-0125\")"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:51.750122200Z",
+     "start_time": "2024-04-09T13:31:50.996689600Z"
+    }
+   },
+   "id": "3b45ee8734cc3396"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "outputs": [],
+   "source": [
+    "import pathlib\n",
+    "if pathlib.Path('db').exists():\n",
+    "    vectordb = Chroma(persist_directory='db', embedding_function=OpenAIEmbeddings())\n",
+    "else:\n",
+    "    loader = PyPDFLoader(\"../data/book.pdf\")\n",
+    "    documents = loader.load()\n",
+    "    splitter = RecursiveCharacterTextSplitter(\n",
+    "        chunk_size=1000,\n",
+    "        chunk_overlap=100)\n",
+    "    texts = splitter.split_documents(\n",
+    "        documents\n",
+    "    )\n",
+    "    vectordb = Chroma.from_documents(\n",
+    "        documents=texts,\n",
+    "        embedding=OpenAIEmbeddings(),\n",
+    "        persist_directory=\"db\"\n",
+    "    )\n",
+    "    vectordb.persist()"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:53.393778600Z",
+     "start_time": "2024-04-09T13:31:51.753134200Z"
+    }
+   },
+   "id": "6ecda08560566442"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "outputs": [],
+   "source": [
+    "custom_rag_prompt = \"\"\"\n",
+    "Використай наступні **надійні** елементи, для того, щоб відповісти на питання в кінці. \n",
+    "Якщо вони не містять відповіді, зверни увагу на відповідь з інтернету, хоча вона може бути не надійною. \n",
+    "Якщо ти не знаєш відповіді, використаши всі свої джерела, то просто скажи про це, не потрібно вигадувати відповідь.\n",
+    "Використовуй не більше трьох речень, та намагайся відповісти коротко та чітко.\n",
+    "\n",
+    "{context}\n",
+    "\n",
+    "Відповідь з інтернету: {internet}\n",
+    "\n",
+    "Питання: {question}\n",
+    "\n",
+    "Корисна відповідь:\"\"\"\n",
+    "\n",
+    "custom_rag_prompt = PromptTemplate.from_template(custom_rag_prompt)"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:31:53.410090300Z",
+     "start_time": "2024-04-09T13:31:53.397777900Z"
+    }
+   },
+   "id": "1827a7ad093fa60a"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "outputs": [],
+   "source": [
+    "retriever = vectordb.as_retriever()\n",
+    "\n",
+    "search = GoogleSerperAPIWrapper()\n",
+    "def use_google_search(query):\n",
+    "    try:\n",
+    "        return search.run(query)\n",
+    "    except Exception as ex:\n",
+    "        return 'NONE'\n",
+    "\n",
+    "def documents_parser(docs):\n",
+    "    return \"\\n\\n\".join(doc.page_content for doc in docs)\n",
+    "\n",
+    "rag_chain = (\n",
+    "    {\"context\": retriever | documents_parser, \"internet\" : RunnableLambda(use_google_search),  \"question\": RunnablePassthrough()}\n",
+    "    | custom_rag_prompt\n",
+    "    | llm\n",
+    "    | StrOutputParser()\n",
+    ")"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:38:45.242263100Z",
+     "start_time": "2024-04-09T13:38:45.221315700Z"
+    }
+   },
+   "id": "64cb22281c854513"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "outputs": [
+    {
+     "data": {
+      "text/plain": "'До конституційних засад сучасної політичної системи України входять демократія, принцип верховенства права, гарантії прав та свобод громадян, розділення влади на виконавчу, законодавчу та судову.'"
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "rag_chain.invoke(\"Які конституційні засади сучасної політичної системи України ви знаєте?\")"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:38:50.033577300Z",
+     "start_time": "2024-04-09T13:38:45.864222300Z"
+    }
+   },
+   "id": "2a36756422b7544"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "outputs": [],
+   "source": [
+    "stuff = search.run('Які конституційні засади сучасної політичної системи України ви знаєте?')"
+   ],
+   "metadata": {
+    "collapsed": false,
+    "ExecuteTime": {
+     "end_time": "2024-04-09T13:38:33.477869300Z",
+     "start_time": "2024-04-09T13:38:32.098891500Z"
+    }
+   },
+   "id": "7c2ec151bf629265"
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "outputs": [],
+   "source": [],
+   "metadata": {
+    "collapsed": false
+   },
+   "id": "f1006423bcc8b35b"
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 2
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython2",
+   "version": "2.7.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}