Spaces:

tferhan
/

dtgv2

Sleeping

App Files Files Community

tferhan commited on Jun 19, 2024

Commit

6edd6e1

verified ·

1 Parent(s): 63e1711

Upload 10 files

Browse files

Files changed (10) hide show

Dockerfile +8 -0
app.py +208 -0
data_process.py +50 -0
document_scrapped.py +202 -0
intents_v2.txt +70 -0
key_extract.py +24 -0
qa_txt.py +86 -0
requirements.txt +19 -0
sumarize.py +25 -0
trans.py +14 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,8 @@

+FROM python:3.10.9
+COPY . .
+WORKDIR /
+RUN pip install --no-cache-dir --upgrade -r /requirements.txt
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,208 @@

+from langchain.prompts import StringPromptTemplate
+import re
+from document_scrapped import get_data
+import langchain
+from qa_txt import conversation_chain
+# from key_extract import chain
+from langchain_core.prompts import PromptTemplate
+from bs4 import BeautifulSoup
+import requests
+from data_process import *
+from langchain.tools.base import StructuredTool
+from langchain.agents import initialize_agent
+from qa_txt import llm
+from trans import trans
+import pathlib
+import gradio as gr
+from pydantic import BaseModel
+from fastapi import FastAPI
+from fastapi.middleware.cors import CORSMiddleware
+# import threading, time
+from langchain.agents import (
+    create_react_agent,
+    AgentExecutor,
+    tool,
+)
+from langchain import hub
+import os
+app = FastAPI(title="Data Gov MA API", description="API for Data Gov MA", version="1.0.0")
+class Generate(BaseModel):
+    text:str
+file_text = pathlib.Path('intents_v2.txt').read_text()
+prompt = hub.pull("hwchase17/react")
+def faq(query: str) -> str:
+    reponse = conversation_chain.invoke({"input": query, 'document': file_text})
+    return reponse
+qa_faq = StructuredTool.from_function(
+    func = faq ,
+    description="""
+    Respond to general questions about the website like the documentation, contact, utility, support... Don't use it when the user request data about a subject (economie, justice, water, or any type of public dataset) only for contact or useful links data.
+    Parameters :
+    - query (string) : the same input as the user input no more no less and dont translate it even if it is in another language.
+    Returns :
+    - string : the output as returned from the function in french.
+    """,
+)
+analyze_data = StructuredTool.from_function(
+    func=get_data,
+    description = """
+    Analyze and summarize data from a given url asked by the user to summarize or analyze dont use it with the tool request_data and the user must write analyze before this function get executed.
+    Parameters :
+    - url (string) : the url given by the user.
+    Returns :
+    - string : Once the data is outputed from the function it get summarized and returned to the user and it must be in french.
+    Example:
+    >>> analyse this data of this link : https://data.gov.ma/data/fr/dataset/evolution-des-affaires-au-cours-du-quinquennat-2018-2022
+    >>> input : https://data.gov.ma/data/fr/dataset/evolution-des-affaires-au-cours-du-quinquennat-2018-2022
+    """,
+    return_direct = True,
+)
+def request_data(query: str) -> str:
+    mot_cle = nettoyer_string(query)
+    mots = mot_cle.split()
+    ui = mots[0]
+    rg = chercher_data(ui)
+    if len(rg[0]):
+      reponse_final = format_reponse(rg)
+      return reponse_final
+    else:
+      return query
+fetch_data = StructuredTool.from_function(
+    func=request_data,
+    description="""
+    Request and fetch data using a search keyword.
+    Parameters :
+    - query (string) : A keyword in french about the subject of what to user is looking for, it must be always be in french and a noun if not convert it.For example if the user inputed "I want data about water" you need to input water in french which is "eau" same for other languages and the words translatted must be nouns not adjectives or verbs also the user may request data about an organization where you need to take just the main subject for example "Je veux les données de l'agence de développement digitale" you take just "développement".
+    Returns :
+    - string : the output as returned from the function in french , includes the link to all the data about the keyword along with an example.
+    """,
+    return_direct = True,
+)
+# def request_data(query: str) -> str:
+#     request = chain.invoke({"input": query})
+#     mot_cle = nettoyer_string(request)
+#     mots = mot_cle.split()
+#     ui = mots[0]
+#     rg = chercher_data(ui)
+#     if len(rg[0]):
+#       reponse_final = format_reponse(rg)
+#       return reponse_final
+#     else:
+#       return "Désolé, il semble que nous n'ayons pas de données correspondant à votre demande pour le moment. Avez-vous une autre question ou avez-vous besoin d'aide sur quelque chose d'autre?"
+# fetch_data = StructuredTool.from_function(
+#     func=request_data,
+#     description="""
+#     Request and fetch data using a search keyword.
+#     Parameters :
+#     - query (string) : the same input as the user input no more no less and always it must be in french if it isn't already. For example : "give me data about health" the input is health in french which is santé, same for other languages and the words translatted must be nouns not adjectives or verbs also the user may request data about an organization where you need to take just the main subject for example "Je veux les données de l'agence de développement digitale" you take just "développement".
+#     Returns :
+#     - string : the output as returned from the function in french , includes the link to all the data about the keyword along with an example.
+#     """,
+# )
+def translate(query: str) -> str:
+    translated = trans.invoke({"input": query})
+    return translated
+translate_text = StructuredTool.from_function(
+    func=translate,
+    description= """
+    Translate from any language to french. Don't use it if the text is already in french. Use it only with the function request_data don't use it with the other tools
+    Parameters :
+    - query (string) : the same input as the user input no more no less only if it isnt in french already.
+    Returns :
+    - string : isolate just the translated text in french with no other useless words.
+    """,
+)
+# template = '''Answer the following questions as best you can. You have access to the following tools:
+# {tools}
+# Use the following format:
+# Question: the input question you must answer and must be in french if not translate it in french
+# Thought: you should always think about what to do
+# Action: the action to take, should be one of [{tool_names}]
+# Action Input: the input to the action
+# Observation: the result of the action, don't include /nObservation in the end of each observation just what you observed
+# ... (this Thought/Action/Action Input/Observation can repeat N times)
+# Thought: I now know the final answer
+# Final Answer: the final answer to the original input question and must always be in french no matter what.
+# Begin!
+# Question: {input}
+# Thought:{agent_scratchpad}'''
+# prompt_2 = PromptTemplate.from_template(template)
+tools_add = [
+    qa_faq,
+    fetch_data,
+    analyze_data,
+    translate_text,
+]
+agent = create_react_agent(llm=llm, tools=tools_add, prompt=prompt)
+agent_executor = AgentExecutor(
+    agent=agent,
+    tools=tools_add,
+    verbose=True,
+    max_iterations = 10,
+    handle_parsing_errors=True,
+    #max_execution_time = 45, optionel mais useful dans le deployement
+)
+def data_gov_ma(message, history = []):
+  try:
+    response = agent_executor.invoke({"input": message})
+    final_response = response['output']
+    timeout_iteration_error = 'Agent stopped due to iteration limit or time limit.'
+    if final_response == timeout_iteration_error:
+        return Generate(text="Je suis désolé, je n'ai pas compris votre question.Pourriez-vous la reformuler s'il vous plaît ?")
+    else:
+        return Generate(text=final_response)
+  except ValueError as e:
+    return Generate(text="Je suis désolé, je n'ai pas compris votre question.Pourriez-vous la reformuler s'il vous plaît ?")
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+@app.get("/", tags=["Home"])
+def api_home():
+    return {'detail': 'Welcome to FastAPI TextGen Tutorial!'}
+@app.post("/api/generate", summary="Generate text from prompt", tags=["Generate"], response_model=Generate)
+def inference(input_prompt: str):
+    return data_gov_ma(message=input_prompt)

data_process.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import re
+from bs4 import BeautifulSoup
+import requests
+def nettoyer_string(mot):
+  mot_non_special = re.sub(r'[^\w\sÀ-ÿ]' , '', mot)
+  mot_ns_ne = re.sub(r'\s+', ' ', mot_non_special)
+  mot_final = mot_ns_ne.strip()
+  return mot_final
+def chercher_data(mot,titles = [], links = [] ):
+    response = requests.get("https://data.gov.ma/data/fr/dataset",  params={'q': mot})
+    if response.status_code != 200:
+        return titles, links, response.url, 0
+    soup = BeautifulSoup(response.text, features="lxml")
+    nb_text = soup.find('h1').text
+    nombre_don = re.findall(r'\d+', nb_text)
+    media = soup.find('ul', class_='dataset-list list-unstyled')
+    if media:
+      thm = media.find_all('li', class_ = 'dataset-item')
+      for m in thm:
+            link = m.find('a')['href']
+            links.append('https://data.gov.ma' + link)
+            title = m.find('h2').text.strip()
+            titles.append(title)
+    else:
+      return titles, links,  response.url, 0
+    if not titles:
+      return titles, links, response.url, 0
+    return titles, links ,response.url, nombre_don[0]
+def format_reponse(data):
+    if len(data[0]) == 1:
+          response = f"Ici le lien vers la donnée correspondant au mot recherché : {data[-2]}\n"
+          response += f"Voici le seul résultat trouvé :\n"
+          response += f"Titre : {data[0][0]}\n"
+          response += f"Lien : {data[1][0]}\n"
+          return response
+    else:
+          response = f"Ici le lien vers toutes les {data[-1]} données correspondant au mot recherché : {data[-2]}\n"
+          response += f"Voici un exemple parmi les résultats trouvés :\n"
+          response += f"Titre : {data[0][-1]}\n"
+          response += f"Lien : {data[1][-1]}\n"
+          return response

document_scrapped.py ADDED Viewed

	@@ -0,0 +1,202 @@

+import re
+from bs4 import BeautifulSoup
+import requests
+import json
+import io
+import fitz
+from pptx import Presentation
+from io import BytesIO
+import chardet
+from docx import Document
+import pandas as pd
+from sumarize import summarize
+from io import BytesIO
+from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
+from pdfminer.converter import TextConverter
+from io import StringIO
+from pdfminer.layout import LAParams
+from pdfminer.pdfpage import PDFPage
+def trim_input_words(input_str, max_new_tokens = 512, max_total_tokens=32768):
+    words = input_str.split()
+    max_input_tokens = max_total_tokens - max_new_tokens
+    if len(words) > max_input_tokens - 100:
+        words = words[:max_input_tokens]
+    trimmed_input_str = ' '.join(words)
+    return trimmed_input_str
+def select_words_until_char_limit(s, char_limit):
+    s_no_punct = re.sub(r'[^\w\s]', '', s)  # remove punctuation, but leave spaces
+    words = s_no_punct.split()
+    selected_words = []
+    total_chars = 0
+    for word in words:
+        if total_chars + len(word) + 1 <= char_limit:
+            selected_words.append(word)
+            total_chars += len(word) + 1  # add 1 for the space
+        else:
+            break
+    f = trim_input_words(' '.join(selected_words))
+    return f
+def downl(url):
+  try:
+    rq = requests.get(url)
+    if rq.status_code != 200:
+      return ""
+    bs = BeautifulSoup(rq.text, features='lxml')
+    lis = bs.find_all('ul', class_='dropdown-menu')[-1].find_all('li')
+    link = lis[-1].find('a').get('href')
+    print(link)
+    return link
+  except Exception as e:
+    return ""
+def pdf(url):
+    # Download the PDF content
+    response = requests.get(url)
+    pdf_content = response.content
+    # Convert the bytes object to a file-like object
+    pdf_file = BytesIO(pdf_content)
+    # Extract text from the downloaded PDF content
+    resource_manager = PDFResourceManager()
+    fake_file_handle = StringIO()
+    converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
+    page_interpreter = PDFPageInterpreter(resource_manager, converter)
+    for page in PDFPage.get_pages(pdf_file):
+        page_interpreter.process_page(page)
+    text = fake_file_handle.getvalue()
+    f = select_words_until_char_limit(text, 30000)
+    converter.close()
+    fake_file_handle.close()
+    return f
+def excel(link : str) -> str:
+    try:
+        response = requests.get(link)
+        if response.status_code == 200:
+            file_content = response.content
+            df = pd.read_excel(BytesIO(file_content))
+            if df.shape[0] > 50:
+                      sample_size = 50
+                      sample_df = df.sample(n=sample_size, random_state=42)
+            else:
+                      sample_df = df
+            json_data = sample_df.to_json(orient='records')
+            js = json.loads(json_data)
+            rs = select_words_until_char_limit(f"{js}", 32000)
+            return rs
+        else:
+            print("Failed to download file")
+            return "No dat avaible error"
+    except Exception as e:
+        print(e)
+        return "No data avaible"
+def csv(link : str) -> str:
+  try:
+    response = requests.get(link)
+    if response.status_code == 200:
+      file_content = response.content
+      detected_encoding = chardet.detect(file_content)['encoding']
+      df = pd.read_csv(io.BytesIO(file_content), encoding=detected_encoding, sep=';')
+      if df.empty:
+                print("The DataFrame is empty.")
+                return 'The data frame is empty'
+      if df.shape[0] > 50:
+                sample_size = 50
+                sample_df = df.sample(n=sample_size, random_state=42)
+      else:
+                sample_df = df
+      json_data = sample_df.to_json(orient='records')
+      js = json.loads(json_data)
+      rs = select_words_until_char_limit(f"{js}", 32000)
+      return rs
+  except Exception as e:
+    return 'No data avaible'
+def docx(url : str) -> str:
+    try:
+        response = requests.get(url)
+        response.raise_for_status()  # Ensure we notice bad responses
+        # Read the .docx file
+        file_stream = io.BytesIO(response.content)
+        doc = Document(file_stream)
+        # Extract text
+        full_text = []
+        for para in doc.paragraphs:
+            full_text.append(para.text)
+        f = "\n".join(full_text)
+        n = select_words_until_char_limit(f, 32000)
+        return n
+    except Exception as e:
+        print(f"An error occurred: {e}")
+        return 'No data avaible'
+def pptx(url : str) -> str:
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        # Read the .pptx file
+        file_stream = io.BytesIO(response.content)
+        presentation = Presentation(file_stream)
+        # Extract text
+        full_text = []
+        for slide in presentation.slides:
+            for shape in slide.shapes:
+                if hasattr(shape, "text"):
+                    full_text.append(shape.text)
+        g = "\n".join(full_text)
+        c  = select_words_until_char_limit(g, 32000)
+        return c
+    except Exception as e:
+        print(f"An error occurred: {e}")
+        return 'No data avaible'
+def get_data(url):
+  ki = url.replace('\nObservation', '').replace('"\nObservation', '')
+  jo = downl(ki)
+  ext = jo.split(".")[-1]
+  if ext == 'xlsx' or ext == 'xls' or ext == 'xlsm':
+    rs = excel(jo)
+    return summarize.invoke({"input":rs})
+  elif ext == 'pdf':
+    rs = pdf(jo)
+    return summarize.invoke({"input":rs})
+  elif ext == 'docx':
+    rs = docx(jo)
+    return summarize.invoke({"input":rs})
+  elif ext == 'csv':
+    rs = csv(jo)
+    return summarize.invoke({"input":rs})
+  elif ext == 'pptx' or ext == 'ppt':
+    rs = pptx(jo)
+    return summarize.invoke({"input":rs})
+  elif ext == 'doc':
+      return "L'extension .doc non supportée."
+  return "No data returned"

intents_v2.txt ADDED Viewed

	@@ -0,0 +1,70 @@

+        "Bonjour! Comment puis-je vous aider aujourd'hui?",
+        "Au revoir! N'hesitez pas a revenir si vous avez d'autres questions.",
+        "Le portail www.data.gov.ma, qui a été initialement lancé en 2011 par le Ministère de l’Industrie, du Commerce et de l’Economie Numérique, est actuellement géré par l’Agence de Développement du Digital.",
+        "Vous etes le bienvenu! Avez-vous besoin d'aide avec autre chose?",
+        "Bien sûr, voici le lien vers la page contenant les liens utiles : https://data.gov.ma/fr/liens-utiles . Vous y trouverez une sélection de ressources pertinentes pour répondre à vos besoins. Si vous avez d'autres questions, n'hésitez pas à demander !",
+        "Vous pouvez nous trouver sur LinkedIn : https://www.linkedin.com/company/agence-de-developpement-du-digital/. Suivez notre page pour rester informé de nos dernières actualités et opportunités professionnelles.",
+        "Notre agence est située à l'adresse suivante : Espace les Lauriers aile B, angle des Avenues Ennakhil et Mehdi Ben Barka, Hay Ryad - Rabat. Si vous souhaitez nous rendre visite ou avoir des indications pour venir, n'hésitez pas à nous contacter.",
+        "Vous pouvez nous contacter par téléphone au : +212 (0) 5 37 56 93 00. Notre équipe est disponible pour répondre à vos questions et vous fournir toute l'aide nécessaire. N'hésitez pas à nous appeler si vous avez besoin d'assistance supplémentaire.",
+        "Bien entendu ! Vous pouvez nous contacter par e-mail à l'adresse suivante : [email protected] . Si vous avez des questions, des suggestions ou besoin d'assistance, n'hésitez pas à nous écrire. Nous serons heureux de vous aider !",
+        "Absolument ! Pour rester au courant des actualités et des nouveaux événements, vous pouvez consulter la rubrique "Actualités" sur notre site web. Vous y trouverez toutes les informations récentes sur nos activités, événements à venir, et autres nouvelles importantes. Cliquez sur ce lien pour y accéder : https://data.gov.ma/fr/actualites. Si vous avez d'autres questions, n'hésitez pas à demander !",
+        "Bien sûr ! Pour obtenir des statistiques telles que le nombre de données disponibles, les tendances récentes, ou d'autres informations statistiques, vous pouvez consulter la rubrique "Statistiques" sur notre site web. Vous y trouverez des données actualisées et des analyses pertinentes. Cliquez sur ce lien pour y accéder : https://data.gov.ma/index.php/fr/node/7. Si vous avez besoin de plus de détails ou avez d'autres questions, n'hésitez pas à demander !",
+        "Ce document a pour but la gestion d’un inventaire de données ouvertes au sein de leurs structures respectives. Vous pouvez le consulter ici : https://www.data.gov.ma/sites/default/files/2023-03/guide_inventaire_1.3_Fev.%202023.pdf",
+        "Ce manuel est divisé en trois parties. La première partie présente les concepts clés de l’Open Data, la deuxième partie présente le cycle de vie de la donnée, et enfin la troisième partie présente les fonctions et activités du Responsable Open Data. Vous pouvez le telecharger ici : https://data.gov.ma/sites/default/files/docs/Open_data_manuel_ROD_Avril%202021.pdf",
+        "Ce document est un manuel à destination des Gestionnaires de Données (GdD) au sein des structures publiques. Vous pouvez le telecharger ici : https://data.gov.ma/sites/default/files/docs/Open_data_manuel_GgD%20_vf_Avril%202021.pdf",
+        "Bien sûr ! Nous avons organisé plusieurs ateliers et nous disposons de présentations que vous pouvez consulter. Vous pouvez trouver ces présentations dans ce lien dans la rubrique Supports de sensibilisation et formation : https://data.gov.ma/index.php/fr/documentations. Si vous avez des questions ou besoin de plus d'informations, n'hésitez pas à demander !",
+        "Les donnees gouvernementales ouvertes, egalement connues sous le nom d'Open Government Data, sont des donnees accessibles a tous, librement utilisables, modifiables et partageables sans restrictions techniques ou legales. Elles sont publiees dans un format techniquement ouvert, tel que CSV ou TXT, permettant une utilisation facile par les programmes informatiques. De plus, elles sont accompagnees d'une licence ouverte qui autorise leur reutilisation a des fins commerciales et non commerciales, tout en preservant la provenance et l'accessibilite des informations."
+        "Bienvenue sur data.gov.ma! Le site est organise en categories de donnees, une barre de recherche et des sections pour les dernieres mises a jour. Commencez par explorer les categories.",
+        "Les informations à caractère personnel qui sont demandées à l’utilisateur via ce portail, sont nécessaires au traitement de sa demande. Les informations à caractère personnelles fournies, sont protégées conformément à la loi n°09-08 relative à la protection des personnes physiques à l'égard du traitement des données à caractère personnel."
+        "Votre avis est precieux pour nous! Vous pouvez soumettre vos commentaires ou suggestions via le formulaire de contact sur notre site."
+        "Vous pouvez acceder et telecharger des jeux de donnees publiques directement depuis notre site. Utilisez la barre de recherche ou parcourez les categories pour trouver ce dont vous avez besoin."
+        "Nous sommes desoles d'apprendre que vous rencontrez des problemes. Veuillez utiliser notre formulaire de contact pour signaler tout probleme ou erreur sur le site.",
+        "Vous êtes libres de partager, de créer et d'adapter la base de données selon les conditions de la licence spécifiée. Cela signifie que vous pouvez copier, distribuer et utiliser la base de données, produire des créations à partir de celle-ci, et modifier, transformer et construire à partir de la base de données. Pour plus d'informations, veuillez consulter ce lein : https://data.gov.ma/fr/node/14"
+        "Votre enthousiasme a contribuer est tres apprecie! Vous pouvez participer en soumettant vos propres jeux de donnees via notre formulaire de soumission : https://data.gov.ma/node/add/feedback. N'oubliez pas de consulter les criteres de contribution.",
+        "Nous nous engageons a maintenir nos donnees a jour. Les frequences de mise a jour peuvent varier selon les datasets. Verifiez la section 'derniere mise a jour' pour chaque jeu de donnees."
+        "Si vous rencontrez des problemes techniques, n'hesitez pas a contacter notre support technique à travers les adresses de contact ici : https://data.gov.ma/fr/contact. Nous sommes la pour vous aider."
+        "Vous pouvez consulter nos conditions d'utilisation et mentions légales sur cette page : https://data.gov.ma/fr/node/13. Ces documents fournissent des informations importantes sur l'utilisation de nos services et les dispositions légales. Si vous avez des questions supplémentaires, n'hésitez pas à nous contacter."
+        "L'Open Data vise a promouvoir la reutilisation des donnees publiques pour divers usages tels que repondre a des questions, prendre des decisions importantes, beneficier de services quotidiens, ou encourager la transparence des institutions. Le portail data.gov.ma est destine aux producteurs de donnees desireux de les publier de maniere ouverte, aux reutilisateurs souhaitant partager leurs travaux bases sur ces donnees, et a toute personne, association ou entreprise interessee par l'exploration et l'utilisation des donnees disponibles."
+          "Les producteurs disponibles sont : ADD, Agence du Bassin Hydraulique de Souss Massa,
+Agence Urbaine Safi - Youssoufia, ANRT, Archives du Maroc, Autorité de
+Contrôle des Assurances et de la Prévoyance Sociale, Bank Al-Maghrib,
+Centre Régional d'Investissement Drâa Tafilalet, Centre Régional
+d'Investissement Souss Massa, Chambre de Commerce, d’Industrie et de
+Services de la Région Marrakech – Safi (CCISRMS), CMR, CNOPS, CNSS,
+Département de l'Agriculture, Département de la Pêche Maritime, Fondation
+Nationale des Musées, HCP, IMANOR, INPPLC, MAECAMRE, MATNUHPV, MEF,
+MENPS, MESRSI, MIC, MIEPEEC, Ministère de l'Equipement et de l'Eau, MJ,
+MJCC, MSPS, MTAESS, MTNRA, Parlement, Poste Maroc, Région Béni MellalKhénifra, Région Souss Massa, Région Tanger-Tétouan-Al Hoceima, SOREAD
+2M"
+"Les thèmes possibles sont: agriculture, assurance, cartographie, culture,
+economie et finance, education, emploi, equipement, habitat et urbanisme,
+it & télécoms, justice, média, normalisation, pêche maritime, recherche
+et développement, santé, société, tourisme, transparence."

key_extract.py ADDED Viewed

	@@ -0,0 +1,24 @@

+from langchain.prompts.prompt import PromptTemplate
+from langchain_community.llms import HuggingFaceEndpoint
+#from langchain.chains import LLMChain
+from langchain_core.output_parsers import StrOutputParser
+from qa_txt import llm
+# llm = HuggingFaceEndpoint(
+#             repo_id='mistralai/Mixtral-8x7B-Instruct-v0.1',
+#             temperature = 0.2,
+#             max_new_tokens = 10,
+#             top_k = 30,
+#             load_in_8bit = True,
+#         )
+template = """
+        Vous êtes un Système d'Extraction de Mots-Clés personnalisé pour une utilisation dans un environnement WhatsApp Business. Son rôle consiste à reconnaître et isoler les mots-clés cruciaux contenus dans les demandes des utilisateurs. Il est impératif de garantir que la sortie comporte exactement un mot français, sans aucun contexte supplémentaire ni texte explicatif. Cette conformité aux directives permettra une compatibilité avec les fonctions subséquentes, telles que la recherche de sites Web contenant des sources de données publiques à l'aide du mot-clé fourni. De plus, veuillez extraire les mots-clés sous forme d'abréviations, tels que CNSS, MIC, ADD...
+        Current conversation:
+        Human: {input}
+        AI Assistant:"""
+prompt = PromptTemplate(input_variables=['input'], template = template)
+chain = prompt | llm | StrOutputParser()

qa_txt.py ADDED Viewed

	@@ -0,0 +1,86 @@

+# from langchain_community.document_loaders import TextLoader
+# from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
+# from langchain.chains import ConversationalRetrievalChain
+from langchain_community.embeddings import HuggingFaceEmbeddings
+# from langchain_community.llms import HuggingFaceEndpoint
+from langchain.prompts.prompt import PromptTemplate
+# from pathlib import Path
+from langchain_core.output_parsers import StrOutputParser
+from unidecode import unidecode
+# # import tqdm
+# from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEndpoint
+import os
+# import accelerate
+# c_splitter = CharacterTextSplitter(
+#     chunk_size = 350,
+#     chunk_overlap = 4,
+#     separator = """,
+#       ]""",
+# )
+# def load_doc(file_path):
+#     loader = TextLoader(file_path)
+#     pages = loader.load()
+#     text_splitter = c_splitter
+#     doc_splits = text_splitter.split_documents(pages)
+#     return doc_splits
+huggingfacehub_api_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
+llm = HuggingFaceEndpoint(
+            repo_id='mistralai/Mixtral-8x7B-Instruct-v0.1',
+            temperature = 0.17,
+            max_new_tokens = 512,
+            top_k = 30,
+            huggingfacehub_api_token = huggingfacehub_api_token,
+            add_to_git_credential=True,
+        )
+# def process_data():
+#   splt = load_doc('intents_v2.txt')
+#   embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+#   db = FAISS.from_documents(splt, embeddings)
+#   return db
+# db = process_data()
+prompt = """You are an Assistant with expertise in providing answers based on provided information about a specific website. The user will present a general question related to the site, and using the available data, you should formulate an accurate and helpful answer. Your role includes web data comprehension, question interpretation, and clear communication. Remember to tailor your responses according to the context presented by the user and the details extracted from the pertinent website."
+For a more detailed breakdown, consider these elements:
+Role: Website Information Assistant
+Skills: Web Data Comprehension, Question Interpretation, Clear Communication
+Context: User presents a general question related to a particular website; you provide an accurate and helpful answer utilizing available data.
+Task: Analyze user questions, understand associated web data, and construct appropriate answers.
+Steps:
+Acknowledge the user's question and express understanding.
+Identify keywords or concepts within the question that relate to the website data.
+Search through the available data to locate relevant facts or explanations.
+Formulate a concise and engaging response addressing the user's query.
+Validate the accuracy and relevancy of the generated answer before delivering it.
+Answer Characteristics: Accurate, well-structured, easy to comprehend, directly addresses the user's question.
+ Here is the website informations : {document}
+        Human: {input}
+        AI Assistant:
+"""
+prompt_2 = PromptTemplate(input_variables=['input', 'document'], template = prompt)
+conversation_chain = prompt_2 | llm | StrOutputParser()
+        # Set up a conversational chain to retrieve and generate responses.
+# conversation_chain = ConversationalRetrievalChain.from_llm(
+#             llm=llm,
+#             retriever=db.as_retriever(),
+#             condense_question_prompt=PromptTemplate(input_variables=['input'], template=prompt),
+#        )

requirements.txt ADDED Viewed

	@@ -0,0 +1,19 @@

+langchain
+unidecode
+requests
+bs4
+pandas
+lxml
+langchainhub
+langchain_community
+langchain-huggingface
+python-pptx
+PyMuPDF
+python-docx
+docx
+pdfminer.six
+chardet
+openpyxl
+fastapi==0.99.1
+uvicorn
+pydantic==1.10.12

sumarize.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from langchain_core.output_parsers import StrOutputParser
+from qa_txt import llm
+from langchain_core.prompts import PromptTemplate
+temp = """
+Je te fournirai des données pertinentes. Ton objectif sera de générer un bref résumé de ces données et de proposer une légère analyse qui mettra en évidence certains points clés.
+Suis ces étapes pour accomplir ta tâche:
+Examine le fichier et identifie la nature des données.
+Rédige un court paragraphe présentant les principales tendances et idées découlant des données.
+Identifie quelques faits marquants ou statistiques importantes susceptibles d'intéresser l'audience.
+Propose des pistes d'analyse complémentaire pouvant être développées ultérieurement.
+Les caractéristiques de l'output souhaité sont les suivantes:
+Un texte concis et clair, présentant les grandes lignes des données du fichier.
+Une sélection des aspects les plus intrigants ou significatifs de ces données.
+Des suggestions pour creuser davantage certaines observations et interprétations.
+Si tout semble correct selon toi, tu peux maintenant démarrer!
+Human : {input}
+AI : """
+pro= PromptTemplate(input_variables=['input'], template = temp)
+summarize = pro | llm | StrOutputParser()

trans.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from langchain.prompts.prompt import PromptTemplate
+from langchain_community.llms import HuggingFaceEndpoint
+from langchain_core.output_parsers import StrOutputParser
+from qa_txt import llm
+template_v2 = """
+Vous êtes un traducteur automatique doté de capacités de reconnaissance linguistique avancées. Mon contexte est que je veux faire traduire des phrases dans diverses langues en français, en utilisant uniquement les mêmes mots que dans l'entrée initiale et en affichant une traduction simple. Veuillez effectuer la traduction comme suit : écouter la phrase entrée > identifier la langue source > traduire le texte en français > présenter exclusivement le texte traduit en sortie. Les caractéristiques du résultat attendu sont une sortie stricte aux seuls termes traduits, sans modification ni addition de mots.
+Current conversation:
+Human: {input}
+AI Assistant: Here is the transltion in french
+"""
+prompt = PromptTemplate(input_variables=['input'], template = template_v2)
+trans = prompt | llm | StrOutputParser()