Spaces:

DHEIVER
/

my-rag-space

Sleeping

App Files Files Community

DHEIVER commited on Jan 27

Commit

4fa0927

verified ·

1 Parent(s): 9f99102

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -35

app.py CHANGED Viewed

@@ -1,43 +1,64 @@
 import gradio as gr
-from gradio_client import Client
-import PyPDF2
-# Função para extrair texto de um PDF
-def extract_text_from_pdf(pdf_path):
-    with open(pdf_path, 'rb') as file:
-        reader = PyPDF2.PdfFileReader(file)
-        text = ''
-        for page_num in range(reader.numPages):
-            page = reader.getPage(page_num)
-            text += page.extract_text()
-    return text
-# Função para gerar parecer usando o modelo de linguagem
-def generate_analysis(text):
-    client = Client("yuntian-deng/ChatGPT")
-    result = client.predict(
-        inputs=text,
-        top_p=1,
-        temperature=1,
-        chat_counter=0,
-        chatbot=[],
-        api_name="/predict"
     )
-    return result
-# Função principal para a interface
-def analyze_pdf(pdf_file):
-    text = extract_text_from_pdf(pdf_file.name)
-    analysis = generate_analysis(text)
-    return analysis
 # Interface Gradio
 iface = gr.Interface(
-    fn=analyze_pdf,
-    inputs=gr.File(label="Upload PDF"),
-    outputs=gr.Textbox(label="Parecer Gerado"),
-    title="Sistema de Análise de PDF com RAG",
-    description="Faça upload de um PDF para gerar um parecer."
 )
-iface.launch()

 import gradio as gr
+from langchain.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.llms import HuggingFaceHub
+# Configurações
+EMBEDDING_MODEL = "sentence-transformers/all-mpnet-base-v2"
+LLM_REPO_ID = "google/flan-t5-large"  # Modelo de linguagem da Hugging Face
+# Função para carregar e processar PDFs
+def load_and_process_pdf(pdf_path):
+    # Carrega o PDF
+    loader = PyPDFLoader(pdf_path)
+    documents = loader.load()
+    # Divide o texto em chunks
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    texts = text_splitter.split_documents(documents)
+    # Cria embeddings e armazena no vetor store
+    embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
+    db = FAISS.from_documents(texts, embeddings)
+    return db
+# Função para gerar respostas usando RAG
+def generate_response(pdf_file, query):
+    if pdf_file is None:
+        return "Erro: Nenhum arquivo PDF foi carregado."
+    # Carrega e processa o PDF
+    db = load_and_process_pdf(pdf_file.name)
+    # Configura o modelo de linguagem
+    llm = HuggingFaceHub(repo_id=LLM_REPO_ID, model_kwargs={"temperature": 0.7, "max_length": 512})
+    # Cria a cadeia de RAG
+    qa_chain = RetrievalQA.from_chain_type(
+        llm=llm,
+        chain_type="stuff",
+        retriever=db.as_retriever(search_kwargs={"k": 3}),
+        return_source_documents=True
     )
+    # Executa a consulta
+    result = qa_chain({"query": query})
+    return result["result"]
 # Interface Gradio
 iface = gr.Interface(
+    fn=generate_response,
+    inputs=[
+        gr.File(label="Upload PDF", type="file"),
+        gr.Textbox(label="Sua Pergunta")
+    ],
+    outputs=gr.Textbox(label="Resposta Gerada"),
+    title="Sistema de RAG com LangChain",
+    description="Faça upload de um PDF e faça perguntas sobre o conteúdo."
 )
+iface.launch(share=True)