Spaces:

vcasas
/

llama-index_tests

Runtime error

App Files Files Community

vcasas commited on Dec 8, 2024

Commit

0dd4627

verified ·

1 Parent(s): 888d0e8

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -17

app.py CHANGED Viewed

@@ -1,43 +1,56 @@
 import os
 import requests
-from llama_index.core import VectorStoreIndex, Settings
-from llama_index.readers.file import PDFReader
-import gradio as gr
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
-# Disable the default LLM
-Settings.llm = None
 def download_pdf(url, destination):
     os.makedirs(os.path.dirname(destination), exist_ok=True)
     response = requests.get(url)
     with open(destination, 'wb') as f:
         f.write(response.content)
-def create_index_from_pdf(pdf_path):
     pdf_reader = PDFReader()
     documents = pdf_reader.load_data(file=pdf_path)
-    embed_model = HuggingFaceEmbedding(model_name='sentence-transformers/all-mpnet-base-v2')
     index = VectorStoreIndex.from_documents(
         documents,
         embed_model=embed_model
     )
     query_engine = index.as_query_engine(
-        similarity_top_k=2,  # Adjust number of retrieved documents
-        response_mode="compact"  # Prevents generating full response
     )
     return query_engine
 pdf_url = 'https://www.boe.es/buscar/pdf/1995/BOE-A-1995-25444-consolidado.pdf'
 pdf_path = './BOE-A-1995-25444-consolidado.pdf'
-download_pdf(pdf_url, pdf_path)
-query_engine = create_index_from_pdf(pdf_path)
-def search_pdf(query):
-    response = query_engine.query(query)
-    return response.response
-gr.Interface(fn=search_pdf, inputs="text", outputs="text").launch()

 import os
 import requests
+from llama_index import VectorStoreIndex, Document
+from llama_index.readers.file.base import PDFReader
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
+import gradio as gr
+# Descargar y guardar PDF
 def download_pdf(url, destination):
     os.makedirs(os.path.dirname(destination), exist_ok=True)
     response = requests.get(url)
     with open(destination, 'wb') as f:
         f.write(response.content)
+# Crear índice desde un archivo PDF
+def create_index_from_pdf(pdf_path, model_name='nlpaueb/legal-bert-base-uncased'):
     pdf_reader = PDFReader()
+    # Leer el contenido del PDF como documentos
     documents = pdf_reader.load_data(file=pdf_path)
+    # Crear embeddings con un modelo más específico
+    embed_model = HuggingFaceEmbedding(model_name=model_name)
     index = VectorStoreIndex.from_documents(
         documents,
         embed_model=embed_model
     )
     query_engine = index.as_query_engine(
+        similarity_top_k=5,  # Aumentar documentos relevantes
+        response_mode="simple"  # Generar respuestas completas
     )
     return query_engine
+# Función de búsqueda
+def search_pdf(query):
+    response = query_engine.query(query)
+    return response.response
+# Configurar parámetros
 pdf_url = 'https://www.boe.es/buscar/pdf/1995/BOE-A-1995-25444-consolidado.pdf'
 pdf_path = './BOE-A-1995-25444-consolidado.pdf'
+# Descargar y procesar el PDF
+if not os.path.exists(pdf_path):
+    download_pdf(pdf_url, pdf_path)
+# Crear índice semántico
+query_engine = create_index_from_pdf(pdf_path)
+# Interfaz con Gradio
+gr.Interface(
+    fn=search_pdf,
+    inputs="text",
+    outputs="text",
+    title="Búsqueda en Código Penal PDF",
+    description="Sube el Código Penal o pregunta directamente por información específica."
+).launch()