Spaces:

vcasas
/

llama-index_tests

Runtime error

App Files Files Community

vcasas commited on Dec 7, 2024

Commit

bfbdff8

verified ·

1 Parent(s): 7e18e54

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -20

app.py CHANGED Viewed

@@ -1,32 +1,46 @@
 import os
-from llama_index import VectorStoreIndex
-from llama_index.readers import PDFReader
 from sentence_transformers import SentenceTransformer
-# Configurar el modelo de Hugging Face (local)
-model = SentenceTransformer('all-MiniLM-L6-v2')  # Puedes usar otro modelo que te guste
-# Función para cargar el archivo PDF y extraer los documentos
-def load_documents_from_pdf(pdf_path):
-    # Usamos PDFReader para leer el PDF
-    pdf_reader = PDFReader()
-    documents = pdf_reader.load_data(pdf_path)
-    return documents
-# Crear el índice a partir del archivo PDF
 def create_index_from_pdf(pdf_path):
-    documents = load_documents_from_pdf(pdf_path)
-    # Obtener los embeddings del modelo Hugging Face
-    embeddings = model.encode([doc.text for doc in documents])
-    # Crear el índice con los embeddings generados
     index = VectorStoreIndex.from_documents(documents, embed_model=embeddings)
     return index
-# Ruta del archivo PDF
-pdf_path = 'ruta/a/tu/pdf.pdf'
-# Crear el índice
 index = create_index_from_pdf(pdf_path)
-print("Índice creado exitosamente.")

 import os
+import requests
+from llama_index.core import VectorStoreIndex
+from llama_index.readers.file import PDFReader
+import gradio as gr
 from sentence_transformers import SentenceTransformer
+# Función para descargar el archivo PDF desde una URL
+def download_pdf(url, destination):
+    os.makedirs(os.path.dirname(destination), exist_ok=True)
+    response = requests.get(url)
+    with open(destination, 'wb') as f:
+        f.write(response.content)
+# Función para crear el índice a partir del PDF
 def create_index_from_pdf(pdf_path):
+    pdf_reader = PDFReader()  # Inicializar el PDFReader sin la ruta del archivo
+    documents = pdf_reader.load_data(file=pdf_path)  # Pasar la ruta del archivo, no el archivo abierto
+    # Inicializar el modelo de Hugging Face para generar embeddings
+    model = SentenceTransformer('all-MiniLM-L6-v2')  # Puedes elegir otro modelo de Hugging Face
+    # Generar embeddings para los documentos
+    embeddings = [model.encode(doc.text) for doc in documents]
+    # Crear el índice usando los embeddings generados
     index = VectorStoreIndex.from_documents(documents, embed_model=embeddings)
     return index
+# Ruta del archivo PDF a descargar
+pdf_url = 'https://www.boe.es/buscar/pdf/1995/BOE-A-1995-25444-consolidado.pdf'
+pdf_path = './BOE-A-1995-25444-consolidado.pdf'
+# Descargar el PDF
+download_pdf(pdf_url, pdf_path)
+# Crear el índice a partir del PDF
 index = create_index_from_pdf(pdf_path)
+# Función de búsqueda en el índice
+def search_pdf(query):
+    response = index.query(query)
+    return response
+# Interfaz Gradio
+gr.Interface(fn=search_pdf, inputs="text", outputs="text").launch()