Spaces:

sammarigarcia
/

chatbot_arabic_diploma

Sleeping

App Files Files Community

sammarigarcia commited on Jul 17

Commit

82da546

verified ·

1 Parent(s): 5fd3097

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -32

app.py CHANGED Viewed

@@ -4,9 +4,10 @@ from fastapi.staticfiles import StaticFiles
 from fastapi.templating import Jinja2Templates
 import os
 from tqdm import tqdm
-# LangChain imports
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import FAISS
 from langchain_community.chat_models import ChatOpenAI
@@ -14,12 +15,22 @@ from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
 from langchain_community.embeddings import HuggingFaceEmbeddings
 # FastAPI setup
 app = FastAPI()
 app.mount("/static", StaticFiles(directory="."), name="static")
 templates = Jinja2Templates(directory=".")
-# Cargar e indexar los documentos PDF
 def cargar_docs():
     all_docs = []
     for pdf_file in [
@@ -35,48 +46,40 @@ def cargar_docs():
 docs = cargar_docs()
-# Dividir en chunks
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=200)
 split_docs = text_splitter.split_documents(docs)
-# Debug: mostrar primeros chunks
 for i, doc in enumerate(split_docs[:5]):
     print(f"Chunk {i+1}:\n{doc.page_content[:300]}\n{'-'*40}")
-# ===================
-# Embeddings árabes
-# ===================
-model_name = "CAMeL-Lab/bert-base-arabic-camelbert-mnli"
 embeddings = HuggingFaceEmbeddings(model_name=model_name)
-# Generar índice FAISS con los embeddings
-db = FAISS.from_documents(texts, embeddings)
-# Guardar el índice si quieres (opcional pero útil para no repetir este proceso)
-db.save_local("faiss_index")
-db = FAISS.load_local("faiss_index", embeddings)
-# Crear vectorstore
-batch_size = 100
-vectorstore = None
-for i in tqdm(range(0, len(split_docs), batch_size)):
-    batch = split_docs[i:i + batch_size]
-    if vectorstore is None:
-        vectorstore = FAISS.from_documents(batch, embeddings)
-    else:
-        vectorstore.add_documents(batch)
-print(f"Se han indexado {len(split_docs)} chunks.")
-# Cadena de respuesta
 qa_chain = RetrievalQA.from_chain_type(
     llm=ChatOpenAI(temperature=0.2, model_name="gpt-4o-mini"),
     chain_type="stuff",
     retriever=vectorstore.as_retriever(search_kwargs={"k": 5})
 )
 @app.get("/", response_class=HTMLResponse)
 async def read_root(request: Request):
     return templates.TemplateResponse("index.html", {"request": request})
@@ -86,8 +89,9 @@ async def preguntar(request: Request, pregunta: str = Form(...)):
     respuesta = qa_chain.run(pregunta)
     return JSONResponse({"respuesta": respuesta})
-# Para modo local
-import uvicorn
 if __name__ == "__main__":
     uvicorn.run("app:app", host="0.0.0.0", port=7860)

 from fastapi.templating import Jinja2Templates
 import os
+import shutil
 from tqdm import tqdm
+# LangChain
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import FAISS
 from langchain_community.chat_models import ChatOpenAI
 from langchain.chains import RetrievalQA
 from langchain_community.embeddings import HuggingFaceEmbeddings
+# ====================
 # FastAPI setup
+# ====================
 app = FastAPI()
 app.mount("/static", StaticFiles(directory="."), name="static")
 templates = Jinja2Templates(directory=".")
+# ====================
+# Limpiar FAISS anterior
+# ====================
+if os.path.exists("faiss_index"):
+    shutil.rmtree("faiss_index")
+# ====================
+# Cargar documentos PDF
+# ====================
 def cargar_docs():
     all_docs = []
     for pdf_file in [
 docs = cargar_docs()
+# ====================
+# Separar en chunks
+# ====================
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=200)
 split_docs = text_splitter.split_documents(docs)
+# Debug
 for i, doc in enumerate(split_docs[:5]):
     print(f"Chunk {i+1}:\n{doc.page_content[:300]}\n{'-'*40}")
+# ====================
+# Embeddings multilingües
+# ====================
+model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
 embeddings = HuggingFaceEmbeddings(model_name=model_name)
+# ====================
+# Crear FAISS vectorstore
+# ====================
+vectorstore = FAISS.from_documents(split_docs, embeddings)
+vectorstore.save_local("faiss_index")  # Opcional, para caching
+# ====================
+# QA Chain
+# ====================
 qa_chain = RetrievalQA.from_chain_type(
     llm=ChatOpenAI(temperature=0.2, model_name="gpt-4o-mini"),
     chain_type="stuff",
     retriever=vectorstore.as_retriever(search_kwargs={"k": 5})
 )
+# ====================
+# Rutas FastAPI
+# ====================
 @app.get("/", response_class=HTMLResponse)
 async def read_root(request: Request):
     return templates.TemplateResponse("index.html", {"request": request})
     respuesta = qa_chain.run(pregunta)
     return JSONResponse({"respuesta": respuesta})
+# ====================
+# Ejecutar localmente
+# ====================
 if __name__ == "__main__":
+    import uvicorn
     uvicorn.run("app:app", host="0.0.0.0", port=7860)