Spaces:

sammarigarcia
/

chatbot_arabic_diploma

Sleeping

sammarigarcia commited on Jul 15

Commit

3f394e4

verified ·

1 Parent(s): dd9bc92

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,7 +31,18 @@ text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=100
 split_docs = text_splitter.split_documents(docs)
 embeddings = OpenAIEmbeddings()
-vectorstore = FAISS.from_documents(split_docs, embeddings)
 qa_chain = RetrievalQA.from_chain_type(
     llm=ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo"),

 split_docs = text_splitter.split_documents(docs)
 embeddings = OpenAIEmbeddings()
+from tqdm import tqdm
+# Dividir en lotes de, por ejemplo, 100 documentos
+batch_size = 100
+vectorstore = None
+for i in tqdm(range(0, len(split_docs), batch_size)):
+    batch = split_docs[i:i+batch_size]
+    if vectorstore is None:
+        vectorstore = FAISS.from_documents(batch, embeddings)
+    else:
+        vectorstore.add_documents(batch)
 qa_chain = RetrievalQA.from_chain_type(
     llm=ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo"),