Chat-Bot

Runtime error

itachi-ai commited on Mar 25, 2024

Commit

4850728

verified ·

1 Parent(s): 4c04658

updated vectorize

Files changed (1) hide show

vectorize.py CHANGED Viewed

@@ -1,15 +1,16 @@
 from langchain_mongodb import MongoDBAtlasVectorSearch
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
-from embed_with_db import embeddings, config, VECTORDB_STORE, client
 from tqdm import tqdm
 class VectorDataBase():
-    def __init__(self, file_path, db_collection, file_type='pdf', ):
         self.file_path = file_path
         self.file_type= file_type
         self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=32)
         self.db_collection = client[config['DB_NAME']][db_collection]
     def load_docs_split(self):
         if str(self.file_type).lower() == 'pdf':
             loader = PyPDFLoader(self.file_path)
@@ -36,8 +37,7 @@ class VectorDataBase():
         else:
             print('documents is not embedded')
             return 'Some issues'
-    @staticmethod
-    def add_collection_database(doc):
         self.db_collection.insert_one(
             {
                 'text': doc.page_content,
@@ -49,6 +49,9 @@ class VectorDataBase():
     def embedding_with_loop(self):
         docs = self.load_docs_split()
         if docs:
-            for doc in tqdm(docs):
                 self.add_collection_database(doc)

 from langchain_mongodb import MongoDBAtlasVectorSearch
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
+from embed_with_db import embeddings, config, client
 from tqdm import tqdm
 class VectorDataBase():
+    def __init__(self, file_path, db_collection, file_type='pdf', page_start=0):
         self.file_path = file_path
         self.file_type= file_type
         self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=32)
         self.db_collection = client[config['DB_NAME']][db_collection]
+        self.start_page = int(page_start)
     def load_docs_split(self):
         if str(self.file_type).lower() == 'pdf':
             loader = PyPDFLoader(self.file_path)
         else:
             print('documents is not embedded')
             return 'Some issues'
+    def add_collection_database(self,doc):
         self.db_collection.insert_one(
             {
                 'text': doc.page_content,
     def embedding_with_loop(self):
         docs = self.load_docs_split()
         if docs:
+            for doc in tqdm(docs[self.start_page:20]):
                 self.add_collection_database(doc)
+            print('Done')
+        else:
+            raise Exception('Some issue with it')