Spaces:

Frikster42
/

name-that-trait

Building

App Files Files Community

Dirk Haupt commited on 19 days ago

Commit

5c73b25

1 Parent(s): 5ddd201

use only one tasklist

Browse files

Files changed (1) hide show

app.py +20 -25

app.py CHANGED Viewed

@@ -71,10 +71,14 @@ def get_vectorstore(persist_dir: str = "vector_store"):
     return _vectorstore
 async def process_and_load_documents(vectorstore, repo_id="Frikster42/name-that-trait", data_folder="data"):
     msg = cl.Message(content="Loading documents from Hugging Face repository... please be patient...")
     await msg.send()
-    # Create data directory if it doesn't exist
     data_dir = Path("data")
     data_dir.mkdir(exist_ok=True)
@@ -84,14 +88,12 @@ async def process_and_load_documents(vectorstore, repo_id="Frikster42/name-that-
     dataset_pdf_files = [f for f in dataset_files if f.endswith('.pdf')]
     # Download phase
-    download_tasks = cl.TaskList()
-    download_tasks.status = "Downloading files..."
-    await download_tasks.send()
     for i, pdf_file in enumerate(dataset_pdf_files):
         task = cl.Task(title=f"Downloading {pdf_file}")
-        await download_tasks.add_task(task)
-        await download_tasks.send()
         hf_hub_download(
             repo_id=repo_id,
@@ -102,22 +104,18 @@ async def process_and_load_documents(vectorstore, repo_id="Frikster42/name-that-
         )
         task.status = cl.TaskStatus.DONE
-        await download_tasks.send()
-    await download_tasks.remove()  # Clear the download tasks before moving to next phase
     # Loading phase
     documents = []
     pdf_files = [f for f in os.listdir(data_folder) if f.endswith('.pdf')]
-    loading_tasks = cl.TaskList()
-    loading_tasks.status = "Loading files..."
-    await loading_tasks.send()
     for i, filename in enumerate(pdf_files):
         task = cl.Task(title=f"Loading {filename}")
-        await loading_tasks.add_task(task)
-        await loading_tasks.send()
         filepath = os.path.join(data_folder, filename)
         if filename.endswith('.pdf'):
@@ -128,33 +126,30 @@ async def process_and_load_documents(vectorstore, repo_id="Frikster42/name-that-
             loader = TextLoader(filepath)
         documents.extend(loader.load())
         task.status = cl.TaskStatus.DONE
-        await loading_tasks.send()
-    await loading_tasks.remove()  # Clear loading tasks before moving to next phase
     # Split and process documents
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     chunks = text_splitter.split_documents(documents)
     if chunks:
-        processing_tasks = cl.TaskList()
-        processing_tasks.status = "Processing chunks..."
-        await processing_tasks.send()
         batch_size = 100
         num_batches = (len(chunks) + batch_size - 1) // batch_size
         for i in range(0, len(chunks), batch_size):
             task = cl.Task(title=f"Processing batch {(i//batch_size)+1}/{num_batches}")
-            await processing_tasks.add_task(task)
-            await processing_tasks.send()
             batch = chunks[i:i + batch_size]
             vectorstore.add_documents(batch)
             task.status = cl.TaskStatus.DONE
-            await processing_tasks.send()
-        await processing_tasks.remove()  # Clear processing tasks when done
     msg = cl.Message(content="✅ Documents loaded successfully!")
     await msg.send()

     return _vectorstore
 async def process_and_load_documents(vectorstore, repo_id="Frikster42/name-that-trait", data_folder="data"):
+    # Create a single TaskList for the entire process
+    tasks = cl.TaskList()
+    tasks.status = "Initializing..."
+    await tasks.send()
     msg = cl.Message(content="Loading documents from Hugging Face repository... please be patient...")
     await msg.send()
     data_dir = Path("data")
     data_dir.mkdir(exist_ok=True)
     dataset_pdf_files = [f for f in dataset_files if f.endswith('.pdf')]
     # Download phase
+    tasks.status = "Downloading files..."
+    await tasks.send()
     for i, pdf_file in enumerate(dataset_pdf_files):
         task = cl.Task(title=f"Downloading {pdf_file}")
+        await tasks.add_task(task)
         hf_hub_download(
             repo_id=repo_id,
         )
         task.status = cl.TaskStatus.DONE
+        await tasks.send()
     # Loading phase
     documents = []
     pdf_files = [f for f in os.listdir(data_folder) if f.endswith('.pdf')]
+    tasks.status = "Loading files..."
+    await tasks.send()
     for i, filename in enumerate(pdf_files):
         task = cl.Task(title=f"Loading {filename}")
+        await tasks.add_task(task)
         filepath = os.path.join(data_folder, filename)
         if filename.endswith('.pdf'):
             loader = TextLoader(filepath)
         documents.extend(loader.load())
         task.status = cl.TaskStatus.DONE
+        await tasks.send()
     # Split and process documents
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     chunks = text_splitter.split_documents(documents)
     if chunks:
+        tasks.status = "Processing chunks..."
+        await tasks.send()
         batch_size = 100
         num_batches = (len(chunks) + batch_size - 1) // batch_size
         for i in range(0, len(chunks), batch_size):
             task = cl.Task(title=f"Processing batch {(i//batch_size)+1}/{num_batches}")
+            await tasks.add_task(task)
             batch = chunks[i:i + batch_size]
             vectorstore.add_documents(batch)
             task.status = cl.TaskStatus.DONE
+            await tasks.send()
+    tasks.status = "Completed"
+    await tasks.send()
     msg = cl.Message(content="✅ Documents loaded successfully!")
     await msg.send()