DeepMostInnovations
/

hindi-embedding-foundational-model

@@ -744,35 +744,71 @@ def load_llama_model(model_name="unsloth/Llama-3.2-1B-Instruct", device="cuda"):
     return model, tokenizer
-def setup_qa_system(model, tokenizer, vector_store):
     """
-    Set up a direct QA system using the model and retriever
     """
     # Create retriever
     retriever = vector_store.as_retriever(
         search_type="similarity",
-        search_kwargs={"k": 3}
     )
-    # Create a function to generate answers
-    def generate_answer(query):
-        # Retrieve documents
-        try:
-            docs = retriever.invoke(query)
-        except:
-            # Fallback to older method if invoke isn't available
-            docs = retriever.get_relevant_documents(query)
-        # Extract the content
-        context = "\n\n".join([doc.page_content for doc in docs])
-        # Create prompt
         prompt = f"""
 आपको निम्नलिखित संदर्भ से जानकारी के आधार पर एक प्रश्न का उत्तर देना है।
-यदि आप उत्तर नहीं जानते हैं, तो बस "मुझे नहीं पता" कहें।
 संदर्भ:
-{context}
 प्रश्न: {query}
@@ -797,7 +833,7 @@ def setup_qa_system(model, tokenizer, vector_store):
                     do_sample=True
                 )
             except Exception as e:
-                return f"Error generating response: {str(e)}"
         # Decode the generated text
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -805,9 +841,9 @@ def setup_qa_system(model, tokenizer, vector_store):
         # Extract just the answer part (after the prompt)
         answer = full_response.split("उत्तर:")[-1].strip()
-        return answer
-    return generate_answer
 # Main RAG functions
 def index_text_files(model, tokenizer, data_dir, output_dir, device="cuda", chunk_size=500):
@@ -858,54 +894,10 @@ def query_text_corpus(model, tokenizer, vector_store_path, query, k=6, device="c
     # Perform similarity search
     results = perform_similarity_search(vector_store, query, k=k)
-    # Post-process results to combine adjacent chunks if they're from the same source
-    processed_results = []
-    seen_chunks = set()
-    for doc, score in results:
-        chunk_id = doc.metadata["chunk_id"]
-        source = doc.metadata["source"]
-        # Skip if we've already included this chunk
-        if (source, chunk_id) in seen_chunks:
-            continue
-        seen_chunks.add((source, chunk_id))
-        # Try to find adjacent chunks and combine them
-        combined_content = doc.page_content
-        # Look for adjacent chunks in results (both previous and next)
-        for adj_id in [chunk_id-1, chunk_id+1]:
-            for other_doc, _ in results:
-                if (other_doc.metadata["source"] == source and
-                    other_doc.metadata["chunk_id"] == adj_id and
-                    (source, adj_id) not in seen_chunks):
-                    # Add the adjacent chunk content
-                    if adj_id < chunk_id:  # Previous chunk
-                        combined_content = other_doc.page_content + " " + combined_content
-                    else:  # Next chunk
-                        combined_content = combined_content + " " + other_doc.page_content
-                    seen_chunks.add((source, adj_id))
-        # Create a new document with combined content
-        combined_doc = Document(
-            page_content=combined_content,
-            metadata={
-                "source": source,
-                "chunk_id": chunk_id,
-                "is_combined": True if combined_content != doc.page_content else False
-            }
-        )
-        processed_results.append((combined_doc, score))
-    return processed_results, vector_store
 def main():
-    parser = argparse.ArgumentParser(description="Hindi RAG System with LangChain and FAISS")
     parser.add_argument("--model_dir", type=str, default="/home/ubuntu/output/hindi-embeddings-custom-tokenizer/final",
                         help="Directory containing the model and tokenizer")
     parser.add_argument("--tokenizer_dir", type=str, default="/home/ubuntu/hindi_tokenizer",
@@ -928,10 +920,12 @@ def main():
                         help="Run in interactive mode for querying")
     parser.add_argument("--reindex", action="store_true",
                         help="Force reindexing even if index exists")
-    parser.add_argument("--qa", action="store_true",
-                        help="Use LLM for question answering instead of just retrieval")
     parser.add_argument("--llm_name", type=str, default="unsloth/Llama-3.2-1B-Instruct",
                         help="HuggingFace model name for the LLM")
     args = parser.parse_args()
     # Load embedding model and tokenizer
@@ -943,20 +937,15 @@ def main():
     # Create vector store path
     vector_store_path = os.path.join(args.output_dir, "faiss_index")
-    # Load LLM if QA is enabled
-    llm_model = None
-    llm_tokenizer = None
-    qa_generator = None
-    if args.qa:
-        try:
-            # Load LLM
-            llm_model, llm_tokenizer = load_llama_model(args.llm_name, args.device)
-            print("LLM loaded successfully for QA")
-        except Exception as e:
-            print(f"Error loading LLM: {e}")
-            print("Falling back to retrieval-only mode")
-            args.qa = False
     if args.index or args.reindex:
         # Index text files
@@ -964,47 +953,43 @@ def main():
             embed_model, embed_tokenizer, args.data_dir, args.output_dir, args.device, args.chunk_size
         )
         print(f"Indexing complete. Vector store saved to {vector_store_path}")
-        # Set up QA chain if enabled
-        if args.qa and llm_model is not None and llm_tokenizer is not None:
-            qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
     if args.query:
-        # Query the corpus
-        results, vector_store = query_text_corpus(
-            embed_model, embed_tokenizer, vector_store_path, args.query, args.top_k, args.device
-        )
-        # Print retrieval results
-        print("\nSearch Results:")
-        for i, (doc, score) in enumerate(results):
-            print(f"\nResult {i+1} (Score: {score:.4f}):")
-            print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
-            # Extract and print only relevant sentences
-            relevant_text = extract_relevant_sentences(doc.page_content, args.query)
-            print(f"Content: {relevant_text}")
-        # If QA is enabled, also answer the question using the LLM
-        if args.qa and llm_model is not None and llm_tokenizer is not None:
-            if qa_generator is None:
-                qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
-            # Get answer from QA chain
-            print("\nGenerating answer using LLM...")
-            try:
-                answer = qa_generator(args.query)
-                print("\nLLM Answer:")
-                print(answer)
-            except Exception as e:
-                print(f"Error generating answer: {e}")
     if args.interactive:
         print("\nInteractive mode. Enter queries (or type 'quit' to exit).")
-        # For the first query, load vector store
-        vector_store = None
         while True:
             print("\nEnter query:")
             query = input()
@@ -1015,33 +1000,28 @@ def main():
             if query.lower() == 'quit':
                 break
-            # Query the corpus
-            results, vector_store = query_text_corpus(
-                embed_model, embed_tokenizer, vector_store_path, query, args.top_k, args.device
-            )
-            # Print retrieval results
-            print("\nSearch Results:")
-            for i, (doc, score) in enumerate(results):
-                print(f"\nResult {i+1} (Score: {score:.4f}):")
-                print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
-                # Extract and print only relevant sentences
-                relevant_text = extract_relevant_sentences(doc.page_content, query)
-                print(f"Content: {relevant_text}")
-            # If QA is enabled, also answer the question using the LLM
-            if args.qa and llm_model is not None and llm_tokenizer is not None:
-                if qa_generator is None:
-                    qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
-                print("\nGenerating answer using LLM...")
-                try:
-                    answer = qa_generator(query)
-                    print("\nLLM Answer:")
-                    print(answer)
-                except Exception as e:
-                    print(f"Error generating answer: {e}")
     # Clean up GPU memory
     if args.device == "cuda":

     return model, tokenizer
+# NEW FUNCTIONS FOR COMBINED RESULTS APPROACH
+def combine_top_results(results, query, max_results=4):
+    """
+    Combine the top search results into a single coherent context
+    Args:
+        results: List of (Document, score) tuples from retrieval
+        query: Original user query
+        max_results: Maximum number of results to combine
+    Returns:
+        String containing combined context from top results
+    """
+    # Sort results by score (highest first) and take top N
+    sorted_results = sorted(results, key=lambda x: x[1], reverse=True)[:max_results]
+    combined_texts = []
+    seen_content = set()  # To avoid duplicates
+    for doc, score in sorted_results:
+        # Extract relevant sentences to keep context focused
+        relevant_text = extract_relevant_sentences(doc.page_content, query, window_size=3)
+        # Skip if this exact text has been seen before
+        if relevant_text in seen_content:
+            continue
+        # Add source information to the text
+        source_name = os.path.basename(doc.metadata["source"])
+        text_with_source = f"{relevant_text} [Source: {source_name}]"
+        combined_texts.append(text_with_source)
+        seen_content.add(relevant_text)
+    # Combine all texts with clear separation
+    combined_context = "\n\n".join(combined_texts)
+    return combined_context
+def setup_enhanced_qa_system(model, tokenizer, vector_store):
     """
+    Set up an enhanced QA system using the model and retriever with result combination
     """
     # Create retriever
     retriever = vector_store.as_retriever(
         search_type="similarity",
+        search_kwargs={"k": 6}  # Get more results than we'll use to filter better
     )
+    # Create a function to generate answers with combined context
+    def generate_enhanced_answer(query):
+        # Get raw documents and scores
+        docs = vector_store.similarity_search_with_score(query, k=6)
+        # Combine the top results into a single context
+        combined_context = combine_top_results(docs, query, max_results=4)
+        # Create prompt with the combined context
         prompt = f"""
 आपको निम्नलिखित संदर्भ से जानकारी के आधार पर एक प्रश्न का उत्तर देना है।
+यदि आप उत्तर नहीं जानते हैं, तो बस "मुझे नहीं पता" कहें। अपने उत्तर में सभी प्रासंगिक जानकारी का उपयोग करें।
 संदर्भ:
+{combined_context}
 प्रश्न: {query}
                     do_sample=True
                 )
             except Exception as e:
+                return f"Error generating response: {str(e)}", None
         # Decode the generated text
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         # Extract just the answer part (after the prompt)
         answer = full_response.split("उत्तर:")[-1].strip()
+        return answer, combined_context
+    return generate_enhanced_answer
 # Main RAG functions
 def index_text_files(model, tokenizer, data_dir, output_dir, device="cuda", chunk_size=500):
     # Perform similarity search
     results = perform_similarity_search(vector_store, query, k=k)
+    return results, vector_store
 def main():
+    parser = argparse.ArgumentParser(description="Hindi RAG System with Combined Results")
     parser.add_argument("--model_dir", type=str, default="/home/ubuntu/output/hindi-embeddings-custom-tokenizer/final",
                         help="Directory containing the model and tokenizer")
     parser.add_argument("--tokenizer_dir", type=str, default="/home/ubuntu/hindi_tokenizer",
                         help="Run in interactive mode for querying")
     parser.add_argument("--reindex", action="store_true",
                         help="Force reindexing even if index exists")
     parser.add_argument("--llm_name", type=str, default="unsloth/Llama-3.2-1B-Instruct",
                         help="HuggingFace model name for the LLM")
+    parser.add_argument("--show_context", action="store_true",
+                        help="Show the combined context sent to the LLM")
+    parser.add_argument("--show_raw_results", action="store_true",
+                        help="Show the raw search results before combination")
     args = parser.parse_args()
     # Load embedding model and tokenizer
     # Create vector store path
     vector_store_path = os.path.join(args.output_dir, "faiss_index")
+    # Load LLM
+    try:
+        # Load LLM
+        llm_model, llm_tokenizer = load_llama_model(args.llm_name, args.device)
+        print("LLM loaded successfully for QA")
+    except Exception as e:
+        print(f"Error loading LLM: {e}")
+        print("Cannot proceed without LLM for this combined results approach")
+        return
     if args.index or args.reindex:
         # Index text files
             embed_model, embed_tokenizer, args.data_dir, args.output_dir, args.device, args.chunk_size
         )
         print(f"Indexing complete. Vector store saved to {vector_store_path}")
+    # Load vector store for querying
+    embeddings = HindiSentenceEmbeddings(embed_model, embed_tokenizer, device=args.device)
+    vector_store = load_vector_store(vector_store_path, embeddings)
+    # Set up enhanced QA system
+    qa_generator = setup_enhanced_qa_system(llm_model, llm_tokenizer, vector_store)
     if args.query:
+        # Process the query with the enhanced system
+        print(f"\nProcessing query: {args.query}")
+        # Show raw results if requested
+        if args.show_raw_results:
+            results, _ = query_text_corpus(
+                embed_model, embed_tokenizer, vector_store_path, args.query, args.top_k, args.device
+            )
+            print("\nRaw Search Results:")
+            for i, (doc, score) in enumerate(results):
+                print(f"\nResult {i+1} (Score: {score:.4f}):")
+                print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
+                print(f"Content: {doc.page_content[:200]}...")
+        # Generate enhanced answer
+        answer, context = qa_generator(args.query)
+        if args.show_context:
+            print("\nCombined Context:")
+            print(context)
+        print("\nEnhanced LLM Answer:")
+        print(answer)
     if args.interactive:
         print("\nInteractive mode. Enter queries (or type 'quit' to exit).")
         while True:
             print("\nEnter query:")
             query = input()
             if query.lower() == 'quit':
                 break
+            # Show raw results if requested
+            if args.show_raw_results:
+                results, _ = query_text_corpus(
+                    embed_model, embed_tokenizer, vector_store_path, query, args.top_k, args.device
+                )
+                print("\nRaw Search Results:")
+                for i, (doc, score) in enumerate(results):
+                    print(f"\nResult {i+1} (Score: {score:.4f}):")
+                    print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
+                    print(f"Content: {doc.page_content[:200]}...")
+            # Process the query
+            print(f"\nProcessing query: {query}")
+            answer, context = qa_generator(query)
+            if args.show_context:
+                print("\nCombined Context:")
+                print(context)
+            print("\nEnhanced LLM Answer:")
+            print(answer)
     # Clean up GPU memory
     if args.device == "cuda":

hindi-rag-system.py.amltmp CHANGED Viewed

@@ -744,35 +744,71 @@ def load_llama_model(model_name="unsloth/Llama-3.2-1B-Instruct", device="cuda"):
     return model, tokenizer
-def setup_qa_system(model, tokenizer, vector_store):
     """
-    Set up a direct QA system using the model and retriever
     """
     # Create retriever
     retriever = vector_store.as_retriever(
         search_type="similarity",
-        search_kwargs={"k": 3}
     )
-    # Create a function to generate answers
-    def generate_answer(query):
-        # Retrieve documents
-        try:
-            docs = retriever.invoke(query)
-        except:
-            # Fallback to older method if invoke isn't available
-            docs = retriever.get_relevant_documents(query)
-        # Extract the content
-        context = "\n\n".join([doc.page_content for doc in docs])
-        # Create prompt
         prompt = f"""
 आपको निम्नलिखित संदर्भ से जानकारी के आधार पर एक प्रश्न का उत्तर देना है।
-यदि आप उत्तर नहीं जानते हैं, तो बस "मुझे नहीं पता" कहें।
 संदर्भ:
-{context}
 प्रश्न: {query}
@@ -797,7 +833,7 @@ def setup_qa_system(model, tokenizer, vector_store):
                     do_sample=True
                 )
             except Exception as e:
-                return f"Error generating response: {str(e)}"
         # Decode the generated text
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -805,9 +841,9 @@ def setup_qa_system(model, tokenizer, vector_store):
         # Extract just the answer part (after the prompt)
         answer = full_response.split("उत्तर:")[-1].strip()
-        return answer
-    return generate_answer
 # Main RAG functions
 def index_text_files(model, tokenizer, data_dir, output_dir, device="cuda", chunk_size=500):
@@ -858,54 +894,10 @@ def query_text_corpus(model, tokenizer, vector_store_path, query, k=6, device="c
     # Perform similarity search
     results = perform_similarity_search(vector_store, query, k=k)
-    # Post-process results to combine adjacent chunks if they're from the same source
-    processed_results = []
-    seen_chunks = set()
-    for doc, score in results:
-        chunk_id = doc.metadata["chunk_id"]
-        source = doc.metadata["source"]
-        # Skip if we've already included this chunk
-        if (source, chunk_id) in seen_chunks:
-            continue
-        seen_chunks.add((source, chunk_id))
-        # Try to find adjacent chunks and combine them
-        combined_content = doc.page_content
-        # Look for adjacent chunks in results (both previous and next)
-        for adj_id in [chunk_id-1, chunk_id+1]:
-            for other_doc, _ in results:
-                if (other_doc.metadata["source"] == source and
-                    other_doc.metadata["chunk_id"] == adj_id and
-                    (source, adj_id) not in seen_chunks):
-                    # Add the adjacent chunk content
-                    if adj_id < chunk_id:  # Previous chunk
-                        combined_content = other_doc.page_content + " " + combined_content
-                    else:  # Next chunk
-                        combined_content = combined_content + " " + other_doc.page_content
-                    seen_chunks.add((source, adj_id))
-        # Create a new document with combined content
-        combined_doc = Document(
-            page_content=combined_content,
-            metadata={
-                "source": source,
-                "chunk_id": chunk_id,
-                "is_combined": True if combined_content != doc.page_content else False
-            }
-        )
-        processed_results.append((combined_doc, score))
-    return processed_results, vector_store
 def main():
-    parser = argparse.ArgumentParser(description="Hindi RAG System with LangChain and FAISS")
     parser.add_argument("--model_dir", type=str, default="/home/ubuntu/output/hindi-embeddings-custom-tokenizer/final",
                         help="Directory containing the model and tokenizer")
     parser.add_argument("--tokenizer_dir", type=str, default="/home/ubuntu/hindi_tokenizer",
@@ -928,10 +920,12 @@ def main():
                         help="Run in interactive mode for querying")
     parser.add_argument("--reindex", action="store_true",
                         help="Force reindexing even if index exists")
-    parser.add_argument("--qa", action="store_true",
-                        help="Use LLM for question answering instead of just retrieval")
     parser.add_argument("--llm_name", type=str, default="unsloth/Llama-3.2-1B-Instruct",
                         help="HuggingFace model name for the LLM")
     args = parser.parse_args()
     # Load embedding model and tokenizer
@@ -943,20 +937,15 @@ def main():
     # Create vector store path
     vector_store_path = os.path.join(args.output_dir, "faiss_index")
-    # Load LLM if QA is enabled
-    llm_model = None
-    llm_tokenizer = None
-    qa_generator = None
-    if args.qa:
-        try:
-            # Load LLM
-            llm_model, llm_tokenizer = load_llama_model(args.llm_name, args.device)
-            print("LLM loaded successfully for QA")
-        except Exception as e:
-            print(f"Error loading LLM: {e}")
-            print("Falling back to retrieval-only mode")
-            args.qa = False
     if args.index or args.reindex:
         # Index text files
@@ -964,47 +953,43 @@ def main():
             embed_model, embed_tokenizer, args.data_dir, args.output_dir, args.device, args.chunk_size
         )
         print(f"Indexing complete. Vector store saved to {vector_store_path}")
-        # Set up QA chain if enabled
-        if args.qa and llm_model is not None and llm_tokenizer is not None:
-            qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
     if args.query:
-        # Query the corpus
-        results, vector_store = query_text_corpus(
-            embed_model, embed_tokenizer, vector_store_path, args.query, args.top_k, args.device
-        )
-        # Print retrieval results
-        print("\nSearch Results:")
-        for i, (doc, score) in enumerate(results):
-            print(f"\nResult {i+1} (Score: {score:.4f}):")
-            print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
-            # Extract and print only relevant sentences
-            relevant_text = extract_relevant_sentences(doc.page_content, args.query)
-            print(f"Content: {relevant_text}")
-        # If QA is enabled, also answer the question using the LLM
-        if args.qa and llm_model is not None and llm_tokenizer is not None:
-            if qa_generator is None:
-                qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
-            # Get answer from QA chain
-            print("\nGenerating answer using LLM...")
-            try:
-                answer = qa_generator(args.query)
-                print("\nLLM Answer:")
-                print(answer)
-            except Exception as e:
-                print(f"Error generating answer: {e}")
     if args.interactive:
         print("\nInteractive mode. Enter queries (or type 'quit' to exit).")
-        # For the first query, load vector store
-        vector_store = None
         while True:
             print("\nEnter query:")
             query = input()
@@ -1015,33 +1000,28 @@ def main():
             if query.lower() == 'quit':
                 break
-            # Query the corpus
-            results, vector_store = query_text_corpus(
-                embed_model, embed_tokenizer, vector_store_path, query, args.top_k, args.device
-            )
-            # Print retrieval results
-            print("\nSearch Results:")
-            for i, (doc, score) in enumerate(results):
-                print(f"\nResult {i+1} (Score: {score:.4f}):")
-                print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
-                # Extract and print only relevant sentences
-                relevant_text = extract_relevant_sentences(doc.page_content, query)
-                print(f"Content: {relevant_text}")
-            # If QA is enabled, also answer the question using the LLM
-            if args.qa and llm_model is not None and llm_tokenizer is not None:
-                if qa_generator is None:
-                    qa_generator = setup_qa_system(llm_model, llm_tokenizer, vector_store)
-                print("\nGenerating answer using LLM...")
-                try:
-                    answer = qa_generator(query)
-                    print("\nLLM Answer:")
-                    print(answer)
-                except Exception as e:
-                    print(f"Error generating answer: {e}")
     # Clean up GPU memory
     if args.device == "cuda":

     return model, tokenizer
+# NEW FUNCTIONS FOR COMBINED RESULTS APPROACH
+def combine_top_results(results, query, max_results=4):
+    """
+    Combine the top search results into a single coherent context
+    Args:
+        results: List of (Document, score) tuples from retrieval
+        query: Original user query
+        max_results: Maximum number of results to combine
+    Returns:
+        String containing combined context from top results
+    """
+    # Sort results by score (highest first) and take top N
+    sorted_results = sorted(results, key=lambda x: x[1], reverse=True)[:max_results]
+    combined_texts = []
+    seen_content = set()  # To avoid duplicates
+    for doc, score in sorted_results:
+        # Extract relevant sentences to keep context focused
+        relevant_text = extract_relevant_sentences(doc.page_content, query, window_size=3)
+        # Skip if this exact text has been seen before
+        if relevant_text in seen_content:
+            continue
+        # Add source information to the text
+        source_name = os.path.basename(doc.metadata["source"])
+        text_with_source = f"{relevant_text} [Source: {source_name}]"
+        combined_texts.append(text_with_source)
+        seen_content.add(relevant_text)
+    # Combine all texts with clear separation
+    combined_context = "\n\n".join(combined_texts)
+    return combined_context
+def setup_enhanced_qa_system(model, tokenizer, vector_store):
     """
+    Set up an enhanced QA system using the model and retriever with result combination
     """
     # Create retriever
     retriever = vector_store.as_retriever(
         search_type="similarity",
+        search_kwargs={"k": 6}  # Get more results than we'll use to filter better
     )
+    # Create a function to generate answers with combined context
+    def generate_enhanced_answer(query):
+        # Get raw documents and scores
+        docs = vector_store.similarity_search_with_score(query, k=6)
+        # Combine the top results into a single context
+        combined_context = combine_top_results(docs, query, max_results=4)
+        # Create prompt with the combined context
         prompt = f"""
 आपको निम्नलिखित संदर्भ से जानकारी के आधार पर एक प्रश्न का उत्तर देना है।
+यदि आप उत्तर नहीं जानते हैं, तो बस "मुझे नहीं पता" कहें। अपने उत्तर में सभी प्रासंगिक जानकारी का उपयोग करें।
 संदर्भ:
+{combined_context}
 प्रश्न: {query}
                     do_sample=True
                 )
             except Exception as e:
+                return f"Error generating response: {str(e)}", None
         # Decode the generated text
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         # Extract just the answer part (after the prompt)
         answer = full_response.split("उत्तर:")[-1].strip()
+        return answer, combined_context
+    return generate_enhanced_answer
 # Main RAG functions
 def index_text_files(model, tokenizer, data_dir, output_dir, device="cuda", chunk_size=500):
     # Perform similarity search
     results = perform_similarity_search(vector_store, query, k=k)
+    return results, vector_store
 def main():
+    parser = argparse.ArgumentParser(description="Hindi RAG System with Combined Results")
     parser.add_argument("--model_dir", type=str, default="/home/ubuntu/output/hindi-embeddings-custom-tokenizer/final",
                         help="Directory containing the model and tokenizer")
     parser.add_argument("--tokenizer_dir", type=str, default="/home/ubuntu/hindi_tokenizer",
                         help="Run in interactive mode for querying")
     parser.add_argument("--reindex", action="store_true",
                         help="Force reindexing even if index exists")
     parser.add_argument("--llm_name", type=str, default="unsloth/Llama-3.2-1B-Instruct",
                         help="HuggingFace model name for the LLM")
+    parser.add_argument("--show_context", action="store_true",
+                        help="Show the combined context sent to the LLM")
+    parser.add_argument("--show_raw_results", action="store_true",
+                        help="Show the raw search results before combination")
     args = parser.parse_args()
     # Load embedding model and tokenizer
     # Create vector store path
     vector_store_path = os.path.join(args.output_dir, "faiss_index")
+    # Load LLM
+    try:
+        # Load LLM
+        llm_model, llm_tokenizer = load_llama_model(args.llm_name, args.device)
+        print("LLM loaded successfully for QA")
+    except Exception as e:
+        print(f"Error loading LLM: {e}")
+        print("Cannot proceed without LLM for this combined results approach")
+        return
     if args.index or args.reindex:
         # Index text files
             embed_model, embed_tokenizer, args.data_dir, args.output_dir, args.device, args.chunk_size
         )
         print(f"Indexing complete. Vector store saved to {vector_store_path}")
+    # Load vector store for querying
+    embeddings = HindiSentenceEmbeddings(embed_model, embed_tokenizer, device=args.device)
+    vector_store = load_vector_store(vector_store_path, embeddings)
+    # Set up enhanced QA system
+    qa_generator = setup_enhanced_qa_system(llm_model, llm_tokenizer, vector_store)
     if args.query:
+        # Process the query with the enhanced system
+        print(f"\nProcessing query: {args.query}")
+        # Show raw results if requested
+        if args.show_raw_results:
+            results, _ = query_text_corpus(
+                embed_model, embed_tokenizer, vector_store_path, args.query, args.top_k, args.device
+            )
+            print("\nRaw Search Results:")
+            for i, (doc, score) in enumerate(results):
+                print(f"\nResult {i+1} (Score: {score:.4f}):")
+                print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
+                print(f"Content: {doc.page_content[:200]}...")
+        # Generate enhanced answer
+        answer, context = qa_generator(args.query)
+        if args.show_context:
+            print("\nCombined Context:")
+            print(context)
+        print("\nEnhanced LLM Answer:")
+        print(answer)
     if args.interactive:
         print("\nInteractive mode. Enter queries (or type 'quit' to exit).")
         while True:
             print("\nEnter query:")
             query = input()
             if query.lower() == 'quit':
                 break
+            # Show raw results if requested
+            if args.show_raw_results:
+                results, _ = query_text_corpus(
+                    embed_model, embed_tokenizer, vector_store_path, query, args.top_k, args.device
+                )
+                print("\nRaw Search Results:")
+                for i, (doc, score) in enumerate(results):
+                    print(f"\nResult {i+1} (Score: {score:.4f}):")
+                    print(f"Source: {doc.metadata['source']}, Chunk: {doc.metadata['chunk_id']}")
+                    print(f"Content: {doc.page_content[:200]}...")
+            # Process the query
+            print(f"\nProcessing query: {query}")
+            answer, context = qa_generator(query)
+            if args.show_context:
+                print("\nCombined Context:")
+                print(context)
+            print("\nEnhanced LLM Answer:")
+            print(answer)
     # Clean up GPU memory
     if args.device == "cuda":