Spaces:

shivXy
/

otmidterm

Sleeping

App Files Files Community

shivXy commited on 27 days ago

Commit

4956fb0

1 Parent(s): 59ee619

adding rest of ragas metrics

Browse files

Files changed (1) hide show

app.py +60 -14

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ from qdrant_client import QdrantClient
 from langchain_openai import OpenAIEmbeddings
 import os
 from ragas import evaluate
-from ragas.metrics import answer_relevancy
 from langchain_core.documents import Document
 import json
 import numpy as np
@@ -26,12 +26,12 @@ load_dotenv()
 # Load OpenAI Model
 llm = ChatOpenAI(model="gpt-4o-mini")
 qd_api_key = os.getenv("QDRANT_CLOUD_API_KEY")
-EVALUATION_MODE = os.getenv("EVALUATION_MODE", "false").lower() == "false"
 embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
-# ✅ Initialize Qdrant Client
 qd_client = QdrantClient(
     "https://40c458f2-24a9-4153-b15b-0addf6a6bbcf.us-east-1-0.aws.cloud.qdrant.io:6333",
     api_key=qd_api_key
@@ -65,31 +65,74 @@ def search(query_vector, top_k=1) -> list:
     return return_hits
 def evaluate_retrieved_docs(question: str, retrieved_docs: list):
     """Evaluate the retrieved documents using RAGAS metrics."""
-    # ✅ Extract document content from metadata
     ragas_docs = [
         Document(page_content=hit["metadata"].get("content", ""))
         for hit in retrieved_docs
         if "content" in hit["metadata"] and hit["metadata"]["content"]
     ]
-    # 🚨 Debugging Output
     print("🔍 Debug: RAGAS Docs Format:", ragas_docs)
     if not ragas_docs:
         print("⚠️ No relevant documents to evaluate.")
         return 0  # Return low score if no documents found
-    # ✅ Construct required input
     queries = [question]
     contexts = [[doc.page_content for doc in ragas_docs]]
     print("✅ Debug: Queries ->", queries)
     print("✅ Debug: Contexts ->", contexts)
-    # ✅ Run evaluation
     scores = evaluate(
         queries=queries,
         contexts=contexts,
@@ -191,21 +234,24 @@ def research_node(state) -> dict:
     query_vector = embedding_model.embed_query(question)
     # Query Qdrant with the vector
-    relevant_docs = search(query_vector=query_vector, top_k=1)
-    if EVALUATION_MODE:
-        # Evaluate retrieved documents using RAGAS
-        relevance_score = evaluate_retrieved_docs(question, relevant_docs)
-        print(f"📊 [Evaluation Mode] RAGAS Score: {relevance_score}")
-    if relevant_docs[0]['score'] > 0.5:  # Threshold for good retrieval quality this will be the cosine similarity score
         # Found relevant document → Summarize it
         document_name = relevant_docs[0]["metadata"].get("document_name", "No source available.")
         document_text = get_document_by_name(document_name)
         messages = summary_prompt.format_messages(document=document_text)
         response = llm.invoke(messages)
         return {**state, "messages": state["messages"] + [HumanMessage(content=response.content)], "_next": "post_processing"}
     else:

 from langchain_openai import OpenAIEmbeddings
 import os
 from ragas import evaluate
+from ragas.metrics import answer_relevancy, faithfulness, context_precision, context_recall
 from langchain_core.documents import Document
 import json
 import numpy as np
 # Load OpenAI Model
 llm = ChatOpenAI(model="gpt-4o-mini")
 qd_api_key = os.getenv("QDRANT_CLOUD_API_KEY")
+EVALUATION_MODE = os.getenv("EVALUATION_MODE", "false").lower() == "true"
 embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")
+# Initialize Qdrant Client
 qd_client = QdrantClient(
     "https://40c458f2-24a9-4153-b15b-0addf6a6bbcf.us-east-1-0.aws.cloud.qdrant.io:6333",
     api_key=qd_api_key
     return return_hits
+def evaluate_ragas_metrics(question: str, model_answer: str, retrieved_docs: list):
+    """Evaluate faithfulness, context precision, and context recall using RAGAS."""
+    # Extract document content from metadata
+    ragas_docs = [
+        Document(page_content=hit["metadata"].get("content", ""))
+        for hit in retrieved_docs if "content" in hit["metadata"] and hit["metadata"]["content"]
+    ]
+    if not ragas_docs:
+        print("⚠️ No relevant documents to evaluate.")
+        return {"faithfulness": 0, "context_precision": 0, "context_recall": 0}
+    # Construct required input
+    queries = [question]
+    generated_answers = [model_answer]
+    contexts = [[doc.page_content for doc in ragas_docs]]
+    # Run evaluation
+    scores = evaluate(
+        queries=queries,
+        contexts=contexts,
+        generated_answers=generated_answers,
+        metrics=[faithfulness, context_precision, context_recall]
+    )
+    print("📊 Debug: RAGAS Metrics Output ->", scores)
+    # Extract individual scores
+    faithfulness_score = scores.iloc[0]["faithfulness"]
+    context_precision_score = scores.iloc[0]["context_precision"]
+    context_recall_score = scores.iloc[0]["context_recall"]
+    print(f"📊 Faithfulness Score: {faithfulness_score}")
+    print(f"📊 Context Precision Score: {context_precision_score}")
+    print(f"📊 Context Recall Score: {context_recall_score}")
+    return {
+        "faithfulness": faithfulness_score,
+        "context_precision": context_precision_score,
+        "context_recall": context_recall_score
+    }
 def evaluate_retrieved_docs(question: str, retrieved_docs: list):
     """Evaluate the retrieved documents using RAGAS metrics."""
+    # Extract document content from metadata
     ragas_docs = [
         Document(page_content=hit["metadata"].get("content", ""))
         for hit in retrieved_docs
         if "content" in hit["metadata"] and hit["metadata"]["content"]
     ]
+    # Debugging Output
     print("🔍 Debug: RAGAS Docs Format:", ragas_docs)
     if not ragas_docs:
         print("⚠️ No relevant documents to evaluate.")
         return 0  # Return low score if no documents found
+    # Construct required input
     queries = [question]
     contexts = [[doc.page_content for doc in ragas_docs]]
     print("✅ Debug: Queries ->", queries)
     print("✅ Debug: Contexts ->", contexts)
+    # Run evaluation
     scores = evaluate(
         queries=queries,
         contexts=contexts,
     query_vector = embedding_model.embed_query(question)
     # Query Qdrant with the vector
+    relevant_docs = search(query_vector=query_vector, top_k=1)
+    model_answer = "No answer generated yet"
+    if relevant_docs[0]['score'] > hit_score:  # Threshold for good retrieval quality this will be the cosine similarity score
         # Found relevant document → Summarize it
         document_name = relevant_docs[0]["metadata"].get("document_name", "No source available.")
         document_text = get_document_by_name(document_name)
         messages = summary_prompt.format_messages(document=document_text)
         response = llm.invoke(messages)
+        if EVALUATION_MODE:
+            # Evaluate retrieved documents using RAGAS
+            relevance_score = evaluate_retrieved_docs(question, relevant_docs)
+            print(f"📊 [Evaluation Mode] RAGAS Score: {relevance_score}")
+            ragas_scores = evaluate_ragas_metrics(question, model_answer, relevant_docs)
+            print(f"📊 [evaluate_ragas_metrics] RAGAS Scores: {ragas_scores}")
         return {**state, "messages": state["messages"] + [HumanMessage(content=response.content)], "_next": "post_processing"}
     else: