Spaces:

thexForce
/

guard

Sleeping

App Files Files Community

Junaidb commited on May 1

Commit

c9b0834

verified ·

1 Parent(s): 4f65796

Update llmeval.py

Browse files

Files changed (1) hide show

llmeval.py +37 -72

llmeval.py CHANGED Viewed

@@ -180,16 +180,17 @@ class LLM_as_Evaluator():
     def ___engine_core(self,messages):
         completion = client.chat.completions.create(
-            model="deepseek-r1-distill-llama-70b",
             messages=messages,
             temperature=0.0,
-            max_completion_tokens=6000,
             #top_p=1,
             stream=False,
             stop=None,
             )
         actual_message=completion.choices[0].message.content
-        return re.sub(r"<think>.*?</think>", "", actual_message, flags=re.DOTALL).strip()
@@ -199,80 +200,44 @@ class LLM_as_Evaluator():
         data_to_evaluate=de.GetData(promptversion)
-        SYSTEM_FOR_BIO_CONTEXT_ALIGNMENT,SYSTEM_FOR_CONTEXTUAL_RELEVANCE_ALIGNMENT,SYSTEM_PROMPT_FOR_RESPONSE_SPECIFICITY,SYSTEM_PROMPT_FOR_TRIAD_COHERENCE = PROMPT_UPDATER("observation agent")
         evaluation_responses=[]
         for metric in metrics:
-            match metric:
-                case "biological_context_alignment":
-                    messages =[
-                        {"role":"system","content":SYSTEM_FOR_BIO_CONTEXT_ALIGNMENT},
-                        {"role":"user","content":f"""
-                        Prompt :{data_to_evaluate["prompt"]}
-                        Context :{data_to_evaluate["context"]}
-                        Agent's Response : {data_to_evaluate["response"]}
-                        """}
-                    ]
-                    evaluation_response=self.___engine_core(messages=messages)
-                    evaluation_responses.append({"biological_context_alignment":evaluation_response})
-                case "contextual_relevance_alignment":
-                    messages =[
-                        {"role":"system","content":SYSTEM_FOR_CONTEXTUAL_RELEVANCE_ALIGNMENT},
-                        {"role":"user","content":f"""
-                        Prompt :{data_to_evaluate["prompt"]}
-                        Context :{data_to_evaluate["context"]}
-                        Agent's Response : {data_to_evaluate["response"]}
-                        """}
-                    ]
-                    evaluation_response=self.___engine_core(messages=messages)
-                    evaluation_responses.append({"contextual_relevance_alignment":evaluation_response})
-                case "response_specificity":
-                    messages =[
-                        {"role":"system","content":SYSTEM_PROMPT_FOR_RESPONSE_SPECIFICITY},
-                        {"role":"user","content":f"""
-                        Prompt :{data_to_evaluate["prompt"]}
-                        Context :{data_to_evaluate["context"]}
-                        Agent's Response : {data_to_evaluate["response"]}
-                        """}
-                    ]
-                    evaluation_response=self.___engine_core(messages=messages)
-                    evaluation_responses.append({"response_specificity":evaluation_response})
-                case "unit_coherence":
-                    messages =[
-                        {"role":"system","content":SYSTEM_PROMPT_FOR_TRIAD_COHERENCE},
-                        {"role":"user","content":f"""
-                        Prompt :{data_to_evaluate["prompt"]}
-                        Context :{data_to_evaluate["context"]}
-                        Agent's Response : {data_to_evaluate["response"]}
-                        """}
-                    ]
-                    evaluation_response=self.___engine_core(messages=messages)
-                    evaluation_responses.append({"unit_coherence":evaluation_response})
         data={
-                    "promptversion":promptversion,
-                    "biological_context_alignment":"",
-                    "contextual_relevance_alignment":"",
-                    "unit_coherence":"",
-                    "response_specificity":""
         }
         for resp in evaluation_responses:

     def ___engine_core(self,messages):
         completion = client.chat.completions.create(
+            model="llama-3.1-8b-instant",
             messages=messages,
             temperature=0.0,
+            max_completion_tokens=5000,
             #top_p=1,
             stream=False,
             stop=None,
             )
         actual_message=completion.choices[0].message.content
+        #return re.sub(r"<think>.*?</think>", "", actual_message, flags=re.DOTALL).strip()
+        return actual_message
         data_to_evaluate=de.GetData(promptversion)
+        (
+            SYSTEM_FOR_BIO_CONTEXT_ALIGNMENT,
+            SYSTEM_FOR_CONTEXTUAL_RELEVANCE_ALIGNMENT,
+            SYSTEM_PROMPT_FOR_RESPONSE_SPECIFICITY,
+            SYSTEM_PROMPT_FOR_TRIAD_COHERENCE
+        ) = PROMPT_UPDATER("observation agent")
+        prompt_map = {
+            "biological_context_alignment": SYSTEM_FOR_BIO_CONTEXT_ALIGNMENT,
+            "contextual_relevance_alignment": SYSTEM_FOR_CONTEXTUAL_RELEVANCE_ALIGNMENT,
+            "response_specificity": SYSTEM_PROMPT_FOR_RESPONSE_SPECIFICITY,
+            "unit_coherence": SYSTEM_PROMPT_FOR_TRIAD_COHERENCE
+        }
         evaluation_responses=[]
         for metric in metrics:
+            system_prompt = prompt_map[metric]
+            messages = [
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": f"""
+                    Prompt: {data_to_evaluate["prompt"]}
+                    Context: {data_to_evaluate["context"]}
+                    Agent's Response: {data_to_evaluate["response"]}
+                """}
+            ]
+            evaluation_response = self.___engine_core(messages=messages)
+            evaluation_responses.append({metric: evaluation_response})
         data={
+                "promptversion":promptversion,
+                "biological_context_alignment":"",
+                "contextual_relevance_alignment":"",
+                "unit_coherence":"",
+                "response_specificity":""
         }
         for resp in evaluation_responses: