Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

shunshao commited on Jan 10

Commit

19554a3

verified ·

1 Parent(s): a5e49c6

Update src/leaderboard/read_evals.py

Browse files

Files changed (1) hide show

src/leaderboard/read_evals.py +26 -28

src/leaderboard/read_evals.py CHANGED Viewed

@@ -161,6 +161,7 @@ class EvalResult_MIB:
     #     return data_dict
     def to_dict(self):
         """Converts the Eval Result to a dict for dataframe display"""
         data_dict = {
@@ -168,48 +169,45 @@ class EvalResult_MIB:
             "Method": self.method_name,
         }
         all_scores = []
-        required_entries = {
-            'ioi_meta_llama': False,
-            'ioi_qwen': False,
-            'ioi_gpt2': False,
-            'mcqa_meta_llama': False,
-            'mcqa_qwen': False,
-            'mcqa_gpt2': False
-        }
         for task, task_results in self.results.items():
-            models = task_results.keys()
-            for model in models:
                 col_name = f"{task}_{model}"
-                metrics = task_results[model]
-                # Handle empty lists case
                 if not metrics or not metrics["edge_counts"] or not metrics["faithfulness"]:
-                    data_dict[col_name] = '-'
                     continue
                 faithfulness = metrics["faithfulness"]
                 if isinstance(faithfulness[0], list):
                     faithfulness = faithfulness[0]
                 result = compute_area(metrics["edge_counts"], faithfulness)
                 if result is None or result[0] is None:
-                    data_dict[col_name] = '-'
-                else:
-                    area_under, _, _ = result
-                    score = area_under * 100
-                    data_dict[col_name] = round(score, 2)
-                    all_scores.append(score)
-                    required_entries[col_name] = True
-        # Only show average if all six required entries are present
-        if all(required_entries.values()):
-            data_dict["Average"] = round(np.mean(all_scores), 2)
-        else:
-            data_dict["Average"] = '-'
         return data_dict

     #     return data_dict
     def to_dict(self):
         """Converts the Eval Result to a dict for dataframe display"""
         data_dict = {
             "Method": self.method_name,
         }
+        # Initialize all possible columns with '-'
+        expected_models = ["meta_llama", "qwen", "gpt2"]
+        expected_tasks = ["ioi", "mcqa"]
+        for task in expected_tasks:
+            for model in expected_models:
+                data_dict[f"{task}_{model}"] = '-'
         all_scores = []
         for task, task_results in self.results.items():
+            for model, metrics in task_results.items():
                 col_name = f"{task}_{model}"
                 if not metrics or not metrics["edge_counts"] or not metrics["faithfulness"]:
                     continue
                 faithfulness = metrics["faithfulness"]
                 if isinstance(faithfulness[0], list):
                     faithfulness = faithfulness[0]
                 result = compute_area(metrics["edge_counts"], faithfulness)
                 if result is None or result[0] is None:
+                    continue
+                area_under, _, _ = result
+                score = area_under * 100
+                data_dict[col_name] = round(score, 2)
+                all_scores.append(score)
+        # All entries must be present for average
+        required_entries = [
+            data_dict['ioi_meta_llama'] != '-',
+            data_dict['ioi_qwen'] != '-',
+            data_dict['ioi_gpt2'] != '-',
+            data_dict['mcqa_meta_llama'] != '-',
+            data_dict['mcqa_qwen'] != '-',
+            data_dict['mcqa_gpt2'] != '-'
+        ]
+        data_dict["Average"] = round(np.mean(all_scores), 2) if all(required_entries) else '-'
         return data_dict