open_pl_llm_leaderboard

Running on CPU Upgrade

djstrong commited on Mar 25, 2024

Commit

96fbe7c

1 Parent(s): 1bea7de

keep old Average

Files changed (3) hide show

app.py CHANGED Viewed

@@ -76,7 +76,7 @@ def style_df(df: pd.DataFrame) -> Styler:
     rounding = {'#Params (B)': "{:.1f}"}
     for task in Tasks:
         rounding[task.value.col_name] = "{:.2f}"
-    for column_name in ["Average ⬆️", "Avg g", "Avg mc"]:
         rounding[column_name] = "{:.2f}"
     leaderboard_df_styled = leaderboard_df_styled.format(rounding)
     return leaderboard_df_styled

     rounding = {'#Params (B)': "{:.1f}"}
     for task in Tasks:
         rounding[task.value.col_name] = "{:.2f}"
+    for column_name in ["Average ⬆️", "Avg g", "Avg mc", "Average old"]:
         rounding[column_name] = "{:.2f}"
     leaderboard_df_styled = leaderboard_df_styled.format(rounding)
     return leaderboard_df_styled

src/display/utils.py CHANGED Viewed

@@ -30,6 +30,7 @@ auto_eval_column_dict.append(["lang", ColumnContent, ColumnContent("Lang", "str"
 auto_eval_column_dict.append(["n_shot", ColumnContent, ColumnContent("n_shot", "str", True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 auto_eval_column_dict.append(["average_g", ColumnContent, ColumnContent("Avg g", "number", True)])
 auto_eval_column_dict.append(["average_mc", ColumnContent, ColumnContent("Avg mc", "number", True)])
 for task in Tasks:

 auto_eval_column_dict.append(["n_shot", ColumnContent, ColumnContent("n_shot", "str", True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
+auto_eval_column_dict.append(["average_old", ColumnContent, ColumnContent("Average old", "number", False)])
 auto_eval_column_dict.append(["average_g", ColumnContent, ColumnContent("Avg g", "number", True)])
 auto_eval_column_dict.append(["average_mc", ColumnContent, ColumnContent("Avg mc", "number", True)])
 for task in Tasks:

src/leaderboard/read_evals.py CHANGED Viewed

@@ -157,10 +157,11 @@ class EvalResult:
         g_tasks = [task.value.benchmark for task in Tasks if task.value.type == "generate_until"]
         mc_tasks = [task.value.benchmark for task in Tasks if task.value.type == "multiple_choice"]
         all_tasks = g_tasks + mc_tasks
         baselines = {task.value.benchmark: task.value.baseline*100 for task in Tasks}
-        # average = sum([v for task, v in self.results.items() if v is not None and task in all_tasks]) / len(all_tasks)
         # average_g = sum([v for task, v in self.results.items() if v is not None and task in g_tasks]) / len(g_tasks)
         # average_mc = sum([v for task, v in self.results.items() if v is not None and task in mc_tasks]) / len(mc_tasks)
         # print('XXXXXXXXXXXX')
@@ -249,6 +250,11 @@ class EvalResult:
         except AttributeError:
             print(f"AttributeError revision")
         try:
             data_dict[AutoEvalColumn.average.name] = average
         except KeyError:

         g_tasks = [task.value.benchmark for task in Tasks if task.value.type == "generate_until"]
         mc_tasks = [task.value.benchmark for task in Tasks if task.value.type == "multiple_choice"]
         all_tasks = g_tasks + mc_tasks
+        all_tasks_wo_polqa = [task for task in all_tasks if 'polqa' not in task]
         baselines = {task.value.benchmark: task.value.baseline*100 for task in Tasks}
+        average_old = sum([v for task, v in self.results.items() if v is not None and task in all_tasks_wo_polqa]) / len(all_tasks_wo_polqa)
         # average_g = sum([v for task, v in self.results.items() if v is not None and task in g_tasks]) / len(g_tasks)
         # average_mc = sum([v for task, v in self.results.items() if v is not None and task in mc_tasks]) / len(mc_tasks)
         # print('XXXXXXXXXXXX')
         except AttributeError:
             print(f"AttributeError revision")
+        try:
+            data_dict[AutoEvalColumn.average_old.name] = average_old
+        except KeyError:
+            print(f"Could not find average_old")
         try:
             data_dict[AutoEvalColumn.average.name] = average
         except KeyError: