Spaces:

Eurolingua
/

european-llm-leaderboard

Running

ajude commited on Jul 19, 2024

Commit

a22854d

1 Parent(s): 5d35aca

feat(MT-Bench): Added MT-Bench to the leaderboard.

Files changed (2) hide show

app.py CHANGED Viewed

@@ -98,6 +98,12 @@ with demo:
                 id=1,
             ) as misc:
                 leaderboard_table_misc = gr.Dataframe()
         demo.load(
             core.update_task_groups_and_fewshot,
@@ -119,6 +125,11 @@ with demo:
             inputs=[gr.State(value=1), fewshot],
             outputs=[shown_tasks, fewshot, selected_tab],
         )
         for comp, fn in [
             (search_bar, "submit"),
             (langs_bar, "change"),
@@ -136,6 +147,11 @@ with demo:
                 [shown_tasks, search_bar, langs_bar, model_types, fewshot],
                 leaderboard_table_misc,
             )
     gr.Blocks.load(
@@ -152,4 +168,11 @@ with demo:
         outputs=leaderboard_table_misc,
     )
 demo.launch()

                 id=1,
             ) as misc:
                 leaderboard_table_misc = gr.Dataframe()
+            with gr.TabItem(
+                "🌐 LLM MT-Bench benchmark",
+                elem_id="llm-benchmark-tab-table-mtbench",
+                id=2,
+            ) as mtbench:
+                leaderboard_table_mtbench = gr.Dataframe()
         demo.load(
             core.update_task_groups_and_fewshot,
             inputs=[gr.State(value=1), fewshot],
             outputs=[shown_tasks, fewshot, selected_tab],
         )
+        mtbench.select(
+            core.update_task_groups_and_fewshot,
+            inputs=[gr.State(value=2), fewshot],
+            outputs=[shown_tasks, fewshot, selected_tab],
+        )
         for comp, fn in [
             (search_bar, "submit"),
             (langs_bar, "change"),
                 [shown_tasks, search_bar, langs_bar, model_types, fewshot],
                 leaderboard_table_misc,
             )
+            getattr(comp, fn)(
+                core.update_df,
+                [shown_tasks, search_bar, langs_bar, model_types, fewshot],
+                leaderboard_table_mtbench,
+            )
     gr.Blocks.load(
         outputs=leaderboard_table_misc,
     )
+    gr.Blocks.load(
+        block=demo,
+        fn=core.update_df,
+        inputs=[shown_tasks, search_bar, langs_bar, model_types, fewshot],
+        outputs=leaderboard_table_mtbench,
+    )
 demo.launch()

core.py CHANGED Viewed

@@ -9,7 +9,7 @@ from datasets import load_dataset
 import style
-ZERO_SHOT_ONLY = ["BELEBELE"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
@@ -141,6 +141,9 @@ def update_task_groups_and_fewshot(current_selected_tab: int, is_fewshot_current
     elif current_selected_tab == 1:
         is_fewshot_new = False
         fewshot_available = False
     fewshot_radio_update = gr.Radio(
         value=is_fewshot_new,
@@ -151,7 +154,7 @@ def update_task_groups_and_fewshot(current_selected_tab: int, is_fewshot_current
 def get_selected_task_type(task_type_id):
-    task_types = {0: "accuracy", 1: "misc"}
     selected_task_type = task_types[task_type_id]
     return selected_task_type

 import style
+ZERO_SHOT_ONLY = ["BELEBELE", "MT-Bench"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
     elif current_selected_tab == 1:
         is_fewshot_new = False
         fewshot_available = False
+    elif current_selected_tab == 2:
+        is_fewshot_new = False
+        fewshot_available = False
     fewshot_radio_update = gr.Radio(
         value=is_fewshot_new,
 def get_selected_task_type(task_type_id):
+    task_types = {0: "accuracy", 1: "misc", 2: "mtbench_score"}
     selected_task_type = task_types[task_type_id]
     return selected_task_type