Spaces:

toloka
/

u-math-leaderboard

Running

App Files Files Community

Konstantin Chernyshev commited on Jan 29

Commit

c6356a2

1 Parent(s): 148c1e7

feat: auto convert values to percentage

Browse files

Files changed (2) hide show

app.py +2 -3
src/populate.py +83 -55

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import os
-from typing import Any
 import gradio as gr
 import pandas as pd
@@ -153,13 +152,13 @@ def init_leaderboard(dataframe: pd.DataFrame, columns_dict: dict[str, Field]) ->
         # create the hidden and visible dataframes to display
         hidden_leaderboard_df = gr.components.Dataframe(
             value=dataframe,
-            datatype=[c.column_type for c in columns_dict.values()],
             visible=False,
             interactive=False,
         )
         leaderboard_df = gr.components.Dataframe(
             value=dataframe[[c.pretty_name for c in columns_dict.values() if c.displayed_by_default]],
-            datatype=[c.column_type for c in columns_dict.values()],
             elem_id="leaderboard-df",
             interactive=False,
         )

 import os
 import gradio as gr
 import pandas as pd
         # create the hidden and visible dataframes to display
         hidden_leaderboard_df = gr.components.Dataframe(
             value=dataframe,
+            datatype=[c.gradio_column_type for c in columns_dict.values()],
             visible=False,
             interactive=False,
         )
         leaderboard_df = gr.components.Dataframe(
             value=dataframe[[c.pretty_name for c in columns_dict.values() if c.displayed_by_default]],
+            datatype=[c.gradio_column_type for c in columns_dict.values()],
             elem_id="leaderboard-df",
             interactive=False,
         )

src/populate.py CHANGED Viewed

@@ -8,6 +8,7 @@ from transformers import AutoConfig
 UNKNOWN_MODEL_SHOW_SIZE = 150
 def get_hf_model_info_card_or_none(model_name: str) -> ModelInfo | None:
@@ -137,12 +138,18 @@ def get_hf_data_by_model_name(model_name: str) -> dict:
 @dataclass
 class Field:
     pretty_name: str
-    column_type: str
     displayed_by_default: bool = True
     never_hidden: bool = False
     fully_hidden: bool = False
     tags: list[str] = field(default_factory=list)
 MODEL_COLUMNS_DICT = {
     "model_type_symbol": Field("T", "str", never_hidden=True),
@@ -155,44 +162,45 @@ MODEL_COLUMNS_DICT = {
     "model_architecture": Field("Architecture", "str", displayed_by_default=False),
     "model_license": Field("License", "markdown", displayed_by_default=False),
     "model_family": Field("Family", "str", displayed_by_default=False),
 }
 U_MATH_COLUMNS_DICT = {
     "rank": Field("Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
     "judge_model_name": Field("Judge Model Name", "markdown", displayed_by_default=False),
-    "u_math_acc": Field("U-MATH Acc", "number", never_hidden=True, tags=["u_math"]),
-    "u_math_text_acc": Field("U-MATH Text Acc", "number", tags=["u_math", "text"]),
-    "u_math_visual_acc": Field("U-MATH Visual Acc", "number", tags=["u_math", "visual"]),
-    "differential_calc_acc": Field("Diff Calc Acc", "number", displayed_by_default=False, tags=["subjects"]),
-    "differential_calc_text_acc": Field("Diff Calc Text Acc", "number", displayed_by_default=False, tags=["text"]),
     "differential_calc_visual_acc": Field(
-        "Diff Calc Visual Acc", "number", displayed_by_default=False, tags=["visual"]
     ),
-    "integral_calc_acc": Field("Integral Calc Acc", "number", displayed_by_default=False, tags=["subjects"]),
-    "integral_calc_text_acc": Field("Integral Calc Text Acc", "number", displayed_by_default=False, tags=["text"]),
     "integral_calc_visual_acc": Field(
-        "Integral Calc Visual Acc", "number", displayed_by_default=False, tags=["visual"]
     ),
-    "algebra_acc": Field("Algebra Acc", "number", displayed_by_default=False, tags=["subjects"]),
-    "algebra_text_acc": Field("Algebra Text Acc", "number", displayed_by_default=False, tags=["text"]),
-    "algebra_visual_acc": Field("Algebra Visual Acc", "number", displayed_by_default=False, tags=["visual"]),
-    "multivariable_calculus_acc": Field("Multivar Calc Acc", "number", displayed_by_default=False, tags=["subjects"]),
     "multivariable_calculus_text_acc": Field(
-        "Multivar Calc Text Acc", "number", displayed_by_default=False, tags=["text"]
     ),
     "multivariable_calculus_visual_acc": Field(
-        "Multivar Calc Visual Acc", "number", displayed_by_default=False, tags=["visual"]
     ),
-    "precalculus_review_acc": Field("Precalc Acc", "number", displayed_by_default=False, tags=["subjects"]),
-    "precalculus_review_text_acc": Field("Precalc Text Acc", "number", displayed_by_default=False, tags=["text"]),
     "precalculus_review_visual_acc": Field(
-        "Precalc Visual Acc", "number", displayed_by_default=False, tags=["visual"]
     ),
-    "sequences_series_acc": Field("Seq & Series Acc", "number", displayed_by_default=False, tags=["subjects"]),
-    "sequences_series_text_acc": Field("Seq & Series Text Acc", "number", displayed_by_default=False, tags=["text"]),
     "sequences_series_visual_acc": Field(
-        "Seq & Series Visual Acc", "number", displayed_by_default=False, tags=["visual"]
     ),
 }
@@ -200,46 +208,46 @@ MU_MATH_COLUMNS_DICT = {
     "rank": Field("Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
     "extract_model_name": Field("Extract Model Name", "markdown", displayed_by_default=False),
-    "mu_math_f1": Field("μ-MATH F1", "number", never_hidden=True, tags=["mu_math", "splits"]),
-    "mu_math_tpr": Field("μ-MATH TPR", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_tnr": Field("μ-MATH TNR", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_ppv": Field("μ-MATH PPV", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_npv": Field("μ-MATH NPV", "number", displayed_by_default=False, tags=["mu_math"]),
-    "GPT-4o_f1": Field("GPT-4o Subset F1", "number", tags=["splits"]),
-    "GPT-4o_tpr": Field("GPT-4o Subset TPR", "number", displayed_by_default=False),
-    "GPT-4o_tnr": Field("GPT-4o Subset TNR", "number", displayed_by_default=False),
-    "GPT-4o_ppv": Field("GPT-4o Subset PPV", "number", displayed_by_default=False),
-    "GPT-4o_npv": Field("GPT-4o Subset NPV", "number", displayed_by_default=False),
-    "Gemini-1.5-Pro_f1": Field("Gemini-1.5-Pro Subset F1", "number", tags=["splits"]),
-    "Gemini-1.5-Pro_tpr": Field("Gemini-1.5-Pro Subset TPR", "number", displayed_by_default=False),
-    "Gemini-1.5-Pro_tnr": Field("Gemini-1.5-Pro Subset TNR", "number", displayed_by_default=False),
-    "Gemini-1.5-Pro_ppv": Field("Gemini-1.5-Pro Subset PPV", "number", displayed_by_default=False),
-    "Gemini-1.5-Pro_npv": Field("Gemini-1.5-Pro Subset NPV", "number", displayed_by_default=False),
-    "Llama-3.1-70B-Instruct_f1": Field("Llama-3.1-70B Subset F1", "number", tags=["splits"]),
-    "Llama-3.1-70B-Instruct_tpr": Field("Llama-3.1-70B Subset TPR", "number", displayed_by_default=False),
-    "Llama-3.1-70B-Instruct_tnr": Field("Llama-3.1-70B Subset TNR", "number", displayed_by_default=False),
-    "Llama-3.1-70B-Instruct_ppv": Field("Llama-3.1-70B Subset PPV", "number", displayed_by_default=False),
-    "Llama-3.1-70B-Instruct_npv": Field("Llama-3.1-70B Subset NPV", "number", displayed_by_default=False),
-    "Qwen2.5-72B-Instruct_f1": Field("Qwen2.5-72B Subset F1", "number", tags=["splits"]),
-    "Qwen2.5-72B-Instruct_tpr": Field("Qwen2.5-72B Subset TPR", "number", displayed_by_default=False),
-    "Qwen2.5-72B-Instruct_tnr": Field("Qwen2.5-72B Subset TNR", "number", displayed_by_default=False),
-    "Qwen2.5-72B-Instruct_ppv": Field("Qwen2.5-72B Subset PPV", "number", displayed_by_default=False),
-    "Qwen2.5-72B-Instruct_npv": Field("Qwen2.5-72B Subset NPV", "number", displayed_by_default=False),
 }
 U_MATH_AND_MU_MATH_COLUMNS_DICT = {
     "u_math_rank": Field("U-MATH Rank", "number", never_hidden=True),
     "mu_math_rank": Field("μ-MATH Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
-    "u_math_acc": Field("U-MATH Acc", "number", tags=["main", "u_math", "mu_math"]),
-    "u_math_text_acc": Field("U-MATH Text Acc", "number", displayed_by_default=False, tags=["u_math"]),
-    "u_math_visual_acc": Field("U-MATH Visual Acc", "number", displayed_by_default=False, tags=["u_math"]),
     "judge_model_name": Field("Judge Model Name", "markdown", displayed_by_default=False),
     "extract_model_name": Field("Extract Model Name", "markdown", displayed_by_default=False),
-    "mu_math_f1": Field("μ-MATH F1", "number", tags=["main", "u_math", "mu_math"]),
-    "mu_math_tpr": Field("μ-MATH TPR", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_tnr": Field("μ-MATH TNR", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_ppv": Field("μ-MATH PPV", "number", displayed_by_default=False, tags=["mu_math"]),
-    "mu_math_npv": Field("μ-MATH NPV", "number", displayed_by_default=False, tags=["mu_math"]),
 }
@@ -306,6 +314,16 @@ def get_u_math_leaderboard_df(use_pretty_names: bool = True, add_meta: bool = Tr
         df_meta = get_model_meta_info_df(df["full_model_name"].unique())
         df = pd.merge(df, df_meta, on=["full_model_name"], how="left")
     # convert to pretty names and sort columns by order in dict
     if use_pretty_names:
         df = df[U_MATH_COLUMNS_DICT.keys()]
@@ -351,6 +369,16 @@ def get_mu_math_leaderboard_df(use_pretty_names: bool = True, add_meta: bool = T
         df_meta = get_model_meta_info_df(df["full_model_name"].unique())
         df = pd.merge(df, df_meta, on=["full_model_name"], how="left")
     # convert to pretty names and sort columns by order in dict
     if use_pretty_names:
         df = df[MU_MATH_COLUMNS_DICT.keys()]

 UNKNOWN_MODEL_SHOW_SIZE = 150
+PERCENT_ROUND_DIGITS = 1
 def get_hf_model_info_card_or_none(model_name: str) -> ModelInfo | None:
 @dataclass
 class Field:
     pretty_name: str
+    column_type: str  # rate (auto-convert to percent number), number, str, markdown
     displayed_by_default: bool = True
     never_hidden: bool = False
     fully_hidden: bool = False
     tags: list[str] = field(default_factory=list)
+    @property
+    def gradio_column_type(self) -> str:
+        if self.column_type == "rate":
+            return "number"
+        return self.column_type
 MODEL_COLUMNS_DICT = {
     "model_type_symbol": Field("T", "str", never_hidden=True),
     "model_architecture": Field("Architecture", "str", displayed_by_default=False),
     "model_license": Field("License", "markdown", displayed_by_default=False),
     "model_family": Field("Family", "str", displayed_by_default=False),
+    "model_url": Field("Model URL", "str", fully_hidden=True, displayed_by_default=False),
 }
 U_MATH_COLUMNS_DICT = {
     "rank": Field("Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
     "judge_model_name": Field("Judge Model Name", "markdown", displayed_by_default=False),
+    "u_math_acc": Field("U-MATH Acc", "rate", never_hidden=True, tags=["u_math"]),
+    "u_math_text_acc": Field("U-MATH Text Acc", "rate", tags=["u_math", "text"]),
+    "u_math_visual_acc": Field("U-MATH Visual Acc", "rate", tags=["u_math", "visual"]),
+    "differential_calc_acc": Field("Diff Calc Acc", "rate", displayed_by_default=False, tags=["subjects"]),
+    "differential_calc_text_acc": Field("Diff Calc Text Acc", "rate", displayed_by_default=False, tags=["text"]),
     "differential_calc_visual_acc": Field(
+        "Diff Calc Visual Acc", "rate", displayed_by_default=False, tags=["visual"]
     ),
+    "integral_calc_acc": Field("Integral Calc Acc", "rate", displayed_by_default=False, tags=["subjects"]),
+    "integral_calc_text_acc": Field("Integral Calc Text Acc", "rate", displayed_by_default=False, tags=["text"]),
     "integral_calc_visual_acc": Field(
+        "Integral Calc Visual Acc", "rate", displayed_by_default=False, tags=["visual"]
     ),
+    "algebra_acc": Field("Algebra Acc", "rate", displayed_by_default=False, tags=["subjects"]),
+    "algebra_text_acc": Field("Algebra Text Acc", "rate", displayed_by_default=False, tags=["text"]),
+    "algebra_visual_acc": Field("Algebra Visual Acc", "rate", displayed_by_default=False, tags=["visual"]),
+    "multivariable_calculus_acc": Field("Multivar Calc Acc", "rate", displayed_by_default=False, tags=["subjects"]),
     "multivariable_calculus_text_acc": Field(
+        "Multivar Calc Text Acc", "rate", displayed_by_default=False, tags=["text"]
     ),
     "multivariable_calculus_visual_acc": Field(
+        "Multivar Calc Visual Acc", "rate", displayed_by_default=False, tags=["visual"]
     ),
+    "precalculus_review_acc": Field("Precalc Acc", "rate", displayed_by_default=False, tags=["subjects"]),
+    "precalculus_review_text_acc": Field("Precalc Text Acc", "rate", displayed_by_default=False, tags=["text"]),
     "precalculus_review_visual_acc": Field(
+        "Precalc Visual Acc", "rate", displayed_by_default=False, tags=["visual"]
     ),
+    "sequences_series_acc": Field("Seq & Series Acc", "rate", displayed_by_default=False, tags=["subjects"]),
+    "sequences_series_text_acc": Field("Seq & Series Text Acc", "rate", displayed_by_default=False, tags=["text"]),
     "sequences_series_visual_acc": Field(
+        "Seq & Series Visual Acc", "rate", displayed_by_default=False, tags=["visual"]
     ),
 }
     "rank": Field("Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
     "extract_model_name": Field("Extract Model Name", "markdown", displayed_by_default=False),
+    "mu_math_f1": Field("μ-MATH F1", "rate", never_hidden=True, tags=["mu_math", "splits"]),
+    "mu_math_tpr": Field("μ-MATH TPR", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_tnr": Field("μ-MATH TNR", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_ppv": Field("μ-MATH PPV", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_npv": Field("μ-MATH NPV", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "GPT-4o_f1": Field("GPT-4o Subset F1", "rate", tags=["splits"]),
+    "GPT-4o_tpr": Field("GPT-4o Subset TPR", "rate", displayed_by_default=False),
+    "GPT-4o_tnr": Field("GPT-4o Subset TNR", "rate", displayed_by_default=False),
+    "GPT-4o_ppv": Field("GPT-4o Subset PPV", "rate", displayed_by_default=False),
+    "GPT-4o_npv": Field("GPT-4o Subset NPV", "rate", displayed_by_default=False),
+    "Gemini-1.5-Pro_f1": Field("Gemini-1.5-Pro Subset F1", "rate", tags=["splits"]),
+    "Gemini-1.5-Pro_tpr": Field("Gemini-1.5-Pro Subset TPR", "rate", displayed_by_default=False),
+    "Gemini-1.5-Pro_tnr": Field("Gemini-1.5-Pro Subset TNR", "rate", displayed_by_default=False),
+    "Gemini-1.5-Pro_ppv": Field("Gemini-1.5-Pro Subset PPV", "rate", displayed_by_default=False),
+    "Gemini-1.5-Pro_npv": Field("Gemini-1.5-Pro Subset NPV", "rate", displayed_by_default=False),
+    "Llama-3.1-70B-Instruct_f1": Field("Llama-3.1-70B Subset F1", "rate", tags=["splits"]),
+    "Llama-3.1-70B-Instruct_tpr": Field("Llama-3.1-70B Subset TPR", "rate", displayed_by_default=False),
+    "Llama-3.1-70B-Instruct_tnr": Field("Llama-3.1-70B Subset TNR", "rate", displayed_by_default=False),
+    "Llama-3.1-70B-Instruct_ppv": Field("Llama-3.1-70B Subset PPV", "rate", displayed_by_default=False),
+    "Llama-3.1-70B-Instruct_npv": Field("Llama-3.1-70B Subset NPV", "rate", displayed_by_default=False),
+    "Qwen2.5-72B-Instruct_f1": Field("Qwen2.5-72B Subset F1", "rate", tags=["splits"]),
+    "Qwen2.5-72B-Instruct_tpr": Field("Qwen2.5-72B Subset TPR", "rate", displayed_by_default=False),
+    "Qwen2.5-72B-Instruct_tnr": Field("Qwen2.5-72B Subset TNR", "rate", displayed_by_default=False),
+    "Qwen2.5-72B-Instruct_ppv": Field("Qwen2.5-72B Subset PPV", "rate", displayed_by_default=False),
+    "Qwen2.5-72B-Instruct_npv": Field("Qwen2.5-72B Subset NPV", "rate", displayed_by_default=False),
 }
 U_MATH_AND_MU_MATH_COLUMNS_DICT = {
     "u_math_rank": Field("U-MATH Rank", "number", never_hidden=True),
     "mu_math_rank": Field("μ-MATH Rank", "number", never_hidden=True),
     **MODEL_COLUMNS_DICT,
+    "u_math_acc": Field("U-MATH Acc", "rate", tags=["main", "u_math", "mu_math"]),
+    "u_math_text_acc": Field("U-MATH Text Acc", "rate", displayed_by_default=False, tags=["u_math"]),
+    "u_math_visual_acc": Field("U-MATH Visual Acc", "rate", displayed_by_default=False, tags=["u_math"]),
     "judge_model_name": Field("Judge Model Name", "markdown", displayed_by_default=False),
     "extract_model_name": Field("Extract Model Name", "markdown", displayed_by_default=False),
+    "mu_math_f1": Field("μ-MATH F1", "rate", tags=["main", "u_math", "mu_math"]),
+    "mu_math_tpr": Field("μ-MATH TPR", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_tnr": Field("μ-MATH TNR", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_ppv": Field("μ-MATH PPV", "rate", displayed_by_default=False, tags=["mu_math"]),
+    "mu_math_npv": Field("μ-MATH NPV", "rate", displayed_by_default=False, tags=["mu_math"]),
 }
         df_meta = get_model_meta_info_df(df["full_model_name"].unique())
         df = pd.merge(df, df_meta, on=["full_model_name"], how="left")
+    # resolve rate columns to percent
+    for col in df.columns:
+        if U_MATH_COLUMNS_DICT[col].column_type == "rate":
+            if all(df[col] <= 1):
+                df[col] = (df[col] * 100).round(PERCENT_ROUND_DIGITS)
+            elif any(df[col] > 1) and all(df[col] <= 100):
+                df[col] = df[col].round(PERCENT_ROUND_DIGITS)
+            else:
+                raise ValueError(f"Column {col} has values {df[col]} that are not in [0, 1] or [0, 100]")
     # convert to pretty names and sort columns by order in dict
     if use_pretty_names:
         df = df[U_MATH_COLUMNS_DICT.keys()]
         df_meta = get_model_meta_info_df(df["full_model_name"].unique())
         df = pd.merge(df, df_meta, on=["full_model_name"], how="left")
+    # resolve rate columns to percent
+    for col in df.columns:
+        if MU_MATH_COLUMNS_DICT[col].column_type == "rate":
+            if all(df[col] <= 1):
+                df[col] = (df[col] * 100).round(2)
+            elif any(df[col] > 1) and all(df[col] <= 100):
+                df[col] = df[col].round(2)
+            else:
+                raise ValueError(f"Column {col} has values {df[col]} that are not in [0, 1] or [0, 100]")
     # convert to pretty names and sort columns by order in dict
     if use_pretty_names:
         df = df[MU_MATH_COLUMNS_DICT.keys()]