MEDIC-Benchmark

Running

tathagataraha commited on Mar 18

Commit

6616540

1 Parent(s): 9c195eb

[FIX] Model size filter

Files changed (3) hide show

app.py CHANGED Viewed

@@ -167,6 +167,7 @@ def update_table(
     precision_query: str = None,
     show_deleted: bool = False,
 ):
     filtered_df = filter_models(hidden_df, type_query, domain_specific_query, size_query, precision_query, show_deleted)
     # breakpoint()
     filtered_df = filter_queries(query, filtered_df)
@@ -245,7 +246,7 @@ def filter_models(
         if AutoEvalColumn.precision.name in df.columns:
             filtered_df = filtered_df.loc[df[AutoEvalColumn.precision.name].isin(precision_query + ["None"])]
-    if size_query is not None and not PRIVATE_REPO:
         numeric_interval = pd.IntervalIndex(sorted([NUMERIC_INTERVALS[s] for s in size_query]))
         params_column = pd.to_numeric(df[AutoEvalColumn.params.name], errors="coerce")
         mask = params_column.apply(lambda x: any(numeric_interval.contains(x)))

     precision_query: str = None,
     show_deleted: bool = False,
 ):
+    # breakpoint()
     filtered_df = filter_models(hidden_df, type_query, domain_specific_query, size_query, precision_query, show_deleted)
     # breakpoint()
     filtered_df = filter_queries(query, filtered_df)
         if AutoEvalColumn.precision.name in df.columns:
             filtered_df = filtered_df.loc[df[AutoEvalColumn.precision.name].isin(precision_query + ["None"])]
+    if size_query is not None:
         numeric_interval = pd.IntervalIndex(sorted([NUMERIC_INTERVALS[s] for s in size_query]))
         params_column = pd.to_numeric(df[AutoEvalColumn.params.name], errors="coerce")
         mask = params_column.apply(lambda x: any(numeric_interval.contains(x)))

src/display/utils.py CHANGED Viewed

@@ -248,7 +248,7 @@ CLOSED_ENDED_ARABIC_BENCHMARK_COLS = [t.value.col_name for t in ClosedEndedArabi
 # CROSS_EXAMINATION_BENCHMARK_COLS = [t.value.col_name for t in CrossExaminationTasks]
 NUMERIC_INTERVALS = {
-    "?": pd.Interval(-1, 0, closed="right"),
     "~1.5": pd.Interval(0, 2, closed="right"),
     "~3": pd.Interval(2, 4, closed="right"),
     "~7": pd.Interval(4, 9, closed="right"),

 # CROSS_EXAMINATION_BENCHMARK_COLS = [t.value.col_name for t in CrossExaminationTasks]
 NUMERIC_INTERVALS = {
+    "?": pd.Interval(-100, 0, closed="right"),
     "~1.5": pd.Interval(0, 2, closed="right"),
     "~3": pd.Interval(2, 4, closed="right"),
     "~7": pd.Interval(4, 9, closed="right"),

src/leaderboard/read_evals.py CHANGED Viewed

@@ -63,6 +63,7 @@ class EvalResult:
         model_type = ModelType.from_str(config.get("model_type", ""))
         license = config.get("license", "?")
         num_params = config.get("num_params", "?")
         display_result = config.get("display_result", True)
         display_result = False if display_result=="False" else True

         model_type = ModelType.from_str(config.get("model_type", ""))
         license = config.get("license", "?")
         num_params = config.get("num_params", "?")
+        num_params = -1 if num_params == "?" or num_params is None or isinstance(num_params, float) and math.isnan(num_params) else num_params
         display_result = config.get("display_result", True)
         display_result = False if display_result=="False" else True