leaderboard

Runtime error

App Files Files Community

nan commited on May 10, 2024

Commit

a30a228

1 Parent(s): e84128d

chore: clean up

Browse files

Files changed (3) hide show

.gitignore +1 -0
app.py +8 -0
utils.py +7 -11

.gitignore CHANGED Viewed

@@ -15,3 +15,4 @@ logs/
 .idea/
 .venv/
 toys/

 .idea/
 .venv/
 toys/
+.DS_Store

app.py CHANGED Viewed

@@ -290,6 +290,14 @@ with demo:
                     gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
                 with gr.Row():
                     gr.Markdown("## ✉️Submit your model here!", elem_classes="markdown-text")
                 with gr.Row():
                     file_output = gr.File()
                 with gr.Row():

                     gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
                 with gr.Row():
                     gr.Markdown("## ✉️Submit your model here!", elem_classes="markdown-text")
+                with gr.Row():
+                    with gr.Column():
+                        benchmark_version = gr.Dropdown(
+                            ['AIR-Bench_24.04',], value=['AIR-Bench_24.04',], interactive=True, label="AIR-Bench Version")
+                    with gr.Column():
+                        model_name_textbox = gr.Textbox(label="Model name")
+                    with gr.Column():
+                        model_url = gr.Textbox(label="Model URL")
                 with gr.Row():
                     file_output = gr.File()
                 with gr.Row():

utils.py CHANGED Viewed

@@ -1,14 +1,10 @@
-import pandas as pd
-import os
-from src.display.formatting import styled_error, styled_message, styled_warning
-from huggingface_hub import HfApi
-from src.display.utils import AutoEvalColumnQA, AutoEvalColumnLongDoc, COLS_QA, COLS_LONG_DOC, QA_BENCHMARK_COLS, LONG_DOC_BENCHMARK_COLS
 from src.benchmarks import BENCHMARK_COLS_QA, BENCHMARK_COLS_LONG_DOC, BenchmarksQA, BenchmarksLongDoc
 from src.leaderboard.read_evals import FullEvalResult, get_leaderboard_df
-from typing import List
 def filter_models(df: pd.DataFrame, reranking_query: list) -> pd.DataFrame:
@@ -41,7 +37,7 @@ def search_table(df: pd.DataFrame, query: str) -> pd.DataFrame:
     return df[(df[AutoEvalColumnQA.retrieval_model.name].str.contains(query, case=False))]
-def select_columns(df: pd.DataFrame, domain_query: list, language_query: list, task: str="qa") -> pd.DataFrame:
     if task == "qa":
         always_here_cols = [
             AutoEvalColumnQA.retrieval_model.name,
@@ -111,7 +107,7 @@ def update_metric(
         query: str,
 ) -> pd.DataFrame:
     if task == 'qa':
-        leaderboard_df = get_leaderboard_df(raw_data, COLS_QA, QA_BENCHMARK_COLS, task=task, metric=metric)
         return update_table(
             leaderboard_df,
             domains,
@@ -120,7 +116,7 @@ def update_metric(
             query
         )
     elif task == 'long_doc':
-        leaderboard_df = get_leaderboard_df(raw_data, COLS_LONG_DOC, LONG_DOC_BENCHMARK_COLS, task=task, metric=metric)
         return update_table_long_doc(
             leaderboard_df,
             domains,
@@ -138,4 +134,4 @@ def upload_file(files):
     #     print(file_paths)
     #     HfApi(token="").upload_file(...)
     #     os.remove(fp)
-    return file_paths

+from typing import List
+import pandas as pd
 from src.benchmarks import BENCHMARK_COLS_QA, BENCHMARK_COLS_LONG_DOC, BenchmarksQA, BenchmarksLongDoc
+from src.display.utils import AutoEvalColumnQA, AutoEvalColumnLongDoc, COLS_QA, COLS_LONG_DOC
 from src.leaderboard.read_evals import FullEvalResult, get_leaderboard_df
 def filter_models(df: pd.DataFrame, reranking_query: list) -> pd.DataFrame:
     return df[(df[AutoEvalColumnQA.retrieval_model.name].str.contains(query, case=False))]
+def select_columns(df: pd.DataFrame, domain_query: list, language_query: list, task: str = "qa") -> pd.DataFrame:
     if task == "qa":
         always_here_cols = [
             AutoEvalColumnQA.retrieval_model.name,
         query: str,
 ) -> pd.DataFrame:
     if task == 'qa':
+        leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
         return update_table(
             leaderboard_df,
             domains,
             query
         )
     elif task == 'long_doc':
+        leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
         return update_table_long_doc(
             leaderboard_df,
             domains,
     #     print(file_paths)
     #     HfApi(token="").upload_file(...)
     #     os.remove(fp)
+    return file_paths