Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

t0-0 commited on Oct 17, 2024

Commit

e949f35

2 Parent(s): 720c8e9 2ee1c22

Merge branch 'main' into select-column-accordion

Browse files

Files changed (5) hide show

README.md +9 -3
app.py +15 -15
src/about.py +88 -5
src/display/utils.py +1 -1
style.css +2 -0

README.md CHANGED Viewed

@@ -1,14 +1,20 @@
 ---
 title: Open Japanese LLM Leaderboard
-emoji: 🥇
-colorFrom: green
-colorTo: indigo
 sdk: gradio
 app_file: app.py
 pinned: true
 license: apache-2.0
 sdk_version: 5.1.0
 fullWidth: true
 ---
 # Start the configuration

 ---
 title: Open Japanese LLM Leaderboard
+emoji: 🌸
+colorFrom: gray
+colorTo: gray
 sdk: gradio
 app_file: app.py
 pinned: true
 license: apache-2.0
 sdk_version: 5.1.0
 fullWidth: true
+tags:
+  - 日本語
+  - Japanese
+  - leaderboard
+  - language:日本語
+  - language:Japanese
 ---
 # Start the configuration

app.py CHANGED Viewed

@@ -79,7 +79,7 @@ def filter_models(
     add_special_tokens_query: list,
     num_few_shots_query: list,
     version_query: list,
-    backend_query: list,
 ) -> pd.DataFrame:
     print(f"Initial df shape: {df.shape}")
     print(f"Initial df content:\n{df}")
@@ -118,8 +118,8 @@ def filter_models(
     print(f"After version filter: {filtered_df.shape}")
     # Backend フィルタリング
-    filtered_df = filtered_df[filtered_df["Backend Library"].isin(backend_query)]
-    print(f"After backend filter: {filtered_df.shape}")
     print("Filtered dataframe head:")
     print(filtered_df.head())
@@ -188,7 +188,7 @@ def update_table(
     add_special_tokens_query: list,
     num_few_shots_query: list,
     version_query: list,
-    backend_query: list,
     query: str,
     *columns,
 ):
@@ -206,7 +206,7 @@ def update_table(
         add_special_tokens_query,
         num_few_shots_query,
         version_query,
-        backend_query,
     )
     print(f"filtered_df shape after filter_models: {filtered_df.shape}")
@@ -253,7 +253,7 @@ leaderboard_df = filter_models(
     [i.value.name for i in AddSpecialTokens],
     [i.value.name for i in NumFewShots],
     [i.value.name for i in Version],
-    [i.value.name for i in Backend],
 )
 leaderboard_df_filtered = filter_models(
@@ -264,7 +264,7 @@ leaderboard_df_filtered = filter_models(
     [i.value.name for i in AddSpecialTokens],
     [i.value.name for i in NumFewShots],
     [i.value.name for i in Version],
-    [i.value.name for i in Backend],
 )
 # DataFrameの初期化部分のみを修正
@@ -350,12 +350,12 @@ with gr.Blocks() as demo_leaderboard:
                 value=[i.value.name for i in Version],
                 elem_id="filter-columns-version",
             )
-            filter_columns_backend = gr.CheckboxGroup(
-                label="Backend Library",
-                choices=[i.value.name for i in Backend],
-                value=[i.value.name for i in Backend],
-                elem_id="filter-columns-backend",
-            )
     # DataFrameコンポーネントの初期化
     leaderboard_table = gr.Dataframe(
@@ -387,7 +387,7 @@ with gr.Blocks() as demo_leaderboard:
             filter_columns_add_special_tokens.change,
             filter_columns_num_few_shots.change,
             filter_columns_version.change,
-            filter_columns_backend.change,
             search_bar.submit,
         ]
         + [shown_columns.change for shown_columns in shown_columns_dict.values()],
@@ -400,7 +400,7 @@ with gr.Blocks() as demo_leaderboard:
             filter_columns_add_special_tokens,
             filter_columns_num_few_shots,
             filter_columns_version,
-            filter_columns_backend,
             search_bar,
         ]
         + [shown_columns for shown_columns in shown_columns_dict.values()],

     add_special_tokens_query: list,
     num_few_shots_query: list,
     version_query: list,
+    # backend_query: list,
 ) -> pd.DataFrame:
     print(f"Initial df shape: {df.shape}")
     print(f"Initial df content:\n{df}")
     print(f"After version filter: {filtered_df.shape}")
     # Backend フィルタリング
+    # filtered_df = filtered_df[filtered_df["Backend Library"].isin(backend_query)]
+    # print(f"After backend filter: {filtered_df.shape}")
     print("Filtered dataframe head:")
     print(filtered_df.head())
     add_special_tokens_query: list,
     num_few_shots_query: list,
     version_query: list,
+    # backend_query: list,
     query: str,
     *columns,
 ):
         add_special_tokens_query,
         num_few_shots_query,
         version_query,
+        #    backend_query,
     )
     print(f"filtered_df shape after filter_models: {filtered_df.shape}")
     [i.value.name for i in AddSpecialTokens],
     [i.value.name for i in NumFewShots],
     [i.value.name for i in Version],
+    #    [i.value.name for i in Backend],
 )
 leaderboard_df_filtered = filter_models(
     [i.value.name for i in AddSpecialTokens],
     [i.value.name for i in NumFewShots],
     [i.value.name for i in Version],
+    #    [i.value.name for i in Backend],
 )
 # DataFrameの初期化部分のみを修正
                 value=[i.value.name for i in Version],
                 elem_id="filter-columns-version",
             )
+            # filter_columns_backend = gr.CheckboxGroup(
+            #    label="Backend Library",
+            #    choices=[i.value.name for i in Backend],
+            #    value=[i.value.name for i in Backend],
+            #    elem_id="filter-columns-backend",
+            # )
     # DataFrameコンポーネントの初期化
     leaderboard_table = gr.Dataframe(
             filter_columns_add_special_tokens.change,
             filter_columns_num_few_shots.change,
             filter_columns_version.change,
+            # filter_columns_backend.change,
             search_bar.submit,
         ]
         + [shown_columns.change for shown_columns in shown_columns_dict.values()],
             filter_columns_add_special_tokens,
             filter_columns_num_few_shots,
             filter_columns_version,
+            # filter_columns_backend,
             search_bar,
         ]
         + [shown_columns for shown_columns in shown_columns_dict.values()],

src/about.py CHANGED Viewed

@@ -36,16 +36,16 @@ class Tasks(Enum):
     EL = Task(
         "scores", "EL", "EL - エンティティリンキング", TaskType.EL, True
     )  # Entity Linking - エンティティリンキング
-    FA = Task("scores", "FA", "FA - 基礎分析", TaskType.FA, True)  # Fundamental Analysis - 基礎分析
-    HE = Task("scores", "HE", "HE - 言語理解", TaskType.HE, True)  # Human Examination - 言語理解
     MC = Task(
-        "scores", "MC", "MC - 多肢選択式質問応答", TaskType.MC, True
-    )  # Multiple Choice question answering - 多肢選択式質問応答
     MR = Task("scores", "MR", "MR - 数学的推論", TaskType.MR, True)  # Mathematical Reasoning - 数学的推論
     MT = Task("scores", "MT", "MT - 機械翻訳", TaskType.MT, True)  # Machine Translation - 機械翻訳
     NLI = Task("scores", "NLI", "NLI - 自然言語推論", TaskType.NLI, True)  # Natural Language Inference - 自然言語推論
     QA = Task("scores", "QA", "QA - 質問応答", TaskType.QA, True)  # Question Answering - 質問応答
-    RC = Task("scores", "RC", "RC - 読解力", TaskType.RC, True)  # Reading Comprehension - 読解力
     SUM = Task("scores", "SUM", "SUM - 要約", TaskType.SUM, True)  # Summarization - 要約
     alt_e_to_j_bert_score_ja_f1 = Task("scores", "alt-e-to-j_bert_score_ja_f1", "ALT E to J BERT Score", TaskType.MT)
     alt_e_to_j_bleu_ja = Task("scores", "alt-e-to-j_bleu_ja", "ALT E to J BLEU", TaskType.MT)
@@ -225,6 +225,89 @@ To reproduce our results, please follow the instructions of the evalution tool,
 """
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model

     EL = Task(
         "scores", "EL", "EL - エンティティリンキング", TaskType.EL, True
     )  # Entity Linking - エンティティリンキング
+    FA = Task("scores", "FA", "FA - 基礎解析", TaskType.FA, True)  # Fundamental Analysis - 基礎解析
+    HE = Task("scores", "HE", "HE - 試験問題", TaskType.HE, True)  # Human Examination - 試験問題
     MC = Task(
+        "scores", "MC", "MC - 多肢選択式問題", TaskType.MC, True
+    )  # Multiple Choice question answering - 多肢選択式問題
     MR = Task("scores", "MR", "MR - 数学的推論", TaskType.MR, True)  # Mathematical Reasoning - 数学的推論
     MT = Task("scores", "MT", "MT - 機械翻訳", TaskType.MT, True)  # Machine Translation - 機械翻訳
     NLI = Task("scores", "NLI", "NLI - 自然言語推論", TaskType.NLI, True)  # Natural Language Inference - 自然言語推論
     QA = Task("scores", "QA", "QA - 質問応答", TaskType.QA, True)  # Question Answering - 質問応答
+    RC = Task("scores", "RC", "RC - 文章読解", TaskType.RC, True)  # Reading Comprehension - 文章読解
     SUM = Task("scores", "SUM", "SUM - 要約", TaskType.SUM, True)  # Summarization - 要約
     alt_e_to_j_bert_score_ja_f1 = Task("scores", "alt-e-to-j_bert_score_ja_f1", "ALT E to J BERT Score", TaskType.MT)
     alt_e_to_j_bleu_ja = Task("scores", "alt-e-to-j_bleu_ja", "ALT E to J BLEU", TaskType.MT)
 """
+LLM_BENCHMARKS_TEXT_JP = """
+## 仕組み
+📈 私たちは評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
+**NLI（自然言語推論）**
+* `Jamp`、時間推論に焦点を当てた日本語NLIベンチマーク [ソース](https://github.com/tomo-ut/temporalNLI_dataset)（ライセンス CC BY-SA 4.0）
+* `JaNLI`、日本語の敵対的推論データセット [ソース](https://github.com/verypluming/JaNLI)（ライセンス CC BY-SA 4.0）
+* `JNLI`、日本語自然言語推論（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+* `JSeM`、日本語意味論テストセット [ソース](https://github.com/DaisukeBekki/JSeM)（ライセンス BSD 3-Clause）
+* `JSICK`、構成的知識を含む日本語文 [ソース](https://github.com/verypluming/JSICK)（ライセンス CC BY-SA 4.0）
+**QA（質問応答）**
+* `JEMHopQA`、日本語の説明可能なマルチホップ質問応答 [ソース](https://github.com/aiishii/JEMHopQA)（ライセンス CC BY-SA 4.0）
+* `NIILC`、NIILC質問応答データセット [ソース](https://github.com/mynlp/niilc-qa)（ライセンス CC BY-SA 4.0）
+* `JAQKET`、クイズを題材とした日本語QAデータセット [ソース](https://www.nlp.ecei.tohoku.ac.jp/projects/jaqket/)（ライセンス CC BY-SA 4.0 - 企業利用には別途ライセンスが必要）
+**RC（読解）**
+* `JSQuAD`、SQuADの日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+**MC（選択式質問応答）**
+* `JCommonsenseMorality`、常識的な道徳理解を評価する日本語データセット [ソース](https://github.com/Language-Media-Lab/commonsense-moral-ja)（ライセンス MIT License）
+* `JCommonsenseQA`、CommonsenseQAの日本語版 [ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+* `KUCI`、京都大学常識推論データセット [ソース](https://github.com/ku-nlp/KUCI)（ライセンス CC BY-SA 4.0）
+**EL（エンティティリンク）**
+* `chABSA`、アスペクトベースの感情分析データセット [ソース](https://github.com/chakki-works/chABSA-dataset)（ライセンス CC BY-SA 4.0）
+**FA（基本的な分析）**
+* `Wikipedia Annotated Corpus`、[ソース](https://github.com/ku-nlp/WikipediaAnnotatedCorpus)（ライセンス CC BY-SA 4.0）
+タスク一覧：（読解予測、固有表現認識（NER）、依存構造解析、述語項構造解析（PAS）、共参照解析）
+**MR（数学的推論）**
+* `MAWPS`、MAWPS（A Math Word Problem Repository）の日本語版 [ソース](https://github.com/nlp-waseda/chain-of-thought-ja-dataset)（ライセンス Apache-2.0）
+* `MGSM`、MGSM（Multilingual Grade School Math Benchmark）の日本語部分 [ソース](https://huggingface.co/datasets/juletxara/mgsm)（ライセンス MIT License）
+**MT（機械翻訳）**
+* `ALT`、アジア言語ツリーバンク（ALT） - 並列コーパス [ソース](https://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/index.html)（ライセンス CC BY-SA 4.0）
+* `WikiCorpus`、京都市に関するWikipedia記事の日本語-英語対訳コーパス [ソース](https://alaginrc.nict.go.jp/WikiCorpus/)（ライセンス CC BY-SA 3.0）
+**STS（意味的テキスト類似度）**
+このタスクはllm-jp-evalでサポートされていますが、評価スコアの平均には含まれていません。
+* `JSTS`、STS（Semantic Textual Similarity）の日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
+**HE（試験問題）**
+* `MMLU`、大規模マルチタスク言語理解の測定 [ソース](https://github.com/hendrycks/test)（ライセンス MIT License）
+* `JMMLU`、日本語大規模マルチタスク言語理解ベンチマーク [ソース](https://github.com/nlp-waseda/JMMLU)（ライセンス CC BY-SA 4.0（3つのタスクはCC BY-NC-ND 4.0ライセンス）
+**CG（コード生成）**
+* `MBPP`、Mostly Basic Python Problems（MBPP）の日本語版 [ソース](https://huggingface.co/datasets/llm-jp/mbpp-ja)（ライセンス CC BY-SA 4.0）
+**SUM（要約）**
+* `XL-Sum`、44言語の大規模な多言語抽象要約 [ソース](https://github.com/csebuetnlp/xl-sum)（ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます）
+## 再現性
+私たちの結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
+"""
 EVALUATION_QUEUE_TEXT = """
 ## Some good practices before submitting a model

src/display/utils.py CHANGED Viewed

@@ -56,7 +56,7 @@ auto_eval_column_dict.append(["add_special_tokens", ColumnContent, ColumnContent
 auto_eval_column_dict.append(
     ["llm_jp_eval_version", ColumnContent, ColumnContent("llm-jp-eval version", "str", False)]
 )
-auto_eval_column_dict.append(["backend", ColumnContent, ColumnContent("Backend Library", "str", False)])
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks

 auto_eval_column_dict.append(
     ["llm_jp_eval_version", ColumnContent, ColumnContent("llm-jp-eval version", "str", False)]
 )
+auto_eval_column_dict.append(["backend", ColumnContent, ColumnContent("Backend Library", "str", False, dummy=True)])
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks

style.css CHANGED Viewed

@@ -6,6 +6,8 @@
 }
 /* Hides the final AutoEvalColumn */
 #llm-benchmark-tab-table table td:last-child,
 #llm-benchmark-tab-table table th:last-child {
     display: none;

 }
 /* Hides the final AutoEvalColumn */
+#llm-benchmark-tab-table table td:nth-last-child(2),
+#llm-benchmark-tab-table table th:nth-last-child(2),
 #llm-benchmark-tab-table table td:last-child,
 #llm-benchmark-tab-table table th:last-child {
     display: none;