Spaces:

muset-ai
/

DeepResearch-Bench-Leaderboard

Running

App Files Files Community

Ayanami0730 commited on Aug 3

Commit

de24ae3

1 Parent(s): d48c1ec

update langchain&nvidia-aiq

Browse files

Files changed (13) hide show

create_leaderboard.py +1 -1
data/data_viewer.jsonl +2 -2
data/leaderboard.csv +3 -1
data/raw_data/gemini-2.5-pro-deepresearch.jsonl +2 -2
data/raw_data/langchain-open-deep-research.jsonl +3 -0
data/raw_data/nvidia-aiq-research-assistant.jsonl +3 -0
data/raw_results/gemini-2.5-pro-deepresearch/race_result.txt +5 -5
data/raw_results/gemini-2.5-pro-deepresearch/raw_results.jsonl +2 -2
data/raw_results/langchain-open-deep-research/race_result.txt +5 -0
data/raw_results/langchain-open-deep-research/raw_results.jsonl +3 -0
data/raw_results/nvidia-aiq-research-assistant/race_result.txt +5 -0
data/raw_results/nvidia-aiq-research-assistant/raw_results.jsonl +3 -0
tabs/leaderboard_tab.py +85 -8

create_leaderboard.py CHANGED Viewed

@@ -66,7 +66,7 @@ with gr.Blocks(title="DeepResearch Bench") as demo:
       <a href="https://deepresearch-bench.github.io" target="_blank">Website</a> |
       <a href="https://arxiv.org/abs/2506.11763" target="_blank">Paper</a> |
       <a href="#" target="_blank">Eval Dataset</a> |
-      Total models: 19 | Last Update: 15 July 2025<br>
       <small style="color: #666; font-size: 0.9em;">
         Race judge model: gemini-2.5-pro | Fact-checking models: gemini-2.5-flash
       </small>

       <a href="https://deepresearch-bench.github.io" target="_blank">Website</a> |
       <a href="https://arxiv.org/abs/2506.11763" target="_blank">Paper</a> |
       <a href="#" target="_blank">Eval Dataset</a> |
+      Total models: 21 | Last Update: 02 August 2025<br>
       <small style="color: #666; font-size: 0.9em;">
         Race judge model: gemini-2.5-pro | Fact-checking models: gemini-2.5-flash
       </small>

data/data_viewer.jsonl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffd1a662c13226e50fe9e690d43e4575ba524e6e73f77d4195d4f012adcee642
-size 42227460

 version https://git-lfs.github.com/spec/v1
+oid sha256:252095068a525a2a8fd8be6566831a22e0feab22c41d057b7e7ceedba25ec4dd
+size 47835963

data/leaderboard.csv CHANGED Viewed

@@ -1,9 +1,11 @@
 model,overall_score,comprehensiveness,insight,instruction_following,readability,citation_accuracy,effective_citations
-gemini-2.5-pro-deepresearch,48.92,48.45,48.30,49.29,49.77,78.30,165.34
 openai-deepresearch,46.45,46.46,43.73,49.39,47.22,75.01,39.79
 claude-research,45.00,45.34,42.79,47.58,44.66,-,-
 kimi-researcher,44.64,44.96,41.97,47.14,45.59,-,-
 doubao-deepresearch,44.34,44.84,40.56,47.95,44.69,52.86,52.62
 perplexity-Research,40.46,39.10,35.65,46.11,43.08,82.63,31.20
 grok-deeper-search,38.22,36.08,30.89,46.59,42.17,73.08,8.58
 sonar-reasoning-pro,37.76,34.96,31.65,44.93,42.42,45.19,9.39

 model,overall_score,comprehensiveness,insight,instruction_following,readability,citation_accuracy,effective_citations
+gemini-2.5-pro-deepresearch,49.71,49.51,49.45,50.12,50.00,78.30,165.34
 openai-deepresearch,46.45,46.46,43.73,49.39,47.22,75.01,39.79
 claude-research,45.00,45.34,42.79,47.58,44.66,-,-
 kimi-researcher,44.64,44.96,41.97,47.14,45.59,-,-
 doubao-deepresearch,44.34,44.84,40.56,47.95,44.69,52.86,52.62
+langchain-open-deep-research,43.44,42.97,39.17,48.09,45.22,-,-
+nvidia-aiq-research-assistant,40.52,37.98,38.39,44.59,42.63,-,-
 perplexity-Research,40.46,39.10,35.65,46.11,43.08,82.63,31.20
 grok-deeper-search,38.22,36.08,30.89,46.59,42.17,73.08,8.58
 sonar-reasoning-pro,37.76,34.96,31.65,44.93,42.42,45.19,9.39

data/raw_data/gemini-2.5-pro-deepresearch.jsonl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3705106cc42a38b7c7bcd90e42aaec7f688a0d52179329e3074fcda99ea544e7
-size 8523153

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ead8c3cc42c3ea844e71be7bf21670a608feaa5a718695e3b215247d9198a80
+size 8553888

data/raw_data/langchain-open-deep-research.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83bfad2bdf5cb8de9593aaff20214f2588f8fedd8375f289a024c8ed69f2496a
+size 1670658

data/raw_data/nvidia-aiq-research-assistant.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccfba2939cf3724abece976196e7f44fd09f96cf85525bbb7f2eb371a8117f58
+size 3865806

data/raw_results/gemini-2.5-pro-deepresearch/race_result.txt CHANGED Viewed

@@ -1,5 +1,5 @@
-Comprehensiveness: 0.4845
-Insight: 0.4830
-Instruction Following: 0.4929
-Readability: 0.4977
-Overall Score: 0.4892

+Comprehensiveness: 0.4951
+Insight: 0.4945
+Instruction Following: 0.5012
+Readability: 0.5000
+Overall Score: 0.4971

data/raw_results/gemini-2.5-pro-deepresearch/raw_results.jsonl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34e1afac1851c1e81b65f1f3844aa8da886ef20558d7891ce7145f7c63cc53ca
-size 51986

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e27c4da148eb17142ee86e35d66bf84884c72feae1713524962f4a199d3539b
+size 52017

data/raw_results/langchain-open-deep-research/race_result.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+Comprehensiveness: 0.4297
+Insight: 0.3917
+Instruction Following: 0.4809
+Readability: 0.4522
+Overall Score: 0.4344

data/raw_results/langchain-open-deep-research/raw_results.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d26af46e0e6829a2f73375c53c0e24f6b2b2f2e3fb7f923a43783135a041bb89
+size 52395

data/raw_results/nvidia-aiq-research-assistant/race_result.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+Comprehensiveness: 0.3798
+Insight: 0.3839
+Instruction Following: 0.4459
+Readability: 0.4263
+Overall Score: 0.4052

data/raw_results/nvidia-aiq-research-assistant/raw_results.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0317013a4b4c7832b097562ae485151db73b63e62fde2ce2f30d8b229bcecdd8
+size 52468

tabs/leaderboard_tab.py CHANGED Viewed

@@ -32,7 +32,9 @@ MODEL_CATEGORIES = {
         "perplexity-Research",
         "doubao-deepresearch",
         "kimi-researcher",
-        "claude-research"
     ],
     "LLM with Search": [
         "claude-3-7-sonnet-with-search",
@@ -50,6 +52,62 @@ MODEL_CATEGORIES = {
     ]
 }
 def load_leaderboard() -> pd.DataFrame:
     if not DATA_PATH.exists():
         raise FileNotFoundError(
@@ -65,7 +123,11 @@ def load_leaderboard() -> pd.DataFrame:
                 return category
         return "Others"
     df['category'] = df['model'].apply(get_category)
     return df
 def make_ranked(df: pd.DataFrame) -> pd.DataFrame:
@@ -84,13 +146,25 @@ def make_ranked(df: pd.DataFrame) -> pd.DataFrame:
                 lambda x: round(float(x), 2) if x != "-" and pd.notna(x) else x
             )
-    # 为 Deep Research Agent 添加 HTML 格式（加粗 + 颜色）
-    ranked['model'] = ranked.apply(
-        lambda row: f'<span style="color: #823AFF;">{HIGHLIGHT_EMOJI} {row["model"]}</span>'
-                    if row['category'] == CATEGORY_TO_HIGHLIGHT
-                    else row['model'],
-        axis=1
-    )
     return ranked
@@ -172,6 +246,9 @@ def create_leaderboard_tab():
             - **c.acc.**: Citation Accuracy - Correctness of references
             - **eff.c.**: Effective Citations - Relevance and quality of sources
             - **category**: Model category
             """)
     return search_box

         "perplexity-Research",
         "doubao-deepresearch",
         "kimi-researcher",
+        "claude-research",
+        "nvidia-aiq-research-assistant",
+        "langchain-open-deep-research"
     ],
     "LLM with Search": [
         "claude-3-7-sonnet-with-search",
     ]
 }
+# 模型链接映射（目前都设置为空，可以后续添加具体链接）
+MODEL_LINKS = {
+    # Deep Research Agent
+    "gemini-2.5-pro-deepresearch": "https://gemini.google/overview/deep-research/",
+    "grok-deeper-search": "https://x.ai/news/grok-3",
+    "openai-deepresearch": "https://openai.com/zh-Hans-CN/index/introducing-deep-research/",
+    "perplexity-Research": "https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research",
+    "doubao-deepresearch": "https://www.doubao.com/chat/",
+    "kimi-researcher": "https://moonshotai.github.io/Kimi-Researcher/",
+    "claude-research": "https://www.anthropic.com/news/research",
+    "nvidia-aiq-research-assistant": "https://github.com/NVIDIA-AI-Blueprints/aiq-research-assistant",
+    "langchain-open-deep-research": "https://github.com/langchain-ai/open_deep_research",
+    # LLM with Search
+    "claude-3-7-sonnet-with-search": "",
+    "claude-3-5-sonnet-with-search": "",
+    "sonar-reasoning-pro": "",
+    "sonar-reasoning": "",
+    "sonar-pro": "",
+    "sonar": "",
+    "gemini-2.5-pro-preview-05-06": "",
+    "gpt-4o-search-preview": "",
+    "gpt-4.1": "",
+    "gemini-2.5-flash-preview-04-17": "",
+    "gpt-4o-mini-search-preview": "",
+    "gpt-4.1-mini": ""
+}
+# 模型许可证类型映射
+MODEL_LICENSE_TYPE = {
+    # Deep Research Agent
+    "gemini-2.5-pro-deepresearch": "Proprietary",
+    "grok-deeper-search": "Proprietary",
+    "openai-deepresearch": "Proprietary",
+    "perplexity-Research": "Proprietary",
+    "doubao-deepresearch": "Proprietary",
+    "kimi-researcher": "Proprietary",
+    "claude-research": "Proprietary",
+    "nvidia-aiq-research-assistant": "Apache 2.0",
+    "langchain-open-deep-research": "MIT",  # 需要确认具体许可证
+    # LLM with Search
+    "claude-3-7-sonnet-with-search": "Proprietary",
+    "claude-3-5-sonnet-with-search": "Proprietary",
+    "sonar-reasoning-pro": "Proprietary",
+    "sonar-reasoning": "Proprietary",
+    "sonar-pro": "Proprietary",
+    "sonar": "Proprietary",
+    "gemini-2.5-pro-preview-05-06": "Proprietary",
+    "gpt-4o-search-preview": "Proprietary",
+    "gpt-4.1": "Proprietary",
+    "gemini-2.5-flash-preview-04-17": "Proprietary",
+    "gpt-4o-mini-search-preview": "Proprietary",
+    "gpt-4.1-mini": "Proprietary"
+}
 def load_leaderboard() -> pd.DataFrame:
     if not DATA_PATH.exists():
         raise FileNotFoundError(
                 return category
         return "Others"
+    def get_license_type(model_name):
+        return MODEL_LICENSE_TYPE.get(model_name, "Unknown")
     df['category'] = df['model'].apply(get_category)
+    df['license_type'] = df['model'].apply(get_license_type)
     return df
 def make_ranked(df: pd.DataFrame) -> pd.DataFrame:
                 lambda x: round(float(x), 2) if x != "-" and pd.notna(x) else x
             )
+    # 为模型添加链接和高亮样式
+    def format_model_name(row):
+        model_name = row['model']
+        link = MODEL_LINKS.get(model_name, "")
+        # 根据类别决定是否高亮
+        if row['category'] == CATEGORY_TO_HIGHLIGHT:
+            display_name = f'<span style="color: #823AFF;">{HIGHLIGHT_EMOJI} {model_name}</span>'
+        else:
+            display_name = model_name
+        # 如果有链接，包装成<a>标签
+        if link and link.strip():
+            return f'<a href="{link}" target="_blank" style="text-decoration: none;">{display_name}</a>'
+        else:
+            # 没有链接时，为将来添加链接做准备（可以添加点击事件等）
+            return f'<span class="model-name" data-model="{model_name}">{display_name}</span>'
+    ranked['model'] = ranked.apply(format_model_name, axis=1)
     return ranked
             - **c.acc.**: Citation Accuracy - Correctness of references
             - **eff.c.**: Effective Citations - Relevance and quality of sources
             - **category**: Model category
+            - **license_type**: The software license type of the model/service
+            💡 **Tip**: Model names are clickable when links are available. Visit the GitHub repositories for more details!
             """)
     return search_box