Spaces:

galileo-ai
/

agent-leaderboard

Running on CPU Upgrade

App Files Files Community

Pratik Bhavsar commited on Jul 3

Commit

d3c87a6

1 Parent(s): c411387

working v2

Browse files

Files changed (5) hide show

app.py +15 -11
results_v2.csv +17 -0
tabs/{leaderboard.py → leaderboard_v1.py} +45 -46
tabs/leaderboard_v2.py +0 -0
tabs/model_comparison.py +0 -73

app.py CHANGED Viewed

@@ -9,26 +9,30 @@ from data_loader import (
     CATEGORIES,
     METHODOLOGY,
     HEADER_CONTENT,
-    CARDS,
-    DATASETS,
-    SCORES,
 )
-from tabs.leaderboard import create_leaderboard_tab, filter_leaderboard
 def create_app():
     df = load_data()
-    MODELS = [x.strip() for x in df["Model"].unique().tolist()]
     with gr.Blocks(
-        theme=gr.themes.Soft(font=[gr.themes.GoogleFont("sans-serif")])
     ) as app:
         with gr.Tabs():
-            # Create tabs
-            lb_output, lb_plot1, lb_plot2 = create_leaderboard_tab(
-                df, CATEGORIES, METHODOLOGY, HEADER_CONTENT, CARDS
-            )
         # Initial loads
         app.load(

     CATEGORIES,
     METHODOLOGY,
     HEADER_CONTENT,
+    CARDS
 )
+from tabs.leaderboard_v1 import create_leaderboard_tab, filter_leaderboard
+from tabs.leaderboard_v2 import create_leaderboard_v2_interface
 def create_app():
     df = load_data()
     with gr.Blocks(
+        theme=gr.themes.Default(primary_hue=gr.themes.colors.red)
     ) as app:
         with gr.Tabs():
+            # Create v2 tab
+            with gr.Tab("Leaderboard v2"):
+                create_leaderboard_v2_interface()
+            # Create v1 tab
+            with gr.Tab("Leaderboard v1"):
+                lb_output, lb_plot1, lb_plot2 = create_leaderboard_tab(
+                    df, CATEGORIES, METHODOLOGY, HEADER_CONTENT, CARDS
+                )
         # Initial loads
         app.load(

results_v2.csv ADDED Viewed

	@@ -0,0 +1,17 @@

+Model,Vendor,Avg AC,Avg TSQ,Avg Total Cost,Avg Session Duration,Avg Turns,Banking AC,Healthcare AC,Insurance AC,Investment AC,Telecom AC,Banking TSQ,Healthcare TSQ,Insurance TSQ,Investment TSQ,Telecom TSQ,Avg Input Cost ($),Avg Output Cost ($),Banking Cost,Healthcare Cost,Insurance Cost,Investment Cost,Telecom Cost,Banking Duration,Healthcare Duration,Insurance Duration,Investment Duration,Telecom Duration,Banking Turns,Healthcare Turns,Insurance Turns,Investment Turns,Telecom Turns,Model Type,$/M input token,$/M output token,Output Type
+gpt-4.1-2025-04-14,OpenAI,0.62,0.8,0.0684,24.32,3.1,0.6,0.62,0.66,0.64,0.58,0.81,0.83,0.68,0.88,0.82,0.0577,0.0107,0.052,0.0711,0.0629,0.0777,0.0783,18.52,24.4,25.24,27.88,25.58,2.61,3.15,2.92,3.3,3.48,Proprietary,2.0,8.0,Normal
+gpt-4.1-mini-2025-04-14,OpenAI,0.56,0.79,0.0141,26.0,3.43,0.56,0.6,0.46,0.5,0.64,0.8,0.85,0.63,0.84,0.83,0.0123,0.0018,0.0115,0.0143,0.0131,0.0164,0.0156,21.28,26.82,23.32,30.5,28.07,2.99,3.32,3.28,3.76,3.79,Proprietary,0.4,1.6,Normal
+claude-sonnet-4-20250514,Anthropic,0.55,0.92,0.1537,66.6,2.89,0.58,0.62,0.53,0.49,0.53,0.9,0.95,0.93,0.92,0.9,0.1212,0.0325,0.1359,0.1542,0.1442,0.1669,0.1675,55.36,57.93,56.87,86.44,76.38,2.54,2.84,2.79,3.06,3.22,Proprietary,3.0,15.0,Normal
+qwen2.5-72b-instruct,Alibaba,0.51,0.8,0.0361,34.68,2.65,0.48,0.61,0.52,0.42,0.52,0.78,0.84,0.77,0.82,0.79,0.0338,0.0023,0.0292,0.0348,0.0338,0.0417,0.0415,27.34,29.09,30.46,41.32,45.2,2.3,2.46,2.47,3.0,3.0,Open source,0.9,0.9,Normal
+gemini-2.5-pro,Google,0.43,0.86,0.1447,125.85,3.57,0.45,0.4,0.54,0.31,0.44,0.88,0.87,0.87,0.85,0.83,0.0442,0.1005,0.1253,0.1475,0.1386,0.1464,0.1656,108.83,126.91,121.99,129.62,141.92,3.1,3.57,3.49,3.7,3.97,Proprietary,1.25,10.0,Reasoning
+deepseek-v3,Deepseek,0.4,0.8,0.0141,59.97,3.71,0.38,0.32,0.48,0.36,0.47,0.8,0.74,0.76,0.87,0.81,0.0119,0.0022,0.0123,0.0158,0.0139,0.0151,0.0138,44.46,68.38,48.54,70.21,68.27,3.27,4.2,3.48,3.79,3.83,Open source,0.27,1.1,Normal
+gemini-2.5-flash,Google,0.38,0.94,0.0271,39.84,3.9,0.48,0.38,0.44,0.22,0.36,0.94,0.94,0.94,0.94,0.95,0.0123,0.0148,0.0248,0.0283,0.0273,0.0308,0.0241,33.03,36.81,38.24,42.78,48.34,3.53,3.96,3.78,4.28,3.98,Proprietary,0.3,2.5,Reasoning
+gpt-4.1-nano-2025-04-14,OpenAI,0.38,0.63,0.0038,12.36,3.56,0.4,0.4,0.41,0.29,0.38,0.64,0.54,0.54,0.77,0.65,0.0034,0.0004,0.0029,0.0038,0.004,0.0042,0.0041,14.16,10.9,12.23,12.68,11.83,2.88,3.24,3.78,4.01,3.91,Proprietary,0.1,0.4,Normal
+qwen3-235b-a22b,Alibaba,0.37,0.86,0.0106,133.24,2.86,0.36,0.33,0.41,0.3,0.44,0.88,0.86,0.85,0.84,0.85,0.0076,0.003,0.0087,0.0114,0.0114,0.0111,0.0105,117.72,137.4,135.24,147.35,128.48,2.43,2.99,3.04,3.01,2.83,Open source,0.2,0.6,Reasoning
+magistral-medium-2506,Mistral,0.32,0.59,0.1182,32.96,4.4,0.3,0.35,0.38,0.26,0.3,0.59,0.67,0.56,0.63,0.51,0.108,0.0102,0.1067,0.0994,0.1077,0.1476,0.1294,24.98,35.81,33.33,39.18,31.49,4.21,3.46,3.92,5.36,5.07,Proprietary,2.0,5.0,Reasoning
+nova-pro-v1,Amazon,0.29,0.65,0.0359,27.96,3.04,0.33,0.29,0.39,0.17,0.29,0.6,0.57,0.64,0.83,0.6,0.0316,0.0043,0.0304,0.0353,0.0359,0.04,0.038,23.45,27.94,27.9,32.09,28.43,2.72,2.88,2.99,3.36,3.26,Proprietary,0.8,3.2,Normal
+mistral-small-2506,Mistral,0.26,0.71,0.0053,35.69,4.37,0.37,0.28,0.22,0.2,0.21,0.73,0.71,0.65,0.76,0.69,0.0049,0.0004,0.0041,0.0057,0.0054,0.0058,0.0056,30.64,36.02,30.83,41.96,39.02,3.3,4.47,4.52,4.87,4.67,Open source,0.1,0.3,Normal
+caller,Arcee,0.16,0.65,0.0297,25.66,4.2,0.23,0.14,0.22,0.09,0.12,0.69,0.6,0.68,0.61,0.67,0.0282,0.0015,0.0262,0.0303,0.0305,0.0331,0.0286,22.83,25.54,26.42,29.66,23.85,3.76,4.19,4.18,4.75,4.14,Open source,0.55,0.85,Normal
+nova-lite-v1,Amazon,0.16,0.55,0.0031,20.26,3.73,0.12,0.18,0.19,0.15,0.18,0.48,0.49,0.58,0.72,0.49,0.0027,0.0004,0.0026,0.0033,0.0031,0.0034,0.0029,17.53,20.61,19.67,24.28,19.2,3.31,4.13,3.57,4.04,3.62,Proprietary,0.06,0.24,Normal
+magistral-small-2506,Mistral,0.16,0.53,0.0301,17.42,5.68,0.23,0.18,0.13,0.16,0.12,0.57,0.46,0.42,0.62,0.6,0.0275,0.0026,0.0245,0.0335,0.0302,0.034,0.0281,14.53,21.36,14.65,19.67,16.87,4.74,6.28,6.14,6.06,5.19,Open source,0.5,1.5,Reasoning
+mistral-medium-2505,Mistral,0.16,0.52,0.0293,34.17,6.27,0.2,0.16,0.18,0.13,0.13,0.45,0.5,0.46,0.63,0.56,0.0256,0.0037,0.025,0.037,0.0328,0.0269,0.0251,30.07,39.7,36.76,31.84,32.49,5.61,7.75,7.08,5.68,5.23,Proprietary,0.4,2.0,Normal

tabs/{leaderboard.py → leaderboard_v1.py} RENAMED Viewed

@@ -156,51 +156,50 @@ def filter_leaderboard(df, model_type, category, sort_by):
 def create_leaderboard_tab(df, CATEGORIES, METHODOLOGY, HEADER_CONTENT, CARDS):
-    with gr.Tab("Leaderboard v1"):
-        gr.HTML(HEADER_CONTENT + CARDS)
-        gr.HTML(DESCRIPTION_HTML)
-        # Filters row
-        with gr.Row(equal_height=True):
-            with gr.Column(scale=1):
-                model_type = gr.Dropdown(
-                    choices=["All"] + df["Model Type"].unique().tolist(),
-                    value="All",
-                    label="Model Type",
-                )
-            with gr.Column(scale=1):
-                category = gr.Dropdown(
-                    choices=list(CATEGORIES.keys()),
-                    value=list(CATEGORIES.keys())[0],
-                    label="Category",
-                )
-            with gr.Column(scale=1):
-                sort_by = gr.Radio(
-                    choices=["Performance", "Cost"],
-                    value="Performance",
-                    label="Sort by",
-                )
-        # Content
-        output = gr.HTML()
-        plot1 = gr.Plot()
-        plot2 = gr.Plot()
-        gr.HTML(
-            """<div class="note-box">
-                <p style="margin: 0; font-size: 1em;">
-                    Note: API pricing for sorting by cost uses a 3-to-1 input/output ratio calculation. Pricing for open source models is either from Fireworks or Together.
-                </p>
-            </div>"""
-        )
-        gr.HTML(METHODOLOGY)
-        for input_comp in [model_type, category, sort_by]:
-            input_comp.change(
-                fn=lambda m, c, s: filter_leaderboard(df, m, c, s),
-                inputs=[model_type, category, sort_by],
-                outputs=[output, plot1, plot2],
             )
-        return output, plot1, plot2

 def create_leaderboard_tab(df, CATEGORIES, METHODOLOGY, HEADER_CONTENT, CARDS):
+    gr.HTML(HEADER_CONTENT + CARDS)
+    gr.HTML(DESCRIPTION_HTML)
+    # Filters row
+    with gr.Row(equal_height=True):
+        with gr.Column(scale=1):
+            model_type = gr.Dropdown(
+                choices=["All"] + df["Model Type"].unique().tolist(),
+                value="All",
+                label="Model Type",
+            )
+        with gr.Column(scale=1):
+            category = gr.Dropdown(
+                choices=list(CATEGORIES.keys()),
+                value=list(CATEGORIES.keys())[0],
+                label="Category",
             )
+        with gr.Column(scale=1):
+            sort_by = gr.Radio(
+                choices=["Performance", "Cost"],
+                value="Performance",
+                label="Sort by",
+            )
+    # Content
+    output = gr.HTML()
+    plot1 = gr.Plot()
+    plot2 = gr.Plot()
+    gr.HTML(
+        """<div class="note-box">
+            <p style="margin: 0; font-size: 1em;">
+                Note: API pricing for sorting by cost uses a 3-to-1 input/output ratio calculation. Pricing for open source models is either from Fireworks or Together.
+            </p>
+        </div>"""
+    )
+    gr.HTML(METHODOLOGY)
+    for input_comp in [model_type, category, sort_by]:
+        input_comp.change(
+            fn=lambda m, c, s: filter_leaderboard(df, m, c, s),
+            inputs=[model_type, category, sort_by],
+            outputs=[output, plot1, plot2],
+        )
+    return output, plot1, plot2

tabs/leaderboard_v2.py ADDED Viewed

The diff for this file is too large to render. See raw diff

tabs/model_comparison.py DELETED Viewed

@@ -1,73 +0,0 @@
-import gradio as gr
-from visualization import create_radar_plot
-def compare_models(df, model_names=None):
-    if model_names is None or len(model_names) == 0:
-        model_names = [df.sort_values("Model Avg", ascending=False).iloc[0]["Model"]]
-    filtered_df = df[df["Model"].isin(model_names)]
-    radar_chart = create_radar_plot(df, model_names)
-    # Create styled table for model info
-    info_html = f"""
-    <div class="dark-table-container">
-        <table class="dark-styled-table">
-            <thead>
-                <tr>
-                    <th>Model</th>
-                    <th>Type</th>
-                    <th>Average</th>
-                    <th>I/O Cost</th>
-                    <th>Single Turn</th>
-                    <th>Multi Turn</th>
-                </tr>
-            </thead>
-            <tbody>
-    """
-    for _, row in filtered_df.iterrows():
-        info_html += f"""
-            <tr>
-                <td>{row['Model']}</td>
-                <td>{row['Model Type']}</td>
-                <td>{row['Model Avg']:.3f}</td>
-                <td>${row['IO Cost']:.2f}</td>
-                <td>{row['single turn perf']:.3f}</td>
-                <td>{row['multi turn perf']:.3f}</td>
-            </tr>
-        """
-    info_html += """
-            </tbody>
-        </table>
-    </div>
-    """
-    return info_html, radar_chart
-def create_model_comparison_tab(df, HEADER_CONTENT):
-    with gr.Tab("Model Comparison"):
-        gr.HTML(HEADER_CONTENT)
-        with gr.Column():
-            # Filters row
-            with gr.Row(equal_height=True):
-                model_selector = gr.Dropdown(
-                    choices=df["Model"].unique().tolist(),
-                    value=df.sort_values("Model Avg", ascending=False).iloc[0]["Model"],
-                    multiselect=True,
-                    label="Select Models to Compare",
-                )
-            # Content
-            model_info = gr.HTML()
-            radar_plot = gr.Plot()
-        model_selector.change(
-            fn=lambda m: compare_models(df, m),
-            inputs=[model_selector],
-            outputs=[model_info, radar_plot],
-        )
-        return model_info, radar_plot