Spaces:

opencompass
/

open_vlm_leaderboard

Running on CPU Upgrade

App Files Files Community

KennyUTC commited on Nov 6, 2024

Commit

e77f84c

1 Parent(s): fd6c543

[Code] Update leaderboard

Browse files

Files changed (4) hide show

.gitignore +2 -0
app.py +20 -3
gen_table.py +19 -7
meta_data.py +4 -2

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *ipynb
2	+ __pycache__

app.py CHANGED Viewed

@@ -1,11 +1,24 @@
 import abc
 import gradio as gr
 from gen_table import *
 from meta_data import *
-with gr.Blocks() as demo:
     struct = load_results()
     timestamp = struct['time']
     EVAL_TIME = format_timestamp(timestamp)
@@ -55,10 +68,11 @@ with gr.Blocks() as demo:
                 type='pandas',
                 datatype=[type_map[x] for x in headers],
                 interactive=False,
                 visible=True)
             def filter_df(fields, model_size, model_type):
-                filter_list = ['Avg Score', 'Avg Rank', 'OpenSource', 'Verified']
                 headers = ['Rank'] + check_box['essential'] + fields
                 new_fields = [field for field in fields if field not in filter_list]
@@ -78,6 +92,7 @@ with gr.Blocks() as demo:
                     type='pandas',
                     datatype=[type_map[x] for x in headers],
                     interactive=False,
                     visible=True)
                 return comp
@@ -124,6 +139,7 @@ with gr.Blocks() as demo:
                     type='pandas',
                     datatype=[s.type_map[x] for x in s.headers],
                     interactive=False,
                     visible=True)
                 s.dataset = gr.Textbox(value=dataset, label=dataset, visible=False)
@@ -145,6 +161,7 @@ with gr.Blocks() as demo:
                         type='pandas',
                         datatype=[s.type_map[x] for x in headers],
                         interactive=False,
                         visible=True)
                     return comp

 import abc
 import gradio as gr
 from gen_table import *
 from meta_data import *
+# import pandas as pd
+# pd.set_option('display.max_colwidth', 0)
+head_style = """
+<style>
+@media (min-width: 1536px)
+{
+    .gradio-container {
+        min-width: var(--size-full) !important;
+    }
+}
+</style>
+"""
+with gr.Blocks(title="Open VLM Leaderboard", head=head_style) as demo:
     struct = load_results()
     timestamp = struct['time']
     EVAL_TIME = format_timestamp(timestamp)
                 type='pandas',
                 datatype=[type_map[x] for x in headers],
                 interactive=False,
+                wrap=True,
                 visible=True)
             def filter_df(fields, model_size, model_type):
+                filter_list = ['Avg Score', 'Avg Rank', 'OpenSource']
                 headers = ['Rank'] + check_box['essential'] + fields
                 new_fields = [field for field in fields if field not in filter_list]
                     type='pandas',
                     datatype=[type_map[x] for x in headers],
                     interactive=False,
+                    wrap=True,
                     visible=True)
                 return comp
                     type='pandas',
                     datatype=[s.type_map[x] for x in s.headers],
                     interactive=False,
+                    wrap=True,
                     visible=True)
                 s.dataset = gr.Textbox(value=dataset, label=dataset, visible=False)
                         type='pandas',
                         datatype=[s.type_map[x] for x in headers],
                         interactive=False,
+                        wrap=True,
                         visible=True)
                     return comp

gen_table.py CHANGED Viewed

@@ -54,16 +54,14 @@ def model_size_flag(sz, FIELDS):
 def model_type_flag(line, FIELDS):
     if 'OpenSource' in FIELDS and line['OpenSource'] == 'Yes':
         return True
-    if 'API' in FIELDS and line['OpenSource'] == 'No' and line['Verified'] == 'Yes':
-        return True
-    if 'Proprietary' in FIELDS and line['OpenSource'] == 'No' and line['Verified'] == 'No':
         return True
     return False
 def BUILD_L1_DF(results, fields):
     check_box = {}
-    check_box['essential'] = ['Method', 'Param (B)', 'Language Model', 'Vision Model']
     # revise there to set default dataset
     check_box['required'] = ['Avg Score', 'Avg Rank'] + DEFAULT_BENCH
     check_box['avg'] = ['Avg Score', 'Avg Rank']
@@ -71,7 +69,8 @@ def BUILD_L1_DF(results, fields):
     type_map = defaultdict(lambda: 'number')
     type_map['Method'] = 'html'
     type_map['Language Model'] = type_map['Vision Model'] = 'html'
-    type_map['OpenSource'] = type_map['Verified'] = 'str'
     check_box['type_map'] = type_map
     df = generate_table(results, fields)
@@ -105,6 +104,12 @@ def BUILD_L2_DF(results, dataset):
             elif k == 'Method':
                 name, url = meta['Method']
                 res[k].append(f'<a href="{url}">{name}</a>')
             else:
                 res[k].append(meta[k])
         fields = [x for x in fields]
@@ -128,13 +133,14 @@ def BUILD_L2_DF(results, dataset):
     df = df.iloc[::-1]
     check_box = {}
-    check_box['essential'] = ['Method', 'Param (B)', 'Language Model', 'Vision Model']
     check_box['required'] = required_fields
     check_box['all'] = all_fields
     type_map = defaultdict(lambda: 'number')
     type_map['Method'] = 'html'
     type_map['Language Model'] = type_map['Vision Model'] = 'html'
-    type_map['OpenSource'] = type_map['Verified'] = 'str'
     check_box['type_map'] = type_map
     return df, check_box
@@ -159,6 +165,12 @@ def generate_table(results, fields):
                 name, url = meta['Method']
                 res[k].append(f'<a href="{url}">{name}</a>')
                 res['name'].append(name)
             else:
                 res[k].append(meta[k])
         scores, ranks = [], []

 def model_type_flag(line, FIELDS):
     if 'OpenSource' in FIELDS and line['OpenSource'] == 'Yes':
         return True
+    if 'API' in FIELDS and line['OpenSource'] == 'No':
         return True
     return False
 def BUILD_L1_DF(results, fields):
     check_box = {}
+    check_box['essential'] = ['Method', 'Param (B)', 'Language Model', 'Vision Model', 'Eval Date']
     # revise there to set default dataset
     check_box['required'] = ['Avg Score', 'Avg Rank'] + DEFAULT_BENCH
     check_box['avg'] = ['Avg Score', 'Avg Rank']
     type_map = defaultdict(lambda: 'number')
     type_map['Method'] = 'html'
     type_map['Language Model'] = type_map['Vision Model'] = 'html'
+    type_map['OpenSource'] = 'str'
+    type_map['Eval Date'] = 'str'
     check_box['type_map'] = type_map
     df = generate_table(results, fields)
             elif k == 'Method':
                 name, url = meta['Method']
                 res[k].append(f'<a href="{url}">{name}</a>')
+            elif k == 'Eval Date':
+                eval_date = meta['Time'].split('/')
+                assert len(eval_date) == 3
+                eval_date = [x if len(x) > 1 else '0' + x for x in eval_date]
+                eval_date = '/'.join(eval_date)
+                res[k].append(eval_date)
             else:
                 res[k].append(meta[k])
         fields = [x for x in fields]
     df = df.iloc[::-1]
     check_box = {}
+    check_box['essential'] = ['Method', 'Param (B)', 'Language Model', 'Vision Model', 'Eval Date']
     check_box['required'] = required_fields
     check_box['all'] = all_fields
     type_map = defaultdict(lambda: 'number')
     type_map['Method'] = 'html'
     type_map['Language Model'] = type_map['Vision Model'] = 'html'
+    type_map['OpenSource'] = 'str'
+    type_map['Eval Date'] = 'str'
     check_box['type_map'] = type_map
     return df, check_box
                 name, url = meta['Method']
                 res[k].append(f'<a href="{url}">{name}</a>')
                 res['name'].append(name)
+            elif k == 'Eval Date':
+                eval_date = meta['Time'].split('/')
+                assert len(eval_date) == 3
+                eval_date = [x if len(x) > 1 else '0' + x for x in eval_date]
+                eval_date = '/'.join(eval_date)
+                res[k].append(eval_date)
             else:
                 res[k].append(meta[k])
         scores, ranks = [], []

meta_data.py CHANGED Viewed

@@ -20,7 +20,9 @@ This leaderboard was last updated: {}.
 OpenVLM Leaderboard only includes open-source VLMs or API models that are publicly available. To add your own model to the leaderboard, please create a PR in [VLMEvalKit](https://github.com/open-compass/VLMEvalKit) to support your VLM and then we will help with the evaluation and updating the leaderboard. For any questions or concerns, please feel free to contact us at [opencompass, duanhaodong]@pjlab.org.cn.
 """
 # CONSTANTS-FIELDS
-META_FIELDS = ['Method', 'Param (B)', 'Language Model', 'Vision Model', 'OpenSource', 'Verified']
 MAIN_FIELDS = [
     'MMBench_V11', 'MMStar', 'MME',
     'MMMU_VAL', 'MathVista', 'OCRBench', 'AI2D',
@@ -34,7 +36,7 @@ DEFAULT_BENCH = [
 ]
 MMBENCH_FIELDS = ['MMBench_TEST_EN_V11', 'MMBench_TEST_CN_V11', 'MMBench_TEST_EN', 'MMBench_TEST_CN', 'CCBench']
 MODEL_SIZE = ['<4B', '4B-10B', '10B-20B', '20B-40B', '>40B', 'Unknown']
-MODEL_TYPE = ['API', 'OpenSource', 'Proprietary']
 # The README file for each benchmark
 LEADERBOARD_MD = {}

 OpenVLM Leaderboard only includes open-source VLMs or API models that are publicly available. To add your own model to the leaderboard, please create a PR in [VLMEvalKit](https://github.com/open-compass/VLMEvalKit) to support your VLM and then we will help with the evaluation and updating the leaderboard. For any questions or concerns, please feel free to contact us at [opencompass, duanhaodong]@pjlab.org.cn.
 """
 # CONSTANTS-FIELDS
+META_FIELDS = [
+    'Method', 'Param (B)', 'Language Model', 'Vision Model', 'OpenSource', 'Eval Date'
+]
 MAIN_FIELDS = [
     'MMBench_V11', 'MMStar', 'MME',
     'MMMU_VAL', 'MathVista', 'OCRBench', 'AI2D',
 ]
 MMBENCH_FIELDS = ['MMBench_TEST_EN_V11', 'MMBench_TEST_CN_V11', 'MMBench_TEST_EN', 'MMBench_TEST_CN', 'CCBench']
 MODEL_SIZE = ['<4B', '4B-10B', '10B-20B', '20B-40B', '>40B', 'Unknown']
+MODEL_TYPE = ['API', 'OpenSource']
 # The README file for each benchmark
 LEADERBOARD_MD = {}