Cybersecurity_leaderboard

Running

yujinyujin9393 commited on Jun 11

Commit

9be313e

verified ·

1 Parent(s): 9c90d4d

Revise CyberGym

Files changed (2) hide show

app.py CHANGED Viewed

@@ -110,7 +110,7 @@ head_style) as demo:
                 )
                 s.headers = s.check_box['essential'] + s.checkbox_group.value
-                if benchmark!='SWE-bench-verified':
                     with gr.Row():
                         s.model_name = gr.Textbox(
                             value='Input the Model Name (fuzzy, case insensitive)',
@@ -137,7 +137,7 @@ head_style) as demo:
                     s = structs[benchmark_list.index(dataset_name)]
                     headers = s.check_box['essential'] + fields
                     df = cp.deepcopy(s.table)
-                    if dataset_name!="SWE-bench-verified":
                         default_val = 'Input the Model Name (fuzzy, case insensitive)'
                     else:
                         default_val = 'Input the Agent Name (fuzzy, case insensitive)'
@@ -145,7 +145,7 @@ head_style) as demo:
                     if model_name != default_val:
                         print(model_name)
                         model_name = model_name.lower()
-                        if dataset_name!="SWE-bench-verified":
                             method_names = [x.split('</a>')[0].split('>')[-1].lower() for x in df['Model']]
                         else:
                             method_names = [x.split('</a>')[0].split('>')[-1].lower() for x in df['Agent']]

                 )
                 s.headers = s.check_box['essential'] + s.checkbox_group.value
+                if benchmark not in ["SWE-bench-verified", "CyberGym"]:
                     with gr.Row():
                         s.model_name = gr.Textbox(
                             value='Input the Model Name (fuzzy, case insensitive)',
                     s = structs[benchmark_list.index(dataset_name)]
                     headers = s.check_box['essential'] + fields
                     df = cp.deepcopy(s.table)
+                    if dataset_name not in ["SWE-bench-verified", "CyberGym"]:
                         default_val = 'Input the Model Name (fuzzy, case insensitive)'
                     else:
                         default_val = 'Input the Agent Name (fuzzy, case insensitive)'
                     if model_name != default_val:
                         print(model_name)
                         model_name = model_name.lower()
+                        if dataset_name not in ["SWE-bench-verified", "CyberGym"]:
                             method_names = [x.split('</a>')[0].split('>')[-1].lower() for x in df['Model']]
                         else:
                             method_names = [x.split('</a>')[0].split('>')[-1].lower() for x in df['Agent']]

gen_table.py CHANGED Viewed

@@ -54,7 +54,7 @@ def BUILD_L2_DF(results, benchmark):
     model_list=list(set(model_list))
     res = defaultdict(list)
-    if benchmark not in ["RedCode","NYU CTF Bench","PrimeVul","SWE-bench-verified"]:
         res['Model']=model_list
     elif benchmark=="SWE-bench-verified" or benchmark=="CyberGym":
         res['Agent']=model_list
@@ -104,7 +104,7 @@ def BUILD_L2_DF(results, benchmark):
     required_fields = all_fields
     check_box = {}
-    if benchmark=="SWE-bench-verified":
         check_box['essential'] = ['Agent']
     elif benchmark=='PrimeVul':
         check_box['essential'] = ['Model','Method']

     model_list=list(set(model_list))
     res = defaultdict(list)
+    if benchmark not in ["RedCode","NYU CTF Bench","PrimeVul","SWE-bench-verified","CyberGym"]:
         res['Model']=model_list
     elif benchmark=="SWE-bench-verified" or benchmark=="CyberGym":
         res['Agent']=model_list
     required_fields = all_fields
     check_box = {}
+    if benchmark in ["SWE-bench-verified", "CyberGym"]:
         check_box['essential'] = ['Agent']
     elif benchmark=='PrimeVul':
         check_box['essential'] = ['Model','Method']