Spaces:

ServiceNow
/

browsergym-leaderboard

Running

App Files Files Community

Aman-J commited on 6 days ago

Commit

a437028

1 Parent(s): 6218e4b

fix names

Browse files

Files changed (22) hide show

results/GenericAgent-Claude-3.7-Sonnet/webarena.json +2 -2
results/GenericAgent-Claude-4-Sonnet/miniwob.json +2 -2
results/GenericAgent-Claude-4-Sonnet/workarena-l1.json +2 -2
results/GenericAgent-Claude-4-Sonnet/workarena-l2.json +2 -2
results/{GenericAgent-GPT-4_1-Mini → GenericAgent-GPT-4.1-Mini}/README.md +0 -0
results/{GenericAgent-GPT-4_1-Mini → GenericAgent-GPT-4.1-Mini}/webarena.json +2 -2
results/GenericAgent-GPT-5-mini/miniwob.json +1 -1
results/GenericAgent-GPT-5-mini/workarena-l1.json +2 -2
results/GenericAgent-GPT-5-mini/workarena-l2.json +2 -2
results/GenericAgent-GPT-5-nano/miniwob.json +1 -1
results/GenericAgent-GPT-5-nano/workarena-l1.json +2 -2
results/GenericAgent-GPT-5-nano/workarena-l2.json +2 -2
results/GenericAgent-GPT-5/miniwob.json +1 -1
results/GenericAgent-GPT-5/workarena-l1.json +4 -19
results/GenericAgent-GPT-5/workarena-l2.json +2 -2
results/GenericAgent-GPT-5/workarena-l3.json +2 -2
results/GenericAgent-GPT-oss-120b/miniwob.json +1 -1
results/GenericAgent-GPT-oss-120b/workarena-l1.json +2 -2
results/GenericAgent-GPT-oss-120b/workarena-l2.json +2 -2
results/GenericAgent-GPT-oss-20b/miniwob.json +1 -1
results/GenericAgent-GPT-oss-20b/workarena-l1.json +2 -2
results/GenericAgent-GPT-oss-20b/workarena-l2.json +2 -2

results/GenericAgent-Claude-3.7-Sonnet/webarena.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
     {
-    "agent_name": "GenericAgent-claude-3-7-sonnet",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Webarena",
     "score": 0.446,
     "std_err": 0.025,
     "benchmark_specific": "No",

 [
     {
+    "agent_name": "GenericAgent-Claude-3.7-Sonnet",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WebArena",
     "score": 0.446,
     "std_err": 0.025,
     "benchmark_specific": "No",

results/GenericAgent-Claude-4-Sonnet/miniwob.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
     {
-    "agent_name": "GenericAgent-claude-sonnet-4",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Miniwob",
     "score": 0.707,
     "std_err": 0.018,
     "benchmark_specific": "No",

 [
     {
+    "agent_name": "GenericAgent-Claude-4-Sonnet",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "MiniWoB",
     "score": 0.707,
     "std_err": 0.018,
     "benchmark_specific": "No",

results/GenericAgent-Claude-4-Sonnet/workarena-l1.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
     {
-    "agent_name": "GenericAgent-claude-sonnet-4-20250514",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.633,
     "std_err": 0.027,
     "benchmark_specific": "No",

 [
     {
+    "agent_name": "GenericAgent-Claude-4-Sonnet",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.633,
     "std_err": 0.027,
     "benchmark_specific": "No",

results/GenericAgent-Claude-4-Sonnet/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
     {
-    "agent_name": "GenericAgent-claude-sonnet-4-20250514",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.404,
     "std_err": 0.032,
     "benchmark_specific": "No",

 [
     {
+    "agent_name": "GenericAgent-Claude-4-Sonnet",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.404,
     "std_err": 0.032,
     "benchmark_specific": "No",

results/{GenericAgent-GPT-4_1-Mini → GenericAgent-GPT-4.1-Mini}/README.md RENAMED Viewed

File without changes

results/{GenericAgent-GPT-4_1-Mini → GenericAgent-GPT-4.1-Mini}/webarena.json RENAMED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-4.1-mini",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "webarena",
     "score": 0.307,
     "std_err": 0.024,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-4.1-Mini",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WebArena",
     "score": 0.307,
     "std_err": 0.024,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5-mini/miniwob.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-mini",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.71,

 [
   {
+    "agent_name": "GenericAgent-GPT-5-mini",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.71,

results/GenericAgent-GPT-5-mini/workarena-l1.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-mini",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.606,
     "std_err": 0.027,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-5-mini",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.606,
     "std_err": 0.027,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5-mini/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-mini",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.477,
     "std_err": 0.033,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-5-mini",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.477,
     "std_err": 0.033,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5-nano/miniwob.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
  {
-    "agent_name": "GenericAgent-gpt-5-nano",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.648,

 [
  {
+    "agent_name": "GenericAgent-GPT-5-nano",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.648,

results/GenericAgent-GPT-5-nano/workarena-l1.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-nano",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.406,
     "std_err": 0.027,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-5-nano",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.406,
     "std_err": 0.027,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5-nano/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-nano",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.034,
     "std_err": 0.012,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-5-nano",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.034,
     "std_err": 0.012,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5/miniwob.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-2025-08-07",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.715,

 [
   {
+    "agent_name": "GenericAgent-GPT-5",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.715,

results/GenericAgent-GPT-5/workarena-l1.json CHANGED Viewed

@@ -1,22 +1,8 @@
 [
-  {
-    "agent_name": "GenericAgent-gpt-5-2025-08-07",
-    "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
-    "score": 0.661,
-    "std_err": 0.026,
-    "benchmark_specific": "No",
-    "benchmark_tuned": "No",
-    "followed_evaluation_protocol": "Yes",
-    "reproducible": "Yes",
-    "comments": "NA",
-    "original_or_reproduced": "Original",
-    "date_time": "2025-08-07 21:09:16"
-  },
    {
-    "agent_name": "GenericAgent-gpt-5-2025-08-07",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.791,
     "std_err": 0.022,
     "benchmark_specific": "No",
@@ -26,6 +12,5 @@
     "comments": "Increased max_steps from 15 to 30",
     "original_or_reproduced": "Original",
     "date_time": "2025-08-07 21:09:16"
-  }
-]

 [
    {
+    "agent_name": "GenericAgent-GPT-5",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.791,
     "std_err": 0.022,
     "benchmark_specific": "No",
     "comments": "Increased max_steps from 15 to 30",
     "original_or_reproduced": "Original",
     "date_time": "2025-08-07 21:09:16"
+  }
+]

results/GenericAgent-GPT-5/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-5-2025-08-07",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.694,
     "std_err": 0.03,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-5",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.694,
     "std_err": 0.03,
     "benchmark_specific": "No",

results/GenericAgent-GPT-5/workarena-l3.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
     {
-    "agent_name": "GenericAgent-gpt-5-2025-08-07",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L3",
     "score": 0.115,
     "std_err": 0.021,
     "benchmark_specific": "No",

 [
     {
+    "agent_name": "GenericAgent-GPT-5",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L3",
     "score": 0.115,
     "std_err": 0.021,
     "benchmark_specific": "No",

results/GenericAgent-GPT-oss-120b/miniwob.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
   {
-    "agent_name": "GenericAgent-openai_gpt-oss-120b",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.664,

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-120b",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.664,

results/GenericAgent-GPT-oss-120b/workarena-l1.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-openai_gpt-oss-120b",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.509,
     "std_err": 0.028,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-120b",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.509,
     "std_err": 0.028,
     "benchmark_specific": "No",

results/GenericAgent-GPT-oss-120b/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-openai_gpt-oss-120b",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.115,
     "std_err": 0.021,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-120b",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.115,
     "std_err": 0.021,
     "benchmark_specific": "No",

results/GenericAgent-GPT-oss-20b/miniwob.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
   {
-    "agent_name": "GenericAgent-openai_gpt-oss-20b",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.64,

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-20b",
     "study_id": "2025-08-07_21-09-16",
     "benchmark": "MiniWoB",
     "score": 0.64,

results/GenericAgent-GPT-oss-20b/workarena-l1.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-oss-20b",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L1",
     "score": 0.385,
     "std_err": 0.027,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-20b",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L1",
     "score": 0.385,
     "std_err": 0.027,
     "benchmark_specific": "No",

results/GenericAgent-GPT-oss-20b/workarena-l2.json CHANGED Viewed

@@ -1,8 +1,8 @@
 [
   {
-    "agent_name": "GenericAgent-gpt-oss-20b",
     "study_id": "2025-08-07_21-09-16",
-    "benchmark": "Workarena-L2",
     "score": 0.026,
     "std_err": 0.01,
     "benchmark_specific": "No",

 [
   {
+    "agent_name": "GenericAgent-GPT-oss-20b",
     "study_id": "2025-08-07_21-09-16",
+    "benchmark": "WorkArena-L2",
     "score": 0.026,
     "std_err": 0.01,
     "benchmark_specific": "No",