LLM360
/

CrystalChat

@@ -37,9 +37,9 @@ model-index:
       type: openai_humanneval
       name: OpenAI HumanEval
     metrics:
-    - name: pass@1 (t=0.01)
       type: pass@1
-      value: 31.707
     - name: pass@10 (t=0.8)
       type: pass@10
       value: 65.755
@@ -49,9 +49,9 @@ model-index:
       type: mbpp
       name: Mostly Basic Python Problems (mbpp)
     metrics:
-    - name: pass@1 (t=0.01)
       type: pass@1
-      value: 39.4
     - name: pass@10 (t=0.8)
       type: pass@10
       value: 59.895
@@ -61,7 +61,7 @@ model-index:
       type: race
       name: RACE
     metrics:
-    - name: accuracy
       type: accuracy
       value: 41.148
   - task:
@@ -70,7 +70,10 @@ model-index:
       type: mmlu
       name: Measuring Massive Multitask Language Understanding (MMLU)
     metrics:
-    - name: accuracy
       type: accuracy
       value: 52.789
   - task:
@@ -79,7 +82,7 @@ model-index:
       type: truthful_qa
       name: Truthful QA
     metrics:
-    - name: accuracy
       type: accuracy
       value: 47.29
   - task:
@@ -100,7 +103,7 @@ model-index:
       type: copa
       name: COPA
     metrics:
-    - name: accuracy
       type: accuracy
       value: 85
   - task:
@@ -109,7 +112,7 @@ model-index:
       type: boolq
       name: Boolq
     metrics:
-    - name: accuracy
       type: accuracy
       value: 82.783
   - task:
@@ -118,7 +121,7 @@ model-index:
       type: openbookqa
       name: Openbook QA
     metrics:
-    - name: accuracy
       type: accuracy
       value: 42
   - task:
@@ -139,7 +142,7 @@ model-index:
       type: piqa
       name: PIQA
     metrics:
-    - name: accuracy
       type: accuracy
       value: 77.856
   - task:
@@ -148,7 +151,7 @@ model-index:
       type: ai2_arc
       name: ARC (Easy)
     metrics:
-    - name: accuracy
       type: accuracy
       value: 70.328
   - task:

       type: openai_humanneval
       name: OpenAI HumanEval
     metrics:
+    - name: pass@1 (t=0.2)
       type: pass@1
+      value: 34.116
     - name: pass@10 (t=0.8)
       type: pass@10
       value: 65.755
       type: mbpp
       name: Mostly Basic Python Problems (mbpp)
     metrics:
+    - name: pass@1 (t=0.1)
       type: pass@1
+      value: 39.112
     - name: pass@10 (t=0.8)
       type: pass@10
       value: 59.895
       type: race
       name: RACE
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 41.148
   - task:
       type: mmlu
       name: Measuring Massive Multitask Language Understanding (MMLU)
     metrics:
+    - name: accuracy (5 shot)
+      type: accuracy
+      value: 53.215
+    - name: accuracy (0 shot)
       type: accuracy
       value: 52.789
   - task:
       type: truthful_qa
       name: Truthful QA
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 47.29
   - task:
       type: copa
       name: COPA
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 85
   - task:
       type: boolq
       name: Boolq
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 82.783
   - task:
       type: openbookqa
       name: Openbook QA
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 42
   - task:
       type: piqa
       name: PIQA
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 77.856
   - task:
       type: ai2_arc
       name: ARC (Easy)
     metrics:
+    - name: accuracy (0 shot)
       type: accuracy
       value: 70.328
   - task: