ctx7
/

gemma-2b

@@ -362,7 +362,7 @@ metrics to cover different aspects of text generation:
 | [MMLU](https://arxiv.org/abs/2009.03300)                   | 5-shot, top-1 | 42.3        | 64.3      |
 | [HellaSwag](https://arxiv.org/abs/1905.07830)         | 0-shot        |71.4        | 81.2      |
 | [PIQA](https://arxiv.org/abs/1911.11641)                   | 0-shot        | 77.3        | 81.2      |
-| [SocialIQA](https://arxiv.org/abs/1904.09728)      | 0-shot        | 59.7        | 51.8      |
 | [BooIQ](https://arxiv.org/abs/1905.10044)                | 0-shot        | 69.4        | 83.2      |
 | [WinoGrande](https://arxiv.org/abs/1907.10641)       | partial score | 65.4        | 72.3      |
 | [CommonsenseQA](https://arxiv.org/abs/1811.00937) | 7-shot        | 65.3        | 71.3      |
@@ -370,7 +370,7 @@ metrics to cover different aspects of text generation:
 | [ARC-e](https://arxiv.org/abs/1911.01547)                  |               | 73.2        | 81.5      |
 | [ARC-c](https://arxiv.org/abs/1911.01547)                   |               | 42.1        | 53.2      |
 | [TriviaQA](https://arxiv.org/abs/1705.03551)           | 5-shot        | 53.2        | 63.4      |
-| [Natural Questions](https://github.com/google-research-datasets/natural-questions)  | 5-shot        | -       | 23        |
 | [HumanEval](https://arxiv.org/abs/2107.03374)      | pass@1        | 22.0        | 32.3      |
 | [MBPP](https://arxiv.org/abs/2108.07732)                   | 3-shot        | 29.2        | 44.4      |
 | [GSM8K](https://arxiv.org/abs/2110.14168)                | maj@1         | 17.7        | 46.4      |
@@ -378,7 +378,8 @@ metrics to cover different aspects of text generation:
 | [AGIEval](https://arxiv.org/abs/2304.06364)           |               | 24.2        | 41.7      |
 | [BIG-Bench](https://arxiv.org/abs/2206.04615)         |               | 35.2        | 55.1      |
 | ------------------------------ | ------------- | ----------- | --------- |
-| **Average**                    |               | **54.0**    | **56.4**  |
 ## Ethics and Safety

 | [MMLU](https://arxiv.org/abs/2009.03300)                   | 5-shot, top-1 | 42.3        | 64.3      |
 | [HellaSwag](https://arxiv.org/abs/1905.07830)         | 0-shot        |71.4        | 81.2      |
 | [PIQA](https://arxiv.org/abs/1911.11641)                   | 0-shot        | 77.3        | 81.2      |
+| [SocialIQA](https://arxiv.org/abs/1904.09728)      | 0-shot        | 49.7        | 51.8      |
 | [BooIQ](https://arxiv.org/abs/1905.10044)                | 0-shot        | 69.4        | 83.2      |
 | [WinoGrande](https://arxiv.org/abs/1907.10641)       | partial score | 65.4        | 72.3      |
 | [CommonsenseQA](https://arxiv.org/abs/1811.00937) | 7-shot        | 65.3        | 71.3      |
 | [ARC-e](https://arxiv.org/abs/1911.01547)                  |               | 73.2        | 81.5      |
 | [ARC-c](https://arxiv.org/abs/1911.01547)                   |               | 42.1        | 53.2      |
 | [TriviaQA](https://arxiv.org/abs/1705.03551)           | 5-shot        | 53.2        | 63.4      |
+| [Natural Questions](https://github.com/google-research-datasets/natural-questions)  | 5-shot        | 12.5       | 23        |
 | [HumanEval](https://arxiv.org/abs/2107.03374)      | pass@1        | 22.0        | 32.3      |
 | [MBPP](https://arxiv.org/abs/2108.07732)                   | 3-shot        | 29.2        | 44.4      |
 | [GSM8K](https://arxiv.org/abs/2110.14168)                | maj@1         | 17.7        | 46.4      |
 | [AGIEval](https://arxiv.org/abs/2304.06364)           |               | 24.2        | 41.7      |
 | [BIG-Bench](https://arxiv.org/abs/2206.04615)         |               | 35.2        | 55.1      |
 | ------------------------------ | ------------- | ----------- | --------- |
+| **Average**                    |               | **45.0**    | **56.9**  |
 ## Ethics and Safety