neuralmagic
/

granite-3.1-2b-instruct-quantized.w8a8

@@ -178,7 +178,7 @@ OpenLLM Leaderboard V2:
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/granite-3.1-2b-instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True \
   --tasks leaderboard \
   --write_out \
   --batch_size auto \
@@ -212,35 +212,116 @@ evalplus.evaluate \
 ### Accuracy
-#### OpenLLM Leaderboard V1 evaluation scores
-| Metric                                  | ibm-granite/granite-3.1-2b-instruct             | neuralmagic/granite-3.1-2b-instruct-quantized.w8a8 |
-|-----------------------------------------|:---------------------------------:|:-------------------------------------------:|
-| ARC-Challenge (Acc-Norm, 25-shot)       | 55.63                             | 55.12                                       |
-| GSM8K (Strict-Match, 5-shot)            | 60.96                             | 60.58                                       |
-| HellaSwag (Acc-Norm, 10-shot)           | 75.21                             | 74.60                                       |
-| MMLU (Acc, 5-shot)                      | 54.38                             | 54.12                                        |
-| TruthfulQA (MC2, 0-shot)                | 55.93                             | 54.87                                        |
-| Winogrande (Acc, 5-shot)                | 69.67                             | 70.80                                       |
-| **Average Score**                       | **61.98**                         | **61.68**                                   |
-| **Recovery**                            | **100.00**                        | **99.51**                                   |
-#### OpenLLM Leaderboard V2 evaluation scores
-| Metric                                  | ibm-granite/granite-3.1-2b-instruct             | neuralmagic/granite-3.1-2b-instruct-quantized.w8a8 |
-|-----------------------------------------|:---------------------------------:|:-------------------------------------------:|
-| IFEval (Inst Level Strict Acc, 0-shot)| 67.99                           | 67.03                                          |
-| BBH (Acc-Norm, 3-shot)            | 44.11                             | 43.53                                        |
-| Math-Hard (Exact-Match, 4-shot)   | 8.66                            | 8.04                                        |
-| GPQA (Acc-Norm, 0-shot)           | 28.30                             | 27.60                                        |
-| MUSR (Acc-Norm, 0-shot)           | 35.12                             | 34.58                                          |
-| MMLU-Pro (Acc, 5-shot)            | 26.87                             | 26.89                                        |
-| **Average Score**                 | **35.17**                         | **34.61**                                    |
-| **Recovery**                      | **100.00**                         | **98.40**                                    |
-#### HumanEval pass@1 scores
-| Metric                                  | ibm-granite/granite-3.1-2b-instruct             | neuralmagic/granite-3.1-2b-instruct-quantized.w8a8 |
-|-----------------------------------------|:---------------------------------:|:-------------------------------------------:|
-| HumanEval Pass@1                        | 53.40                             | 54.9                                      |
 ## Inference Performance

 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/granite-3.1-2b-instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True \
   --tasks leaderboard \
   --write_out \
   --batch_size auto \
 ### Accuracy
+<table>
+  <thead>
+    <tr>
+      <th>Category</th>
+      <th>Metric</th>
+      <th>ibm-granite/granite-3.1-2b-instruct</th>
+      <th>neuralmagic/granite-3.1-2b-instruct-quantized.w8a8</th>
+      <th>Recovery (%)</th>
+    </tr>
+  </thead>
+  <tbody>
+    <!-- OpenLLM Leaderboard V1 -->
+    <tr>
+      <td rowspan="7"><b>OpenLLM V1</b></td>
+      <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
+      <td>55.63</td>
+      <td>55.12</td>
+      <td>99.08</td>
+    </tr>
+    <tr>
+      <td>GSM8K (Strict-Match, 5-shot)</td>
+      <td>60.96</td>
+      <td>60.58</td>
+      <td>99.38</td>
+    </tr>
+    <tr>
+      <td>HellaSwag (Acc-Norm, 10-shot)</td>
+      <td>75.21</td>
+      <td>74.60</td>
+      <td>99.19</td>
+    </tr>
+    <tr>
+      <td>MMLU (Acc, 5-shot)</td>
+      <td>54.38</td>
+      <td>54.12</td>
+      <td>99.52</td>
+    </tr>
+    <tr>
+      <td>TruthfulQA (MC2, 0-shot)</td>
+      <td>55.93</td>
+      <td>54.87</td>
+      <td>98.10</td>
+    </tr>
+    <tr>
+      <td>Winogrande (Acc, 5-shot)</td>
+      <td>69.67</td>
+      <td>70.80</td>
+      <td>101.62</td>
+    </tr>
+    <tr>
+      <td><b>Average Score</b></td>
+      <td><b>61.98</b></td>
+      <td><b>61.68</b></td>
+      <td><b>99.51</b></td>
+    </tr>
+    <!-- OpenLLM Leaderboard V2 -->
+    <tr>
+      <td rowspan="7"><b>OpenLLM V2</b></td>
+      <td>IFEval (Inst Level Strict Acc, 0-shot)</td>
+      <td>67.99</td>
+      <td>67.03</td>
+      <td>98.59</td>
+    </tr>
+    <tr>
+      <td>BBH (Acc-Norm, 3-shot)</td>
+      <td>44.11</td>
+      <td>43.53</td>
+      <td>98.69</td>
+    </tr>
+    <tr>
+      <td>Math-Hard (Exact-Match, 4-shot)</td>
+      <td>8.66</td>
+      <td>8.04</td>
+      <td>92.89</td>
+    </tr>
+    <tr>
+      <td>GPQA (Acc-Norm, 0-shot)</td>
+      <td>28.30</td>
+      <td>27.60</td>
+      <td>97.52</td>
+    </tr>
+    <tr>
+      <td>MUSR (Acc-Norm, 0-shot)</td>
+      <td>35.12</td>
+      <td>34.58</td>
+      <td>98.46</td>
+    </tr>
+    <tr>
+      <td>MMLU-Pro (Acc, 5-shot)</td>
+      <td>26.87</td>
+      <td>26.89</td>
+      <td>100.07</td>
+    </tr>
+    <tr>
+      <td><b>Average Score</b></td>
+      <td><b>35.17</b></td>
+      <td><b>34.61</b></td>
+      <td><b>98.40</b></td>
+    </tr>
+    <!-- HumanEval -->
+    <tr>
+      <td rowspan="2"><b>HumanEval</b></td>
+      <td>HumanEval Pass@1</td>
+      <td>53.40</td>
+      <td>54.90</td>
+      <td><b>102.81</b></td>
+    </tr>
+  </tbody>
+</table>
 ## Inference Performance