neuralmagic
/

Meta-Llama-3.1-70B-Instruct-quantized.w4a16

@@ -32,7 +32,7 @@ base_model: meta-llama/Meta-Llama-3.1-70B-Instruct
 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct).
-It achieves an average score of 78.54 on the [OpenLLM](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard) benchmark (version 1), whereas the unquantized model achieves 78.67.
 ### Model Optimizations
@@ -131,14 +131,11 @@ model.save_pretrained("Meta-Llama-3.1-70B-Instruct-quantized.w4a16")
 ## Evaluation
-The model was evaluated on the [OpenLLM](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard) leaderboard tasks (version 1) with the [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness/tree/383bbd54bc621086e05aa1b030d8d4d5635b25e6) (commit 383bbd54bc621086e05aa1b030d8d4d5635b25e6) and the [vLLM](https://docs.vllm.ai/en/stable/) engine, using the following command:
-```
-lm_eval \
-  --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,gpu_memory_utilization=0.4,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
-  --tasks openllm \
-  --batch_size auto
-```
 ### Accuracy
@@ -148,96 +145,170 @@ lm_eval \
    <td><strong>Benchmark</strong>
    </td>
    <td><strong>Meta-Llama-3.1-70B-Instruct </strong>
-   </td>
-    <td><strong>hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4</strong>
    </td>
    <td><strong>Meta-Llama-3.1-70B-Instruct-quantized.w4a16 (this model)</strong>
    </td>
-   <td><strong>Recovery (this model) </strong>
    </td>
   </tr>
   <tr>
    <td>MMLU (5-shot)
    </td>
-   <td>82.21
-   </td>
-   <td>81.42
    </td>
-   <td>81.84
    </td>
-   <td>99.55%
    </td>
   </tr>
   <tr>
-   <td>ARC Challenge (25-shot)
    </td>
-   <td>70.65
-   </td>
-   <td>70.13
    </td>
-   <td>70.05
    </td>
-   <td>99.15%
    </td>
   </tr>
   <tr>
-   <td>GSM-8K (5-shot, strict-match)
    </td>
-   <td>87.95
    </td>
-   <td>90.59
    </td>
-   <td>89.84
    </td>
-   <td>102.15%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
-   </td>
-   <td>86.33
    </td>
-   <td>86.23
    </td>
-   <td>86.24
    </td>
-   <td>99.90%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
-   <td>85.00
    </td>
-   <td>84.53
    </td>
-   <td>84.53
-   </td>
-   <td>99.45%
    </td>
   </tr>
   <tr>
-   <td>TruthfulQA (0-shot)
-   </td>
-   <td>59.90
    </td>
-   <td>59.62
    </td>
    <td>58.74
    </td>
-   <td>98.06%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
-   <td><strong>78.67</strong>
    </td>
-   <td><strong>78.75</strong>
    </td>
-   <td><strong>78.54</strong>
-   </td>
-   <td><strong>99.83%</strong>
    </td>
   </tr>
-</table>

 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct).
+It achieves scores within 1% of the scores of the unquantized model for MMLU, ARC-Challenge, GSM-8k, Hellaswag and Winogrande, and within 3.2% for TruthfulQA.
 ### Model Optimizations
 ## Evaluation
+The model was evaluated on MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande and TruthfulQA.
+Evaluation was conducted using the Neural Magic fork of [lm-evaluation-harness](https://github.com/neuralmagic/lm-evaluation-harness/tree/llama_3.1_instruct) (branch llama_3.1_instruct) and the [vLLM](https://docs.vllm.ai/en/stable/) engine.
+This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challenge and GSM-8K that match the prompting style of [Meta-Llama-3.1-Instruct-evals](https://huggingface.co/datasets/meta-llama/Meta-Llama-3.1-70B-Instruct-evals).
+**Note:** Results have been updated after Meta modified the chat template.
 ### Accuracy
    <td><strong>Benchmark</strong>
    </td>
    <td><strong>Meta-Llama-3.1-70B-Instruct </strong>
    </td>
    <td><strong>Meta-Llama-3.1-70B-Instruct-quantized.w4a16 (this model)</strong>
    </td>
+   <td><strong>Recovery</strong>
    </td>
   </tr>
   <tr>
    <td>MMLU (5-shot)
    </td>
+   <td>83.94
    </td>
+   <td>83.55
    </td>
+   <td>99.5%
    </td>
   </tr>
   <tr>
+   <td>MMLU (CoT, 0-shot)
    </td>
+   <td>86.23
    </td>
+   <td>85.57
    </td>
+   <td>99.2%
    </td>
   </tr>
   <tr>
+   <td>ARC Challenge (0-shot)
+   </td>
+   <td>93.34
+   </td>
+   <td>92.83
    </td>
+   <td>99.5%
    </td>
+  </tr>
+  <tr>
+   <td>GSM-8K (CoT, 8-shot, strict-match)
    </td>
+   <td>95.38
    </td>
+   <td>94.39
+   </td>
+   <td>99.0%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
+   <td>86.66
    </td>
+   <td>86.06
    </td>
+   <td>99.3%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
+   <td>85.32
    </td>
+   <td>85.16
    </td>
+   <td>99.8%
    </td>
   </tr>
   <tr>
+   <td>TruthfulQA (0-shot, mc2)
    </td>
+   <td>60.65
    </td>
    <td>58.74
    </td>
+   <td>96.8%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
+   <td><strong>84.50</strong>
    </td>
+   <td><strong>83.76</strong>
    </td>
+   <td><strong>99.1%</strong>
    </td>
   </tr>
+</table>
+### Reproduction
+The results were obtained using the following commands:
+#### MMLU
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
+  --tasks mmlu_llama_3.1_instruct \
+  --fewshot_as_multiturn \
+  --apply_chat_template \
+  --num_fewshot 5 \
+  --batch_size auto
+```
+#### MMLU-CoT
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
+  --tasks mmlu_cot_0shot_llama_3.1_instruct \
+  --apply_chat_template \
+  --num_fewshot 0 \
+  --batch_size auto
+```
+#### ARC-Challenge
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
+  --tasks arc_challenge_llama_3.1_instruct \
+  --apply_chat_template \
+  --num_fewshot 0 \
+  --batch_size auto
+```
+#### GSM-8K
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
+  --tasks gsm8k_cot_llama_3.1_instruct \
+  --fewshot_as_multiturn \
+  --apply_chat_template \
+  --num_fewshot 8 \
+  --batch_size auto
+```
+#### Hellaswag
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
+  --tasks hellaswag \
+  --num_fewshot 10 \
+  --batch_size auto
+```
+#### Winogrande
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
+  --tasks winogrande \
+  --num_fewshot 5 \
+  --batch_size auto
+```
+#### TruthfulQA
+```
+lm_eval \
+  --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
+  --tasks truthfulqa \
+  --num_fewshot 0 \
+  --batch_size auto
+```