Commit
·
46fcfec
1
Parent(s):
36a0ec2
Update README.md
Browse files
README.md
CHANGED
|
@@ -78,4 +78,51 @@ Hard acc:48.03
|
|
| 78 |
|
| 79 |
## GSM8K
|
| 80 |
|
| 81 |
-
**Zero-shot ACC 0.5921152388172858** (Outperforms WizardMath-7B and Qwen-7B)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 78 |
|
| 79 |
## GSM8K
|
| 80 |
|
| 81 |
+
**Zero-shot ACC 0.5921152388172858** (Outperforms WizardMath-7B and Qwen-7B)
|
| 82 |
+
|
| 83 |
+
## 请读我:
|
| 84 |
+
|
| 85 |
+
另请参阅[14B版本](https://huggingface.co/CausalLM/14B)
|
| 86 |
+
|
| 87 |
+
该模型是基于Qwen和LLaMA2的模型权重进行训练的。训练过程中使用了与LLaMA2相同的模型结构,使用原始MHA LLaMA2模型的相同注意力计算方法,对相对位置编码(RoPE)没有进行额外的缩放。
|
| 88 |
+
|
| 89 |
+
我们手动筛选了一个包含13亿个标记的SFT数据集进行训练,利用了Hugging Face的开源数据集。对于大多数句子,我们进行了手动或合成改写,并使用更大的语言模型生成了其他语言版本。此外,我们还使用了精心挑选的来自维基百科的条目、来自Fandom的精选条目以及来自萌娘百科的过滤条目进行增强文本训练。为了在效率和质量之间取得平衡,训练所使用的100%数据都是合成数据,没有直接使用来自互联网或公开可用数据集的原始文本进行微调。
|
| 90 |
+
|
| 91 |
+
7B版本的模型是14B模型的精简版本,专门设计用于推测抽样。因此,在直接使用模型时,需要谨慎行事,因为它可能会产生幻觉或不可靠的输出。
|
| 92 |
+
|
| 93 |
+
请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施RLHF,也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。
|
| 94 |
+
|
| 95 |
+
额外奖励:模型在LLaVA1.5中引入的提示格式上进行了一些微调,与图像注意力计算无关。因此,将ViT投影模块与冻结的LM对齐,并根据视觉指令实施快速实现有效的多模态能力。
|
| 96 |
+
|
| 97 |
+
## 提示格式:
|
| 98 |
+
[chatml](https://github.com/openai/openai-python/blob/main/chatml.md)
|
| 99 |
+
|
| 100 |
+
**系统提示不能为空!**
|
| 101 |
+
|
| 102 |
+
## MMLU:
|
| 103 |
+
STEM准确率:56.83
|
| 104 |
+
|
| 105 |
+
人文学科准确率:58.79
|
| 106 |
+
|
| 107 |
+
其他准确率:70.04
|
| 108 |
+
|
| 109 |
+
社会学准确率:72.41
|
| 110 |
+
|
| 111 |
+
平均准确率:63.82 (优于/平于最好的 Mistral-7B 聊天格式的微调。)
|
| 112 |
+
|
| 113 |
+
## CEval(验证集):
|
| 114 |
+
STEM准确率:61.67
|
| 115 |
+
|
| 116 |
+
社会科学准确率:81.94
|
| 117 |
+
|
| 118 |
+
人文学科准确率:77.19
|
| 119 |
+
|
| 120 |
+
其他准确率:68.35
|
| 121 |
+
|
| 122 |
+
困难准确率:48.03
|
| 123 |
+
|
| 124 |
+
**平均准确率:70.27** (优于当前所有7B模型。)
|
| 125 |
+
|
| 126 |
+
## GSM8K
|
| 127 |
+
|
| 128 |
+
**零样本准确率0.5921152388172858** (优于WizardMath-7B和Qwen-7B)
|