JosephusCheung commited on
Commit
46fcfec
·
1 Parent(s): 36a0ec2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +48 -1
README.md CHANGED
@@ -78,4 +78,51 @@ Hard acc:48.03
78
 
79
  ## GSM8K
80
 
81
- **Zero-shot ACC 0.5921152388172858** (Outperforms WizardMath-7B and Qwen-7B)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
 
79
  ## GSM8K
80
 
81
+ **Zero-shot ACC 0.5921152388172858** (Outperforms WizardMath-7B and Qwen-7B)
82
+
83
+ ## 请读我:
84
+
85
+ 另请参阅[14B版本](https://huggingface.co/CausalLM/14B)
86
+
87
+ 该模型是基于Qwen和LLaMA2的模型权重进行训练的。训练过程中使用了与LLaMA2相同的模型结构,使用原始MHA LLaMA2模型的相同注意力计算方法,对相对位置编码(RoPE)没有进行额外的缩放。
88
+
89
+ 我们手动筛选了一个包含13亿个标记的SFT数据集进行训练,利用了Hugging Face的开源数据集。对于大多数句子,我们进行了手动或合成改写,并使用更大的语言模型生成了其他语言版本。此外,我们还使用了精心挑选的来自维基百科的条目、来自Fandom的精选条目以及来自萌娘百科的过滤条目进行增强文本训练。为了在效率和质量之间取得平衡,训练所使用的100%数据都是合成数据,没有直接使用来自互联网或公开可用数据集的原始文本进行微调。
90
+
91
+ 7B版本的模型是14B模型的精简版本,专门设计用于推测抽样。因此,在直接使用模型时,需要谨慎行事,因为它可能会产生幻觉或不可靠的输出。
92
+
93
+ 请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施RLHF,也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。
94
+
95
+ 额外奖励:模型在LLaVA1.5中引入的提示格式上进行了一些微调,与图像注意力计算无关。因此,将ViT投影模块与冻结的LM对齐,并根据视觉指令实施快速实现有效的多模态能力。
96
+
97
+ ## 提示格式:
98
+ [chatml](https://github.com/openai/openai-python/blob/main/chatml.md)
99
+
100
+ **系统提示不能为空!**
101
+
102
+ ## MMLU:
103
+ STEM准确率:56.83
104
+
105
+ 人文学科准确率:58.79
106
+
107
+ 其他准确率:70.04
108
+
109
+ 社会学准确率:72.41
110
+
111
+ 平均准确率:63.82 (优于/平于最好的 Mistral-7B 聊天格式的微调。)
112
+
113
+ ## CEval(验证集):
114
+ STEM准确率:61.67
115
+
116
+ 社会科学准确率:81.94
117
+
118
+ 人文学科准确率:77.19
119
+
120
+ 其他准确率:68.35
121
+
122
+ 困难准确率:48.03
123
+
124
+ **平均准确率:70.27** (优于当前所有7B模型。)
125
+
126
+ ## GSM8K
127
+
128
+ **零样本准确率0.5921152388172858** (优于WizardMath-7B和Qwen-7B)