Kunger commited on
Commit
7c5bece
·
verified ·
1 Parent(s): d1f187f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +28 -3
README.md CHANGED
@@ -1,3 +1,28 @@
1
- ---
2
- license: cc-by-nc-sa-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-sa-4.0
3
+ language:
4
+ - ja
5
+ - zh
6
+ pipeline_tag: text-generation
7
+ ---
8
+
9
+ ## SakuraLLM去量化模型
10
+
11
+ ### 为什么要去量化?
12
+ llama.cpp在某些设备上受支持情况不佳,推理速度受限,我们可能希望使用pytorch进行推理,于是使用transformers库对GGUF模型进行去量化操作。
13
+
14
+ ### 原始模型是啥
15
+
16
+ [https://huggingface.co/SakuraLLM/Sakura-14B-Qwen2.5-v1.0-GGUF](SakuraLLM/Sakura-14B-Qwen2.5-v1.0-GGUF)仓库中的sakura-14b-qwen2.5-v1.0-q6k.gguf
17
+
18
+ ### 我想自己去量化
19
+
20
+ Transformers现已支持GGUF模型去量化,使用```AutoModelForCausalLM.from_pretrained```加载GGUF模型即可
21
+
22
+ ### 好用吗?
23
+
24
+ 使用Q6K模型去量化,模型精度远低于F16,对于推理产生的结果未进行测试。
25
+
26
+ ### 其他问题
27
+
28
+ 去量化后发现tokenizer的词表发生变化,不知道是否会对使用产生影响,你可以使用QWEN2.5模型中的词表替换这部分数据。