Update README.md
Browse files
README.md
CHANGED
@@ -17,7 +17,7 @@ license: apache-2.0
|
|
17 |
代码遵循 apache-2.0 协议, 使用时请注明代码来源而且不得用于商业用途
|
18 |
|
19 |
- **设备选择**:当前代码默认使用CUDA进行训练
|
20 |
-
- **性能优化**:代码中设置了`dtype=torch.bfloat16
|
21 |
- **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token
|
22 |
|
23 |
### 1. 如何训练
|
@@ -31,10 +31,10 @@ license: apache-2.0
|
|
31 |
|
32 |
(2).安装依赖:
|
33 |
|
34 |
-
确保您已经安装了所有必要的Python
|
35 |
|
36 |
```bash
|
37 |
-
|
38 |
```
|
39 |
|
40 |
(3).运行训练脚本:
|
@@ -91,8 +91,9 @@ while True:
|
|
91 |
for response, histroy in model.stream_generate(
|
92 |
query=query,
|
93 |
history=histroy,
|
94 |
-
temperature=
|
95 |
-
top_p=0.
|
|
|
96 |
):
|
97 |
print(response[response_size:], end="")
|
98 |
response_size = len(response)
|
@@ -118,14 +119,15 @@ while True:
|
|
118 |
response = model.generate(
|
119 |
query=query,
|
120 |
history=histroy,
|
121 |
-
temperature=
|
122 |
-
top_p=0.
|
|
|
123 |
)
|
124 |
print(response)
|
125 |
```
|
126 |
|
127 |
### 其他问题
|
128 |
-
本模型基于
|
129 |
|
130 |
模型采用权重绑定, embedding层的权重和最后线性层的权重是共享的(比较小的模型都采用这种方式节省参数大小, 因为不采用权重绑定, embedding层假设有14000单词, 将会占用 14000 * 1024 = 143,200,000 参数 , 也就是 0.14b 参数, 因为词表会占用太多的参数, 所以采用权重绑定是小模型的通用方法)
|
131 |
|
|
|
17 |
代码遵循 apache-2.0 协议, 使用时请注明代码来源而且不得用于商业用途
|
18 |
|
19 |
- **设备选择**:当前代码默认使用CUDA进行训练
|
20 |
+
- **性能优化**:代码中设置了`dtype=torch.bfloat16`来启用训练,这有助于提高训练速度和降低显存消耗,但需确保硬件支持此特性。
|
21 |
- **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token
|
22 |
|
23 |
### 1. 如何训练
|
|
|
31 |
|
32 |
(2).安装依赖:
|
33 |
|
34 |
+
确保您已经安装了所有必要的Python库:
|
35 |
|
36 |
```bash
|
37 |
+
conda env create -f environment.yml --name env_name
|
38 |
```
|
39 |
|
40 |
(3).运行训练脚本:
|
|
|
91 |
for response, histroy in model.stream_generate(
|
92 |
query=query,
|
93 |
history=histroy,
|
94 |
+
temperature=0.95,
|
95 |
+
top_p=0.9,
|
96 |
+
top_K=50,
|
97 |
):
|
98 |
print(response[response_size:], end="")
|
99 |
response_size = len(response)
|
|
|
119 |
response = model.generate(
|
120 |
query=query,
|
121 |
history=histroy,
|
122 |
+
temperature=0.95,
|
123 |
+
top_p=0.9,
|
124 |
+
top_K=50,
|
125 |
)
|
126 |
print(response)
|
127 |
```
|
128 |
|
129 |
### 其他问题
|
130 |
+
本模型基于18层的transformer,参数大致设置如`config.json`,参数大小为3.3亿(0.33b)
|
131 |
|
132 |
模型采用权重绑定, embedding层的权重和最后线性层的权重是共享的(比较小的模型都采用这种方式节省参数大小, 因为不采用权重绑定, embedding层假设有14000单词, 将会占用 14000 * 1024 = 143,200,000 参数 , 也就是 0.14b 参数, 因为词表会占用太多的参数, 所以采用权重绑定是小模型的通用方法)
|
133 |
|