Safetensors
Chinese
ViperEk commited on
Commit
4fb1877
·
1 Parent(s): 12ae158

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -8
README.md CHANGED
@@ -17,7 +17,7 @@ license: apache-2.0
17
  代码遵循 apache-2.0 协议, 使用时请注明代码来源而且不得用于商业用途
18
 
19
  - **设备选择**:当前代码默认使用CUDA进行训练
20
- - **性能优化**:代码中设置了`dtype=torch.bfloat16`来启用混合精度训练,这有助于提高训练速度和降低显存消耗,但需确保硬件支持此特性。
21
  - **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token
22
 
23
  ### 1. 如何训练
@@ -31,10 +31,10 @@ license: apache-2.0
31
 
32
  (2).安装依赖:
33
 
34
- 确保您已经安装了所有必要的Python库。根据代码中的导入语句,您需要安装以下库:
35
 
36
  ```bash
37
- pip install -r requirements.txt1
38
  ```
39
 
40
  (3).运行训练脚本:
@@ -91,8 +91,9 @@ while True:
91
  for response, histroy in model.stream_generate(
92
  query=query,
93
  history=histroy,
94
- temperature=1.0,
95
- top_p=0.5
 
96
  ):
97
  print(response[response_size:], end="")
98
  response_size = len(response)
@@ -118,14 +119,15 @@ while True:
118
  response = model.generate(
119
  query=query,
120
  history=histroy,
121
- temperature=1.0,
122
- top_p=0.5
 
123
  )
124
  print(response)
125
  ```
126
 
127
  ### 其他问题
128
- 本模型基于12层的transformer,参数大致设置如`config.json`,参数大小为2.6亿(0.26b
129
 
130
  模型采用权重绑定, embedding层的权重和最后线性层的权重是共享的(比较小的模型都采用这种方式节省参数大小, 因为不采用权重绑定, embedding层假设有14000单词, 将会占用 14000 * 1024 = 143,200,000 参数 , 也就是 0.14b 参数, 因为词表会占用太多的参数, 所以采用权重绑定是小模型的通用方法)
131
 
 
17
  代码遵循 apache-2.0 协议, 使用时请注明代码来源而且不得用于商业用途
18
 
19
  - **设备选择**:当前代码默认使用CUDA进行训练
20
+ - **性能优化**:代码中设置了`dtype=torch.bfloat16`来启用训练,这有助于提高训练速度和降低显存消耗,但需确保硬件支持此特性。
21
  - **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token
22
 
23
  ### 1. 如何训练
 
31
 
32
  (2).安装依赖:
33
 
34
+ 确保您已经安装了所有必要的Python库:
35
 
36
  ```bash
37
+ conda env create -f environment.yml --name env_name
38
  ```
39
 
40
  (3).运行训练脚本:
 
91
  for response, histroy in model.stream_generate(
92
  query=query,
93
  history=histroy,
94
+ temperature=0.95,
95
+ top_p=0.9,
96
+ top_K=50,
97
  ):
98
  print(response[response_size:], end="")
99
  response_size = len(response)
 
119
  response = model.generate(
120
  query=query,
121
  history=histroy,
122
+ temperature=0.95,
123
+ top_p=0.9,
124
+ top_K=50,
125
  )
126
  print(response)
127
  ```
128
 
129
  ### 其他问题
130
+ 本模型基于18层的transformer,参数大致设置如`config.json`,参数大小为3.3亿(0.33b
131
 
132
  模型采用权重绑定, embedding层的权重和最后线性层的权重是共享的(比较小的模型都采用这种方式节省参数大小, 因为不采用权重绑定, embedding层假设有14000单词, 将会占用 14000 * 1024 = 143,200,000 参数 , 也就是 0.14b 参数, 因为词表会占用太多的参数, 所以采用权重绑定是小模型的通用方法)
133