ViperEk
/

KHAOSZ

Safetensors

Chinese

Model card Files Files and versions Community

ViperEk commited on about 1 month ago

Commit

4fb1877

1 Parent(s): 12ae158

Update README.md

Browse files

Files changed (1) hide show

README.md +10 -8

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ license: apache-2.0
 代码遵循 apache-2.0 协议， 使用时请注明代码来源而且不得用于商业用途
 - **设备选择**：当前代码默认使用CUDA进行训练
-- **性能优化**：代码中设置了`dtype=torch.bfloat16`来启用混合精度训练，这有助于提高训练速度和降低显存消耗，但需确保硬件支持此特性。
 - **语言支持**：该模型目前仅仅在中文数据集上训练， 因此通过英文对话可能出现问题， 但是训练tokenzier 的时候加入了英文文段， 也可以解码英文token
 ### 1. 如何训练
@@ -31,10 +31,10 @@ license: apache-2.0
 (2).安装依赖：
-确保您已经安装了所有必要的Python库。根据代码中的导入语句，您需要安装以下库：
 ```bash
-pip install -r requirements.txt1
 ```
 (3).运行训练脚本：
@@ -91,8 +91,9 @@ while True:
     for response, histroy in model.stream_generate(
         query=query,
         history=histroy,
-        temperature=1.0,
-        top_p=0.5
     ):
         print(response[response_size:], end="")
         response_size = len(response)
@@ -118,14 +119,15 @@ while True:
     response =  model.generate(
         query=query,
         history=histroy,
-        temperature=1.0,
-        top_p=0.5
     )
     print(response)
 ```
 ### 其他问题
-本模型基于12层的transformer，参数大致设置如`config.json`，参数大小为2.6亿（0.26b）
 模型采用权重绑定， embedding层的权重和最后线性层的权重是共享的（比较小的模型都采用这种方式节省参数大小， 因为不采用权重绑定， embedding层假设有14000单词， 将会占用 14000 * 1024 = 143,200,000 参数 ， 也就是 0.14b 参数， 因为词表会占用太多的参数， 所以采用权重绑定是小模型的通用方法）

 代码遵循 apache-2.0 协议， 使用时请注明代码来源而且不得用于商业用途
 - **设备选择**：当前代码默认使用CUDA进行训练
+- **性能优化**：代码中设置了`dtype=torch.bfloat16`来启用训练，这有助于提高训练速度和降低显存消耗，但需确保硬件支持此特性。
 - **语言支持**：该模型目前仅仅在中文数据集上训练， 因此通过英文对话可能出现问题， 但是训练tokenzier 的时候加入了英文文段， 也可以解码英文token
 ### 1. 如何训练
 (2).安装依赖：
+确保您已经安装了所有必要的Python库：
 ```bash
+conda env create -f environment.yml --name env_name
 ```
 (3).运行训练脚本：
     for response, histroy in model.stream_generate(
         query=query,
         history=histroy,
+        temperature=0.95,
+        top_p=0.9,
+        top_K=50,
     ):
         print(response[response_size:], end="")
         response_size = len(response)
     response =  model.generate(
         query=query,
         history=histroy,
+        temperature=0.95,
+        top_p=0.9,
+        top_K=50,
     )
     print(response)
 ```
 ### 其他问题
+本模型基于18层的transformer，参数大致设置如`config.json`，参数大小为3.3亿（0.33b）
 模型采用权重绑定， embedding层的权重和最后线性层的权重是共享的（比较小的模型都采用这种方式节省参数大小， 因为不采用权重绑定， embedding层假设有14000单词， 将会占用 14000 * 1024 = 143,200,000 参数 ， 也就是 0.14b 参数， 因为词表会占用太多的参数， 所以采用权重绑定是小模型的通用方法）