Update README.md
Browse files
README.md
CHANGED
|
@@ -1,6 +1,3 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
---
|
| 4 |
<div align="center">
|
| 5 |
<h1>
|
| 6 |
星辰语义大模型-TeleChat
|
|
@@ -8,18 +5,27 @@ license: apache-2.0
|
|
| 8 |
</div>
|
| 9 |
|
| 10 |
<p align="center">
|
| 11 |
-
🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 💬 <a href="
|
| 12 |
</p>
|
| 13 |
|
| 14 |
<p align="center">
|
| 15 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
| 16 |
</p>
|
| 17 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 18 |
|
| 19 |
# 最新动态
|
| 20 |
-
- 2024.1.10 开源7B版本chat模型及其量化版本
|
| 21 |
-
- 2024.1.11 开源1T中文数据集
|
| 22 |
- 2024.1月底开源12B版本模型(待开放)
|
|
|
|
|
|
|
| 23 |
|
| 24 |
# 模型介绍
|
| 25 |
### 星辰语义大模型-TeleChat
|
|
@@ -37,13 +43,15 @@ license: apache-2.0
|
|
| 37 |
|
| 38 |
| | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
|
| 39 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
| 40 |
-
| 7B | 30 | 4096 | 12288 | 32 | 否
|
|
|
|
|
|
|
| 41 |
---
|
| 42 |
|
| 43 |
我们开源的TeleChat模型:
|
| 44 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
| 45 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
| 46 |
-
- 外推能力提升。开源了8K训练版本模型,采用
|
| 47 |
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
|
| 48 |
|
| 49 |
|
|
@@ -55,6 +63,20 @@ license: apache-2.0
|
|
| 55 |
| 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
|
| 56 |
| 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
|
| 57 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 58 |
|
| 59 |
# 效果评测
|
| 60 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
|
@@ -75,13 +97,10 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
|
|
| 75 |
| Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
|
| 76 |
| TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
|
| 77 |
|
| 78 |
-
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)
|
| 79 |
|
| 80 |
-
#
|
| 81 |
-
### 模型推理
|
| 82 |
-
当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。具体推理操作请参考:[**tutorial**](./docs/tutorial.md)
|
| 83 |
|
| 84 |
-
**模型推理方法示范**
|
| 85 |
```python
|
| 86 |
>>> import os
|
| 87 |
>>> import torch
|
|
@@ -105,12 +124,6 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
|
|
| 105 |
```
|
| 106 |
|
| 107 |
|
| 108 |
-
### 模型部署
|
| 109 |
-
TeleChat目前提供了API、Web两种部署方式。目前仅提供简单的单卡单并发场景,用于演示和效果测试。基于参考快速上手手册:[**tutorial**](./docs/tutorial.md)
|
| 110 |
-
|
| 111 |
-
API: 分为流式接口和json接口,支持传入推理参数
|
| 112 |
-
|
| 113 |
-
Web: 支持流式生成、多轮对话
|
| 114 |
|
| 115 |
# 声明、协议、引用
|
| 116 |
### 声明
|
|
@@ -119,7 +132,7 @@ Web: 支持流式生成、多轮对话
|
|
| 119 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
| 120 |
|
| 121 |
### 协议
|
| 122 |
-
社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱
|
| 123 |
|
| 124 |
### 引用
|
| 125 |
如需引用我们的工作,请使用如下 reference:
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
<div align="center">
|
| 2 |
<h1>
|
| 3 |
星辰语义大模型-TeleChat
|
|
|
|
| 5 |
</div>
|
| 6 |
|
| 7 |
<p align="center">
|
| 8 |
+
🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
|
| 9 |
</p>
|
| 10 |
|
| 11 |
<p align="center">
|
| 12 |
<a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
|
| 13 |
</p>
|
| 14 |
|
| 15 |
+
# 目录
|
| 16 |
+
- [模型介绍](#模型介绍)
|
| 17 |
+
- [数据开源](#数据开源)
|
| 18 |
+
- [效果评测](#效果评测)
|
| 19 |
+
- [模型推理和部署](#模型推理和部署)
|
| 20 |
+
- [模型微调](#模型微调)
|
| 21 |
+
- [模型量化](#模型量化)
|
| 22 |
+
- [国产GPU适配](#国产GPU适配)
|
| 23 |
+
- [声明、协议、引用](#声明协议引用)
|
| 24 |
|
| 25 |
# 最新动态
|
|
|
|
|
|
|
| 26 |
- 2024.1月底开源12B版本模型(待开放)
|
| 27 |
+
- 2024.1.11 开源1T中文数据集
|
| 28 |
+
- 2024.1.10 开源7B版本chat模型及其量化版本
|
| 29 |
|
| 30 |
# 模型介绍
|
| 31 |
### 星辰语义大模型-TeleChat
|
|
|
|
| 43 |
|
| 44 |
| | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
|
| 45 |
|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
|
| 46 |
+
| 7B | 30 | 4096 | 12288 | 32 | 否 |
|
| 47 |
+
| 12B | 38 | 5120 | 12288 | 32 | 否 |
|
| 48 |
+
|
| 49 |
---
|
| 50 |
|
| 51 |
我们开源的TeleChat模型:
|
| 52 |
- 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
|
| 53 |
- 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
|
| 54 |
+
- 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K。
|
| 55 |
- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
|
| 56 |
|
| 57 |
|
|
|
|
| 63 |
| 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
|
| 64 |
| 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
|
| 65 |
|
| 66 |
+
**镜像下载**
|
| 67 |
+
为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) (访问码:2uik)
|
| 68 |
+
|
| 69 |
+
# 数据开源
|
| 70 |
+
### 数据介绍
|
| 71 |
+
TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。
|
| 72 |
+
|
| 73 |
+
TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。
|
| 74 |
+
|
| 75 |
+
### 数据下载
|
| 76 |
+
|
| 77 |
+
huggingface下载地址:TODO
|
| 78 |
+
|
| 79 |
+
天翼云盘下载地址:TODO
|
| 80 |
|
| 81 |
# 效果评测
|
| 82 |
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
|
|
|
|
| 97 |
| Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
|
| 98 |
| TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
|
| 99 |
|
| 100 |
+
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评��,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
|
| 101 |
|
| 102 |
+
# 模型推理
|
|
|
|
|
|
|
| 103 |
|
|
|
|
| 104 |
```python
|
| 105 |
>>> import os
|
| 106 |
>>> import torch
|
|
|
|
| 124 |
```
|
| 125 |
|
| 126 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 127 |
|
| 128 |
# 声明、协议、引用
|
| 129 |
### 声明
|
|
|
|
| 132 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
| 133 |
|
| 134 |
### 协议
|
| 135 |
+
社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 tele_ai@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
|
| 136 |
|
| 137 |
### 引用
|
| 138 |
如需引用我们的工作,请使用如下 reference:
|