LDD commited on
Commit
2230066
·
1 Parent(s): 0bfc192

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +14 -0
README.md ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Model
2
+ 模型导出时将生成 config.json 和 pytorch_model.bin 参数文件
3
+ Tokenizer
4
+ 这是一个将纯文本转换为编码的过程。注意,Tokenizer 并不涉及将词转化为词向量的过程,仅仅是将纯文本分词,添加[MASK]标记、[SEP]、[CLS]标记,并转换为字典索引。Tokenizer 类导出时将分为三个文件
5
+ vocab.txt 词典文件,每一行为一个词或词的一部分
6
+ special_tokens_map.json 特殊标记的定义方式
7
+ tokenizer_config.json 配置文件,主要存储特殊的配置
8
+ 模型的所有分词器都是在 PreTrainedTokenizer 中实现的,分词的结果主要有以下内容:
9
+ "input ids": 顾名思义,是单词在词典中的编码
10
+ "token type ids":区分两个句子的编码
11
+ "attention mask":指定对哪些词进行self-Attention操作
12
+ "overflowing tokens":当指定最大长度时,溢出的单词
13
+ "num truncated tokens":溢出的token数量
14
+ "return special tokens mask":如果添加特殊标记,则这是[0,1]的列表,其中0指定特殊添加的标记,而1指定序列标记