Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
Model
|
2 |
+
模型导出时将生成 config.json 和 pytorch_model.bin 参数文件
|
3 |
+
Tokenizer
|
4 |
+
这是一个将纯文本转换为编码的过程。注意,Tokenizer 并不涉及将词转化为词向量的过程,仅仅是将纯文本分词,添加[MASK]标记、[SEP]、[CLS]标记,并转换为字典索引。Tokenizer 类导出时将分为三个文件
|
5 |
+
vocab.txt 词典文件,每一行为一个词或词的一部分
|
6 |
+
special_tokens_map.json 特殊标记的定义方式
|
7 |
+
tokenizer_config.json 配置文件,主要存储特殊的配置
|
8 |
+
模型的所有分词器都是在 PreTrainedTokenizer 中实现的,分词的结果主要有以下内容:
|
9 |
+
"input ids": 顾名思义,是单词在词典中的编码
|
10 |
+
"token type ids":区分两个句子的编码
|
11 |
+
"attention mask":指定对哪些词进行self-Attention操作
|
12 |
+
"overflowing tokens":当指定最大长度时,溢出的单词
|
13 |
+
"num truncated tokens":溢出的token数量
|
14 |
+
"return special tokens mask":如果添加特殊标记,则这是[0,1]的列表,其中0指定特殊添加的标记,而1指定序列标记
|