File size: 692 Bytes
8453337
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
## `lyrallms` 能力矩阵

| |Attn方法| |MEMOPT模式| |KVCache精度| |
|:----|:----|:----|:----|:----|:----|:----|
| |Unfused|FlashAttn2|W4A16|W8A16|FP16|INT8|
|LLaMA|✅|✅|✅|✅|✅|✅|
|XVERSE|✅|✅|✅|✅|✅|✅|
|Baichuan 1/2 (7B及13B)|✅|❌|✅|✅|✅|❌|
|ChatGLM|✅|❌|❌|✅|✅|❌|
|BELLE|✅|❌|❌|✅|✅|❌|

## `lyrallms` 使用

### 校准 (Calibration)

参考`calibration`文件夹下的[README.md](./calibration/README.md) 。

### Python转换及调用加速模型

#### LLaMA

参考`LyraLlamaPy`文件夹下的[README.md](./LyraLlamaPy/README.md) 。

#### Baichuan

参考`LyraBaichuanPy`文件夹下的[README.md](./LyraLlamaPy/README.md) 。