lyrallms
能力矩阵
Attn方法 | MEMOPT模式 | KVCache精度 | ||||
---|---|---|---|---|---|---|
Unfused | FlashAttn2 | W4A16 | W8A16 | FP16 | INT8 | |
LLaMA | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
XVERSE | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Baichuan 1/2 (7B及13B) | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ |
ChatGLM | ✅ | ❌ | ❌ | ✅ | ✅ | ❌ |
BELLE | ✅ | ❌ | ❌ | ✅ | ✅ | ❌ |
lyrallms
使用
校准 (Calibration)
参考calibration
文件夹下的README.md 。
Python转换及调用加速模型
LLaMA
参考LyraLlamaPy
文件夹下的README.md 。
Baichuan
参考LyraBaichuanPy
文件夹下的README.md 。