ChatGalRWKV / README.md
wanicca's picture
Update README.md
55355ed
|
raw
history blame
1.55 kB
metadata
license: unlicense

ChatGalRWKV

关于项目的名字:chat就是猫(法语),gal就是娘(英语)。

本项目基于RWKV,它是一系列从预训练数据、训练代码、推理代码到模型权重都完全开源的大语言模型,并且与基于transformer的模型相比有诸多优势。

可以使用Colab脚本自建服务运行最近模型。

加入我们

现有模型检查点介绍

纯Gal语料微调模型

  • rwkv-chatgal-v1-3B 试验性早期模型,基于RWKV-Novel-3B-v1-Chn
    • 共训练了21000步,训练文本长度4096,batchsize4,梯度累积4
  • rwkv-chatgal-v2-7B 基于RWKV-Raven-7B-v10x
    • 共训练了14000步,训练文本长度4096,batchsize8,数据并行4卡。以lora的方式训练,rank为16,alpha32。
    • 仓库中放出了合并权重loramerge纯lora权重
    • 使用纯lora权重时,需要使用正确的底模自行合并。