metadata
license: unlicense
ChatGalRWKV
关于项目的名字:chat就是猫(法语),gal就是娘(英语)。
本项目基于RWKV,它是一系列从预训练数据、训练代码、推理代码到模型权重都完全开源的大语言模型,并且与基于transformer的模型相比有诸多优势。
可以使用Colab脚本自建服务运行最近模型。
加入我们
- QQ群:766121889
- Discord: https://discord.gg/68GtKQ3v3K
现有模型检查点介绍
纯Gal语料微调模型
- rwkv-chatgal-v1-3B 试验性早期模型,基于RWKV-Novel-3B-v1-Chn
- 共训练了21000步,训练文本长度4096,batchsize4,梯度累积4
- rwkv-chatgal-v2-7B 基于RWKV-Raven-7B-v10x
- 共训练了14000步,训练文本长度4096,batchsize8,数据并行4卡。以lora的方式训练,rank为16,alpha32。
- 仓库中放出了合并权重loramerge和纯lora权重。
- 使用纯lora权重时,需要使用正确的底模自行合并。