--- license: cc-by-nc-4.0 datasets: - yuyijiong/LongData-Corpus - yuyijiong/Long-Instruction-Chinese language: - zh pipeline_tag: text-generation --- # 版本区别 | 模型 | 基座模型 | 位置插值 | 训练方式 | 训练数据 | |:-------------------------:|:-----------:|:------------:|:--:|:--:| | LongAlpaca-7b-16k-chinese | atom-7b | 8k->16k PI |指令微调 | 长度16k以内的多文档问答、论文总结、论文问答数据 | | LongAlpaca-7b-32k-chinese | atom-7b | 8k->32k PI | 指令微调 | 长度32k以内的多文档问答、论文总结、论文问答、sharegpt数据 | | LongAlpaca-7b-32k-chinese-v2 | CausalLM-7b | 8k->32k Yarn | 增量预训练+指令微调 |长度32k的中文预训练数据 + 长度32k以内的多文档多轮问答、论文多任务多轮问答、sharegpt、中英翻译数据 |