使用了Megatron CPT训练的轻小说大模型

使用了Pai Megatron + 32K Sequence Length + FP8 + H100 集群训练

这个模型是CPT版本。使用了32K为目标切分的小说,所以可以输入非常长的内容,不过int8量化的话我不好说 (24G卡BF16 32K content windows, 杂鱼!)

关于数据

  1. 轻小说数据在7G左右,这个版本是CPT版本,没有SFT,请不要期待指令跟随。
  2. Roleplay数据非常容易导致过拟合,增加猫箱的RP数据会导致小说的续写长度变短,并且没有发现anime girl效果变好。(几家app用户大多是同人女的关系?)
  3. h-corpus质量参差不齐,只采样了一些,用了与轻小说数据量相同的7G左右的文本。(这个数据集与轻小说没有完全太重合,考虑pixiv子集)
  4. SFT的数据没有准备好,涉及到summary文章再写作,还有给定章节续写,对话的RP依旧非常头痛。
  5. h-corpus的summary暂时没有做,summary用的模型一时没有太好的选择。

轻小说数据来源包括 https://github.com/ixinzhi/lightnovel-2023 清洗脚本晚些可能公开

7B模型整体效果感觉马马虎虎,不过由于整体数据没有太被污染,效果明显。

已经训练好32B的模型(TP=8 FP8),32B版本逻辑性明显好。(搬到huggingface比较久)

如果模型载入有问题的话,请用qwen2.5原本的tokenizer、vocab等等覆盖一下,我只有权重的megatron转换出来的。

模型的翻译腔是预期效果?

image/png

Downloads last month
22
Safetensors
Model size
7.62B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for shigureui/lightnovel_cpt

Base model

Qwen/Qwen2.5-7B
Finetuned
(103)
this model
Quantizations
2 models

Dataset used to train shigureui/lightnovel_cpt