Qwen-7b训练细节
#1
by
songkq
- opened
Hello,方便说明下Qwen-7b的训练细节~感谢
训练数据最大长度是32k?单卡A40(45GB显存)是否可以做32k微调?是否用到DeepSpeed Zero3?
训练使用QLoRA配置,单卡A800训练使用的batchsize和gradient_accumulation_steps以及显存占用量是多少?
32k长度微调至少要60G显存, batchsize=1, gradient_accumulation_steps=16
好的,了解了~
需要使用Qlora,4bit量化原模型。训练时,在loss计算完成后,将logits设为None(因为返回logits会占用大量显存)。32k微调占用约55-70G显存
logits=None奇淫巧技学到了~