Text Generation
Transformers
Safetensors
Chinese
English
qwen
custom_code

Qwen-7b训练细节

#1
by songkq - opened

Hello,方便说明下Qwen-7b的训练细节~感谢
训练数据最大长度是32k?单卡A40(45GB显存)是否可以做32k微调?是否用到DeepSpeed Zero3?
训练使用QLoRA配置,单卡A800训练使用的batchsize和gradient_accumulation_steps以及显存占用量是多少?

32k长度微调至少要60G显存, batchsize=1, gradient_accumulation_steps=16

好的,了解了~

需要使用Qlora,4bit量化原模型。训练时,在loss计算完成后,将logits设为None(因为返回logits会占用大量显存)。32k微调占用约55-70G显存

logits=None奇淫巧技学到了~

Sign up or log in to comment