Qwen-7b训练细节

by songkq - opened Jan 5

Jan 5

Hello，方便说明下Qwen-7b的训练细节～感谢
训练数据最大长度是32k？单卡A40（45GB显存）是否可以做32k微调？是否用到DeepSpeed Zero3？
训练使用QLoRA配置，单卡A800训练使用的batchsize和gradient_accumulation_steps以及显存占用量是多少？

yuyijiong

Owner Jan 5

32k长度微调至少要60G显存, batchsize=1, gradient_accumulation_steps=16

songkq

Jan 5

好的，了解了～

yuyijiong

Owner Jan 5

需要使用Qlora，4bit量化原模型。训练时，在loss计算完成后，将logits设为None（因为返回logits会占用大量显存）。32k微调占用约55-70G显存

songkq

Jan 5

•

edited Jan 5

logits=None奇淫巧技学到了～

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment