貌似很拉跨，一个7B的模型3090显存都不够载入，要是不安装它推荐的加速包，速度慢的像狗。

#12

by boxter007 - opened Aug 4, 2023

Discussion

boxter007

Aug 4, 2023

貌似很拉跨，一个7B的模型3090显存都不够载入，要是不安装它推荐的加速包，速度慢的像狗。

Weiguo

Aug 4, 2023

这是目前开源模型性能最好的了

Losin94

Qwen org Aug 4, 2023

速度确实有点慢，相比我们内部框架慢了10倍左右，目前还在看HF版本的原因。

logicwong

Qwen org Aug 4, 2023

3090完全载入完全没问题的。是不是没开bf16？试下

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()

YorickHe

Aug 4, 2023

3090完全没问题啊

zhuhai123

Aug 5, 2023

简单乘法： 4 （float32） * 7B = 28G > 24G. 如果用fp16的话是 2 * 7 = 14G < 24g就可以加载了
默认的慢也是正常的，你用的是transformer的库，和模型没关系。
3090 可以换一下A100或者H100 就快了

hackersilentchen

Aug 7, 2023

似乎只能用一个CPU线程，这可能是慢的主要原因吧

boxter007

Aug 7, 2023

这是目前开源模型性能最好的了

性能最好的是GLM2-6B吧

aleimu

Aug 7, 2023

性能最好的中文模型听说是百川的

Yuguo

Aug 9, 2023

用vllm加速跑的飞快

dlutsniper

Aug 11, 2023

用vllm加速跑的飞快

请问vllm加速测试在什么样的GPU上面呀？

tli0312

Aug 11, 2023

3090没问题，刚试了测试程序，4bit用40%RAM, 8bit用50%RAM，不调用bitsandbytes用70%RAM左右，速度很快

Yuguo

Aug 14, 2023

用vllm加速跑的飞快

请问vllm加速测试在什么样的GPU上面呀？

我是在A100上测的哈

mikeee

Aug 19, 2023

4bit版貌似 11G 够了
参看在T4 small上运行的 https://huggingface.co/spaces/mikeee/qwen-7b-chat

dkwwww

Aug 24, 2023

确实很占显存，在单张teslav100上分别运行chatglm2-6b和qwen-7b，输入长模板进行问答，qwen会报显存不够的错误。

Cristianoo

Sep 27, 2023

3090完全载入完全没问题的。是不是没开bf16？试下

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()

我之前测试3090加载推理也没有问题，但是微调没跑得起来，这个有跑过微调吗，需要多大的显存？ max-length: 1024, bs: 1

jklj077 changed discussion status to closed Dec 21, 2023

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment