请问一下这个模型在llama.cpp中支持cuda加速吗?

#1
by liquid123 - opened

我通过make GGML_MUSA=1对llama.cpp进行了编译;
通过以下的命令运行:
./llama-cli -m /home/liquid/.cache/llama.cpp/omost-llama-3-8b-q8_0.gguf -ngl 35 --prompt "who are you?"
但是我发现推理的速度很慢,而且GPU利用率也很低(没有使用GPU)。
2024-08-05 12-00-52 的屏幕截图.png

支持的。

cuda 应该是GGML_CUDA=1吧

是我编译的参数设置错了,重新编译之后再运行就快多了。

Sign up or log in to comment