EXL2相较于GPTQ和AWQ, 有较低的模型和上下文显存占用, 更适合在消费端部署. 请问是否能提供EXL2量化版本? 例如4.0bpw
自己量化了一个: Orion-zhen/Llama3-70B-Chinese-Chat-4.0bpw-exl2
· Sign up or log in to comment