RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF
Описание
Эта модель представляет собой квантизированную версию RuadaptQwen2.5-32B-instruct, выполненную с использованием Activation-aware Weight Quantization (AWQ) с 6-битной точностью, а затем экспортированную в формат GGUF.
Конфигурация квантизации
{
"zero_point": true,
"q_group_size": 128,
"w_bit": 6,
"version": "GEMM"
}
Шаги для экспорта в GGUF:
- AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели.
- Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации.
- Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16.
- Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия.
- Downloads last month
- 102
Model tree for pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF
Base model
msu-rcc-lair/RuadaptQwen2.5-32B-instruct