mobiuslabsgmbh
/

Mixtral-8x7B-v0.1-hf-attn-4bit-moe-2bit-HQQ

Text Generation

Mixture of Experts

Model card Files Files and versions Community

mobicham commited on Dec 18, 2023

Commit

b4d5653

•

1 Parent(s): 88e72ff

Update README.md

Files changed (1) hide show

README.md +30 -1

README.md CHANGED Viewed

@@ -22,4 +22,33 @@ model     = HQQModelForCausalLM.from_quantized(model_id)
 #Optional
 from hqq.core.quantize import *
 HQQLinear.set_backend(HQQBackend.PYTORCH_COMPILE)
-```

 #Optional
 from hqq.core.quantize import *
 HQQLinear.set_backend(HQQBackend.PYTORCH_COMPILE)
+```
+### Quantization
+You can reproduce the model using the following quant configs:
+``` Python
+from hqq.engine.hf import HQQModelForCausalLM, AutoTokenizer
+model_id  = "mistralai/Mixtral-8x7B-v0.1"
+model     = HQQModelForCausalLM.from_pretrained(model_id, use_auth_token=hf_auth, cache_dir=cache_path)
+#Quantize params
+from hqq.core.quantize import *
+attn_prams     = BaseQuantizeConfig(nbits=4, group_size=64, quant_zero=True, quant_scale=True)
+attn_prams['scale_quant_params']['group_size'] = 256
+experts_params = BaseQuantizeConfig(nbits=2, group_size=16, quant_zero=True, quant_scale=True)
+quant_config = {}
+#Attention
+quant_config['self_attn.q_proj'] = attn_prams
+quant_config['self_attn.k_proj'] = attn_prams
+quant_config['self_attn.v_proj'] = attn_prams
+quant_config['self_attn.o_proj'] = attn_prams
+#Experts
+quant_config['block_sparse_moe.experts.w1'] = experts_params
+quant_config['block_sparse_moe.experts.w2'] = experts_params
+quant_config['block_sparse_moe.experts.w3'] = experts_params
+#Quantize
+model.quantize_model(quant_config=quant_config)
+```