Spaces:

CoderCowMoo
/

Llama-3-70b-Instruct-Orthoganalized

Runtime error

CoderCowMoo commited on May 5

Commit

d23fc4b

•

1 Parent(s): cdcdc4e

disable exllamav2 and use marlin

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,13 +16,14 @@ tokenizer = AutoTokenizer.from_pretrained(model_id)
 quantize_config = BaseQuantizeConfig(
         bits=4,
         group_size=128,
-        desc_act=False,
-        use_exllama=False
     )
 model = AutoGPTQForCausalLM.from_quantized(
         model_id,
         device="cuda:0",
         use_safetensors=True,
         quantize_config=quantize_config).eval()

 quantize_config = BaseQuantizeConfig(
         bits=4,
         group_size=128,
+        desc_act=False
     )
 model = AutoGPTQForCausalLM.from_quantized(
         model_id,
         device="cuda:0",
         use_safetensors=True,
+        disable_exllamav2=True,
+        use_marlin=True,
         quantize_config=quantize_config).eval()