neuralmagic
/

Meta-Llama-3.1-8B-Instruct-quantized.w4a16

@@ -150,7 +150,7 @@ Detailed model outputs are available as HuggingFace datasets for [Arena-Hard](ht
    </td>
    <td><strong>Meta-Llama-3.1-8B-Instruct </strong>
    </td>
-   <td><strong>Meta-Llama-3.1-8B-Instruct-quantized.w8a8 (this model)</strong>
    </td>
    <td><strong>Recovery</strong>
    </td>
@@ -513,7 +513,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_pt_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -525,7 +525,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_es_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -537,7 +537,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_it_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -549,7 +549,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_de_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -561,7 +561,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_fr_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -573,7 +573,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_hi_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
@@ -585,7 +585,7 @@ lm_eval \
 ```
 lm_eval \
   --model vllm \
-  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_th_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \

    </td>
    <td><strong>Meta-Llama-3.1-8B-Instruct </strong>
    </td>
+   <td><strong>Meta-Llama-3.1-8B-Instruct-quantized.w4a16 (this model)</strong>
    </td>
    <td><strong>Recovery</strong>
    </td>
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_pt_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_es_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_it_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_de_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_fr_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_hi_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \
 ```
 lm_eval \
   --model vllm \
+  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
   --tasks mmlu_th_llama_3.1_instruct \
   --fewshot_as_multiturn \
   --apply_chat_template \