TheBloke
/

Llama-2-7B-Chat-AWQ

Text Generation

text-generation-inference

4-bit precision

Model card Files Files and versions Community

TheBloke commited on Sep 18, 2023

Commit

2ebd04b

•

1 Parent(s): 0fc2eb6

Upload README.md

Files changed (1) hide show

README.md +4 -2

README.md CHANGED Viewed

@@ -167,7 +167,8 @@ from transformers import AutoTokenizer
 model_name_or_path = "TheBloke/Llama-2-7b-Chat-AWQ"
 # Load model
-model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True, trust_remote_code=False)
 tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)
 prompt = "Tell me about AI"
@@ -195,9 +196,10 @@ generation_output = model.generate(
     max_new_tokens=512
 )
-print("Output: ", tokenizer.decode(output[0]))
 # Inference can also be done using transformers' pipeline
 print("*** Pipeline:")
 pipe = pipeline(

 model_name_or_path = "TheBloke/Llama-2-7b-Chat-AWQ"
 # Load model
+model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
+                                          trust_remote_code=False, safetensors=True)
 tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)
 prompt = "Tell me about AI"
     max_new_tokens=512
 )
+print("Output: ", tokenizer.decode(generation_output[0]))
 # Inference can also be done using transformers' pipeline
+from transformers import pipeline
 print("*** Pipeline:")
 pipe = pipeline(