llama-3.2-3B-Instruct

Running on Zero

hysts HF staff commited on Jul 29

Commit

157da2e

•

1 Parent(s): 16143a7

Not use 8 bit quantization

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,12 +5,7 @@ from typing import Iterator
 import gradio as gr
 import spaces
 import torch
-from transformers import (
-    AutoModelForCausalLM,
-    BitsAndBytesConfig,
-    GemmaTokenizerFast,
-    TextIteratorStreamer,
-)
 DESCRIPTION = """\
 # Gemma 2 2B IT
@@ -34,7 +29,6 @@ model = AutoModelForCausalLM.from_pretrained(
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
-    quantization_config=BitsAndBytesConfig(load_in_8bit=True),
 )
 model.config.sliding_window = 4096
 model.eval()

 import gradio as gr
 import spaces
 import torch
+from transformers import AutoModelForCausalLM, GemmaTokenizerFast, TextIteratorStreamer
 DESCRIPTION = """\
 # Gemma 2 2B IT
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
 )
 model.config.sliding_window = 4096
 model.eval()