patched-chat

Sleeping

codelion commited on Jun 19

Commit

cea1140

•

1 Parent(s): fd43a4f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,13 +7,13 @@ import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, pipeline
-import subprocess
 # Install flash attention, skipping CUDA build if necessary
-subprocess.run(
-    "pip install flash-attn --no-build-isolation",
-    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
-    shell=True,
-)
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 512
@@ -33,7 +33,8 @@ if not torch.cuda.is_available():
 if torch.cuda.is_available():
-    model_id = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
     model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", load_in_4bit=True,trust_remote_code=True)
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     tokenizer.padding_side = 'right'

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, pipeline
+#import subprocess
 # Install flash attention, skipping CUDA build if necessary
+#subprocess.run(
+#    "pip install flash-attn --no-build-isolation",
+#    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+#    shell=True,
+#)
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 512
 if torch.cuda.is_available():
+    #model_id = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
+    model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
     model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", load_in_4bit=True,trust_remote_code=True)
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     tokenizer.padding_side = 'right'