Florence-2-SD3-Captioner-CPU

Paused

App Files Files Community

ChandimaPrabath commited on Jun 26

Commit

30085b1

•

1 Parent(s): 71141aa

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -8

app.py CHANGED Viewed

@@ -2,16 +2,14 @@ import gradio as gr
 from transformers import AutoProcessor, AutoModelForCausalLM
 import spaces
 import re
-from PIL import Image
-import subprocess
-subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
-model = AutoModelForCausalLM.from_pretrained('gokaygokay/Florence-2-SD3-Captioner', trust_remote_code=True).to("cuda").eval()
 processor = AutoProcessor.from_pretrained('gokaygokay/Florence-2-SD3-Captioner', trust_remote_code=True)
 TITLE = "# [Florence-2 SD3 Long Captioner](https://huggingface.co/gokaygokay/Florence-2-SD3-Captioner/)"
 DESCRIPTION = "[Florence-2 Base](https://huggingface.co/microsoft/Florence-2-base-ft) fine-tuned on Long SD3 Prompt and Image pairs. Check above link for datasets that are used for fine-tuning."
@@ -53,7 +51,7 @@ def run_example(image):
     if image.mode != "RGB":
         image = image.convert("RGB")
-    inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
     generated_ids = model.generate(
         input_ids=inputs["input_ids"],
         pixel_values=inputs["pixel_values"],
@@ -64,7 +62,6 @@ def run_example(image):
     parsed_answer = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))
     return modify_caption(parsed_answer["<DESCRIPTION>"])
 css = """
   #output {
     height: 500px;
@@ -94,4 +91,4 @@ with gr.Blocks(css=css) as demo:
         submit_btn.click(run_example, [input_img], [output_text])
-demo.launch(debug=True)

 from transformers import AutoProcessor, AutoModelForCausalLM
 import spaces
 import re
+from PIL import Image
+# No need to install flash-attn since it's GPU-specific
+model = AutoModelForCausalLM.from_pretrained('gokaygokay/Florence-2-SD3-Captioner', trust_remote_code=True).eval()
 processor = AutoProcessor.from_pretrained('gokaygokay/Florence-2-SD3-Captioner', trust_remote_code=True)
 TITLE = "# [Florence-2 SD3 Long Captioner](https://huggingface.co/gokaygokay/Florence-2-SD3-Captioner/)"
 DESCRIPTION = "[Florence-2 Base](https://huggingface.co/microsoft/Florence-2-base-ft) fine-tuned on Long SD3 Prompt and Image pairs. Check above link for datasets that are used for fine-tuning."
     if image.mode != "RGB":
         image = image.convert("RGB")
+    inputs = processor(text=prompt, images=image, return_tensors="pt")
     generated_ids = model.generate(
         input_ids=inputs["input_ids"],
         pixel_values=inputs["pixel_values"],
     parsed_answer = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))
     return modify_caption(parsed_answer["<DESCRIPTION>"])
 css = """
   #output {
     height: 500px;
         submit_btn.click(run_example, [input_img], [output_text])
+demo.launch(debug=True)