Spaces:

SkalskiP
/

SAM_and_ProPainter

Runtime error

App Files Files Community

SkalskiP commited on Nov 2, 2023

Commit

5b163f1

•

1 Parent(s): 7b4534e

Revise to support video processing with Supervision

Browse files

This update entirely overhauls the application to replace the existing image processing functionality with a custom video processing implementation.

Files changed (3) hide show

README.md +1 -1
app.py +39 -19
requirements.txt +1 -0

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🎨
 colorFrom: pink
 colorTo: purple
 sdk: gradio
-sdk_version: 4.0.2
 app_file: app.py
 pinned: false
 ---

 colorFrom: pink
 colorTo: purple
 sdk: gradio
+sdk_version: 3.50.2
 app_file: app.py
 pinned: false
 ---

app.py CHANGED Viewed

@@ -1,33 +1,53 @@
-from typing import Dict
 import gradio as gr
-import torch
-from PIL import Image
-from transformers import SamModel, SamProcessor
-DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-MODEL = SamModel.from_pretrained("facebook/sam-vit-large").to(DEVICE)
-PROCESSOR = SamProcessor.from_pretrained("facebook/sam-vit-large")
-def inference(masked_image: Dict[str, Image.Image]) -> Image.Image:
-    image = masked_image['image']
-    mask = masked_image['mask'].resize((256, 256), Image.Resampling.LANCZOS)
-    return image
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
-            input_image = gr.Image(
-                image_mode='RGB', type='pil', tool="sketch", interactive=True,
-                brush_radius=20.0, brush_color="#FFFFFF", height=500)
             submit_button = gr.Button("Submit")
-        output_image = gr.Image(image_mode='RGB', type='pil')
     submit_button.click(
-        inference,
-        inputs=[input_image],
-        outputs=output_image)
-demo.launch(debug=False, show_error=True)

+import time
+import uuid
+from typing import Tuple
 import gradio as gr
+import supervision as sv
+from tqdm import tqdm
+START_FRAME = 0
+END_FRAME = 10
+TOTAL = END_FRAME - START_FRAME
+def process(
+    source_video: str,
+    prompt: str,
+    confidence: float,
+    progress=gr.Progress(track_tqdm=True)
+) -> Tuple[str, str]:
+    name = str(uuid.uuid4())
+    video_info = sv.VideoInfo.from_video_path(source_video)
+    frame_iterator = iter(sv.get_video_frames_generator(
+        source_path=source_video, start=START_FRAME, end=END_FRAME))
+    with sv.VideoSink(f"{name}.mp4", video_info=video_info) as sink:
+        for _ in tqdm(range(TOTAL), desc="Masking frames"):
+            frame = next(frame_iterator)
+            sink.write_frame(frame)
+            time.sleep(0.1)
+    return f"{name}.mp4", f"{name}.mp4"
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
+            source_video_player = gr.Video(
+                label="Source video", source="upload", format="mp4")
+            prompt_text = gr.Textbox(
+                label="Prompt", value="person")
+            confidence_slider = gr.Slider(
+                label="Confidence", minimum=0.5, maximum=1.0, step=0.05, value=0.6)
             submit_button = gr.Button("Submit")
+        with gr.Column():
+            masked_video_player = gr.Video(label="Masked video")
+            painted_video_player = gr.Video(label="Painted video")
     submit_button.click(
+        process,
+        inputs=[source_video_player, prompt_text, confidence_slider],
+        outputs=[masked_video_player, painted_video_player])
+demo.queue().launch(debug=False, show_error=True)

requirements.txt CHANGED Viewed

@@ -3,6 +3,7 @@ torch
 torchvision
 numpy
 pillow
 gradio==3.50.2
 transformers

 torchvision
 numpy
+opencv-python
 pillow
 gradio==3.50.2
 transformers