Spaces:

hysts
/

ViTPose_video

Running

App Files Files Community

hysts HF staff commited on Jul 2, 2023

Commit

1fa5a67

•

1 Parent(s): 09e24f9

Update

Browse files

Files changed (5) hide show

.pre-commit-config.yaml +1 -0
README.md +4 -1
app.py +36 -50
model.py +7 -10
requirements.txt +1 -1

.pre-commit-config.yaml CHANGED Viewed

@@ -29,6 +29,7 @@ repos:
   hooks:
     - id: mypy
       args: ['--ignore-missing-imports']
 - repo: https://github.com/google/yapf
   rev: v0.32.0
   hooks:

   hooks:
     - id: mypy
       args: ['--ignore-missing-imports']
+      additional_dependencies: ['types-python-slugify']
 - repo: https://github.com/google/yapf
   rev: v0.32.0
   hooks:

README.md CHANGED Viewed

@@ -4,9 +4,12 @@ emoji: 🦀
 colorFrom: gray
 colorTo: purple
 sdk: gradio
-sdk_version: 3.19.1
 app_file: app.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 colorFrom: gray
 colorTo: purple
 sdk: gradio
+sdk_version: 3.35.2
 app_file: app.py
 pinned: false
+suggested_hardware: t4-small
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+https://arxiv.org/abs/2204.12484

app.py CHANGED Viewed

@@ -9,18 +9,12 @@ import gradio as gr
 from model import AppModel
-DESCRIPTION = '''# ViTPose
-This is an unofficial demo for [https://github.com/ViTAE-Transformer/ViTPose](https://github.com/ViTAE-Transformer/ViTPose).
 Related app: [https://huggingface.co/spaces/Gradio-Blocks/ViTPose](https://huggingface.co/spaces/Gradio-Blocks/ViTPose)
 '''
-def set_example_video(example: list) -> dict:
-    return gr.Video.update(value=example[0])
 def extract_tar() -> None:
     if pathlib.Path('mmdet_configs/configs').exists():
         return
@@ -40,58 +34,54 @@ with gr.Blocks(css='style.css') as demo:
             input_video = gr.Video(label='Input Video',
                                    format='mp4',
                                    elem_id='input_video')
-            detector_name = gr.Dropdown(list(
-                model.det_model.MODEL_DICT.keys()),
-                                        value=model.det_model.model_name,
-                                        label='Detector')
-            pose_model_name = gr.Dropdown(list(
-                model.pose_model.MODEL_DICT.keys()),
-                                          value=model.pose_model.model_name,
-                                          label='Pose Model')
-            det_score_threshold = gr.Slider(0,
-                                            1,
                                             step=0.05,
-                                            value=0.5,
-                                            label='Box Score Threshold')
-            max_num_frames = gr.Slider(1,
-                                       300,
                                        step=1,
-                                       value=60,
-                                       label='Maximum Number of Frames')
-            predict_button = gr.Button(value='Predict')
             pose_preds = gr.Variable()
             paths = sorted(pathlib.Path('videos').rglob('*.mp4'))
-            example_videos = gr.Dataset(components=[input_video],
-                                        samples=[[path.as_posix()]
-                                                 for path in paths])
         with gr.Column():
             result = gr.Video(label='Result', format='mp4', elem_id='result')
             vis_kpt_score_threshold = gr.Slider(
-                0,
-                1,
                 step=0.05,
-                value=0.3,
-                label='Visualization Score Threshold')
-            vis_dot_radius = gr.Slider(1,
-                                       10,
                                        step=1,
-                                       value=4,
-                                       label='Dot Radius')
-            vis_line_thickness = gr.Slider(1,
-                                           10,
                                            step=1,
-                                           value=2,
-                                           label='Line Thickness')
-            redraw_button = gr.Button(value='Redraw')
-    detector_name.change(fn=model.det_model.set_model,
-                         inputs=detector_name,
-                         outputs=None)
     pose_model_name.change(fn=model.pose_model.set_model,
-                           inputs=pose_model_name,
-                           outputs=None)
     predict_button.click(fn=model.run,
                          inputs=[
                              input_video,
@@ -117,8 +107,4 @@ with gr.Blocks(css='style.css') as demo:
                         ],
                         outputs=result)
-    example_videos.click(fn=set_example_video,
-                         inputs=example_videos,
-                         outputs=input_video)
-demo.queue().launch(show_api=False)

 from model import AppModel
+DESCRIPTION = '''# [ViTPose](https://github.com/ViTAE-Transformer/ViTPose)
 Related app: [https://huggingface.co/spaces/Gradio-Blocks/ViTPose](https://huggingface.co/spaces/Gradio-Blocks/ViTPose)
 '''
 def extract_tar() -> None:
     if pathlib.Path('mmdet_configs/configs').exists():
         return
             input_video = gr.Video(label='Input Video',
                                    format='mp4',
                                    elem_id='input_video')
+            detector_name = gr.Dropdown(label='Detector',
+                                        choices=list(
+                                            model.det_model.MODEL_DICT.keys()),
+                                        value=model.det_model.model_name)
+            pose_model_name = gr.Dropdown(
+                label='Pose Model',
+                choices=list(model.pose_model.MODEL_DICT.keys()),
+                value=model.pose_model.model_name)
+            det_score_threshold = gr.Slider(label='Box Score Threshold',
+                                            minimum=0,
+                                            maximum=1,
                                             step=0.05,
+                                            value=0.5)
+            max_num_frames = gr.Slider(label='Maximum Number of Frames',
+                                       minimum=1,
+                                       maximum=300,
                                        step=1,
+                                       value=60)
+            predict_button = gr.Button('Predict')
             pose_preds = gr.Variable()
             paths = sorted(pathlib.Path('videos').rglob('*.mp4'))
+            gr.Examples(examples=[[path.as_posix()] for path in paths],
+                        inputs=input_video)
         with gr.Column():
             result = gr.Video(label='Result', format='mp4', elem_id='result')
             vis_kpt_score_threshold = gr.Slider(
+                label='Visualization Score Threshold',
+                minimum=0,
+                maximum=1,
                 step=0.05,
+                value=0.3)
+            vis_dot_radius = gr.Slider(label='Dot Radius',
+                                       minimum=1,
+                                       maximum=10,
                                        step=1,
+                                       value=4)
+            vis_line_thickness = gr.Slider(label='Line Thickness',
+                                           minimum=1,
+                                           maximum=10,
                                            step=1,
+                                           value=2)
+            redraw_button = gr.Button('Redraw')
+    detector_name.change(fn=model.det_model.set_model, inputs=detector_name)
     pose_model_name.change(fn=model.pose_model.set_model,
+                           inputs=pose_model_name)
     predict_button.click(fn=model.run,
                          inputs=[
                              input_video,
                         ],
                         outputs=result)
+demo.queue(max_size=10).launch()

model.py CHANGED Viewed

@@ -15,7 +15,7 @@ if os.getenv('SYSTEM') == 'spaces':
     subprocess.call(shlex.split('pip uninstall -y opencv-python'))
     subprocess.call(shlex.split('pip uninstall -y opencv-python-headless'))
     subprocess.call(
-        shlex.split('pip install opencv-python-headless==4.5.5.64'))
 import cv2
 import huggingface_hub
@@ -29,8 +29,6 @@ from mmdet.apis import inference_detector, init_detector
 from mmpose.apis import (inference_top_down_pose_model, init_pose_model,
                          process_mmdet_results, vis_pose_result)
-HF_TOKEN = os.getenv('HF_TOKEN')
 class DetModel:
     MODEL_DICT = {
@@ -72,8 +70,8 @@ class DetModel:
             self._load_model(name)
     def _load_model(self, name: str) -> nn.Module:
-        dic = self.MODEL_DICT[name]
-        return init_detector(dic['config'], dic['model'], device=self.device)
     def set_model(self, name: str) -> None:
         if name == self.model_name:
@@ -145,11 +143,10 @@ class PoseModel:
             self._load_model(name)
     def _load_model(self, name: str) -> nn.Module:
-        dic = self.MODEL_DICT[name]
-        ckpt_path = huggingface_hub.hf_hub_download('hysts/ViTPose',
-                                                    dic['model'],
-                                                    use_auth_token=HF_TOKEN)
-        model = init_pose_model(dic['config'], ckpt_path, device=self.device)
         return model
     def set_model(self, name: str) -> None:

     subprocess.call(shlex.split('pip uninstall -y opencv-python'))
     subprocess.call(shlex.split('pip uninstall -y opencv-python-headless'))
     subprocess.call(
+        shlex.split('pip install opencv-python-headless==4.8.0.74'))
 import cv2
 import huggingface_hub
 from mmpose.apis import (inference_top_down_pose_model, init_pose_model,
                          process_mmdet_results, vis_pose_result)
 class DetModel:
     MODEL_DICT = {
             self._load_model(name)
     def _load_model(self, name: str) -> nn.Module:
+        d = self.MODEL_DICT[name]
+        return init_detector(d['config'], d['model'], device=self.device)
     def set_model(self, name: str) -> None:
         if name == self.model_name:
             self._load_model(name)
     def _load_model(self, name: str) -> nn.Module:
+        d = self.MODEL_DICT[name]
+        ckpt_path = huggingface_hub.hf_hub_download('public-data/ViTPose',
+                                                    d['model'])
+        model = init_pose_model(d['config'], ckpt_path, device=self.device)
         return model
     def set_model(self, name: str) -> None:

requirements.txt CHANGED Viewed

@@ -2,7 +2,7 @@ mmcv-full==1.5.0
 mmdet==2.24.1
 mmpose==0.25.1
 numpy==1.23.5
-opencv-python-headless==4.5.5.64
 openmim==0.1.5
 timm==0.5.4
 torch==1.11.0

 mmdet==2.24.1
 mmpose==0.25.1
 numpy==1.23.5
+opencv-python-headless==4.8.0.74
 openmim==0.1.5
 timm==0.5.4
 torch==1.11.0