Spaces:

lixin4ever
/

VideoLLaMA2-AV

Running on Zero

App Files Files Community

update audio case

by youngsheen - opened Oct 24

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

+16

-39

Files changed (9) hide show

app.py +10 -27
examples/Y--ZHUMfueO0.flac +0 -0
examples/{1034346401.mp4 → bird-twitter-car.wav} +2 -2
examples/desert.jpg +0 -0
examples/{Traffic and pedestrians.wav → door.of.bar.raining2.wav} +2 -2
examples/extreme_ironing.jpg +0 -0
examples/sample_demo_3.mp4 +0 -3
examples/sample_demo_9.mp4 +0 -3
examples/waterview.jpg +0 -0

app.py CHANGED Viewed

@@ -97,8 +97,9 @@ class Chat:
 @spaces.GPU(duration=120)
-def generate(image, video, audio, message, chatbot, va_tag, textbox_in, temperature, top_p, max_output_tokens, dtype=torch.float16):
     data = []
     processor = handler.processor
     try:
@@ -182,7 +183,7 @@ def generate(image, video, audio, message, chatbot, va_tag, textbox_in, temperat
     one_turn_chat[1] = text_en_out
     chatbot.append(one_turn_chat)
-    return gr.update(value=image, interactive=True), gr.update(value=video, interactive=True), gr.update(value=audio, interactive=True), message, chatbot
 def regenerate(message, chatbot):
@@ -226,8 +227,6 @@ with gr.Blocks(title='VideoLLaMA 2 🔥🚀🔥', theme=theme, css=block_css) as
     with gr.Row():
         with gr.Column(scale=3):
-            #image = gr.Image(label="Input Image", type="filepath")
-            image = None
             video = gr.Video(label="Input Video")
             audio = gr.Audio(label="Input Audio", type="filepath")
@@ -287,22 +286,6 @@ with gr.Blocks(title='VideoLLaMA 2 🔥🚀🔥', theme=theme, css=block_css) as
     with gr.Row():
         cur_dir = os.path.dirname(os.path.abspath(__file__))
-        '''
-        with gr.Column():
-            gr.Examples(
-                examples=[
-                    [
-                        f"{cur_dir}/examples/extreme_ironing.jpg",
-                        "What happens in this image?",
-                    ],
-                    [
-                        f"{cur_dir}/examples/waterview.jpg",
-                        "What are the things I should be cautious about when I visit here?",
-                    ],
-                ],
-                inputs=[image, textbox],
-            )
-        '''
         with gr.Column():
             gr.Examples(
                 examples=[
@@ -336,11 +319,11 @@ with gr.Blocks(title='VideoLLaMA 2 🔥🚀🔥', theme=theme, css=block_css) as
             gr.Examples(
                 examples=[
                     [
-                        f"{cur_dir}/examples/Y--ZHUMfueO0.flac",
                         "Please describe the audio.",
                     ],
                     [
-                        f"{cur_dir}/examples/Traffic and pedestrians.wav",
                         "Please describe the audio.",
                     ],
                 ],
@@ -352,20 +335,20 @@ with gr.Blocks(title='VideoLLaMA 2 🔥🚀🔥', theme=theme, css=block_css) as
     submit_btn.click(
         generate,
-        [image, video, audio, message, chatbot, va_tag, textbox, temperature, top_p, max_output_tokens],
-        [image, video, audio, message, chatbot])
     regenerate_btn.click(
         regenerate,
         [message, chatbot],
         [message, chatbot]).then(
         generate,
-        [image, video, audio, message, chatbot, va_tag, textbox, temperature, top_p, max_output_tokens],
-        [image, video, audio, message, chatbot])
     clear_btn.click(
         clear_history,
         [message, chatbot],
-        [image, video, audio, message, chatbot, textbox])
 demo.launch(share=False)

 @spaces.GPU(duration=120)
+def generate(video, audio, message, chatbot, va_tag, textbox_in, temperature, top_p, max_output_tokens, dtype=torch.float16):
     data = []
+    image = None
     processor = handler.processor
     try:
     one_turn_chat[1] = text_en_out
     chatbot.append(one_turn_chat)
+    return gr.update(value=video, interactive=True), gr.update(value=audio, interactive=True), message, chatbot
 def regenerate(message, chatbot):
     with gr.Row():
         with gr.Column(scale=3):
             video = gr.Video(label="Input Video")
             audio = gr.Audio(label="Input Audio", type="filepath")
     with gr.Row():
         cur_dir = os.path.dirname(os.path.abspath(__file__))
         with gr.Column():
             gr.Examples(
                 examples=[
             gr.Examples(
                 examples=[
                     [
+                        f"{cur_dir}/examples/bird-twitter-car.wav",
                         "Please describe the audio.",
                     ],
                     [
+                        f"{cur_dir}/examples/door.of.bar.raining2.wav",
                         "Please describe the audio.",
                     ],
                 ],
     submit_btn.click(
         generate,
+        [video, audio, message, chatbot, va_tag, textbox, temperature, top_p, max_output_tokens],
+        [video, audio, message, chatbot])
     regenerate_btn.click(
         regenerate,
         [message, chatbot],
         [message, chatbot]).then(
         generate,
+        [video, audio, message, chatbot, va_tag, textbox, temperature, top_p, max_output_tokens],
+        [video, audio, message, chatbot])
     clear_btn.click(
         clear_history,
         [message, chatbot],
+        [video, audio, message, chatbot, textbox])
 demo.launch(share=False)

examples/Y--ZHUMfueO0.flac DELETED Viewed

Binary file (324 kB)

examples/{1034346401.mp4 → bird-twitter-car.wav} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08b62a634fe49edc0a19fc53f6ea5cfb345d9b2a6a7047811344c16832dc42b2
-size 1678095

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9d2287cf4fe2eec00c9c7c623df34cacdc3f2a0e91655db805b4871193fb680
+size 2412098

examples/desert.jpg DELETED Viewed

Binary file (881 kB)

examples/{Traffic and pedestrians.wav → door.of.bar.raining2.wav} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d805c8e0e487427d60c47ded7d7cca9b8fa288c1a53c93118b15f68ecf6792
-size 1656254

 version https://git-lfs.github.com/spec/v1
+oid sha256:535cab1a35770077b8ca31e6773ec5121b9ac6559430600821b2c747a944f7d2
+size 1339018

examples/extreme_ironing.jpg DELETED Viewed

Binary file (62.6 kB)

examples/sample_demo_3.mp4 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:da6126bce64c64a3d6f7ce889fbe15b5f1c2e3f978846351d8c7a79a950b429e
-size 463547

examples/sample_demo_9.mp4 DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f9702694f185e27ae016b85024b367e140cf93a4e3124d072816fd32f2ca0d96
-size 631864

examples/waterview.jpg DELETED Viewed

Binary file (95.5 kB)