Spaces:

VanguardAI
/

MultiModal_OpenSource_AI

Running on Zero

VanguardAI commited on Aug 14

Commit

6da2d3a

•

1 Parent(s): 95c61d6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -186,12 +186,14 @@ def main_interface(user_prompt, image=None, video=None, audio=None, doc=None, vo
     tts_model.to("cuda")
     unet.to("cuda", torch.float16)
     image_pipe.to("cuda")
     response = handle_input(user_prompt, image=image, video=video, audio=audio, doc=doc)
     if voice_only:
         audio_file = play_voice_output(response)
-        return gr.Audio.update(value=audio_file, visible=True)
     else:
-        return response
 # Gradio App Setup
 with gr.Blocks() as demo:
@@ -208,7 +210,7 @@ with gr.Blocks() as demo:
     submit.click(
         fn=main_interface,
         inputs=[user_prompt, image_input, video_input, audio_input, doc_input, voice_only_mode],
-        outputs=[output_label, audio_output]
     )
 demo.launch(inline=False)

     tts_model.to("cuda")
     unet.to("cuda", torch.float16)
     image_pipe.to("cuda")
     response = handle_input(user_prompt, image=image, video=video, audio=audio, doc=doc)
     if voice_only:
         audio_file = play_voice_output(response)
+        return response, audio_file  # Return both text and audio outputs
     else:
+        return response, None  # Return only the text output, no audio
 # Gradio App Setup
 with gr.Blocks() as demo:
     submit.click(
         fn=main_interface,
         inputs=[user_prompt, image_input, video_input, audio_input, doc_input, voice_only_mode],
+        outputs=[output_label, audio_output]  # Expecting a string and audio file
     )
 demo.launch(inline=False)