Spaces:

jkorstad
/

Llama-3.2-11B-Vision-Instruct-Chat

Running on Zero

jkorstad commited on Oct 3

Commit

cee30ad

•

1 Parent(s): b1826cb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,6 +39,7 @@ def predict(image, text):
     return response
 # Whisper STT optional model
 def transcribe_audio(audio):
     result = whisper.transcribe(audio, model="base")
     return result["text"]
@@ -71,6 +72,7 @@ with demo:
         gr.Examples(examples=[[image, prompt] for image, prompt in zip(example_images, example_prompts)], inputs=[image_input, text_input])
     with gr.Tab("Audio Transcription (WIP) Prompt"):
         audio_input = gr.Audio(label="Audio Input")
         text_output = gr.Textbox(label="Transcribed Text")
         gr.Button("Transcribe").click(transcribe_audio, inputs=audio_input, outputs=text_output)

     return response
 # Whisper STT optional model
+@spaces.GPU
 def transcribe_audio(audio):
     result = whisper.transcribe(audio, model="base")
     return result["text"]
         gr.Examples(examples=[[image, prompt] for image, prompt in zip(example_images, example_prompts)], inputs=[image_input, text_input])
     with gr.Tab("Audio Transcription (WIP) Prompt"):
+        gr.load("models/openai/whisper-large-v3")
         audio_input = gr.Audio(label="Audio Input")
         text_output = gr.Textbox(label="Transcribed Text")
         gr.Button("Transcribe").click(transcribe_audio, inputs=audio_input, outputs=text_output)