Spaces:

IES-Rafael-Alberti
/

AudioToImage

Running

File size: 1,063 Bytes

d0eea62
e5b0c87
014c294
f88264c
 
014c294
f88264c
709dcd3
76ff26c
709dcd3
 
014c294
 
6fd1262
014c294
 
 
 
6fd1262
014c294
48decfb
6fd1262
014c294
 
 
48decfb
6fd1262
014c294
48decfb
014c294

import gradio as gr
from huggingsound import SpeechRecognitionModel
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

# Función para convertir la tasa de muestreo del audio de entrada
def modelo1(audio):
    # Convertir la tasa de muestreo del audio
    model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
    transcriptions = model.transcribe(audio)
    return transcriptions

def modelo2(text):
    model_id = "stabilityai/stable-diffusion-2-1"

    # Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
    pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
    pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
    pipe = pipe.to("cuda")

    image = pipe(text).images[0]
    return image

def execution(audio):
    modelo1res = modelo1(audio)
    modelo2res = modelo2(modelo1res)
    return modelo2res

if __name__ == "__main__":
    demo = gr.Interface(fn=execution, inputs="audio", outputs="image")
    demo.launch()