import gradio as gr # Cargar el modelo de procesamiento de audio def cargar_modelo_audio(): return gr.Interface.load("models/jonatasgrosman/wav2vec2-large-xlsr-53-english") # Procesar texto con el modelo de estabilidad def procesar_texto(texto, modelo_estabilidad): # AquĆ­ utilizamos el modelo de estabilidad para procesar el texto image = modelo_estabilidad(texto).images[0] return image if __name__ == "__main__": # Crear una interfaz para cargar el modelo de audio modelo_audio = cargar_modelo_audio() modelo_estabilidad = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1", torch_dtype=torch.float16) modelo_estabilidad.scheduler = DPMSolverMultistepScheduler.from_config(modelo_estabilidad.scheduler.config) modelo_estabilidad = modelo_estabilidad.to("cuda") def chat(audio): resultado_audio = modelo_audio(audio) resultado_estabilidad = procesar_texto(resultado_audio, modelo_estabilidad) return resultado_estabilidad # Crear la interfaz Gradio iface = gr.Interface(fn=chat, inputs="audio", outputs="image") # Ejecutar la interfaz iface.launch()