Spaces:
Running
Running
import gradio as gr | |
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler | |
# Cargar el modelo de procesamiento de audio | |
def cargar_modelo_audio(): | |
return gr.Interface.load("models/jonatasgrosman/wav2vec2-large-xlsr-53-english") | |
# Procesar texto con el modelo de estabilidad | |
def procesar_texto(texto, modelo_estabilidad): | |
# Aquí utilizamos el modelo de estabilidad para procesar el texto | |
image = modelo_estabilidad(texto).images[0] | |
return image | |
if __name__ == "__main__": | |
# Crear una interfaz para cargar el modelo de audio | |
modelo_audio = cargar_modelo_audio() | |
modelo_estabilidad = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1", torch_dtype=torch.float16) | |
modelo_estabilidad.scheduler = DPMSolverMultistepScheduler.from_config(modelo_estabilidad.scheduler.config) | |
modelo_estabilidad = modelo_estabilidad.to("cuda") | |
def chat(audio): | |
resultado_audio = modelo_audio(audio) | |
resultado_estabilidad = procesar_texto(resultado_audio, modelo_estabilidad) | |
return resultado_estabilidad | |
# Crear la interfaz Gradio | |
iface = gr.Interface(fn=chat, inputs="audio", outputs="image") | |
# Ejecutar la interfaz | |
iface.launch() | |