Spaces:

burraco135
/

TTS-voxpopuli-it

Runtime error

App Files Files Community

burraco135 commited on Jul 27, 2023

Commit

7e2ad98

•

1 Parent(s): 990d75e

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -13

app.py CHANGED Viewed

@@ -1,18 +1,56 @@
 import gradio as gr
-# Load model directly
-from transformers import AutoProcessor, SpeechT5ForTextToSpeech
-processor = AutoProcessor.from_pretrained("burraco135/speecht5_finetuned_voxpopuli_it")
-model = SpeechT5ForTextToSpeech.from_pretrained("burraco135/speecht5_finetuned_voxpopuli_it")
-def tts(text):
     inputs = processor(text=text, return_tensors="pt")
-    vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=tts, inputs="text", outputs="audio")
-iface.launch()

 import gradio as gr
+import librosa
+import numpy as np
+import torch
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+checkpoint = "burraco135/speecht5_finetuned_voxpopuli_it"
+processor = SpeechT5Processor.from_pretrained(checkpoint)
+model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)
+vocoder = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+def predict(text, speaker):
+    if len(text.strip()) == 0:
+        return (16000, np.zeros(0).astype(np.int16))
     inputs = processor(text=text, return_tensors="pt")
+    # limit input length
+    input_ids = inputs["input_ids"]
+    input_ids = input_ids[..., :model.config.max_text_positions]
+    if speaker == "Surprise Me!":
+        # load one of the provided speaker embeddings at random
+        idx = np.random.randint(len(speaker_embeddings))
+        key = list(speaker_embeddings.keys())[idx]
+        speaker_embedding = np.load(speaker_embeddings[key])
+        # randomly shuffle the elements
+        np.random.shuffle(speaker_embedding)
+        # randomly flip half the values
+        x = (np.random.rand(512) >= 0.5) * 1.0
+        x[x == 0] = -1.0
+        speaker_embedding *= x
+        #speaker_embedding = np.random.rand(512).astype(np.float32) * 0.3 - 0.15
+    else:
+        speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
+    speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
+    speech = model.generate_speech(input_ids, speaker_embedding, vocoder=vocoder)
+    speech = (speech.numpy() * 32767).astype(np.int16)
+    return (16000, speech)
+gr.Interface(
+    fn=predict,
+    inputs=[
+        gr.Text(label="Input Text"),
+    ],
+    outputs=[
+        gr.Audio(label="Generated Speech", type="numpy"),
+    ]
+).launch()