Spaces:

openpecha
/

TTS

Runtime error

TenzinGayche commited on Sep 17, 2023

Commit

0b0fa8e

•

1 Parent(s): 4cff53d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import numpy as np
 import torch
 import pyewts
 import noisereduce as nr
 def remove_repeated_words(text):
     # Tokenize the input text into words
     words = text.split()
@@ -30,12 +31,6 @@ def remove_repeated_words(text):
     result = ' '.join(new_words)
     return result
-# Example usage
-input_text = " hi hi hi are you fine fine fine or not"
-output_text = remove_repeated_words(input_text)
-print(output_text)
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 converter = pyewts.pyewts()
 checkpoint = "TenzinGayche/TTS_run3_ep20_174k_b"
@@ -74,7 +69,7 @@ def predict(text, speaker):
     # limit input length
     input_ids = inputs["input_ids"]
     input_ids = input_ids[..., :model.config.max_text_positions]
-    speaker_embedding = np.load(speaker_embeddings[speaker])
     speaker_embedding = torch.tensor(speaker_embedding)
     speech = model.generate_speech(input_ids.to('cuda'), speaker_embedding.to('cuda'), vocoder=vocoder.to('cuda'))
     speech = nr.reduce_noise(y=speech.to('cpu'), sr=16000)

 import torch
 import pyewts
 import noisereduce as nr
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 def remove_repeated_words(text):
     # Tokenize the input text into words
     words = text.split()
     result = ' '.join(new_words)
     return result
 converter = pyewts.pyewts()
 checkpoint = "TenzinGayche/TTS_run3_ep20_174k_b"
     # limit input length
     input_ids = inputs["input_ids"]
     input_ids = input_ids[..., :model.config.max_text_positions]
+    speaker_embedding = np.load(speaker_embeddings[speaker], allow_pickle=True)
     speaker_embedding = torch.tensor(speaker_embedding)
     speech = model.generate_speech(input_ids.to('cuda'), speaker_embedding.to('cuda'), vocoder=vocoder.to('cuda'))
     speech = nr.reduce_noise(y=speech.to('cpu'), sr=16000)