Spaces:

Flux9665
/

IMS-Toucan

Runtime error

App Files Files

Flux9665 commited on Feb 21, 2022

Commit

502b0b6

•

1 Parent(s): 99a3986

add speakers and languages

Browse files

Files changed (1) hide show

app.py +53 -14

app.py CHANGED Viewed

@@ -31,20 +31,44 @@ class TTS_Interface:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.model = Meta_FastSpeech2(device=self.device)
-    def read(self, prompt, language):
-        language_id_lookup = {
-            "English"  : "en",
-            "German"   : "de",
-            "Greek"    : "el",
-            "Spanish"  : "es",
-            "Finnish"  : "fi",
-            "Russian"  : "ru",
-            "Hungarian": "hu",
-            "Dutch"    : "nl",
-            "French"   : "fr"
             }
-        self.model.set_language(language_id_lookup[language])
         wav = self.model(prompt)
         return 48000, float2pcm(wav.cpu().numpy())
@@ -64,7 +88,22 @@ iface = gr.Interface(fn=meta_model.read,
                                                  'Russian',
                                                  'Hungarian',
                                                  'Dutch',
-                                                 'French'], type="value", default='English', label="Language Selection")],
                      outputs=gr.outputs.Audio(type="numpy", label=None),
                      layout="vertical",
                      title="IMS Toucan Multilingual Multispeaker Demo",

     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.model = Meta_FastSpeech2(device=self.device)
+        self.current_speaker = "English Speaker's Voice"
+        self.current_language = "English"
+        self.language_id_lookup = {
+            "English"   : "en",
+            "German"    : "de",
+            "Greek"     : "el",
+            "Spanish"   : "es",
+            "Finnish"   : "fi",
+            "Russian"   : "ru",
+            "Hungarian" : "hu",
+            "Dutch"     : "nl",
+            "French"    : "fr",
+            'Polish'    : "pl",
+            'Portuguese': "pt",
+            'Italian'   : "it",
+            }
+        self.speaker_path_lookup = {
+            "English Speaker's Voice"  : "reference_audios/english.wav",
+            "German Speaker's Voice"    : "reference_audios/german.wav",
+            "Greek Speaker's Voice"     : "reference_audios/greek.wav",
+            "Spanish Speaker's Voice"   : "reference_audios/spanish.wav",
+            "Finnish Speaker's Voice"   : "reference_audios/finnish.wav",
+            "Russian Speaker's Voice"   : "reference_audios/russian.wav",
+            "Hungarian Speaker's Voice" : "reference_audios/hungarian.wav",
+            "Dutch Speaker's Voice"     : "reference_audios/dutch.wav",
+            "French Speaker's Voice"    : "reference_audios/french.wav",
+            "Polish Speaker's Voice"    : "reference_audios/polish.flac",
+            "Portuguese Speaker's Voice": "reference_audios/portuguese.flac",
+            "Italian Speaker's Voice"  : "reference_audios/italian.flac",
             }
+    def read(self, prompt, language, speaker):
+        if self.current_language != language:
+            self.model.set_language(self.language_id_lookup[language])
+            self.current_language = language
+        if self.current_speaker != speaker:
+            self.model.set_utterance_embedding(self.speaker_path_lookup[speaker])
+            self.current_speaker = speaker
         wav = self.model(prompt)
         return 48000, float2pcm(wav.cpu().numpy())
                                                  'Russian',
                                                  'Hungarian',
                                                  'Dutch',
+                                                 'French',
+                                                 'Polish',
+                                                 'Portuguese',
+                                                 'Italian'], type="value", default='English', label="Language Selection"),
+                             gr.inputs.Dropdown(["English Speaker's Voice",
+                                                 "German Speaker's Voice",
+                                                 "Greek Speaker's Voice",
+                                                 "Spanish Speaker's Voice",
+                                                 "Finnish Speaker's Voice",
+                                                 "Russian Speaker's Voice",
+                                                 "Hungarian Speaker's Voice",
+                                                 "Dutch Speaker's Voice",
+                                                 "French Speaker's Voice",
+                                                 "Polish Speaker's Voice",
+                                                 "Portuguese Speaker's Voice",
+                                                 "Italian Speaker's Voice"], type="value", default="English Speaker's Voice", label="Speaker Selection")],
                      outputs=gr.outputs.Audio(type="numpy", label=None),
                      layout="vertical",
                      title="IMS Toucan Multilingual Multispeaker Demo",