Spaces:

kdrkdrkdr
/

HoshinoTTS

Running

App Files Files Community

kdrkdrkdr commited on Nov 26, 2022

Commit

670af6d

•

1 Parent(s): 381866a

edit app.py

Browse files

Files changed (1) hide show

app.py +47 -11

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import json
 import os
 import re
 import librosa
 import numpy as np
 import torch
@@ -14,7 +15,6 @@ from mel_processing import spectrogram_torch
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
-max_length = 100
 def get_text(text, hps, is_phoneme):
     text_norm = text_to_sequence(text, hps.symbols, [] if is_phoneme else hps.data.text_cleaners)
@@ -28,7 +28,12 @@ def create_tts_fn(model, hps, speaker_ids):
     def tts_fn(text, speaker, speed, is_phoneme):
         if limitation:
             text_len = len(text)
-            max_len = max_length
             if text_len > max_len:
                 return "Error: Text is too long", None
@@ -46,6 +51,9 @@ def create_tts_fn(model, hps, speaker_ids):
     return tts_fn
 def create_to_phoneme_fn(hps):
     def to_phoneme_fn(text):
         return _clean_text(text, hps.data.text_cleaners) if text != "" else ""
@@ -94,31 +102,59 @@ if __name__ == '__main__':
     t = 'vits'
     models_tts.append((name, cover_path, speakers, lang, example,
-                        create_tts_fn(model, hps, speaker_ids),
                         create_to_phoneme_fn(hps)))
     app = gr.Blocks(css=css)
     with app:
         gr.Markdown("# BlueArchive Hoshino TTS Using Vits Model\n"
                     "![visitor badge](https://visitor-badge.glitch.me/badge?page_id=kdrkdrkdr.HoshinoTTS)\n\n")
-        for i, (name, cover_path, speakers, lang, example, tts_fn, to_phoneme_fn) in enumerate(models_tts):
             with gr.Column():
                 gr.Markdown(f"## {name}\n\n"
                             f"![cover](file/{cover_path})\n\n"
                             f"lang: {lang}")
-                tts_input1 = gr.TextArea(label=f"Text ({max_length} words limitation)", value=example,
                                             elem_id=f"tts-input{i}")
                 tts_input2 = gr.Dropdown(label="Speaker", choices=speakers,
                                             type="index", value=speakers[0])
-                tts_input3 = gr.Slider(label="Speed", value=0.9, minimum=0.5, maximum=2, step=0.1)
                 tts_submit = gr.Button("Generate", variant="primary")
                 tts_output1 = gr.Textbox(label="Output Message")
                 tts_output2 = gr.Audio(label="Output Audio")
-                tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3],
                                     [tts_output1, tts_output2])
-    app.queue(concurrency_count=3).launch(show_api=False)

 import json
 import os
 import re
 import librosa
 import numpy as np
 import torch
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
 def get_text(text, hps, is_phoneme):
     text_norm = text_to_sequence(text, hps.symbols, [] if is_phoneme else hps.data.text_cleaners)
     def tts_fn(text, speaker, speed, is_phoneme):
         if limitation:
             text_len = len(text)
+            max_len = 100
+            if is_phoneme:
+                max_len *= 3
+            else:
+                if len(hps.data.text_cleaners) > 0 and hps.data.text_cleaners[0] == "zh_ja_mixture_cleaners":
+                    text_len = len(re.sub("(\[ZH\]|\[JA\])", "", text))
             if text_len > max_len:
                 return "Error: Text is too long", None
     return tts_fn
 def create_to_phoneme_fn(hps):
     def to_phoneme_fn(text):
         return _clean_text(text, hps.data.text_cleaners) if text != "" else ""
     t = 'vits'
     models_tts.append((name, cover_path, speakers, lang, example,
+                        hps.symbols, create_tts_fn(model, hps, speaker_ids),
                         create_to_phoneme_fn(hps)))
     app = gr.Blocks(css=css)
     with app:
         gr.Markdown("# BlueArchive Hoshino TTS Using Vits Model\n"
                     "![visitor badge](https://visitor-badge.glitch.me/badge?page_id=kdrkdrkdr.HoshinoTTS)\n\n")
+        for i, (name, cover_path, speakers, lang, example, symbols, tts_fn,
+                to_phoneme_fn) in enumerate(models_tts):
             with gr.Column():
                 gr.Markdown(f"## {name}\n\n"
                             f"![cover](file/{cover_path})\n\n"
                             f"lang: {lang}")
+                tts_input1 = gr.TextArea(label="Text (100 words limitation)", value=example,
                                             elem_id=f"tts-input{i}")
                 tts_input2 = gr.Dropdown(label="Speaker", choices=speakers,
                                             type="index", value=speakers[0])
+                tts_input3 = gr.Slider(label="Speed", value=1, minimum=0.1, maximum=2, step=0.1)
+                with gr.Accordion(label="Advanced Options", open=False):
+                    phoneme_input = gr.Checkbox(value=False, label="Phoneme input")
+                    to_phoneme_btn = gr.Button("Covert text to phoneme")
+                    phoneme_list = gr.Dataset(label="Phoneme list", components=[tts_input1],
+                                                samples=[[x] for x in symbols],
+                                                elem_id=f"phoneme-list{i}")
+                    phoneme_list_json = gr.Json(value=symbols, visible=False)
                 tts_submit = gr.Button("Generate", variant="primary")
                 tts_output1 = gr.Textbox(label="Output Message")
                 tts_output2 = gr.Audio(label="Output Audio")
+                tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3, phoneme_input],
                                     [tts_output1, tts_output2])
+                to_phoneme_btn.click(to_phoneme_fn, [tts_input1], [tts_input1])
+                phoneme_list.click(None, [phoneme_list, phoneme_list_json], [],
+                                    _js=f"""
+                (i,phonemes) => {{
+                    let root = document.querySelector("body > gradio-app");
+                    if (root.shadowRoot != null)
+                        root = root.shadowRoot;
+                    let text_input = root.querySelector("#tts-input{i}").querySelector("textarea");
+                    let startPos = text_input.selectionStart;
+                    let endPos = text_input.selectionEnd;
+                    let oldTxt = text_input.value;
+                    let result = oldTxt.substring(0, startPos) + phonemes[i] + oldTxt.substring(endPos);
+                    text_input.value = result;
+                    let x = window.scrollX, y = window.scrollY;
+                    text_input.focus();
+                    text_input.selectionStart = startPos + phonemes[i].length;
+                    text_input.selectionEnd = startPos + phonemes[i].length;
+                    text_input.blur();
+                    window.scrollTo(x, y);
+                    return [];
+                }}""")
+    app.queue(concurrency_count=3).launch(show_api=False)