Spaces:

skytnt
/

moe-tts

Running on CPU Upgrade

App Files Files Community

skytnt commited on Nov 6, 2022

Commit

8c486cf

•

1 Parent(s): c580b60

add device argument

Browse files

Files changed (2) hide show

app.py +14 -12
text/cleaners.py +25 -21

app.py CHANGED Viewed

@@ -62,9 +62,9 @@ def create_tts_fn(model, hps, speaker_ids):
         speaker_id = speaker_ids[speaker]
         stn_tst = get_text(text, hps, is_symbol)
         with no_grad():
-            x_tst = stn_tst.unsqueeze(0)
-            x_tst_lengths = LongTensor([stn_tst.size(0)])
-            sid = LongTensor([speaker_id])
             audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8,
                                 length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
         del stn_tst, x_tst, x_tst_lengths, sid
@@ -94,10 +94,10 @@ def create_vc_fn(model, hps, speaker_ids):
             y = y.unsqueeze(0)
             spec = spectrogram_torch(y, hps.data.filter_length,
                                      hps.data.sampling_rate, hps.data.hop_length, hps.data.win_length,
-                                     center=False)
-            spec_lengths = LongTensor([spec.size(-1)])
-            sid_src = LongTensor([original_speaker_id])
-            sid_tgt = LongTensor([target_speaker_id])
             audio = model.voice_conversion(spec, spec_lengths, sid_src=sid_src, sid_tgt=sid_tgt)[0][
                 0, 0].data.cpu().float().numpy()
         del y, spec, spec_lengths, sid_src, sid_tgt
@@ -125,10 +125,10 @@ def create_soft_vc_fn(model, hps, speaker_ids):
         if sampling_rate != 16000:
             audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
         with torch.inference_mode():
-            units = hubert.units(torch.FloatTensor(audio).unsqueeze(0).unsqueeze(0))
         with no_grad():
-            unit_lengths = LongTensor([units.size(1)])
-            sid = LongTensor([target_speaker_id])
             audio = model.infer(units, unit_lengths, sid=sid, noise_scale=.667,
                                 noise_scale_w=0.8)[0][0, 0].data.cpu().float().numpy()
         del units, unit_lengths, sid
@@ -147,9 +147,11 @@ def create_to_symbol_fn(hps):
 if __name__ == '__main__':
     parser = argparse.ArgumentParser()
     parser.add_argument("--share", action="store_true", default=False, help="share gradio app")
     args = parser.parse_args()
     models_tts = []
     models_vc = []
     models_soft_vc = []
@@ -171,7 +173,7 @@ if __name__ == '__main__':
             n_speakers=hps.data.n_speakers,
             **hps.model)
         utils.load_checkpoint(model_path, model, None)
-        model.eval()
         speaker_ids = [sid for sid, name in enumerate(hps.speakers) if name != "None"]
         speakers = [name for sid, name in enumerate(hps.speakers) if name != "None"]
@@ -184,7 +186,7 @@ if __name__ == '__main__':
         elif t == "soft-vits-vc":
             models_soft_vc.append((name, cover_path, speakers, create_soft_vc_fn(model, hps, speaker_ids)))
-    hubert = torch.hub.load("bshall/hubert:main", "hubert_soft", trust_repo=True)
     app = gr.Blocks()

         speaker_id = speaker_ids[speaker]
         stn_tst = get_text(text, hps, is_symbol)
         with no_grad():
+            x_tst = stn_tst.unsqueeze(0).to(device)
+            x_tst_lengths = LongTensor([stn_tst.size(0)]).to(device)
+            sid = LongTensor([speaker_id]).to(device)
             audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8,
                                 length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
         del stn_tst, x_tst, x_tst_lengths, sid
             y = y.unsqueeze(0)
             spec = spectrogram_torch(y, hps.data.filter_length,
                                      hps.data.sampling_rate, hps.data.hop_length, hps.data.win_length,
+                                     center=False).to(device)
+            spec_lengths = LongTensor([spec.size(-1)]).to(device)
+            sid_src = LongTensor([original_speaker_id]).to(device)
+            sid_tgt = LongTensor([target_speaker_id]).to(device)
             audio = model.voice_conversion(spec, spec_lengths, sid_src=sid_src, sid_tgt=sid_tgt)[0][
                 0, 0].data.cpu().float().numpy()
         del y, spec, spec_lengths, sid_src, sid_tgt
         if sampling_rate != 16000:
             audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
         with torch.inference_mode():
+            units = hubert.units(torch.FloatTensor(audio).unsqueeze(0).unsqueeze(0).to(device))
         with no_grad():
+            unit_lengths = LongTensor([units.size(1)]).to(device)
+            sid = LongTensor([target_speaker_id]).to(device)
             audio = model.infer(units, unit_lengths, sid=sid, noise_scale=.667,
                                 noise_scale_w=0.8)[0][0, 0].data.cpu().float().numpy()
         del units, unit_lengths, sid
 if __name__ == '__main__':
     parser = argparse.ArgumentParser()
+    parser.add_argument('--device', type=str, default='cpu')
     parser.add_argument("--share", action="store_true", default=False, help="share gradio app")
     args = parser.parse_args()
+    device = torch.device(args.device)
     models_tts = []
     models_vc = []
     models_soft_vc = []
             n_speakers=hps.data.n_speakers,
             **hps.model)
         utils.load_checkpoint(model_path, model, None)
+        model.eval().to(device)
         speaker_ids = [sid for sid, name in enumerate(hps.speakers) if name != "None"]
         speakers = [name for sid, name in enumerate(hps.speakers) if name != "None"]
         elif t == "soft-vits-vc":
             models_soft_vc.append((name, cover_path, speakers, create_soft_vc_fn(model, hps, speaker_ids)))
+    hubert = torch.hub.load("bshall/hubert:main", "hubert_soft", trust_repo=True).to(device)
     app = gr.Blocks()

text/cleaners.py CHANGED Viewed

@@ -1,4 +1,7 @@
 import re
 def japanese_cleaners(text):
@@ -36,9 +39,9 @@ def zh_ja_mixture_cleaners(text):
     from text.mandarin import chinese_to_romaji
     from text.japanese import japanese_to_romaji_with_accent
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
-                  lambda x: chinese_to_romaji(x.group(1))+' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]', lambda x: japanese_to_romaji_with_accent(
-        x.group(1)).replace('ts', 'ʦ').replace('u', 'ɯ').replace('...', '…')+' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
@@ -58,15 +61,15 @@ def cjks_cleaners(text):
     from text.sanskrit import devanagari_to_ipa
     from text.english import english_to_lazy_ipa
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
-                  lambda x: chinese_to_lazy_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
-                  lambda x: japanese_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
-                  lambda x: korean_to_lazy_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[SA\](.*?)\[SA\]',
-                  lambda x: devanagari_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
-                  lambda x: english_to_lazy_ipa(x.group(1))+' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
@@ -78,13 +81,13 @@ def cjke_cleaners(text):
     from text.korean import korean_to_ipa
     from text.english import english_to_ipa2
     text = re.sub(r'\[ZH\](.*?)\[ZH\]', lambda x: chinese_to_lazy_ipa(x.group(1)).replace(
-        'ʧ', 'tʃ').replace('ʦ', 'ts').replace('ɥan', 'ɥæn')+' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]', lambda x: japanese_to_ipa(x.group(1)).replace('ʧ', 'tʃ').replace(
-        'ʦ', 'ts').replace('ɥan', 'ɥæn').replace('ʥ', 'dz')+' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
-                  lambda x: korean_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]', lambda x: english_to_ipa2(x.group(1)).replace('ɑ', 'a').replace(
-        'ɔ', 'o').replace('ɛ', 'e').replace('ɪ', 'i').replace('ʊ', 'u')+' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
@@ -96,13 +99,13 @@ def cjke_cleaners2(text):
     from text.korean import korean_to_ipa
     from text.english import english_to_ipa2
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
-                  lambda x: chinese_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
-                  lambda x: japanese_to_ipa2(x.group(1))+' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
-                  lambda x: korean_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
-                  lambda x: english_to_ipa2(x.group(1))+' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
@@ -130,17 +133,18 @@ def chinese_dialect_cleaners(text):
     from text.english import english_to_lazy_ipa2
     from text.ngu_dialect import ngu_dialect_to_ipa
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
-                  lambda x: chinese_to_ipa2(x.group(1))+' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
-                  lambda x: japanese_to_ipa3(x.group(1)).replace('Q', 'ʔ')+' ', text)
     text = re.sub(r'\[SH\](.*?)\[SH\]', lambda x: shanghainese_to_ipa(x.group(1)).replace('1', '˥˧').replace('5',
-                  '˧˧˦').replace('6', '˩˩˧').replace('7', '˥').replace('8', '˩˨').replace('ᴀ', 'ɐ').replace('ᴇ', 'e')+' ', text)
     text = re.sub(r'\[GD\](.*?)\[GD\]',
-                  lambda x: cantonese_to_ipa(x.group(1))+' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
-                  lambda x: english_to_lazy_ipa2(x.group(1))+' ', text)
     text = re.sub(r'\[([A-Z]{2})\](.*?)\[\1\]', lambda x: ngu_dialect_to_ipa(x.group(2), x.group(
-        1)).replace('ʣ', 'dz').replace('ʥ', 'dʑ').replace('ʦ', 'ts').replace('ʨ', 'tɕ')+' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text

 import re
+import pyopenjtalk
+pyopenjtalk._lazy_init()
 def japanese_cleaners(text):
     from text.mandarin import chinese_to_romaji
     from text.japanese import japanese_to_romaji_with_accent
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
+                  lambda x: chinese_to_romaji(x.group(1)) + ' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]', lambda x: japanese_to_romaji_with_accent(
+        x.group(1)).replace('ts', 'ʦ').replace('u', 'ɯ').replace('...', '…') + ' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
     from text.sanskrit import devanagari_to_ipa
     from text.english import english_to_lazy_ipa
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
+                  lambda x: chinese_to_lazy_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
+                  lambda x: japanese_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
+                  lambda x: korean_to_lazy_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[SA\](.*?)\[SA\]',
+                  lambda x: devanagari_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
+                  lambda x: english_to_lazy_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
     from text.korean import korean_to_ipa
     from text.english import english_to_ipa2
     text = re.sub(r'\[ZH\](.*?)\[ZH\]', lambda x: chinese_to_lazy_ipa(x.group(1)).replace(
+        'ʧ', 'tʃ').replace('ʦ', 'ts').replace('ɥan', 'ɥæn') + ' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]', lambda x: japanese_to_ipa(x.group(1)).replace('ʧ', 'tʃ').replace(
+        'ʦ', 'ts').replace('ɥan', 'ɥæn').replace('ʥ', 'dz') + ' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
+                  lambda x: korean_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]', lambda x: english_to_ipa2(x.group(1)).replace('ɑ', 'a').replace(
+        'ɔ', 'o').replace('ɛ', 'e').replace('ɪ', 'i').replace('ʊ', 'u') + ' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
     from text.korean import korean_to_ipa
     from text.english import english_to_ipa2
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
+                  lambda x: chinese_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
+                  lambda x: japanese_to_ipa2(x.group(1)) + ' ', text)
     text = re.sub(r'\[KO\](.*?)\[KO\]',
+                  lambda x: korean_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
+                  lambda x: english_to_ipa2(x.group(1)) + ' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text
     from text.english import english_to_lazy_ipa2
     from text.ngu_dialect import ngu_dialect_to_ipa
     text = re.sub(r'\[ZH\](.*?)\[ZH\]',
+                  lambda x: chinese_to_ipa2(x.group(1)) + ' ', text)
     text = re.sub(r'\[JA\](.*?)\[JA\]',
+                  lambda x: japanese_to_ipa3(x.group(1)).replace('Q', 'ʔ') + ' ', text)
     text = re.sub(r'\[SH\](.*?)\[SH\]', lambda x: shanghainese_to_ipa(x.group(1)).replace('1', '˥˧').replace('5',
+                                                                                                             '˧˧˦').replace(
+        '6', '˩˩˧').replace('7', '˥').replace('8', '˩˨').replace('ᴀ', 'ɐ').replace('ᴇ', 'e') + ' ', text)
     text = re.sub(r'\[GD\](.*?)\[GD\]',
+                  lambda x: cantonese_to_ipa(x.group(1)) + ' ', text)
     text = re.sub(r'\[EN\](.*?)\[EN\]',
+                  lambda x: english_to_lazy_ipa2(x.group(1)) + ' ', text)
     text = re.sub(r'\[([A-Z]{2})\](.*?)\[\1\]', lambda x: ngu_dialect_to_ipa(x.group(2), x.group(
+        1)).replace('ʣ', 'dz').replace('ʥ', 'dʑ').replace('ʦ', 'ts').replace('ʨ', 'tɕ') + ' ', text)
     text = re.sub(r'\s+$', '', text)
     text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
     return text