Spaces:

Mahiruoshi
/

Lovelive_Nijigasaki_VITS

Running

App Files Files Community

Mahiruoshi commited on Apr 19, 2023

Commit

d4ed48a

•

1 Parent(s): c25a639

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -37

app.py CHANGED Viewed

@@ -156,40 +156,42 @@ def get_text(text,hps_ms):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-def vc_fn(text,language,n_scale,n_scale_w,l_scale,original_speaker, target_speaker, record_audio, upload_audio):
-    input_audio = record_audio if record_audio is not None else upload_audio
-    original_speaker_id = selection(original_speaker)
-    target_speaker_id = selection(target_speaker)
-    if input_audio is None:
-        stn_tst = get_text(sle(language,text),hps)
         with torch.no_grad():
-            x_tst = stn_tst.unsqueeze(0).to(dev)
-            x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
-            sid = torch.LongTensor([original_speaker_id]).to(dev)
-            audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
-            sampling_rate = hps.data.sampling_rate
-    else:
-        sampling_rate, audio = input_audio
-        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
-    if len(audio.shape) > 1:
-        audio = librosa.to_mono(audio.transpose(1, 0))
-    if sampling_rate != hps.data.sampling_rate:
-        audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=hps.data.sampling_rate)
-    with torch.no_grad():
-        y = torch.FloatTensor(audio)
-        y = y / max(-y.min(), y.max()) / 0.99
-        y = y.to(dev)
-        y = y.unsqueeze(0)
-        spec = spectrogram_torch(y, hps.data.filter_length,
-                                    hps.data.sampling_rate, hps.data.hop_length, hps.data.win_length,
-                                    center=False).to(dev)
-        spec_lengths = torch.LongTensor([spec.size(-1)]).to(dev)
-        sid_src = torch.LongTensor([original_speaker_id]).to(dev)
-        sid_tgt = torch.LongTensor([target_speaker_id]).to(dev)
-        audio = net_g.voice_conversion(spec, spec_lengths, sid_src=sid_src, sid_tgt=sid_tgt)[0][
-            0, 0].data.cpu().float().numpy()
-    del y, spec, spec_lengths, sid_src, sid_tgt
-    return "Success", (hps.data.sampling_rate, audio)
 def selection(speaker):
     if speaker == "高咲侑":
@@ -436,7 +438,8 @@ if __name__ == '__main__':
     hps = utils.get_hparams_from_file('checkpoints/tmp/config.json')
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     models = []
-    schools = ["ShojoKageki-Nijigasaki","ShojoKageki","Nijigasaki"]
     lan = ["中文","日文","自动","手动"]
     with open("checkpoints/info.json", "r", encoding="utf-8") as f:
         models_info = json.load(f)
@@ -463,12 +466,13 @@ if __name__ == '__main__':
             name = speakers[j]["name"]
             content.append((sid, name, title, example, create_tts_fn(net_g,hps,sid)))
         models.append(content)
     with gr.Blocks() as app:
         with gr.Tabs():
-            for i in schools:
                 with gr.TabItem(i):
                     idols = ["派蒙"]
-                    for (sid, name,  title, example, tts_fn) in models[schools.index(i)]:
                         idols.append(name)
                         with gr.TabItem(name):
                             with gr.Column():
@@ -503,7 +507,7 @@ if __name__ == '__main__':
                                     audio_input3 = gr.Dropdown(label="重复生成次数", choices=list(range(101)), value='0', interactive=True)
                         btnbook.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,inputxt,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
                         btnVC.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
-                    with gr.Tab("Voice Conversion(就是sovits的原理)"):
                         gr.Markdown("""
                                         声线转化，使用模型中的说话人作为音源时效果更佳
                         """)

     text_norm = torch.LongTensor(text_norm)
     return text_norm
+def create_vc_fn(net_g,hps):
+    def vc_fn(text,language,n_scale,n_scale_w,l_scale,original_speaker, target_speaker, record_audio, upload_audio):
+        input_audio = record_audio if record_audio is not None else upload_audio
+        original_speaker_id = selection(original_speaker)
+        target_speaker_id = selection(target_speaker)
+        if input_audio is None:
+            stn_tst = get_text(sle(language,text),hps)
+            with torch.no_grad():
+                x_tst = stn_tst.unsqueeze(0).to(dev)
+                x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+                sid = torch.LongTensor([original_speaker_id]).to(dev)
+                audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
+                sampling_rate = hps.data.sampling_rate
+        else:
+            sampling_rate, audio = input_audio
+            audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
+        if len(audio.shape) > 1:
+            audio = librosa.to_mono(audio.transpose(1, 0))
+        if sampling_rate != hps.data.sampling_rate:
+            audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=hps.data.sampling_rate)
         with torch.no_grad():
+            y = torch.FloatTensor(audio)
+            y = y / max(-y.min(), y.max()) / 0.99
+            y = y.to(dev)
+            y = y.unsqueeze(0)
+            spec = spectrogram_torch(y, hps.data.filter_length,
+                                        hps.data.sampling_rate, hps.data.hop_length, hps.data.win_length,
+                                        center=False).to(dev)
+            spec_lengths = torch.LongTensor([spec.size(-1)]).to(dev)
+            sid_src = torch.LongTensor([original_speaker_id]).to(dev)
+            sid_tgt = torch.LongTensor([target_speaker_id]).to(dev)
+            audio = net_g.voice_conversion(spec, spec_lengths, sid_src=sid_src, sid_tgt=sid_tgt)[0][
+                0, 0].data.cpu().float().numpy()
+        del y, spec, spec_lengths, sid_src, sid_tgt
+        return "Success", (hps.data.sampling_rate, audio)
+    return vc_fn
 def selection(speaker):
     if speaker == "高咲侑":
     hps = utils.get_hparams_from_file('checkpoints/tmp/config.json')
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     models = []
+    schools_list = ["ShojoKageki-Nijigasaki","ShojoKageki","Nijigasaki"]
+    schools = []
     lan = ["中文","日文","自动","手动"]
     with open("checkpoints/info.json", "r", encoding="utf-8") as f:
         models_info = json.load(f)
             name = speakers[j]["name"]
             content.append((sid, name, title, example, create_tts_fn(net_g,hps,sid)))
         models.append(content)
+        schools.append((i,create_vc_fn(net_g,hps)))
     with gr.Blocks() as app:
         with gr.Tabs():
+            for (i,vc_fn) in schools:
                 with gr.TabItem(i):
                     idols = ["派蒙"]
+                    for (sid, name,  title, example, tts_fn) in models[schools_list.index(i)]:
                         idols.append(name)
                         with gr.TabItem(name):
                             with gr.Column():
                                     audio_input3 = gr.Dropdown(label="重复生成次数", choices=list(range(101)), value='0', interactive=True)
                         btnbook.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,inputxt,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
                         btnVC.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
+                    with gr.Tab("Voice Conversion(类似sovits)"):
                         gr.Markdown("""
                                         声线转化，使用模型中的说话人作为音源时效果更佳
                         """)