Spaces:

Mahiruoshi
/

Lovelive_Nijigasaki_VITS

Running

App Files Files Community

Mahiruoshi commited on Mar 6, 2023

Commit

ba568fb

•

1 Parent(s): ba2bf37

Rename colab_inference.py to inference_ork.py .py

Browse files

Files changed (2) hide show

colab_inference.py +0 -178
inference_ork.py .py +121 -0

colab_inference.py DELETED Viewed

@@ -1,178 +0,0 @@
-#colab克隆并且安装完环境后启动该文件
-import romajitable
-import re
-import numpy as np
-import logging
-logging.getLogger('numba').setLevel(logging.WARNING)
-import IPython.display as ipd
-import torch
-import commons
-import utils
-from models import SynthesizerTrn
-from text.symbols import symbols
-from text import text_to_sequence
-import gradio as gr
-import time
-def get_text(text, hps):
-    text_norm = text_to_sequence(text, symbols, hps.data.text_cleaners)
-    if hps.data.add_blank:
-        text_norm = commons.intersperse(text_norm, 0)
-    text_norm = torch.LongTensor(text_norm)
-    return text_norm
-dev = torch.device("cuda:0")
-def selection(speaker):
-    if speaker == "高咲侑":
-        spk = 0
-        return spk
-    elif speaker == "歩夢":
-        spk = 1
-        return spk
-    elif speaker == "かすみ":
-        spk = 2
-        return spk
-    elif speaker == "しずく":
-        spk = 3
-        return spk
-    elif speaker == "果林":
-        spk = 4
-        return spk
-    elif speaker == "愛":
-        spk = 5
-        return spk
-    elif speaker == "彼方":
-        spk = 6
-        return spk
-    elif speaker == "せつ菜":
-        spk = 7
-        return spk
-    elif speaker == "エマ":
-        spk = 8
-        return spk
-    elif speaker == "璃奈":
-        spk = 9
-        return spk
-    elif speaker == "栞子":
-        spk = 10
-        return spk
-    elif speaker == "ランジュ":
-        spk = 11
-        return spk
-    elif speaker == "ミア":
-        spk = 12
-        return spk
-    elif speaker == "三色绘恋1":
-        spk = 13
-        return spk
-    elif speaker == "三色绘恋2":
-        spk = 15
-    elif speaker == "派蒙":
-        spk = 16
-        return spk
-def is_japanese(string):
-        for ch in string:
-            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
-                return True
-        return False
-def is_english(string):
-    import re
-    pattern = re.compile('^[A-Za-z0-9.,:;!?()_*"\' ]+$')
-    if pattern.fullmatch(string):
-        return True
-    else:
-        return False
-def sle(language,tts_input0):
-    if language == "中文":
-        tts_input1 = "[ZH]" + tts_input0.replace('\n','。').replace(' ',',') + "[ZH]"
-        return tts_input1
-    if language == "自动":
-        tts_input1 = f"[JA]{tts_input0}[JA]" if is_japanese(tts_input0) else f"[ZH]{tts_input0}[ZH]"
-        return tts_input1
-    elif language == "日文":
-        tts_input1 = "[JA]" + tts_input0.replace('\n','。').replace(' ',',') + "[JA]"
-        return tts_input1
-def extrac(text):
-    text = re.sub("<[^>]*>","",text)
-    result_list = re.split(r'\n', text)
-    final_list = []
-    for i in result_list:
-        if is_english(i):
-            i = romajitable.to_kana(i).katakana
-        i = i.replace('\n','').replace(' ','')
-        #Current length of single sentence: 20
-        if len(i)>1:
-            if len(i) > 20:
-                try:
-                    cur_list = re.split(r'。|！', i)
-                    for i in cur_list:
-                        if len(i)>1:
-                            final_list.append(i+'。')
-                except:
-                    pass
-            else:
-                final_list.append(i)
-    final_list = [x for x in final_list if x != '']
-    print(final_list)
-    return final_list
-def infer(language,text,speaker_id, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
-    speaker_id = int(selection(speaker_id))
-    a = ['【','[','(','（']
-    b = ['】',']',')','）']
-    for i in a:
-        text = text.replace(i,'<')
-    for i in b:
-        text = text.replace(i,'>')
-    final_list = extrac(text.replace('“','').replace('”',''))
-    audio_fin = []
-    c = 0
-    for sentence in final_list:
-        c +=1
-        try:
-            stn_tst = get_text(sle(language,sentence), hps_ms)
-            with torch.no_grad():
-                x_tst = stn_tst.unsqueeze(0).to(dev)
-                x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
-                sid = torch.LongTensor([speaker_id]).to(dev)
-                t1 = time.time()
-                audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
-                t2 = time.time()
-                spending_time = "第"+str(c)+"句的推理时间为："+str(t2-t1)+"s"
-                print(spending_time)
-                audio_fin.append(audio)
-        except:
-            print('存在非法字符')
-    return (hps_ms.data.sampling_rate, np.concatenate(audio_fin))
-lan = ["中文","日文","自动"]
-idols = ["高咲侑","歩夢","かすみ","しずく","果林","愛","せつ菜","璃奈","栞子","エマ","ランジュ","ミア","派蒙"]
-hps_ms = utils.get_hparams_from_file("lovelive/config.json")
-net_g_ms = SynthesizerTrn(
-    len(symbols),
-    hps_ms.data.filter_length // 2 + 1,
-    hps_ms.train.segment_size // hps_ms.data.hop_length,
-    n_speakers=hps_ms.data.n_speakers,
-    **hps_ms.model).to(dev)
-_ = net_g_ms.eval()
-_ = utils.load_checkpoint("lovelive/G_525000.pth", net_g_ms)
-app = gr.Blocks()
-with app:
-    with gr.Tabs():
-        with gr.TabItem("虹团vits模型，现可按句分割实现长文本合成，可自行用export_to_onnx.py导出"):
-            tts_input1 = gr.TextArea(label="如需实现快速合成，建议在colab上克隆后运行本仓库", value="为什么你会那么熟练啊？你和雪菜亲过多少次了？我想做只属于你一个人的学院偶像，所以，请只注视我一个人，好吗？【中文】\nなんでそんなに慣れてんだよっ？せつ菜と…何回キスしたんだよ？どこまであたしを置いてきぼりにすれば気が済むんだよ？[日文]\nI can't choose just one（English）")
-            language = gr.Dropdown(label="选择语言，目前勉强可以做到自动识别",choices=lan, value="自动", interactive=True)
-            para_input1 = gr.Slider(minimum= 0,maximum=1.0,label="更改噪声比例，以控制情感", value=0.667)
-            para_input2 = gr.Slider(minimum= 0,maximum=1.0,label="更改噪声偏差，以控制音素长短", value=0.7)
-            para_input3 = gr.Slider(minimum= 0.1,maximum=10,label="更改时间比例", value=1)
-            tts_submit = gr.Button("Generate", variant="primary")
-            speaker1 = gr.Dropdown(label="选择说话人",choices=idols, value="歩夢", interactive=True)
-            tts_output2 = gr.Audio(label="Output")
-            tts_submit.click(infer, [language,tts_input1,speaker1,para_input1,para_input2,para_input3], [tts_output2])
-    app.launch(share=True)
-    #app.launch()

inference_ork.py .py ADDED Viewed

	@@ -0,0 +1,121 @@

+#basic enviornments & openai
+import romajitable
+import re
+import os
+import numpy as np
+import logging
+logging.getLogger('numba').setLevel(logging.WARNING)
+import IPython.display as ipd
+import torch
+import commons
+import utils
+from models import SynthesizerTrn
+from text.symbols import symbols
+from text import text_to_sequence
+import openai
+import tkinter as tk
+from tkinter import scrolledtext
+import argparse
+import time
+from scipy.io.wavfile import write
+def get_args():
+    parser = argparse.ArgumentParser(description='inference')
+    parser.add_argument('--model', default = 'lovelive/G_817000.pth')
+    parser.add_argument('--audio',
+                    type=str,
+                    help='the sound file of live2d to be replace,assuming they are temp1.wav,temp2.wav,temp3.wav......',
+                    default = 'path/to/temp.wav')
+    parser.add_argument('--cfg', default="lovelive/config.json")
+    parser.add_argument('--key',default = "openai key",
+                        help='platform.openai.com')
+    args = parser.parse_args()
+    return args
+args = get_args()
+dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+dev = torch.device("cuda:0")
+hps_ms = utils.get_hparams_from_file(args.cfg)
+#mult-speakers
+net_g_ms = SynthesizerTrn(
+    len(symbols),
+    hps_ms.data.filter_length // 2 + 1,
+    hps_ms.train.segment_size // hps_ms.data.hop_length,
+    n_speakers=hps_ms.data.n_speakers,
+    **hps_ms.model).to(dev)
+_ = net_g_ms.eval()
+_ = utils.load_checkpoint(args.model, net_g_ms, None)
+# detecting japanese
+def is_japanese(string):
+        for ch in string:
+            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
+                return True
+        return False
+def get_text(text, hps):
+    text_norm = text_to_sequence(text, hps.data.text_cleaners)
+    if hps.data.add_blank:
+        text_norm = commons.intersperse(text_norm, 0)
+    text_norm = torch.LongTensor(text_norm)
+    return text_norm
+def ttv(text):
+    text = text.replace('\n','').replace(' ','')
+    text = f"[JA]{text}[JA]" if is_japanese(text) else f"[ZH]{text}[ZH]"
+    speaker_id = 7
+    stn_tst = get_text(text,hps_ms)
+    t1 = time.time()
+    with torch.no_grad():
+        x_tst = stn_tst.unsqueeze(0).to(dev)
+        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+        sid = torch.LongTensor([speaker_id]).to(dev)
+        audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=0.467, noise_scale_w=0.5, length_scale=1)[0][0,0].data.cpu().float().numpy()
+    write(args.audio + '.wav',22050,audio)
+    i = 0
+    while i < 19:
+        i +=1
+        cmd = 'ffmpeg -y -i ' +  args.audio + '.wav' + ' -ar 44100 '+ args.audio.replace('temp','temp'+str(i))
+        os.system(cmd)
+    t2 = time.time()
+    print("推理耗时:",(t2 - t1),"s")
+openai.api_key = args.key
+result_list = []
+messages = [
+    {"role": "system", "content": "你是超级ai，名字叫巴珠绪，是我的女朋友。接下来我们将进行一个克苏鲁跑团游戏，你负责扮演守密人，我负责扮演调查员。接下来你会加载一个名叫《幽暗之门》的模组，作为守密人，你需要基于“克苏鲁神话角色扮演游戏规则第七版（Call of Cthulhu 7th Edition）”，我会给你剧本的开头部分，然后基于你对它的理解自由发挥。投掷骰子的环节将由你来模拟，用两个1d10的骰子来生成0-100的随机数。比如说我的某一项属性点是80，当骰子的数目小于80时就判定为成功，0-5为大成功，95-100为大失败等等。整个游戏过程将类似于你来描述故事，我来投骰子并且做出决定来推动剧情的走向。"},
+    {'role': 'assistant', 'content': '我明白了，现在我将扮演守密人。'},
+    ]
+def send_message():
+    text = input_box.get("1.0", "end-1c")
+    messages.append({"role": "user", "content": text},)
+    chat = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages)
+    reply = chat.choices[0].message.content
+    ttv(reply)
+    messages.append({"role": "assistant", "content": reply})
+    print(messages[-1])
+    if len(messages) == 12:
+        messages[6:10] = messages[8:]
+        del messages[-2:]
+    with open('log.txt', 'w', encoding='utf-8') as f:
+        for item in messages:
+            f.write(str(item) + "\n")
+    chat_box.configure(state='normal')
+    chat_box.insert(tk.END, "You: " + text + "\n")
+    chat_box.insert(tk.END, "Tamao: " + reply + "\n")
+    chat_box.configure(state='disabled')
+    input_box.delete("1.0", tk.END)
+root = tk.Tk()
+root.title("Tamao")
+chat_box = scrolledtext.ScrolledText(root, width=50, height=10)
+chat_box.configure(state='disabled')
+chat_box.pack(side=tk.TOP, fill=tk.BOTH, padx=10, pady=10, expand=True)
+input_frame = tk.Frame(root)
+input_frame.pack(side=tk.BOTTOM, fill=tk.X, padx=10, pady=10)
+input_box = tk.Text(input_frame, height=3, width=50)
+input_box.pack(side=tk.LEFT, fill=tk.X, padx=10, expand=True)
+send_button = tk.Button(input_frame, text="Send", command=send_message)
+send_button.pack(side=tk.RIGHT, padx=10)
+root.mainloop()