Spaces:

ElesisSiegherts
/

Keio_Auto_Announce_bert_vits2

Sleeping

App Files Files Community

ElesisSiegherts commited on Dec 17, 2023

Commit

245dd7d

•

1 Parent(s): ed6c2db

Upload 6 files

Browse files

Files changed (6) hide show

requirements.txt +33 -0
server_fastapi.py +642 -0
spec_gen.py +87 -0
transforms.py +209 -0
update_status.py +89 -0
utils.py +457 -0

requirements.txt ADDED Viewed

	@@ -0,0 +1,33 @@

+librosa==0.9.2
+matplotlib
+numpy
+numba
+phonemizer
+scipy
+tensorboard
+Unidecode
+amfm_decompy
+jieba
+transformers
+pypinyin
+cn2an
+gradio==3.38.0
+av
+mecab-python3
+loguru
+unidic-lite
+cmudict
+fugashi
+num2words
+PyYAML
+requests
+pyopenjtalk; sys_platform == 'linux'
+openjtalk; sys_platform != 'linux'
+jaconv
+psutil
+GPUtil
+vector_quantize_pytorch
+g2p_en
+sentencepiece
+pykakasi
+langid

server_fastapi.py ADDED Viewed

	@@ -0,0 +1,642 @@

+"""
+api服务 多版本多模型 fastapi实现
+"""
+import logging
+import gc
+import random
+import gradio
+import numpy as np
+import utils
+from fastapi import FastAPI, Query, Request, File, UploadFile, Form
+from fastapi.responses import Response, FileResponse
+from fastapi.staticfiles import StaticFiles
+from io import BytesIO
+from scipy.io import wavfile
+import uvicorn
+import torch
+import webbrowser
+import psutil
+import GPUtil
+from typing import Dict, Optional, List, Set, Union
+import os
+from tools.log import logger
+from urllib.parse import unquote
+from infer import infer, get_net_g, latest_version
+import tools.translate as trans
+from re_matching import cut_sent
+from config import config
+os.environ["TOKENIZERS_PARALLELISM"] = "false"
+class Model:
+    """模型封装类"""
+    def __init__(self, config_path: str, model_path: str, device: str, language: str):
+        self.config_path: str = os.path.normpath(config_path)
+        self.model_path: str = os.path.normpath(model_path)
+        self.device: str = device
+        self.language: str = language
+        self.hps = utils.get_hparams_from_file(config_path)
+        self.spk2id: Dict[str, int] = self.hps.data.spk2id  # spk - id 映射字典
+        self.id2spk: Dict[int, str] = dict()  # id - spk 映射字典
+        for speaker, speaker_id in self.hps.data.spk2id.items():
+            self.id2spk[speaker_id] = speaker
+        self.version: str = (
+            self.hps.version if hasattr(self.hps, "version") else latest_version
+        )
+        self.net_g = get_net_g(
+            model_path=model_path,
+            version=self.version,
+            device=device,
+            hps=self.hps,
+        )
+    def to_dict(self) -> Dict[str, any]:
+        return {
+            "config_path": self.config_path,
+            "model_path": self.model_path,
+            "device": self.device,
+            "language": self.language,
+            "spk2id": self.spk2id,
+            "id2spk": self.id2spk,
+            "version": self.version,
+        }
+class Models:
+    def __init__(self):
+        self.models: Dict[int, Model] = dict()
+        self.num = 0
+        # spkInfo[角色名][模型id] = 角色id
+        self.spk_info: Dict[str, Dict[int, int]] = dict()
+        self.path2ids: Dict[str, Set[int]] = dict()  # 路径指向的model的id
+    def init_model(
+        self, config_path: str, model_path: str, device: str, language: str
+    ) -> int:
+        """
+        初始化并添加一个模型
+        :param config_path: 模型config.json路径
+        :param model_path: 模型路径
+        :param device: 模型推理使用设备
+        :param language: 模型推理默认语言
+        """
+        # 若文件不存在则不进行加载
+        if not os.path.isfile(model_path):
+            if model_path != "":
+                logger.warning(f"模型文件{model_path} 不存在，不进行初始化")
+            return self.num
+        if not os.path.isfile(config_path):
+            if config_path != "":
+                logger.warning(f"配置文件{config_path} 不存在，不进行初始化")
+            return self.num
+        # 若路径中的模型已存在，则不添加模型，若不存在，则进行初始化。
+        model_path = os.path.realpath(model_path)
+        if model_path not in self.path2ids.keys():
+            self.path2ids[model_path] = {self.num}
+            self.models[self.num] = Model(
+                config_path=config_path,
+                model_path=model_path,
+                device=device,
+                language=language,
+            )
+            logger.success(f"添加模型{model_path}，使用配置文件{os.path.realpath(config_path)}")
+        else:
+            # 获取一个指向id
+            m_id = next(iter(self.path2ids[model_path]))
+            self.models[self.num] = self.models[m_id]
+            self.path2ids[model_path].add(self.num)
+            logger.success("模型已存在，添加模型引用。")
+        # 添加角色信息
+        for speaker, speaker_id in self.models[self.num].spk2id.items():
+            if speaker not in self.spk_info.keys():
+                self.spk_info[speaker] = {self.num: speaker_id}
+            else:
+                self.spk_info[speaker][self.num] = speaker_id
+        # 修改计数
+        self.num += 1
+        return self.num - 1
+    def del_model(self, index: int) -> Optional[int]:
+        """删除对应序号的模型，若不存在则返回None"""
+        if index not in self.models.keys():
+            return None
+        # 删除角色信息
+        for speaker, speaker_id in self.models[index].spk2id.items():
+            self.spk_info[speaker].pop(index)
+            if len(self.spk_info[speaker]) == 0:
+                # 若对应角色的所有模型都被删除，则清除该角色信息
+                self.spk_info.pop(speaker)
+        # 删除路径信息
+        model_path = os.path.realpath(self.models[index].model_path)
+        self.path2ids[model_path].remove(index)
+        if len(self.path2ids[model_path]) == 0:
+            self.path2ids.pop(model_path)
+            logger.success(f"删除模型{model_path}, id = {index}")
+        else:
+            logger.success(f"删除模型引用{model_path}, id = {index}")
+        # 删除模型
+        self.models.pop(index)
+        gc.collect()
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+        return index
+    def get_models(self):
+        """获取所有模型"""
+        return self.models
+if __name__ == "__main__":
+    app = FastAPI()
+    app.logger = logger
+    # 挂载静态文件
+    logger.info("开始挂载网页页面")
+    StaticDir: str = "./Web"
+    if not os.path.isdir(StaticDir):
+        logger.warning(
+            "缺少网页资源，无法开启网页页面，如有需要请在 https://github.com/jiangyuxiaoxiao/Bert-VITS2-UI 或者Bert-VITS对应版本的release页面下载"
+        )
+    else:
+        dirs = [fir.name for fir in os.scandir(StaticDir) if fir.is_dir()]
+        files = [fir.name for fir in os.scandir(StaticDir) if fir.is_dir()]
+        for dirName in dirs:
+            app.mount(
+                f"/{dirName}",
+                StaticFiles(directory=f"./{StaticDir}/{dirName}"),
+                name=dirName,
+            )
+    loaded_models = Models()
+    # 加载模型
+    logger.info("开始加载模型")
+    models_info = config.server_config.models
+    for model_info in models_info:
+        loaded_models.init_model(
+            config_path=model_info["config"],
+            model_path=model_info["model"],
+            device=model_info["device"],
+            language=model_info["language"],
+        )
+    @app.get("/")
+    async def index():
+        return FileResponse("./Web/index.html")
+    async def _voice(
+        text: str,
+        model_id: int,
+        speaker_name: str,
+        speaker_id: int,
+        sdp_ratio: float,
+        noise: float,
+        noisew: float,
+        length: float,
+        language: str,
+        auto_translate: bool,
+        auto_split: bool,
+        emotion: Optional[int] = None,
+        reference_audio=None,
+    ) -> Union[Response, Dict[str, any]]:
+        """TTS实现函数"""
+        # 检查模型是否存在
+        if model_id not in loaded_models.models.keys():
+            return {"status": 10, "detail": f"模型model_id={model_id}未加载"}
+        # 检查是否提供speaker
+        if speaker_name is None and speaker_id is None:
+            return {"status": 11, "detail": "请提供speaker_name或speaker_id"}
+        elif speaker_name is None:
+            # 检查speaker_id是否存在
+            if speaker_id not in loaded_models.models[model_id].id2spk.keys():
+                return {"status": 12, "detail": f"角色speaker_id={speaker_id}不存在"}
+            speaker_name = loaded_models.models[model_id].id2spk[speaker_id]
+        # 检查speaker_name是否存在
+        if speaker_name not in loaded_models.models[model_id].spk2id.keys():
+            return {"status": 13, "detail": f"角色speaker_name={speaker_name}不存在"}
+        if language is None:
+            language = loaded_models.models[model_id].language
+        if auto_translate:
+            text = trans.translate(Sentence=text, to_Language=language.lower())
+        if reference_audio is not None:
+            ref_audio = BytesIO(await reference_audio.read())
+        else:
+            ref_audio = reference_audio
+        if not auto_split:
+            with torch.no_grad():
+                audio = infer(
+                    text=text,
+                    sdp_ratio=sdp_ratio,
+                    noise_scale=noise,
+                    noise_scale_w=noisew,
+                    length_scale=length,
+                    sid=speaker_name,
+                    language=language,
+                    hps=loaded_models.models[model_id].hps,
+                    net_g=loaded_models.models[model_id].net_g,
+                    device=loaded_models.models[model_id].device,
+                    emotion=emotion,
+                    reference_audio=ref_audio,
+                )
+                audio = gradio.processing_utils.convert_to_16_bit_wav(audio)
+        else:
+            texts = cut_sent(text)
+            audios = []
+            with torch.no_grad():
+                for t in texts:
+                    audios.append(
+                        infer(
+                            text=t,
+                            sdp_ratio=sdp_ratio,
+                            noise_scale=noise,
+                            noise_scale_w=noisew,
+                            length_scale=length,
+                            sid=speaker_name,
+                            language=language,
+                            hps=loaded_models.models[model_id].hps,
+                            net_g=loaded_models.models[model_id].net_g,
+                            device=loaded_models.models[model_id].device,
+                            emotion=emotion,
+                            reference_audio=ref_audio,
+                        )
+                    )
+                    audios.append(np.zeros(int(44100 * 0.2)))
+                audio = np.concatenate(audios)
+                audio = gradio.processing_utils.convert_to_16_bit_wav(audio)
+        with BytesIO() as wavContent:
+            wavfile.write(
+                wavContent, loaded_models.models[model_id].hps.data.sampling_rate, audio
+            )
+            response = Response(content=wavContent.getvalue(), media_type="audio/wav")
+            return response
+    @app.post("/voice")
+    async def voice(
+        request: Request,  # fastapi自动注入
+        text: str = Form(...),
+        model_id: int = Query(..., description="模型ID"),  # 模型序号
+        speaker_name: str = Query(
+            None, description="说话人名"
+        ),  # speaker_name与 speaker_id二者选其一
+        speaker_id: int = Query(None, description="说话人id，与speaker_name二选一"),
+        sdp_ratio: float = Query(0.2, description="SDP/DP混合比"),
+        noise: float = Query(0.2, description="感情"),
+        noisew: float = Query(0.9, description="音素长度"),
+        length: float = Query(1, description="语速"),
+        language: str = Query(None, description="语言"),  # 若不指定使用语言则使用默认值
+        auto_translate: bool = Query(False, description="自动翻译"),
+        auto_split: bool = Query(False, description="自动切分"),
+        emotion: Optional[int] = Query(None, description="emo"),
+        reference_audio: UploadFile = File(None),
+    ):
+        """语音接口，若需要上传参考音频请仅使用post请求"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/voice  { unquote(str(request.query_params) )} text={text}"
+        )
+        return await _voice(
+            text=text,
+            model_id=model_id,
+            speaker_name=speaker_name,
+            speaker_id=speaker_id,
+            sdp_ratio=sdp_ratio,
+            noise=noise,
+            noisew=noisew,
+            length=length,
+            language=language,
+            auto_translate=auto_translate,
+            auto_split=auto_split,
+            emotion=emotion,
+            reference_audio=reference_audio,
+        )
+    @app.get("/voice")
+    async def voice(
+        request: Request,  # fastapi自动注入
+        text: str = Query(..., description="输入文字"),
+        model_id: int = Query(..., description="模型ID"),  # 模型序号
+        speaker_name: str = Query(
+            None, description="说话人名"
+        ),  # speaker_name与 speaker_id二者选其一
+        speaker_id: int = Query(None, description="说话人id，与speaker_name二选一"),
+        sdp_ratio: float = Query(0.2, description="SDP/DP混合比"),
+        noise: float = Query(0.2, description="感情"),
+        noisew: float = Query(0.9, description="音素长度"),
+        length: float = Query(1, description="语速"),
+        language: str = Query(None, description="语言"),  # 若不指定使用语言则使用默认值
+        auto_translate: bool = Query(False, description="自动翻译"),
+        auto_split: bool = Query(False, description="自动切分"),
+        emotion: Optional[int] = Query(None, description="emo"),
+    ):
+        """语音接口"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/voice  { unquote(str(request.query_params) )}"
+        )
+        return await _voice(
+            text=text,
+            model_id=model_id,
+            speaker_name=speaker_name,
+            speaker_id=speaker_id,
+            sdp_ratio=sdp_ratio,
+            noise=noise,
+            noisew=noisew,
+            length=length,
+            language=language,
+            auto_translate=auto_translate,
+            auto_split=auto_split,
+            emotion=emotion,
+        )
+    @app.get("/models/info")
+    def get_loaded_models_info(request: Request):
+        """获取已加载模型信息"""
+        result: Dict[str, Dict] = dict()
+        for key, model in loaded_models.models.items():
+            result[str(key)] = model.to_dict()
+        return result
+    @app.get("/models/delete")
+    def delete_model(
+        request: Request, model_id: int = Query(..., description="删除模型id")
+    ):
+        """删除指定模型"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/models/delete  { unquote(str(request.query_params) )}"
+        )
+        result = loaded_models.del_model(model_id)
+        if result is None:
+            return {"status": 14, "detail": f"模型{model_id}不存在，删除失败"}
+        return {"status": 0, "detail": "删除成功"}
+    @app.get("/models/add")
+    def add_model(
+        request: Request,
+        model_path: str = Query(..., description="添加模型路径"),
+        config_path: str = Query(
+            None, description="添加模型配置文件路径，不填则使用./config.json或../config.json"
+        ),
+        device: str = Query("cuda", description="推理使用设备"),
+        language: str = Query("ZH", description="模型默认语言"),
+    ):
+        """添加指定模型：允许重复添加相同路径模型，且不重复占用内存"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/models/add  { unquote(str(request.query_params) )}"
+        )
+        if config_path is None:
+            model_dir = os.path.dirname(model_path)
+            if os.path.isfile(os.path.join(model_dir, "config.json")):
+                config_path = os.path.join(model_dir, "config.json")
+            elif os.path.isfile(os.path.join(model_dir, "../config.json")):
+                config_path = os.path.join(model_dir, "../config.json")
+            else:
+                return {
+                    "status": 15,
+                    "detail": "查询未传入配置文件路径，同时默认路径./与../中不存在配置文件config.json。",
+                }
+        try:
+            model_id = loaded_models.init_model(
+                config_path=config_path,
+                model_path=model_path,
+                device=device,
+                language=language,
+            )
+        except Exception:
+            logging.exception("模型加载出错")
+            return {
+                "status": 16,
+                "detail": "模型加载出错，详细查看日志",
+            }
+        return {
+            "status": 0,
+            "detail": "模型添加成功",
+            "Data": {
+                "model_id": model_id,
+                "model_info": loaded_models.models[model_id].to_dict(),
+            },
+        }
+    def _get_all_models(root_dir: str = "Data", only_unloaded: bool = False):
+        """从root_dir搜索获取所有可用模型"""
+        result: Dict[str, List[str]] = dict()
+        files = os.listdir(root_dir) + ["."]
+        for file in files:
+            if os.path.isdir(os.path.join(root_dir, file)):
+                sub_dir = os.path.join(root_dir, file)
+                # 搜索 "sub_dir" 、 "sub_dir/models" 两个路径
+                result[file] = list()
+                sub_files = os.listdir(sub_dir)
+                model_files = []
+                for sub_file in sub_files:
+                    relpath = os.path.realpath(os.path.join(sub_dir, sub_file))
+                    if only_unloaded and relpath in loaded_models.path2ids.keys():
+                        continue
+                    if sub_file.endswith(".pth") and sub_file.startswith("G_"):
+                        if os.path.isfile(relpath):
+                            model_files.append(sub_file)
+                # 对模型文件按步数排序
+                model_files = sorted(
+                    model_files,
+                    key=lambda pth: int(pth.lstrip("G_").rstrip(".pth"))
+                    if pth.lstrip("G_").rstrip(".pth").isdigit()
+                    else 10**10,
+                )
+                result[file] = model_files
+                models_dir = os.path.join(sub_dir, "models")
+                model_files = []
+                if os.path.isdir(models_dir):
+                    sub_files = os.listdir(models_dir)
+                    for sub_file in sub_files:
+                        relpath = os.path.realpath(os.path.join(models_dir, sub_file))
+                        if only_unloaded and relpath in loaded_models.path2ids.keys():
+                            continue
+                        if sub_file.endswith(".pth") and sub_file.startswith("G_"):
+                            if os.path.isfile(os.path.join(models_dir, sub_file)):
+                                model_files.append(f"models/{sub_file}")
+                    # 对模型文件按步数排序
+                    model_files = sorted(
+                        model_files,
+                        key=lambda pth: int(pth.lstrip("models/G_").rstrip(".pth"))
+                        if pth.lstrip("models/G_").rstrip(".pth").isdigit()
+                        else 10**10,
+                    )
+                    result[file] += model_files
+                if len(result[file]) == 0:
+                    result.pop(file)
+        return result
+    @app.get("/models/get_unloaded")
+    def get_unloaded_models_info(
+        request: Request, root_dir: str = Query("Data", description="搜索根目录")
+    ):
+        """获取未加载模型"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/models/get_unloaded  { unquote(str(request.query_params) )}"
+        )
+        return _get_all_models(root_dir, only_unloaded=True)
+    @app.get("/models/get_local")
+    def get_local_models_info(
+        request: Request, root_dir: str = Query("Data", description="搜索根目录")
+    ):
+        """获取全部本地模型"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/models/get_local  { unquote(str(request.query_params) )}"
+        )
+        return _get_all_models(root_dir, only_unloaded=False)
+    @app.get("/status")
+    def get_status():
+        """获取电脑运行状态"""
+        cpu_percent = psutil.cpu_percent(interval=1)
+        memory_info = psutil.virtual_memory()
+        memory_total = memory_info.total
+        memory_available = memory_info.available
+        memory_used = memory_info.used
+        memory_percent = memory_info.percent
+        gpuInfo = []
+        devices = ["cpu"]
+        for i in range(torch.cuda.device_count()):
+            devices.append(f"cuda:{i}")
+        gpus = GPUtil.getGPUs()
+        for gpu in gpus:
+            gpuInfo.append(
+                {
+                    "gpu_id": gpu.id,
+                    "gpu_load": gpu.load,
+                    "gpu_memory": {
+                        "total": gpu.memoryTotal,
+                        "used": gpu.memoryUsed,
+                        "free": gpu.memoryFree,
+                    },
+                }
+            )
+        return {
+            "devices": devices,
+            "cpu_percent": cpu_percent,
+            "memory_total": memory_total,
+            "memory_available": memory_available,
+            "memory_used": memory_used,
+            "memory_percent": memory_percent,
+            "gpu": gpuInfo,
+        }
+    @app.get("/tools/translate")
+    def translate(
+        request: Request,
+        texts: str = Query(..., description="待翻译文本"),
+        to_language: str = Query(..., description="翻译目标语言"),
+    ):
+        """翻译"""
+        logger.info(
+            f"{request.client.host}:{request.client.port}/tools/translate  { unquote(str(request.query_params) )}"
+        )
+        return {"texts": trans.translate(Sentence=texts, to_Language=to_language)}
+    all_examples: Dict[str, Dict[str, List]] = dict()  # 存放示例
+    @app.get("/tools/random_example")
+    def random_example(
+        request: Request,
+        language: str = Query(None, description="指定语言，未指定则随机返回"),
+        root_dir: str = Query("Data", description="搜索根目录"),
+    ):
+        """
+        获取一个随机音频+文本，用于对比，音频会从本地目录随机选择。
+        """
+        logger.info(
+            f"{request.client.host}:{request.client.port}/tools/random_example  { unquote(str(request.query_params) )}"
+        )
+        global all_examples
+        # 数据初始化
+        if root_dir not in all_examples.keys():
+            all_examples[root_dir] = {"ZH": [], "JP": [], "EN": []}
+            examples = all_examples[root_dir]
+            # 从项目Data目录中搜索train/val.list
+            for root, directories, _files in os.walk(root_dir):
+                for file in _files:
+                    if file in ["train.list", "val.list"]:
+                        with open(
+                            os.path.join(root, file), mode="r", encoding="utf-8"
+                        ) as f:
+                            lines = f.readlines()
+                            for line in lines:
+                                data = line.split("|")
+                                if len(data) != 7:
+                                    continue
+                                # 音频存在 且语言为ZH/EN/JP
+                                if os.path.isfile(data[0]) and data[2] in [
+                                    "ZH",
+                                    "JP",
+                                    "EN",
+                                ]:
+                                    examples[data[2]].append(
+                                        {
+                                            "text": data[3],
+                                            "audio": data[0],
+                                            "speaker": data[1],
+                                        }
+                                    )
+        examples = all_examples[root_dir]
+        if language is None:
+            if len(examples["ZH"]) + len(examples["JP"]) + len(examples["EN"]) == 0:
+                return {"status": 17, "detail": "没有加载任何示例数据"}
+            else:
+                # 随机选一个
+                rand_num = random.randint(
+                    0,
+                    len(examples["ZH"]) + len(examples["JP"]) + len(examples["EN"]) - 1,
+                )
+                # ZH
+                if rand_num < len(examples["ZH"]):
+                    return {"status": 0, "Data": examples["ZH"][rand_num]}
+                # JP
+                if rand_num < len(examples["ZH"]) + len(examples["JP"]):
+                    return {
+                        "status": 0,
+                        "Data": examples["JP"][rand_num - len(examples["ZH"])],
+                    }
+                # EN
+                return {
+                    "status": 0,
+                    "Data": examples["EN"][
+                        rand_num - len(examples["ZH"]) - len(examples["JP"])
+                    ],
+                }
+        else:
+            if len(examples[language]) == 0:
+                return {"status": 17, "detail": f"没有加载任何{language}数据"}
+            return {
+                "status": 0,
+                "Data": examples[language][
+                    random.randint(0, len(examples[language]) - 1)
+                ],
+            }
+    @app.get("/tools/get_audio")
+    def get_audio(request: Request, path: str = Query(..., description="本地音频路径")):
+        logger.info(
+            f"{request.client.host}:{request.client.port}/tools/get_audio  { unquote(str(request.query_params) )}"
+        )
+        if not os.path.isfile(path):
+            return {"status": 18, "detail": "指定音频不存在"}
+        if not path.endswith(".wav"):
+            return {"status": 19, "detail": "非wav格式文件"}
+        return FileResponse(path=path)
+    logger.warning("本地服务，请勿将服务端口暴露于外网")
+    logger.info(f"api文档地址 http://127.0.0.1:{config.server_config.port}/docs")
+    if os.path.isdir(StaticDir):
+        webbrowser.open(f"http://127.0.0.1:{config.server_config.port}")
+    uvicorn.run(
+        app, port=config.server_config.port, host="0.0.0.0", log_level="warning"
+    )

spec_gen.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import torch
+from tqdm import tqdm
+from multiprocessing import Pool
+from mel_processing import spectrogram_torch, mel_spectrogram_torch
+from utils import load_wav_to_torch
+class AudioProcessor:
+    def __init__(
+        self,
+        max_wav_value,
+        use_mel_spec_posterior,
+        filter_length,
+        n_mel_channels,
+        sampling_rate,
+        hop_length,
+        win_length,
+        mel_fmin,
+        mel_fmax,
+    ):
+        self.max_wav_value = max_wav_value
+        self.use_mel_spec_posterior = use_mel_spec_posterior
+        self.filter_length = filter_length
+        self.n_mel_channels = n_mel_channels
+        self.sampling_rate = sampling_rate
+        self.hop_length = hop_length
+        self.win_length = win_length
+        self.mel_fmin = mel_fmin
+        self.mel_fmax = mel_fmax
+    def process_audio(self, filename):
+        audio, sampling_rate = load_wav_to_torch(filename)
+        audio_norm = audio / self.max_wav_value
+        audio_norm = audio_norm.unsqueeze(0)
+        spec_filename = filename.replace(".wav", ".spec.pt")
+        if self.use_mel_spec_posterior:
+            spec_filename = spec_filename.replace(".spec.pt", ".mel.pt")
+        try:
+            spec = torch.load(spec_filename)
+        except:
+            if self.use_mel_spec_posterior:
+                spec = mel_spectrogram_torch(
+                    audio_norm,
+                    self.filter_length,
+                    self.n_mel_channels,
+                    self.sampling_rate,
+                    self.hop_length,
+                    self.win_length,
+                    self.mel_fmin,
+                    self.mel_fmax,
+                    center=False,
+                )
+            else:
+                spec = spectrogram_torch(
+                    audio_norm,
+                    self.filter_length,
+                    self.sampling_rate,
+                    self.hop_length,
+                    self.win_length,
+                    center=False,
+                )
+            spec = torch.squeeze(spec, 0)
+            torch.save(spec, spec_filename)
+        return spec, audio_norm
+# 使用示例
+processor = AudioProcessor(
+    max_wav_value=32768.0,
+    use_mel_spec_posterior=False,
+    filter_length=2048,
+    n_mel_channels=128,
+    sampling_rate=44100,
+    hop_length=512,
+    win_length=2048,
+    mel_fmin=0.0,
+    mel_fmax="null",
+)
+with open("filelists/train.list", "r") as f:
+    filepaths = [line.split("|")[0] for line in f]  # 取每一行的第一部分作为audiopath
+# 使用多进程处理
+with Pool(processes=32) as pool:  # 使用4个进程
+    with tqdm(total=len(filepaths)) as pbar:
+        for i, _ in enumerate(pool.imap_unordered(processor.process_audio, filepaths)):
+            pbar.update()

transforms.py ADDED Viewed

	@@ -0,0 +1,209 @@

+import torch
+from torch.nn import functional as F
+import numpy as np
+DEFAULT_MIN_BIN_WIDTH = 1e-3
+DEFAULT_MIN_BIN_HEIGHT = 1e-3
+DEFAULT_MIN_DERIVATIVE = 1e-3
+def piecewise_rational_quadratic_transform(
+    inputs,
+    unnormalized_widths,
+    unnormalized_heights,
+    unnormalized_derivatives,
+    inverse=False,
+    tails=None,
+    tail_bound=1.0,
+    min_bin_width=DEFAULT_MIN_BIN_WIDTH,
+    min_bin_height=DEFAULT_MIN_BIN_HEIGHT,
+    min_derivative=DEFAULT_MIN_DERIVATIVE,
+):
+    if tails is None:
+        spline_fn = rational_quadratic_spline
+        spline_kwargs = {}
+    else:
+        spline_fn = unconstrained_rational_quadratic_spline
+        spline_kwargs = {"tails": tails, "tail_bound": tail_bound}
+    outputs, logabsdet = spline_fn(
+        inputs=inputs,
+        unnormalized_widths=unnormalized_widths,
+        unnormalized_heights=unnormalized_heights,
+        unnormalized_derivatives=unnormalized_derivatives,
+        inverse=inverse,
+        min_bin_width=min_bin_width,
+        min_bin_height=min_bin_height,
+        min_derivative=min_derivative,
+        **spline_kwargs
+    )
+    return outputs, logabsdet
+def searchsorted(bin_locations, inputs, eps=1e-6):
+    bin_locations[..., -1] += eps
+    return torch.sum(inputs[..., None] >= bin_locations, dim=-1) - 1
+def unconstrained_rational_quadratic_spline(
+    inputs,
+    unnormalized_widths,
+    unnormalized_heights,
+    unnormalized_derivatives,
+    inverse=False,
+    tails="linear",
+    tail_bound=1.0,
+    min_bin_width=DEFAULT_MIN_BIN_WIDTH,
+    min_bin_height=DEFAULT_MIN_BIN_HEIGHT,
+    min_derivative=DEFAULT_MIN_DERIVATIVE,
+):
+    inside_interval_mask = (inputs >= -tail_bound) & (inputs <= tail_bound)
+    outside_interval_mask = ~inside_interval_mask
+    outputs = torch.zeros_like(inputs)
+    logabsdet = torch.zeros_like(inputs)
+    if tails == "linear":
+        unnormalized_derivatives = F.pad(unnormalized_derivatives, pad=(1, 1))
+        constant = np.log(np.exp(1 - min_derivative) - 1)
+        unnormalized_derivatives[..., 0] = constant
+        unnormalized_derivatives[..., -1] = constant
+        outputs[outside_interval_mask] = inputs[outside_interval_mask]
+        logabsdet[outside_interval_mask] = 0
+    else:
+        raise RuntimeError("{} tails are not implemented.".format(tails))
+    (
+        outputs[inside_interval_mask],
+        logabsdet[inside_interval_mask],
+    ) = rational_quadratic_spline(
+        inputs=inputs[inside_interval_mask],
+        unnormalized_widths=unnormalized_widths[inside_interval_mask, :],
+        unnormalized_heights=unnormalized_heights[inside_interval_mask, :],
+        unnormalized_derivatives=unnormalized_derivatives[inside_interval_mask, :],
+        inverse=inverse,
+        left=-tail_bound,
+        right=tail_bound,
+        bottom=-tail_bound,
+        top=tail_bound,
+        min_bin_width=min_bin_width,
+        min_bin_height=min_bin_height,
+        min_derivative=min_derivative,
+    )
+    return outputs, logabsdet
+def rational_quadratic_spline(
+    inputs,
+    unnormalized_widths,
+    unnormalized_heights,
+    unnormalized_derivatives,
+    inverse=False,
+    left=0.0,
+    right=1.0,
+    bottom=0.0,
+    top=1.0,
+    min_bin_width=DEFAULT_MIN_BIN_WIDTH,
+    min_bin_height=DEFAULT_MIN_BIN_HEIGHT,
+    min_derivative=DEFAULT_MIN_DERIVATIVE,
+):
+    if torch.min(inputs) < left or torch.max(inputs) > right:
+        raise ValueError("Input to a transform is not within its domain")
+    num_bins = unnormalized_widths.shape[-1]
+    if min_bin_width * num_bins > 1.0:
+        raise ValueError("Minimal bin width too large for the number of bins")
+    if min_bin_height * num_bins > 1.0:
+        raise ValueError("Minimal bin height too large for the number of bins")
+    widths = F.softmax(unnormalized_widths, dim=-1)
+    widths = min_bin_width + (1 - min_bin_width * num_bins) * widths
+    cumwidths = torch.cumsum(widths, dim=-1)
+    cumwidths = F.pad(cumwidths, pad=(1, 0), mode="constant", value=0.0)
+    cumwidths = (right - left) * cumwidths + left
+    cumwidths[..., 0] = left
+    cumwidths[..., -1] = right
+    widths = cumwidths[..., 1:] - cumwidths[..., :-1]
+    derivatives = min_derivative + F.softplus(unnormalized_derivatives)
+    heights = F.softmax(unnormalized_heights, dim=-1)
+    heights = min_bin_height + (1 - min_bin_height * num_bins) * heights
+    cumheights = torch.cumsum(heights, dim=-1)
+    cumheights = F.pad(cumheights, pad=(1, 0), mode="constant", value=0.0)
+    cumheights = (top - bottom) * cumheights + bottom
+    cumheights[..., 0] = bottom
+    cumheights[..., -1] = top
+    heights = cumheights[..., 1:] - cumheights[..., :-1]
+    if inverse:
+        bin_idx = searchsorted(cumheights, inputs)[..., None]
+    else:
+        bin_idx = searchsorted(cumwidths, inputs)[..., None]
+    input_cumwidths = cumwidths.gather(-1, bin_idx)[..., 0]
+    input_bin_widths = widths.gather(-1, bin_idx)[..., 0]
+    input_cumheights = cumheights.gather(-1, bin_idx)[..., 0]
+    delta = heights / widths
+    input_delta = delta.gather(-1, bin_idx)[..., 0]
+    input_derivatives = derivatives.gather(-1, bin_idx)[..., 0]
+    input_derivatives_plus_one = derivatives[..., 1:].gather(-1, bin_idx)[..., 0]
+    input_heights = heights.gather(-1, bin_idx)[..., 0]
+    if inverse:
+        a = (inputs - input_cumheights) * (
+            input_derivatives + input_derivatives_plus_one - 2 * input_delta
+        ) + input_heights * (input_delta - input_derivatives)
+        b = input_heights * input_derivatives - (inputs - input_cumheights) * (
+            input_derivatives + input_derivatives_plus_one - 2 * input_delta
+        )
+        c = -input_delta * (inputs - input_cumheights)
+        discriminant = b.pow(2) - 4 * a * c
+        assert (discriminant >= 0).all()
+        root = (2 * c) / (-b - torch.sqrt(discriminant))
+        outputs = root * input_bin_widths + input_cumwidths
+        theta_one_minus_theta = root * (1 - root)
+        denominator = input_delta + (
+            (input_derivatives + input_derivatives_plus_one - 2 * input_delta)
+            * theta_one_minus_theta
+        )
+        derivative_numerator = input_delta.pow(2) * (
+            input_derivatives_plus_one * root.pow(2)
+            + 2 * input_delta * theta_one_minus_theta
+            + input_derivatives * (1 - root).pow(2)
+        )
+        logabsdet = torch.log(derivative_numerator) - 2 * torch.log(denominator)
+        return outputs, -logabsdet
+    else:
+        theta = (inputs - input_cumwidths) / input_bin_widths
+        theta_one_minus_theta = theta * (1 - theta)
+        numerator = input_heights * (
+            input_delta * theta.pow(2) + input_derivatives * theta_one_minus_theta
+        )
+        denominator = input_delta + (
+            (input_derivatives + input_derivatives_plus_one - 2 * input_delta)
+            * theta_one_minus_theta
+        )
+        outputs = input_cumheights + numerator / denominator
+        derivative_numerator = input_delta.pow(2) * (
+            input_derivatives_plus_one * theta.pow(2)
+            + 2 * input_delta * theta_one_minus_theta
+            + input_derivatives * (1 - theta).pow(2)
+        )
+        logabsdet = torch.log(derivative_numerator) - 2 * torch.log(denominator)
+        return outputs, logabsdet

update_status.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import os
+import gradio as gr
+lang_dict = {"EN(英文)": "_en", "ZH(中文)": "_zh", "JP(日语)": "_jp"}
+def raw_dir_convert_to_path(target_dir: str, lang):
+    res = target_dir.rstrip("/").rstrip("\\")
+    if (not target_dir.startswith("raw")) and (not target_dir.startswith("./raw")):
+        res = os.path.join("./raw", res)
+    if (
+        (not res.endswith("_zh"))
+        and (not res.endswith("_jp"))
+        and (not res.endswith("_en"))
+    ):
+        res += lang_dict[lang]
+    return res
+def update_g_files():
+    g_files = []
+    cnt = 0
+    for root, dirs, files in os.walk(os.path.abspath("./logs")):
+        for file in files:
+            if file.startswith("G_") and file.endswith(".pth"):
+                g_files.append(os.path.join(root, file))
+                cnt += 1
+    print(g_files)
+    return f"更新模型列表完成, 共找到{cnt}个模型", gr.Dropdown.update(choices=g_files)
+def update_c_files():
+    c_files = []
+    cnt = 0
+    for root, dirs, files in os.walk(os.path.abspath("./logs")):
+        for file in files:
+            if file.startswith("config.json"):
+                c_files.append(os.path.join(root, file))
+                cnt += 1
+    print(c_files)
+    return f"更新模型列表完成, 共找到{cnt}个配置文件", gr.Dropdown.update(choices=c_files)
+def update_model_folders():
+    subdirs = []
+    cnt = 0
+    for root, dirs, files in os.walk(os.path.abspath("./logs")):
+        for dir_name in dirs:
+            if os.path.basename(dir_name) != "eval":
+                subdirs.append(os.path.join(root, dir_name))
+                cnt += 1
+    print(subdirs)
+    return f"更新模型文件夹列表完成, 共找到{cnt}个文件夹", gr.Dropdown.update(choices=subdirs)
+def update_wav_lab_pairs():
+    wav_count = tot_count = 0
+    for root, _, files in os.walk("./raw"):
+        for file in files:
+            # print(file)
+            file_path = os.path.join(root, file)
+            if file.lower().endswith(".wav"):
+                lab_file = os.path.splitext(file_path)[0] + ".lab"
+                if os.path.exists(lab_file):
+                    wav_count += 1
+                tot_count += 1
+    return f"{wav_count} / {tot_count}"
+def update_raw_folders():
+    subdirs = []
+    cnt = 0
+    script_path = os.path.dirname(os.path.abspath(__file__))  # 获取当前脚本的绝对路径
+    raw_path = os.path.join(script_path, "raw")
+    print(raw_path)
+    os.makedirs(raw_path, exist_ok=True)
+    for root, dirs, files in os.walk(raw_path):
+        for dir_name in dirs:
+            relative_path = os.path.relpath(
+                os.path.join(root, dir_name), script_path
+            )  # 获取相对路径
+            subdirs.append(relative_path)
+            cnt += 1
+    print(subdirs)
+    return (
+        f"更新raw音频文件夹列表完成, 共找到{cnt}个文件夹",
+        gr.Dropdown.update(choices=subdirs),
+        gr.Textbox.update(value=update_wav_lab_pairs()),
+    )

utils.py ADDED Viewed

	@@ -0,0 +1,457 @@

+import os
+import glob
+import argparse
+import logging
+import json
+import shutil
+import subprocess
+import numpy as np
+from huggingface_hub import hf_hub_download
+from scipy.io.wavfile import read
+import torch
+import re
+MATPLOTLIB_FLAG = False
+logger = logging.getLogger(__name__)
+def download_emo_models(mirror, repo_id, model_name):
+    if mirror == "openi":
+        import openi
+        openi.model.download_model(
+            "Stardust_minus/Bert-VITS2",
+            repo_id.split("/")[-1],
+            "./emotional",
+        )
+    else:
+        hf_hub_download(
+            repo_id,
+            "pytorch_model.bin",
+            local_dir=model_name,
+            local_dir_use_symlinks=False,
+        )
+def download_checkpoint(
+    dir_path, repo_config, token=None, regex="G_*.pth", mirror="openi"
+):
+    repo_id = repo_config["repo_id"]
+    f_list = glob.glob(os.path.join(dir_path, regex))
+    if f_list:
+        print("Use existed model, skip downloading.")
+        return
+    if mirror.lower() == "openi":
+        import openi
+        kwargs = {"token": token} if token else {}
+        openi.login(**kwargs)
+        model_image = repo_config["model_image"]
+        openi.model.download_model(repo_id, model_image, dir_path)
+        fs = glob.glob(os.path.join(dir_path, model_image, "*.pth"))
+        for file in fs:
+            shutil.move(file, dir_path)
+        shutil.rmtree(os.path.join(dir_path, model_image))
+    else:
+        for file in ["DUR_0.pth", "D_0.pth", "G_0.pth"]:
+            hf_hub_download(
+                repo_id, file, local_dir=dir_path, local_dir_use_symlinks=False
+            )
+def load_checkpoint(checkpoint_path, model, optimizer=None, skip_optimizer=False):
+    assert os.path.isfile(checkpoint_path)
+    checkpoint_dict = torch.load(checkpoint_path, map_location="cpu")
+    iteration = checkpoint_dict["iteration"]
+    learning_rate = checkpoint_dict["learning_rate"]
+    if (
+        optimizer is not None
+        and not skip_optimizer
+        and checkpoint_dict["optimizer"] is not None
+    ):
+        optimizer.load_state_dict(checkpoint_dict["optimizer"])
+    elif optimizer is None and not skip_optimizer:
+        # else:      Disable this line if Infer and resume checkpoint,then enable the line upper
+        new_opt_dict = optimizer.state_dict()
+        new_opt_dict_params = new_opt_dict["param_groups"][0]["params"]
+        new_opt_dict["param_groups"] = checkpoint_dict["optimizer"]["param_groups"]
+        new_opt_dict["param_groups"][0]["params"] = new_opt_dict_params
+        optimizer.load_state_dict(new_opt_dict)
+    saved_state_dict = checkpoint_dict["model"]
+    if hasattr(model, "module"):
+        state_dict = model.module.state_dict()
+    else:
+        state_dict = model.state_dict()
+    new_state_dict = {}
+    for k, v in state_dict.items():
+        try:
+            # assert "emb_g" not in k
+            new_state_dict[k] = saved_state_dict[k]
+            assert saved_state_dict[k].shape == v.shape, (
+                saved_state_dict[k].shape,
+                v.shape,
+            )
+        except:
+            # For upgrading from the old version
+            if "ja_bert_proj" in k:
+                v = torch.zeros_like(v)
+                logger.warn(
+                    f"Seems you are using the old version of the model, the {k} is automatically set to zero for backward compatibility"
+                )
+            else:
+                logger.error(f"{k} is not in the checkpoint")
+            new_state_dict[k] = v
+    if hasattr(model, "module"):
+        model.module.load_state_dict(new_state_dict, strict=False)
+    else:
+        model.load_state_dict(new_state_dict, strict=False)
+    logger.info(
+        "Loaded checkpoint '{}' (iteration {})".format(checkpoint_path, iteration)
+    )
+    return model, optimizer, learning_rate, iteration
+def save_checkpoint(model, optimizer, learning_rate, iteration, checkpoint_path):
+    logger.info(
+        "Saving model and optimizer state at iteration {} to {}".format(
+            iteration, checkpoint_path
+        )
+    )
+    if hasattr(model, "module"):
+        state_dict = model.module.state_dict()
+    else:
+        state_dict = model.state_dict()
+    torch.save(
+        {
+            "model": state_dict,
+            "iteration": iteration,
+            "optimizer": optimizer.state_dict(),
+            "learning_rate": learning_rate,
+        },
+        checkpoint_path,
+    )
+def summarize(
+    writer,
+    global_step,
+    scalars={},
+    histograms={},
+    images={},
+    audios={},
+    audio_sampling_rate=22050,
+):
+    for k, v in scalars.items():
+        writer.add_scalar(k, v, global_step)
+    for k, v in histograms.items():
+        writer.add_histogram(k, v, global_step)
+    for k, v in images.items():
+        writer.add_image(k, v, global_step, dataformats="HWC")
+    for k, v in audios.items():
+        writer.add_audio(k, v, global_step, audio_sampling_rate)
+def latest_checkpoint_path(dir_path, regex="G_*.pth"):
+    f_list = glob.glob(os.path.join(dir_path, regex))
+    f_list.sort(key=lambda f: int("".join(filter(str.isdigit, f))))
+    x = f_list[-1]
+    return x
+def plot_spectrogram_to_numpy(spectrogram):
+    global MATPLOTLIB_FLAG
+    if not MATPLOTLIB_FLAG:
+        import matplotlib
+        matplotlib.use("Agg")
+        MATPLOTLIB_FLAG = True
+        mpl_logger = logging.getLogger("matplotlib")
+        mpl_logger.setLevel(logging.WARNING)
+    import matplotlib.pylab as plt
+    import numpy as np
+    fig, ax = plt.subplots(figsize=(10, 2))
+    im = ax.imshow(spectrogram, aspect="auto", origin="lower", interpolation="none")
+    plt.colorbar(im, ax=ax)
+    plt.xlabel("Frames")
+    plt.ylabel("Channels")
+    plt.tight_layout()
+    fig.canvas.draw()
+    data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep="")
+    data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+    plt.close()
+    return data
+def plot_alignment_to_numpy(alignment, info=None):
+    global MATPLOTLIB_FLAG
+    if not MATPLOTLIB_FLAG:
+        import matplotlib
+        matplotlib.use("Agg")
+        MATPLOTLIB_FLAG = True
+        mpl_logger = logging.getLogger("matplotlib")
+        mpl_logger.setLevel(logging.WARNING)
+    import matplotlib.pylab as plt
+    import numpy as np
+    fig, ax = plt.subplots(figsize=(6, 4))
+    im = ax.imshow(
+        alignment.transpose(), aspect="auto", origin="lower", interpolation="none"
+    )
+    fig.colorbar(im, ax=ax)
+    xlabel = "Decoder timestep"
+    if info is not None:
+        xlabel += "\n\n" + info
+    plt.xlabel(xlabel)
+    plt.ylabel("Encoder timestep")
+    plt.tight_layout()
+    fig.canvas.draw()
+    data = np.fromstring(fig.canvas.tostring_rgb(), dtype=np.uint8, sep="")
+    data = data.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+    plt.close()
+    return data
+def load_wav_to_torch(full_path):
+    sampling_rate, data = read(full_path)
+    return torch.FloatTensor(data.astype(np.float32)), sampling_rate
+def load_filepaths_and_text(filename, split="|"):
+    with open(filename, encoding="utf-8") as f:
+        filepaths_and_text = [line.strip().split(split) for line in f]
+    return filepaths_and_text
+def get_hparams(init=True):
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-c",
+        "--config",
+        type=str,
+        default="./configs/base.json",
+        help="JSON file for configuration",
+    )
+    parser.add_argument("-m", "--model", type=str, required=True, help="Model name")
+    args = parser.parse_args()
+    model_dir = os.path.join("./logs", args.model)
+    if not os.path.exists(model_dir):
+        os.makedirs(model_dir)
+    config_path = args.config
+    config_save_path = os.path.join(model_dir, "config.json")
+    if init:
+        with open(config_path, "r", encoding="utf-8") as f:
+            data = f.read()
+        with open(config_save_path, "w", encoding="utf-8") as f:
+            f.write(data)
+    else:
+        with open(config_save_path, "r", vencoding="utf-8") as f:
+            data = f.read()
+    config = json.loads(data)
+    hparams = HParams(**config)
+    hparams.model_dir = model_dir
+    return hparams
+def clean_checkpoints(path_to_models="logs/44k/", n_ckpts_to_keep=2, sort_by_time=True):
+    """Freeing up space by deleting saved ckpts
+    Arguments:
+    path_to_models    --  Path to the model directory
+    n_ckpts_to_keep   --  Number of ckpts to keep, excluding G_0.pth and D_0.pth
+    sort_by_time      --  True -> chronologically delete ckpts
+                          False -> lexicographically delete ckpts
+    """
+    import re
+    ckpts_files = [
+        f
+        for f in os.listdir(path_to_models)
+        if os.path.isfile(os.path.join(path_to_models, f))
+    ]
+    def name_key(_f):
+        return int(re.compile("._(\\d+)\\.pth").match(_f).group(1))
+    def time_key(_f):
+        return os.path.getmtime(os.path.join(path_to_models, _f))
+    sort_key = time_key if sort_by_time else name_key
+    def x_sorted(_x):
+        return sorted(
+            [f for f in ckpts_files if f.startswith(_x) and not f.endswith("_0.pth")],
+            key=sort_key,
+        )
+    to_del = [
+        os.path.join(path_to_models, fn)
+        for fn in (x_sorted("G")[:-n_ckpts_to_keep] + x_sorted("D")[:-n_ckpts_to_keep])
+    ]
+    def del_info(fn):
+        return logger.info(f".. Free up space by deleting ckpt {fn}")
+    def del_routine(x):
+        return [os.remove(x), del_info(x)]
+    [del_routine(fn) for fn in to_del]
+def get_hparams_from_dir(model_dir):
+    config_save_path = os.path.join(model_dir, "config.json")
+    with open(config_save_path, "r", encoding="utf-8") as f:
+        data = f.read()
+    config = json.loads(data)
+    hparams = HParams(**config)
+    hparams.model_dir = model_dir
+    return hparams
+def get_hparams_from_file(config_path):
+    # print("config_path: ", config_path)
+    with open(config_path, "r", encoding="utf-8") as f:
+        data = f.read()
+    config = json.loads(data)
+    hparams = HParams(**config)
+    return hparams
+def check_git_hash(model_dir):
+    source_dir = os.path.dirname(os.path.realpath(__file__))
+    if not os.path.exists(os.path.join(source_dir, ".git")):
+        logger.warn(
+            "{} is not a git repository, therefore hash value comparison will be ignored.".format(
+                source_dir
+            )
+        )
+        return
+    cur_hash = subprocess.getoutput("git rev-parse HEAD")
+    path = os.path.join(model_dir, "githash")
+    if os.path.exists(path):
+        saved_hash = open(path).read()
+        if saved_hash != cur_hash:
+            logger.warn(
+                "git hash values are different. {}(saved) != {}(current)".format(
+                    saved_hash[:8], cur_hash[:8]
+                )
+            )
+    else:
+        open(path, "w").write(cur_hash)
+def get_logger(model_dir, filename="train.log"):
+    global logger
+    logger = logging.getLogger(os.path.basename(model_dir))
+    logger.setLevel(logging.DEBUG)
+    formatter = logging.Formatter("%(asctime)s\t%(name)s\t%(levelname)s\t%(message)s")
+    if not os.path.exists(model_dir):
+        os.makedirs(model_dir)
+    h = logging.FileHandler(os.path.join(model_dir, filename))
+    h.setLevel(logging.DEBUG)
+    h.setFormatter(formatter)
+    logger.addHandler(h)
+    return logger
+class HParams:
+    def __init__(self, **kwargs):
+        for k, v in kwargs.items():
+            if type(v) == dict:
+                v = HParams(**v)
+            self[k] = v
+    def keys(self):
+        return self.__dict__.keys()
+    def items(self):
+        return self.__dict__.items()
+    def values(self):
+        return self.__dict__.values()
+    def __len__(self):
+        return len(self.__dict__)
+    def __getitem__(self, key):
+        return getattr(self, key)
+    def __setitem__(self, key, value):
+        return setattr(self, key, value)
+    def __contains__(self, key):
+        return key in self.__dict__
+    def __repr__(self):
+        return self.__dict__.__repr__()
+def load_model(model_path, config_path):
+    hps = get_hparams_from_file(config_path)
+    net = SynthesizerTrn(
+        # len(symbols),
+        108,
+        hps.data.filter_length // 2 + 1,
+        hps.train.segment_size // hps.data.hop_length,
+        n_speakers=hps.data.n_speakers,
+        **hps.model,
+    ).to("cpu")
+    _ = net.eval()
+    _ = load_checkpoint(model_path, net, None, skip_optimizer=True)
+    return net
+def mix_model(
+    network1, network2, output_path, voice_ratio=(0.5, 0.5), tone_ratio=(0.5, 0.5)
+):
+    if hasattr(network1, "module"):
+        state_dict1 = network1.module.state_dict()
+        state_dict2 = network2.module.state_dict()
+    else:
+        state_dict1 = network1.state_dict()
+        state_dict2 = network2.state_dict()
+    for k in state_dict1.keys():
+        if k not in state_dict2.keys():
+            continue
+        if "enc_p" in k:
+            state_dict1[k] = (
+                state_dict1[k].clone() * tone_ratio[0]
+                + state_dict2[k].clone() * tone_ratio[1]
+            )
+        else:
+            state_dict1[k] = (
+                state_dict1[k].clone() * voice_ratio[0]
+                + state_dict2[k].clone() * voice_ratio[1]
+            )
+    for k in state_dict2.keys():
+        if k not in state_dict1.keys():
+            state_dict1[k] = state_dict2[k].clone()
+    torch.save(
+        {"model": state_dict1, "iteration": 0, "optimizer": None, "learning_rate": 0},
+        output_path,
+    )
+def get_steps(model_path):
+    matches = re.findall(r"\d+", model_path)
+    return matches[-1] if matches else None