vits-simple-api

Running

App Files Files Community

Artrajz commited on Aug 28, 2023

Commit

d94ccbe

•

1 Parent(s): ea294dc

Upload 44 files

Browse files

Files changed (18) hide show

Dockerfile +8 -8
Dockerfile_GPU +37 -0
README_zh.md +16 -14
app.py +14 -28
config.py +10 -4
docker-compose-gpu.yaml +15 -0
docker-compose.yaml +3 -1
gunicorn_config.py +4 -0
logger.py +42 -0
requirements.txt +2 -1
static/css/style.css +84 -0
templates/index.html +267 -121
text/cleaners.py +15 -0
text/mandarin.py +2 -3
utils/merge.py +16 -8
utils/nlp.py +1 -7
vits-simple-api-installer-latest.sh +26 -1
voice.py +14 -15

Dockerfile CHANGED Viewed

@@ -6,15 +6,13 @@ WORKDIR /app
 ENV DEBIAN_FRONTEND=noninteractive
 RUN apt-get update && \
-    apt install build-essential -yq && \
-    apt install espeak-ng -yq && \
-    apt install cmake -yq && \
-    apt install -y wget -yq && \
     apt-get clean && \
     apt-get purge -y --auto-remove -o APT::AutoRemove::RecommendsImportant=false && \
     rm -rf /var/lib/apt/lists/*
-RUN pip install MarkupSafe==2.1.2 numpy==1.23.3 cython six==1.16.0
 RUN wget https://raw.githubusercontent.com/Artrajz/archived/main/openjtalk/openjtalk-0.3.0.dev2.tar.gz && \
     tar -zxvf openjtalk-0.3.0.dev2.tar.gz && \
@@ -25,13 +23,15 @@ RUN wget https://raw.githubusercontent.com/Artrajz/archived/main/openjtalk/openj
     rm -f openjtalk-0.3.0.dev2.tar.gz && \
     rm -rf openjtalk-0.3.0.dev2
-RUN pip install torch --index-url https://download.pytorch.org/whl/cpu
 COPY requirements.txt /app
-RUN pip install -r requirements.txt
 COPY . /app
 EXPOSE 23456
-CMD ["python", "/app/app.py"]

 ENV DEBIAN_FRONTEND=noninteractive
 RUN apt-get update && \
+    apt-get install -yq build-essential espeak-ng cmake wget && \
     apt-get clean && \
     apt-get purge -y --auto-remove -o APT::AutoRemove::RecommendsImportant=false && \
     rm -rf /var/lib/apt/lists/*
+RUN pip install --upgrade pip --no-cache-dir && \
+    pip install MarkupSafe==2.1.2 numpy==1.23.3 cython six==1.16.0 safetensors==0.3.2 --no-cache-dir
 RUN wget https://raw.githubusercontent.com/Artrajz/archived/main/openjtalk/openjtalk-0.3.0.dev2.tar.gz && \
     tar -zxvf openjtalk-0.3.0.dev2.tar.gz && \
     rm -f openjtalk-0.3.0.dev2.tar.gz && \
     rm -rf openjtalk-0.3.0.dev2
+RUN pip install torch --index-url https://download.pytorch.org/whl/cpu --no-cache-dir
 COPY requirements.txt /app
+RUN pip install -r requirements.txt --no-cache-dir
+RUN pip install gunicorn --no-cache-dir
 COPY . /app
 EXPOSE 23456
+CMD ["gunicorn", "-c", "gunicorn_config.py", "app:app"]

Dockerfile_GPU ADDED Viewed

	@@ -0,0 +1,37 @@

+FROM python:3.10.11-slim-bullseye
+RUN mkdir -p /app
+WORKDIR /app
+ENV DEBIAN_FRONTEND=noninteractive
+RUN apt-get update && \
+    apt-get install -yq build-essential espeak-ng cmake wget && \
+    apt-get clean && \
+    apt-get purge -y --auto-remove -o APT::AutoRemove::RecommendsImportant=false && \
+    rm -rf /var/lib/apt/lists/*
+RUN pip install --upgrade pip --no-cache-dir && \
+    pip install MarkupSafe==2.1.2 numpy==1.23.3 cython six==1.16.0  safetensors==0.3.2 --no-cache-dir
+RUN wget https://raw.githubusercontent.com/Artrajz/archived/main/openjtalk/openjtalk-0.3.0.dev2.tar.gz && \
+    tar -zxvf openjtalk-0.3.0.dev2.tar.gz && \
+    cd openjtalk-0.3.0.dev2 && \
+    rm -rf ./pyopenjtalk/open_jtalk_dic_utf_8-1.11 && \
+    python setup.py install && \
+    cd ../ && \
+    rm -f openjtalk-0.3.0.dev2.tar.gz && \
+    rm -rf openjtalk-0.3.0.dev2
+RUN pip install torch --index-url https://download.pytorch.org/whl/cu117 --no-cache-dir
+COPY requirements.txt /app
+RUN pip install -r requirements.txt --no-cache-dir
+RUN pip install gunicorn --no-cache-dir
+COPY . /app
+EXPOSE 23456
+CMD ["gunicorn", "-c", "gunicorn_config.py", "app:app"]

README_zh.md CHANGED Viewed

@@ -63,7 +63,7 @@
 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164`
-- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你知道1+1=几吗？我觉得1+1≠3&id=164&lang=zh`
 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4`
 - 激动：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111`
 - 小声：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077`
@@ -495,14 +495,15 @@ def voice_dimensional_emotion(upload_path):
 | Name          | Parameter | Is must | Default | Type  | Instruction                                                  |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
-| 合成文本      | text      | true    |         | str   |                                                              |
-| 角色id        | id        | false   | 0       | int   |                                                              |
 | 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
-| 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
-| 噪声          | noise     | false   | 0.667   | float |                                                              |
-| 噪声偏差      | noisew    | false   | 0.8     | float |                                                              |
 | 分段阈值      | max       | false   | 50      | int   | 按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。 |
 ## VITS 语音转换
@@ -516,12 +517,12 @@ def voice_dimensional_emotion(upload_path):
 | Name          | Parameter | Is must | Default | Type  | Instruction                                      |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------ |
-| 上传音频      | upload    | true    |         | file  |                                                  |
-| 目标角色id    | id        | true    |         | int   |                                                  |
 | 音频格式      | format    | true    |         | str   | wav,ogg,silk                                     |
 | 语音长度/语速 | length    | true    |         | float | 调节语音长度，相当于调节语速，该数值越大语速越慢 |
-| 噪声          | noise     | true    |         | float |                                                  |
-| 噪声偏差      | noisew    | true    |         | float |                                                  |
 ## Dimensional emotion
@@ -533,13 +534,13 @@ def voice_dimensional_emotion(upload_path):
 | Name          | Parameter | Is must | Default | Type  | Instruction                                                  |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
-| 合成文本      | text      | true    |         | str   |                                                              |
-| 角色id        | id        | false   | 0       | int   |                                                              |
 | 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
-| 噪声          | noise     | false   | 0.667   | float |                                                              |
-| 噪声偏差      | noisew    | false   | 0.8     | float |                                                              |
 | 分段阈值      | max       | false   | 50      | int   | 按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。 |
 | 维度情感      | emotion   | false   | 0       | int   | 范围取决于npy情感参考文件，如[innnky](https://huggingface.co/spaces/innnky/nene-emotion/tree/main)的all_emotions.npy模型范围是0-5457 |
@@ -623,4 +624,5 @@ def voice_dimensional_emotion(upload_path):
 - MoeGoe:https://github.com/CjangCjengh/MoeGoe
 - emotional-vits:https://github.com/innnky/emotional-vits
 - vits-uma-genshin-honkai:https://huggingface.co/spaces/zomehwh/vits-uma-genshin-honkai

 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164`
+- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=我觉得1%2B1≠3&id=164&lang=zh`（get中一些字符需要转义不然会被过滤掉）
 - `https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4`
 - 激动：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111`
 - 小声：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077`
 | Name          | Parameter | Is must | Default | Type  | Instruction                                                  |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
+| 合成文本      | text      | true    |         | str   | 需要合成语音的文本。                                         |
+| 角色id        | id        | false   | 0       | int   | 即说话人id。                                                 |
 | 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
+| 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢。           |
+| 噪声          | noise     | false   | 0.33    | float | 样本噪声，控制合成的随机性。                                 |
+| sdp噪声       | noisew    | false   | 0.4     | float | 随机时长预测器噪声，控制音素发音长度。                       |
 | 分段阈值      | max       | false   | 50      | int   | 按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。 |
+| 流式响应      | streaming | false   | false   | bool  | 流式合成语音，更快的首包响应。                               |
 ## VITS 语音转换
 | Name          | Parameter | Is must | Default | Type  | Instruction                                      |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------ |
+| 上传音频      | upload    | true    |         | file  | 需要转换说话人的音频文件。                       |
+| 目标角色id    | id        | true    |         | int   | 目标说话人id。                                   |
 | 音频格式      | format    | true    |         | str   | wav,ogg,silk                                     |
 | 语音长度/语速 | length    | true    |         | float | 调节语音长度，相当于调节语速，该数值越大语速越慢 |
+| 噪声          | noise     | true    |         | float | 样本噪声，控制合成的随机性。                     |
+| sdp噪声       | noisew    | true    |         | float | 随机时长预测器噪声，控制音素发音长度。           |
 ## Dimensional emotion
 | Name          | Parameter | Is must | Default | Type  | Instruction                                                  |
 | ------------- | --------- | ------- | ------- | ----- | ------------------------------------------------------------ |
+| 合���文本      | text      | true    |         | str   | 需要合成语音的文本。                                         |
+| 角色id        | id        | false   | 0       | int   | 即说话人id。                                                 |
 | 音频格式      | format    | false   | wav     | str   | 支持wav,ogg,silk,mp3,flac                                    |
 | 文本语言      | lang      | false   | auto    | str   | auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 |
 | 语音长度/语速 | length    | false   | 1.0     | float | 调节语音长度，相当于调节语速，该数值越大语速越慢             |
+| 噪声          | noise     | false   | 0.33    | float | 样本噪声，控制合成的随机性。                                 |
+| sdp噪声       | noisew    | false   | 0.4     | float | 随机时长预测器噪声，控制音素发音长度。                       |
 | 分段阈值      | max       | false   | 50      | int   | 按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。 |
 | 维度情感      | emotion   | false   | 0       | int   | 范围取决于npy情感参考文件，如[innnky](https://huggingface.co/spaces/innnky/nene-emotion/tree/main)的all_emotions.npy模型范围是0-5457 |
 - MoeGoe:https://github.com/CjangCjengh/MoeGoe
 - emotional-vits:https://github.com/innnky/emotional-vits
 - vits-uma-genshin-honkai:https://huggingface.co/spaces/zomehwh/vits-uma-genshin-honkai
+- vits_chinese:https://github.com/PlayVoice/vits_chinese

app.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import os
-import logging
 import time
-import logzero
 import uuid
 from flask import Flask, request, send_file, jsonify, make_response, render_template
 from werkzeug.utils import secure_filename
 from flask_apscheduler import APScheduler
@@ -19,24 +18,15 @@ scheduler.init_app(app)
 if app.config.get("CLEAN_INTERVAL_SECONDS", 3600) > 0:
     scheduler.start()
-logzero.loglevel(logging.WARNING)
-logger = logging.getLogger("vits-simple-api")
-level = app.config.get("LOGGING_LEVEL", "DEBUG")
-level_dict = {'DEBUG': logging.DEBUG, 'INFO': logging.INFO, 'WARNING': logging.WARNING, 'ERROR': logging.ERROR,
-              'CRITICAL': logging.CRITICAL}
-logging.basicConfig(level=level_dict[level])
-logging.getLogger('numba').setLevel(logging.WARNING)
-logging.getLogger("langid.langid").setLevel(logging.INFO)
-logging.getLogger("apscheduler.scheduler").setLevel(logging.INFO)
 tts = merge_model(app.config["MODEL_LIST"])
-if not os.path.exists(app.config['UPLOAD_FOLDER']):
-    os.makedirs(app.config['UPLOAD_FOLDER'], exist_ok=True)
-if not os.path.exists(app.config['CACHE_PATH']):
-    os.makedirs(app.config['CACHE_PATH'], exist_ok=True)
 def require_api_key(func):
     @wraps(func)
@@ -57,7 +47,10 @@ def require_api_key(func):
 def index():
     kwargs = {
         "speakers": tts.voice_speakers,
-        "speakers_count": tts.speakers_count
     }
     return render_template("index.html", **kwargs)
@@ -362,25 +355,18 @@ def ssml():
         return make_response(jsonify({"status": "error", "message": f"parameter error"}), 400)
     logger.debug(ssml)
     fname = f"{str(uuid.uuid1())}.{format}"
     file_type = f"audio/{format}"
     t1 = time.time()
-    audio, format = tts.create_ssml_infer_task(ssml, fname)
     t2 = time.time()
     if app.config.get("SAVE_AUDIO", False):
         logger.debug(f"[ssml] {fname}")
     logger.info(f"[ssml] finish in {(t2 - t1):.2f}s")
-    if eval(ssml.get('streaming', False)):
-        audio = tts.generate_audio_chunks(audio)
-        response = make_response(audio)
-        response.headers['Content-Disposition'] = f'attachment; filename={fname}'
-        response.headers['Content-Type'] = file_type
-        return response
-    else:
-        return send_file(path_or_file=audio, mimetype=file_type, download_name=fname)
 @app.route('/voice/dimension-emotion', methods=["POST"])

 import os
 import time
 import uuid
+from logger import logger
 from flask import Flask, request, send_file, jsonify, make_response, render_template
 from werkzeug.utils import secure_filename
 from flask_apscheduler import APScheduler
 if app.config.get("CLEAN_INTERVAL_SECONDS", 3600) > 0:
     scheduler.start()
+for path in (app.config['LOGS_PATH'], app.config['UPLOAD_FOLDER'], app.config['CACHE_PATH']):
+    try:
+        os.makedirs(path, exist_ok=True)
+    except Exception as e:
+        logger.error(f"Unable to create directory {path}: {str(e)}")
+# load model
 tts = merge_model(app.config["MODEL_LIST"])
 def require_api_key(func):
     @wraps(func)
 def index():
     kwargs = {
         "speakers": tts.voice_speakers,
+        "speakers_count": tts.speakers_count,
+        "vits_speakers_count":tts._vits_speakers_count,
+        "w2v2_speakers_count":tts._w2v2_speakers_count,
+        "w2v2_emotion_count":tts._w2v2_emotion_count
     }
     return render_template("index.html", **kwargs)
         return make_response(jsonify({"status": "error", "message": f"parameter error"}), 400)
     logger.debug(ssml)
+    voice_tasks, format = tts.parse_ssml(ssml)
     fname = f"{str(uuid.uuid1())}.{format}"
     file_type = f"audio/{format}"
     t1 = time.time()
+    audio = tts.create_ssml_infer_task(voice_tasks, format, fname)
     t2 = time.time()
     if app.config.get("SAVE_AUDIO", False):
         logger.debug(f"[ssml] {fname}")
     logger.info(f"[ssml] finish in {(t2 - t1):.2f}s")
+    return send_file(path_or_file=audio, mimetype=file_type, download_name=fname)
 @app.route('/voice/dimension-emotion', methods=["POST"])

config.py CHANGED Viewed

@@ -12,7 +12,7 @@ DEBUG = False
 PORT = 7860
 # Absolute path of vits-simple-api
-ABS_PATH = os.path.join(os.path.dirname(os.path.realpath(sys.argv[0])))
 # Upload path
 UPLOAD_FOLDER = ABS_PATH + "/upload"
@@ -20,6 +20,12 @@ UPLOAD_FOLDER = ABS_PATH + "/upload"
 # Cahce path
 CACHE_PATH = ABS_PATH + "/cache"
 # If CLEAN_INTERVAL_SECONDS <= 0, the cleaning task will not be executed.
 CLEAN_INTERVAL_SECONDS = 3600
@@ -39,7 +45,7 @@ API_KEY = "api-key"
 LOGGING_LEVEL = "DEBUG"
 # Language identification library. Optional fastlid, langid
-LANGUAGE_IDENTIFICATION_LIBRARY = "langid"
 # To use the english_cleaner, you need to install espeak and provide the path of libespeak-ng.dll as input here.
 # If ESPEAK_LIBRARY is set to empty, it will be read from the environment variable.
@@ -48,7 +54,7 @@ ESPEAK_LIBRARY = ""
 # Fill in the model path here
 MODEL_LIST = [
-    # VITS
     [ABS_PATH + "/Model/Nene_Nanami_Rong_Tang/1374_epochs.pth", ABS_PATH + "/Model/Nene_Nanami_Rong_Tang/config.json"],
     [ABS_PATH + "/Model/vctk/pretrained_vctk.pth", ABS_PATH + "/Model/vctk/vctk_base.json"],
     [ABS_PATH + "/Model/paimon/paimon6k_390000.pth", ABS_PATH + "/Model/paimon/paimon6k.json"],
@@ -73,7 +79,7 @@ HUBERT_SOFT_MODEL = ABS_PATH + "/Model/hubert-soft-0d54a1f4.pt"
 DIMENSIONAL_EMOTION_NPY = ABS_PATH + "/Model/npy"
 # w2v2-vits: Need to have both `model.onnx` and `model.yaml` files in the same path.
-DIMENSIONAL_EMOTION_MODEL = ABS_PATH + "/Model/model.yaml"
 """
 Default parameter

 PORT = 7860
 # Absolute path of vits-simple-api
+ABS_PATH = os.path.dirname(os.path.realpath(__file__))
 # Upload path
 UPLOAD_FOLDER = ABS_PATH + "/upload"
 # Cahce path
 CACHE_PATH = ABS_PATH + "/cache"
+# Logs path
+LOGS_PATH = ABS_PATH + "/logs"
+# Set the number of backup log files to keep.
+LOGS_BACKUPCOUNT = 30
 # If CLEAN_INTERVAL_SECONDS <= 0, the cleaning task will not be executed.
 CLEAN_INTERVAL_SECONDS = 3600
 LOGGING_LEVEL = "DEBUG"
 # Language identification library. Optional fastlid, langid
+LANGUAGE_IDENTIFICATION_LIBRARY = "fastlid"
 # To use the english_cleaner, you need to install espeak and provide the path of libespeak-ng.dll as input here.
 # If ESPEAK_LIBRARY is set to empty, it will be read from the environment variable.
 # Fill in the model path here
 MODEL_LIST = [
+        # VITS
     [ABS_PATH + "/Model/Nene_Nanami_Rong_Tang/1374_epochs.pth", ABS_PATH + "/Model/Nene_Nanami_Rong_Tang/config.json"],
     [ABS_PATH + "/Model/vctk/pretrained_vctk.pth", ABS_PATH + "/Model/vctk/vctk_base.json"],
     [ABS_PATH + "/Model/paimon/paimon6k_390000.pth", ABS_PATH + "/Model/paimon/paimon6k.json"],
 DIMENSIONAL_EMOTION_NPY = ABS_PATH + "/Model/npy"
 # w2v2-vits: Need to have both `model.onnx` and `model.yaml` files in the same path.
+# DIMENSIONAL_EMOTION_MODEL = ABS_PATH + "/Model/model.yaml"
 """
 Default parameter

docker-compose-gpu.yaml ADDED Viewed

	@@ -0,0 +1,15 @@

+version: '3.4'
+services:
+  vits:
+    image: artrajz/vits-simple-api:latest-gpu
+    restart: always
+    ports:
+      - 23456:23456
+    environment:
+      LANG: 'C.UTF-8'
+      TZ: Asia/Shanghai #timezone
+    volumes:
+      - ./Model:/app/Model # 挂载模型文件夹
+      - ./config.py:/app/config.py # 挂载配置文件
+      - ./logs:/app/logs # logging logs
+      - ./gunicorn_config.py:/app/gunicorn_config.py # gunicorn configuration

docker-compose.yaml CHANGED Viewed

@@ -10,4 +10,6 @@ services:
       TZ: Asia/Shanghai #timezone
     volumes:
       - ./Model:/app/Model # 挂载模型文件夹
-      - ./config.py:/app/config.py # 挂载配置文件

       TZ: Asia/Shanghai #timezone
     volumes:
       - ./Model:/app/Model # 挂载模型文件夹
+      - ./config.py:/app/config.py # 挂载配置文件
+      - ./logs:/app/logs # logging logs
+      - ./gunicorn_config.py:/app/gunicorn_config.py # gunicorn configuration

gunicorn_config.py ADDED Viewed

	@@ -0,0 +1,4 @@

+import multiprocessing
+bind = "0.0.0.0:23456"
+workers = multiprocessing.cpu_count()

logger.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import os
+import sys
+import logging
+import logzero
+import config
+from logging.handlers import TimedRotatingFileHandler
+logzero.loglevel(logging.WARNING)
+logger = logging.getLogger("vits-simple-api")
+level = getattr(config, "LOGGING_LEVEL", "DEBUG")
+level_dict = {'DEBUG': logging.DEBUG, 'INFO': logging.INFO, 'WARNING': logging.WARNING, 'ERROR': logging.ERROR,
+              'CRITICAL': logging.CRITICAL}
+logging.basicConfig(level=level_dict[level])
+logging.getLogger('numba').setLevel(logging.WARNING)
+logging.getLogger("langid.langid").setLevel(logging.INFO)
+logging.getLogger("apscheduler.scheduler").setLevel(logging.INFO)
+os.makedirs(config.LOGS_PATH, exist_ok=True)
+log_file = os.path.join(config.LOGS_PATH, 'latest.log')
+backup_count = getattr(config, "LOGS_BACKUPCOUNT", 30)
+handler = TimedRotatingFileHandler(log_file, when="midnight", interval=1, backupCount=backup_count, encoding='utf-8')
+handler.suffix = "%Y-%m-%d.log"
+formatter = logging.Formatter('%(levelname)s:%(name)s %(message)s')
+handler.setFormatter(formatter)
+logger.addHandler(handler)
+logging.getLogger("werkzeug").addHandler(handler)
+logging.getLogger("apscheduler.scheduler").addHandler(handler)
+# Custom function to handle uncaught exceptions
+def handle_exception(exc_type, exc_value, exc_traceback):
+    # If it's a keyboard interrupt, don't handle it, just return
+    if issubclass(exc_type, KeyboardInterrupt):
+        sys.__excepthook__(exc_type, exc_value, exc_traceback)
+        return
+    logger.error("Uncaught exception", exc_info=(exc_type, exc_value, exc_traceback))
+# Set the global exception handler in Python
+sys.excepthook = handle_exception

requirements.txt CHANGED Viewed

@@ -27,4 +27,5 @@ fasttext
 fastlid
 langid
 phonemizer==3.2.1
-transformers

 fastlid
 langid
 phonemizer==3.2.1
+transformers
+pydantic==1.10.6

static/css/style.css ADDED Viewed

	@@ -0,0 +1,84 @@

+.main-container {
+    position: relative;
+    width: 100%;
+    min-height: 300px;
+}
+.container {
+    width: 300px;
+    position: relative;
+}
+/*tabs*/
+.tabs {
+    display: flex;
+    left: 0;
+}
+.tab-button {
+    display: inline-block;
+    background-color: transparent;
+    padding: 5px 10px;
+    cursor: pointer;
+    margin-bottom: -2px;
+    border-top: 2px solid transparent;
+    border-left: 2px solid transparent;
+    border-right: 2px solid transparent;
+    border-bottom: 0px;
+    border-top-left-radius: 0.5rem;
+    border-top-right-radius: 0.5rem;
+    color: gray;
+}
+.tab-button.active {
+    background-color: white;
+    border-top: 2px solid #dee2e6;
+    border-left: 2px solid #dee2e6;
+    border-right: 2px solid #dee2e6;
+    color: black;
+}
+/*content*/
+.content {
+    border: gray;
+    border-left-width: 2px;
+}
+.content-pane {
+    display: none;
+    padding: 20px;
+}
+.content-pane.active {
+    display: flex;
+    -ms-flex-wrap: wrap;
+    flex-wrap: wrap;
+}
+*, :before, :after {
+    box-sizing: border-box;
+    border-width: 0;
+    border-style: solid;
+    border-color: #e5e7eb;
+}
+.flex {
+    display: flex;
+}
+.border-transparent {
+    border-color: transparent;
+}
+.border-b-2 {
+    border-bottom: 2px solid #dee2e6;
+}
+.border-lr-2 {
+    border-left: 2px solid #dee2e6;
+    border-right: 2px solid #dee2e6;
+}

templates/index.html CHANGED Viewed

@@ -4,126 +4,230 @@
     <meta charset="UTF-8"/>
     <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
     <title>vits-simple-api</title>
     <link rel="stylesheet" href="/static/css/bootstrap.min.css"/>
 </head>
 <body>
-<main style="margin: 0 auto; width: 1024px">
-    <h1>
-        <a href="https://github.com/Artrajz/vits-simple-api" target="_blank"
-           style="text-decoration: none; color: black"> vits-simple-api </a>
-    </h1>
-    <div>
-        <label>文档：</label>
-        <a href="https://github.com/Artrajz/vits-simple-api" target="_blank"
-           style="text-decoration: none; color: black"> https://github.com/Artrajz/vits-simple-api </a>
-    </div>
-    <div>
-        <label>返回speakers(json)：</label>
-        <a id="speakersLink" href="https://artrajz-vits-simple-api.hf.space/voice/speakers" target="_blank"
-           style="text-decoration: none; color: black">
-            https://artrajz-vits-simple-api.hf.space/voice/speakers
-        </a>
-    </div>
-    <div>
-        <label>简单调用api：</label>
-        <a id="vitsLink" href="https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164"
-           style="text-decoration: none; color: black">
-            https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164
-        </a>
-    </div>
-    <!-- <div style="display: flex; justify-content: center; align-items: center"> -->
-    <div>
-        <form>
-            <div class="form-group">
-                <label>text</label>
-                <textarea class="form-control" id="inputText" rows="3" oninput="updateLink()">你好,こんにちは</textarea>
-            </div>
-            <div class="form-group">
-                <label>id</label>
-                <select class="form-control" id="inputId" oninput="updateLink()">
-                    {% for speaker in speakers["VITS"] %}
-                        {% if speaker["name"] == "雷电将军（雷神）" %}
                             <option value="{{ speaker["id"] }}" selected>{{ speaker["id"] }} | {{ speaker["name"] }}
                                 | {{ speaker["lang"] }}</option>
                         {% else %}
                             <option value="{{ speaker["id"] }}">{{ speaker["id"] }} | {{ speaker["name"] }}
                                 | {{ speaker["lang"] }}</option>
                         {% endif %}
-                    {% endfor %}
-                </select>
-            </div>
-        </form>
-    </div>
-    <p>
-        <button class="btn btn-primary" type="button" data-toggle="collapse" data-target="#collapseExample"
-                aria-expanded="false" aria-controls="collapseExample">
-            Advanced
-        </button>
-        {% if speakers_count == 0 %}
-            <div style="color: red;">未加载任何模型</div>
-        {% endif %}
-    </p>
-    <div class="collapse" id="collapseExample">
-        <div class="card card-body">
-            <form>
-                <div class="form-group">
-                    <label>format</label>
-                    <select class="form-control" id="inputFormat" oninput="updateLink()">
-                        <option></option>
-                        <option>wav</option>
-                        <option>mp3</option>
-                        <option>ogg</option>
-                        <option>silk</option>
-                    </select>
-                </div>
-                <div class="form-group">
-                    <label>lang</label>
-                    <input type="text" class="form-control" id="inputLang" oninput="updateLink()" value=""
-                           placeholder="auto"/>
-                </div>
-                <div class="form-group">
-                    <label>length</label>
-                    <input type="text" class="form-control" id="inputLength" oninput="updateLink()" value=""
-                           placeholder="1"/>
-                </div>
-                <div class="form-group">
-                    <label>noise</label>
-                    <input type="text" class="form-control" id="inputNoise" oninput="updateLink()" value=""
-                           placeholder="0.33"/>
-                </div>
-                <div class="form-group">
-                    <label>noisew</label>
-                    <input type="text" class="form-control" id="inputNoisew" oninput="updateLink()" value=""
-                           placeholder="0.4"/>
                 </div>
-                <div class="form-group">
-                    <label>max</label>
-                    <input type="text" class="form-control" id="inputMax" oninput="updateLink()" value=""
-                           placeholder="50"/>
                 </div>
-            </form>
         </div>
-    </div>
-    <div style="display: flex; justify-content: center; align-items: center; height: 80px; margin-top: 20px; margin-bottom: 20px; border: 1px solid rgba(0,0,0,.125); border-radius: 0.25rem;">
-        <button type="button" class="btn btn-outline-secondary" id="getAudio" style="margin-right: 10px">播放器生成</button>
-        <audio id="audioPlayer" controls>
-            <source src="" type="audio/mp3"/>
-            Your browser does not support the audio element.
-        </audio>
-        <div class="form-group form-check">
-            <input type="checkbox" id="streaming" onchange="updateLink()">
-            <label class="form-check-label">流式响应</label>
         </div>
-    </div>
-    <div>自动识别语言：可识别的语言根据不同speaker而不同，方言无法自动识别</div>
-    <div>方言模型需要手动指定语言，比如粤语Cantonese要指定参数lang=gd</div>
-    <br/>
-    <h2>所有模型均为网络搜集，感谢模型原作者的付出！</h2>
     <p>
         Nene_Nanami_Rong_Tang:
         <a href="https://github.com/CjangCjengh/TTSModels" rel="noreferrer" target="_blank">CjangCjengh/TTSModels</a>
@@ -164,6 +268,8 @@
         vits_chinese:
         <a href="https://github.com/PlayVoice/vits_chinese" rel="noreferrer" target="_blank">PlayVoice/vits_chinese</a>
     </p>
 </main>
@@ -171,6 +277,10 @@
 <script src="/static/js/bootstrap.bundle.min.js"></script>
 <script>
     function getProtocol() {
         return 'https:' == location.protocol ? "https://" : "http://";
     }
@@ -181,12 +291,21 @@
     }
     var baseUrl = getProtocol() + getUrl();
     setBaseUrl();
     function setBaseUrl() {
-        var text = document.getElementById("inputText").value;
-        var id = document.getElementById("inputId").value;
         var vitsLink = document.getElementById("vitsLink");
         var speakersLink = document.getElementById("speakersLink");
@@ -202,17 +321,22 @@
     }
     function getLink() {
-        var text = document.getElementById("inputText").value;
-        var id = document.getElementById("inputId").value;
-        var format = document.getElementById("inputFormat").value;
-        var lang = document.getElementById("inputLang").value;
-        var length = document.getElementById("inputLength").value;
-        var noise = document.getElementById("inputNoise").value;
-        var noisew = document.getElementById("inputNoisew").value;
-        var max = document.getElementById("inputMax").value;
-        var streaming = document.getElementById('streaming');
-        var url = baseUrl + "/voice/vits?text=" + text + "&id=" + id;
         if (format != "") {
             url += "&format=" + format;
         }
@@ -231,6 +355,7 @@
         if (max != "") {
             url += "&max=" + max;
         }
         if (streaming.checked) {
             url += '&streaming=true';
         }
@@ -245,16 +370,37 @@
     }
     function setAudioSource() {
         var url = getLink();
-        var audioPlayer = document.getElementById("audioPlayer");
         audioPlayer.src = url;
         audioPlayer.play();
     }
-    var button = document.getElementById("getAudio");
-    button.addEventListener("click", function () {
-        setAudioSource();
-    });
 </script>
 </body>
 </html>

     <meta charset="UTF-8"/>
     <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
     <title>vits-simple-api</title>
+    <link rel="stylesheet" href="/static/css/style.css">
     <link rel="stylesheet" href="/static/css/bootstrap.min.css"/>
 </head>
 <body>
+<main class="main-container">
+    <div class="container flex flex-wrap mx-auto">
+        <div class="text-center d-flex align-items-center w-100" style="height: 100px;" id="component-1">
+            <h1 class="w-100">
+                <a href="https://github.com/Artrajz/vits-simple-api" target="_blank"
+                   style="text-decoration: none; color: black"> vits-simple-api </a>
+            </h1>
+        </div>
+        <div class="tabs w-100 border-b-2" id="component-2">
+            <button class="tab-button px-4 pb-2 pt-2 active " onclick="showContent(0)">VITS</button>
+            <button class="tab-button px-4 pb-2 pt-2" onclick="showContent(1)">W2V2-VITS</button>
+        </div>
+        <div class="content w-100 border-lr-2 border-b-2" id="component-3">
+            <div class="content-pane active w-100 flex-wrap">
+                <form class="w-100">
+                    <div class="form-group">
+                        <label>text</label>
+                        <textarea class="form-control" id="inputText1" rows="3"
+                                  oninput="updateLink()">你好,こんにちは</textarea>
+                    </div>
+                    <div class="form-group">
+                        <label>id</label>
+                        <select class="form-control" id="inputId1" oninput="updateLink()">
+                            {% for speaker in speakers["VITS"] %}
+                                {% if speaker["name"] == "雷电将军（雷神）" %}
                             <option value="{{ speaker["id"] }}" selected>{{ speaker["id"] }} | {{ speaker["name"] }}
                                 | {{ speaker["lang"] }}</option>
                         {% else %}
                             <option value="{{ speaker["id"] }}">{{ speaker["id"] }} | {{ speaker["name"] }}
                                 | {{ speaker["lang"] }}</option>
                         {% endif %}
+                            {% endfor %}
+                        </select>
+                    </div>
+                </form>
+                <form class="w-100">
+                    <div class="row">
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="默认为wav">format</label>
+                            <select class="form-control" id="inputFormat1" oninput="updateLink()">
+                                <option></option>
+                                <option>wav</option>
+                                <option>mp3</option>
+                                <option>ogg</option>
+                                <option>silk</option>
+                            </select>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="自动识别语言auto：可识别的语言根据不同speaker而不同，方言无法自动识别。方言模型需要手动指定语言，比如粤语Cantonese要指定参数lang=gd">lang</label>
+                            <input type="text" class="form-control" id="inputLang1" oninput="updateLink()" value=""
+                                   placeholder="auto"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="调节语音长度，相当于调节语速，该数值越大语速越慢。">length</label>
+                            <input type="number" class="form-control" id="inputLength1" oninput="updateLink()" value=""
+                                   placeholder="1" min="0" step="0.001"/>
+                        </div>
+                    </div>
+                    <div class="row">
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="样本噪声，控制合成的随机性。">noise</label>
+                            <input type="number" class="form-control" id="inputNoise1" oninput="updateLink()" value=""
+                                   placeholder="0.33" min="0" step="0.001"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="随机时长预测器噪声，控制音素发音长度。">noisew</label>
+                            <input type="number" class="form-control" id="inputNoisew1" oninput="updateLink()" value=""
+                                   placeholder="0.4" min="0" step="0.001"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。">max</label>
+                            <input type="number" class="form-control" id="inputMax1" oninput="updateLink()" value=""
+                                   placeholder="50" step="1"/>
+                        </div>
+                    </div>
+                </form>
+                <div class="flex flex-wrap  w-100"
+                     style="justify-content: center; align-items: center; height: 80px; margin-top: 20px; margin-bottom: 20px; border: 1px solid rgba(0,0,0,.125); border-radius: 0.25rem;">
+                    <button type="button" class="btn btn-outline-secondary" onclick="setAudioSource()"
+                            style="margin-right: 10px">
+                        播放器生成
+                    </button>
+                    <audio id="audioPlayer1" controls>
+                        <source src="" type="audio/mp3"/>
+                        Your browser does not support the audio element.
+                    </audio>
+                    <div class="form-group form-check">
+                        <input type="checkbox" id="streaming1" onchange="updateLink()">
+                        <label class="form-check-label" data-toggle="tooltip" data-placement="top"
+                               title="按照max分段推理文本，推理好一段即输出，无需等待所有文本都推理完毕">流式响应</label>
+                    </div>
                 </div>
+            </div>
+            <div class="content-pane">
+                <form class="w-100">
+                    <div class="form-group">
+                        <label>text</label>
+                        <textarea class="form-control" id="inputText2" rows="3"
+                                  oninput="updateLink()">你好,こんにちは</textarea>
+                    </div>
+                    <div class="form-group">
+                        <label>id</label>
+                        <select class="form-control" id="inputId2" oninput="updateLink()">
+                            {% for speaker in speakers["W2V2-VITS"] %}
+                                <option value="{{ speaker["id"] }}">{{ speaker["id"] }} | {{ speaker["name"] }}
+                                    | {{ speaker["lang"] }}</option>
+                            {% endfor %}
+                        </select>
+                    </div>
+                    <div class="form-group mb-3">
+                        <label data-toggle="tooltip" data-placement="top"
+                               title="情感嵌入，{% if w2v2_emotion_count > 0 %}
+                                    可输入范围是0-{{ w2v2_emotion_count-1 }}
+                                {% else %}
+                                    未加载emotion
+                                {% endif %}">emotion</label>
+                        <input type="number" class="form-control" min="0" max="{{ w2v2_emotion_count-1 }}" step="1"
+                               id="emotion" value="0" oninput="updateLink()">
+                    </div>
+                </form>
+                <form class="w-100">
+                    <div class="row">
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="默认为wav">format</label>
+                            <select class="form-control" id="inputFormat2" oninput="updateLink()">
+                                <option></option>
+                                <option>wav</option>
+                                <option>mp3</option>
+                                <option>ogg</option>
+                                <option>silk</option>
+                            </select>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="自动识别语言auto：可识别的语言根据不同speaker而不同，方言无法自动识别。方言模型需要手动指定语言，比如粤语Cantonese要指定参数lang=gd">lang</label>
+                            <input type="text" class="form-control" id="inputLang2" oninput="updateLink()" value=""
+                                   placeholder="auto"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="调节语音长度，相当于调节语速，该数值越大语速越慢。">length</label>
+                            <input type="number" class="form-control" id="inputLength2" oninput="updateLink()" value=""
+                                   placeholder="1" min="0" step="0.001"/>
+                        </div>
+                    </div>
+                    <div class="row">
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="样本噪声，控制合成的随机性。">noise</label>
+                            <input type="number" class="form-control" id="inputNoise2" oninput="updateLink()" value=""
+                                   placeholder="0.33" min="0" step="0.001"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="随机时长预测器噪声，控制音素发音长度。">noisew</label>
+                            <input type="number" class="form-control" id="inputNoisew2" oninput="updateLink()" value=""
+                                   placeholder="0.4" min="0" step="0.001"/>
+                        </div>
+                        <div class="col-md-4 form-group">
+                            <label data-toggle="tooltip" data-placement="top"
+                                   title="按标点符号分段，加起来大于max时为一段文本。max<=0表示不分段。">max</label>
+                            <input type="number" class="form-control" id="inputMax2" oninput="updateLink()" value=""
+                                   placeholder="50" step="1"/>
+                        </div>
+                    </div>
+                </form>
+                <div class="flex flex-wrap  w-100"
+                     style="justify-content: center; align-items: center; height: 80px; margin-top: 20px; margin-bottom: 20px; border: 1px solid rgba(0,0,0,.125); border-radius: 0.25rem;">
+                    <button type="button" class="btn btn-outline-secondary" onclick="setAudioSource()"
+                            style="margin-right: 10px">
+                        播放器生成
+                    </button>
+                    <audio id="audioPlayer2" controls>
+                        <source src="" type="audio/mp3"/>
+                        Your browser does not support the audio element.
+                    </audio>
+                    <div class="form-group form-check">
+                        <input type="checkbox" id="streaming2" onchange="updateLink()">
+                        <label class="form-check-label">流式响应</label>
+                    </div>
                 </div>
+            </div>
         </div>
+        <div class="mt-2">
+            {% if speakers_count == 0 %}
+                <div style="color: red;">未加载任何模型</div>
+            {% endif %}
+            <div>
+                <label>返回speakers(json)：</label>
+                <a id="speakersLink" href="https://artrajz-vits-simple-api.hf.space/voice/speakers" target="_blank"
+                   style="text-decoration: none; color: black">
+                    https://artrajz-vits-simple-api.hf.space/voice/speakers
+                </a>
+            </div>
+            <div>
+                <label>API调用：</label>
+                <a id="vitsLink" href="https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164"
+                   style="text-decoration: none; color: black">
+                    https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164
+                </a>
+            </div>
         </div>
+		<h2>所有模型均为网络搜集，感谢模型原作者的付出！</h2>
+		<h2>请严格遵循模型原作者使用协议！</h2>
     <p>
         Nene_Nanami_Rong_Tang:
         <a href="https://github.com/CjangCjengh/TTSModels" rel="noreferrer" target="_blank">CjangCjengh/TTSModels</a>
         vits_chinese:
         <a href="https://github.com/PlayVoice/vits_chinese" rel="noreferrer" target="_blank">PlayVoice/vits_chinese</a>
     </p>
+    </div>
+    <br/>
 </main>
 <script src="/static/js/bootstrap.bundle.min.js"></script>
 <script>
+    $(function () {
+        $('[data-toggle="tooltip"]').tooltip()
+    })
     function getProtocol() {
         return 'https:' == location.protocol ? "https://" : "http://";
     }
     }
     var baseUrl = getProtocol() + getUrl();
+    var modelType = 1;
+    var vitsStatus = false;
+    var w2v2Status = false;
+    {% if vits_speakers_count > 0 %}
+        vitsStatus = true;
+    {% endif %}
+    {% if w2v2_speakers_count > 0 %}
+        w2v2Status = true;
+    {% endif %}
     setBaseUrl();
     function setBaseUrl() {
+        var text = document.getElementById("inputText" + modelType).value;
+        var id = document.getElementById("inputId" + modelType).value;
         var vitsLink = document.getElementById("vitsLink");
         var speakersLink = document.getElementById("speakersLink");
     }
     function getLink() {
+        var text = document.getElementById("inputText" + modelType).value;
+        var id = document.getElementById("inputId" + modelType).value;
+        var format = document.getElementById("inputFormat" + modelType).value;
+        var lang = document.getElementById("inputLang" + modelType).value;
+        var length = document.getElementById("inputLength" + modelType).value;
+        var noise = document.getElementById("inputNoise" + modelType).value;
+        var noisew = document.getElementById("inputNoisew" + modelType).value;
+        var max = document.getElementById("inputMax" + modelType).value;
+        var streaming = document.getElementById('streaming' + modelType);
+        if (modelType == 1) {
+            var url = baseUrl + "/voice/vits?text=" + text + "&id=" + id;
+        } else if (modelType == 2) {
+            var emotion = document.getElementById('emotion').value;
+            var url = baseUrl + "/voice/w2v2-vits?text=" + text + "&id=" + id + "&emotion=" + emotion;
+        }
         if (format != "") {
             url += "&format=" + format;
         }
         if (max != "") {
             url += "&max=" + max;
         }
         if (streaming.checked) {
             url += '&streaming=true';
         }
     }
     function setAudioSource() {
+        if (modelType==1 && !vitsStatus){
+            alert("未加载VITS模型");
+            return;
+        }
+        if (modelType==2 && !w2v2Status){
+            alert("未加载W2V2-VITS模型");
+            return;
+        }
         var url = getLink();
+        var audioPlayer = document.getElementById("audioPlayer" + modelType);
         audioPlayer.src = url;
         audioPlayer.play();
     }
+    function showContent(index) {
+        const panes = document.querySelectorAll(".content-pane");
+        const buttons = document.querySelectorAll(".tab-button");
+        modelType = index + 1;
+        for (let i = 0; i < panes.length; i++) {
+            if (i === index) {
+                panes[i].classList.add("active");
+                buttons[i].classList.add("active");
+            } else {
+                panes[i].classList.remove("active");
+                buttons[i].classList.remove("active");
+            }
+        }
+        updateLink();
+    }
 </script>
 </body>
 </html>

text/cleaners.py CHANGED Viewed

@@ -186,6 +186,21 @@ def cjke_cleaners2(text):
 def cje_cleaners(text):
     from text.mandarin import chinese_to_ipa
     from text.japanese import japanese_to_ipa2
     from text.english import english_to_ipa2

 def cje_cleaners(text):
+    from text.mandarin import chinese_to_lazy_ipa
+    from text.japanese import japanese_to_ipa
+    from text.english import english_to_ipa2
+    text = re.sub(r'\[ZH\](.*?)\[ZH\]', lambda x: chinese_to_lazy_ipa(x.group(1)).replace(
+        'ʧ', 'tʃ').replace('ʦ', 'ts').replace('ɥan', 'ɥæn') + ' ', text)
+    text = re.sub(r'\[JA\](.*?)\[JA\]', lambda x: japanese_to_ipa(x.group(1)).replace('ʧ', 'tʃ').replace(
+        'ʦ', 'ts').replace('ɥan', 'ɥæn').replace('ʥ', 'dz') + ' ', text)
+    text = re.sub(r'\[EN\](.*?)\[EN\]', lambda x: english_to_ipa2(x.group(1)).replace('ɑ', 'a').replace(
+        'ɔ', 'o').replace('ɛ', 'e').replace('ɪ', 'i').replace('ʊ', 'u') + ' ', text)
+    text = re.sub(r'\s+$', '', text)
+    text = re.sub(r'([^\.,!\?\-…~])$', r'\1.', text)
+    return text
+def cje_cleaners2(text):
     from text.mandarin import chinese_to_ipa
     from text.japanese import japanese_to_ipa2
     from text.english import english_to_ipa2

text/mandarin.py CHANGED Viewed

@@ -1,5 +1,4 @@
-import os
-import sys
 import re
 from pypinyin import lazy_pinyin, BOPOMOFO
 import jieba
@@ -7,7 +6,7 @@ import cn2an
 import logging
 logging.getLogger('jieba').setLevel(logging.WARNING)
-jieba.set_dictionary(os.path.dirname(os.path.realpath(sys.argv[0])) + '/jieba/dict.txt')
 jieba.initialize()
 # List of (Latin alphabet, bopomofo) pairs:

+import config
 import re
 from pypinyin import lazy_pinyin, BOPOMOFO
 import jieba
 import logging
 logging.getLogger('jieba').setLevel(logging.WARNING)
+jieba.set_dictionary(config.ABS_PATH + '/jieba/dict.txt')
 jieba.initialize()
 # List of (Latin alphabet, bopomofo) pairs:

utils/merge.py CHANGED Viewed

@@ -19,12 +19,13 @@ lang_dict = {
     "cjke_cleaners": ["zh", "ja", "ko", "en"],
     "cjke_cleaners2": ["zh", "ja", "ko", "en"],
     "cje_cleaners": ["zh", "ja", "en"],
     "thai_cleaners": ["th"],
     "shanghainese_cleaners": ["sh"],
     "chinese_dialect_cleaners": ["zh", "ja", "sh", "gd", "en", "SZ", "WX", "CZ", "HZ", "SX", "NB", "JJ", "YX", "JD",
                                  "ZR", "PH", "TX", "JS", "HN", "LP", "XS", "FY", "RA", "CX", "SM", "TT", "WZ", "SC",
                                  "YB"],
-    "bert_chinese_cleaners":["zh"],
 }
@@ -109,11 +110,16 @@ def merge_model(merging_model):
     for obj_id, i in enumerate(vits_list):
         obj = vits(model=i[0], config=i[1], model_type="vits")
         lang = lang_dict.get(obj.get_cleaner(), ["unknown"])
-        for id, name in enumerate(obj.get_speakers()):
-            vits_obj.append([int(id), obj, obj_id])
-            vits_speakers.append({"id": new_id, "name": name, "lang": lang})
-            new_id += 1
     # merge hubert-vits
     if len(hubert_vits_list) != 0:
@@ -136,6 +142,7 @@ def merge_model(merging_model):
             new_id += 1
     # merge w2v2-vits
     if len(w2v2_vits_list) != 0:
         if getattr(config, "DIMENSIONAL_EMOTION_NPY", None) == None or check_is_none(config.DIMENSIONAL_EMOTION_NPY):
             raise ValueError(f"Please configure DIMENSIONAL_EMOTION_NPY path in config.py")
@@ -156,7 +163,8 @@ def merge_model(merging_model):
     voice_obj = {"VITS": vits_obj, "HUBERT-VITS": hubert_vits_obj, "W2V2-VITS": w2v2_vits_obj}
     voice_speakers = {"VITS": vits_speakers, "HUBERT-VITS": hubert_vits_speakers, "W2V2-VITS": w2v2_vits_speakers}
-    tts = TTS(voice_obj, voice_speakers)
     return tts

     "cjke_cleaners": ["zh", "ja", "ko", "en"],
     "cjke_cleaners2": ["zh", "ja", "ko", "en"],
     "cje_cleaners": ["zh", "ja", "en"],
+    "cje_cleaners2": ["zh", "ja", "en"],
     "thai_cleaners": ["th"],
     "shanghainese_cleaners": ["sh"],
     "chinese_dialect_cleaners": ["zh", "ja", "sh", "gd", "en", "SZ", "WX", "CZ", "HZ", "SX", "NB", "JJ", "YX", "JD",
                                  "ZR", "PH", "TX", "JS", "HN", "LP", "XS", "FY", "RA", "CX", "SM", "TT", "WZ", "SC",
                                  "YB"],
+    "bert_chinese_cleaners": ["zh"],
 }
     for obj_id, i in enumerate(vits_list):
         obj = vits(model=i[0], config=i[1], model_type="vits")
         lang = lang_dict.get(obj.get_cleaner(), ["unknown"])
+        if isinstance(obj.get_speakers(), list):
+            for id, name in enumerate(obj.get_speakers()):
+                vits_obj.append([int(id), obj, obj_id])
+                vits_speakers.append({"id": new_id, "name": name, "lang": lang})
+                new_id += 1
+        else:
+            for id, (name, _) in enumerate(obj.get_speakers().items()):
+                vits_obj.append([int(id), obj, obj_id])
+                vits_speakers.append({"id": new_id, "name": name, "lang": lang})
+                new_id += 1
     # merge hubert-vits
     if len(hubert_vits_list) != 0:
             new_id += 1
     # merge w2v2-vits
+    emotion_reference = None
     if len(w2v2_vits_list) != 0:
         if getattr(config, "DIMENSIONAL_EMOTION_NPY", None) == None or check_is_none(config.DIMENSIONAL_EMOTION_NPY):
             raise ValueError(f"Please configure DIMENSIONAL_EMOTION_NPY path in config.py")
     voice_obj = {"VITS": vits_obj, "HUBERT-VITS": hubert_vits_obj, "W2V2-VITS": w2v2_vits_obj}
     voice_speakers = {"VITS": vits_speakers, "HUBERT-VITS": hubert_vits_speakers, "W2V2-VITS": w2v2_vits_speakers}
+    w2v2_emotion_count = len(emotion_reference) if emotion_reference is not None else 0
+    tts = TTS(voice_obj, voice_speakers, w2v2_emotion_count=w2v2_emotion_count)
     return tts

utils/nlp.py CHANGED Viewed

@@ -1,13 +1,7 @@
 import regex as re
-import logging
 import config
 from .utils import check_is_none
-logger = logging.getLogger("vits-simple-api")
-level = getattr(config, "LOGGING_LEVEL", "DEBUG")
-level_dict = {'DEBUG': logging.DEBUG, 'INFO': logging.INFO, 'WARNING': logging.WARNING, 'ERROR': logging.ERROR,
-              'CRITICAL': logging.CRITICAL}
-logger.setLevel(level_dict[level])
 def clasify_lang(text, speaker_lang):

 import regex as re
 import config
 from .utils import check_is_none
+from logger import logger
 def clasify_lang(text, speaker_lang):

vits-simple-api-installer-latest.sh CHANGED Viewed

@@ -12,7 +12,32 @@ if [ ! -f config.py ]; then
     wget -O $INSTALL_DIR/config.py https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/config.py
 fi
-wget -O $INSTALL_DIR/docker-compose.yaml https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/docker-compose.yaml
 echo -e "${YELLOW}Pulling the image might take a while, so why not grab a cup of java first?\n${PLAIN}"

     wget -O $INSTALL_DIR/config.py https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/config.py
 fi
+if [ ! -f gunicorn_config.py ]; then
+    echo -e "${YELLOW}download config.py\n${PLAIN}"
+    wget -O $INSTALL_DIR/gunicorn_config.py https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/gunicorn_config.py
+fi
+while true; do
+    echo -e "${GREEN}Which version of docker-compose.yaml do you want to download?"
+    echo -e "1. docker-compose.yaml (CPU version)"
+    echo -e "2. docker-compose-gpu.yaml (GPU version)"
+    read -p "Enter your choice (1 or 2): " choice
+    case $choice in
+        1)
+            echo -e "${YELLOW}Downloading docker-compose.yaml (CPU version)\n${PLAIN}"
+            wget -O $INSTALL_DIR/docker-compose.yaml https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/docker-compose.yaml
+            break
+            ;;
+        2)
+            echo -e "${YELLOW}Downloading docker-compose-gpu.yaml (GPU version)\n${PLAIN}"
+            wget -O $INSTALL_DIR/docker-compose.yaml https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/docker-compose-gpu.yaml
+            break
+            ;;
+        *)
+            echo -e "${RED}Invalid choice. Please enter 1 or 2.${PLAIN}"
+            ;;
+    esac
+done
 echo -e "${YELLOW}Pulling the image might take a while, so why not grab a cup of java first?\n${PLAIN}"

voice.py CHANGED Viewed

@@ -6,7 +6,6 @@ import numpy as np
 import torch
 import xml.etree.ElementTree as ET
 import config
-import logging
 import soundfile as sf
 from torch import no_grad, LongTensor, inference_mode, FloatTensor
 from io import BytesIO
@@ -16,6 +15,7 @@ from mel_processing import spectrogram_torch
 from text import text_to_sequence
 from models import SynthesizerTrn
 from utils import utils
 # torch.set_num_threads(1) # 设置torch线程为1
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -251,7 +251,7 @@ class vits:
 class TTS:
-    def __init__(self, voice_obj, voice_speakers):
         self._voice_obj = voice_obj
         self._voice_speakers = voice_speakers
         self._strength_dict = {"x-weak": 0.25, "weak": 0.5, "Medium": 0.75, "Strong": 1, "x-strong": 1.25}
@@ -259,10 +259,11 @@ class TTS:
         self._vits_speakers_count = len(self._voice_speakers["VITS"])
         self._hubert_speakers_count = len(self._voice_speakers["HUBERT-VITS"])
         self._w2v2_speakers_count = len(self._voice_speakers["W2V2-VITS"])
         self.dem = None
         # Initialization information
-        self.logger = logging.getLogger("vits-simple-api")
         self.logger.info(f"torch:{torch.__version__} cuda_available:{torch.cuda.is_available()}")
         self.logger.info(f'device:{device} device.type:{device.type}')
@@ -420,9 +421,7 @@ class TTS:
         return voice_tasks, format
-    def create_ssml_infer_task(self, ssml, fname):
-        voice_tasks, format = self.parse_ssml(ssml)
         audios = []
         for voice in voice_tasks:
             if voice.get("break"):
@@ -438,10 +437,10 @@ class TTS:
         audio = np.concatenate(audios, axis=0)
         encoded_audio = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
-        return encoded_audio, format
     def vits_infer(self, voice, fname):
         format = voice.get("format", "wav")
@@ -450,7 +449,7 @@ class TTS:
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice, auto_break=True)
         encoded_audio = self.encode(sampling_rate, audio, format)
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
@@ -466,9 +465,9 @@ class TTS:
             encoded_audio = self.encode(sampling_rate, chunk, format)
             for encoded_audio_chunk in self.generate_audio_chunks(encoded_audio):
                 yield encoded_audio_chunk
-            if config.SAVE_AUDIO:
-                audio.write(encoded_audio.getvalue())
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(audio.getvalue(), path)
@@ -479,7 +478,7 @@ class TTS:
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice)
         encoded_audio = self.encode(sampling_rate, audio, format)
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
@@ -491,7 +490,7 @@ class TTS:
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice, auto_break=True)
         encoded_audio = self.encode(sampling_rate, audio, format)
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
@@ -515,7 +514,7 @@ class TTS:
         audio = voice_obj.voice_conversion(voice)
         encoded_audio = self.encode(sampling_rate, audio, format)
-        if config.SAVE_AUDIO:
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio

 import torch
 import xml.etree.ElementTree as ET
 import config
 import soundfile as sf
 from torch import no_grad, LongTensor, inference_mode, FloatTensor
 from io import BytesIO
 from text import text_to_sequence
 from models import SynthesizerTrn
 from utils import utils
+from logger import logger
 # torch.set_num_threads(1) # 设置torch线程为1
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 class TTS:
+    def __init__(self, voice_obj, voice_speakers, w2v2_emotion_count=0):
         self._voice_obj = voice_obj
         self._voice_speakers = voice_speakers
         self._strength_dict = {"x-weak": 0.25, "weak": 0.5, "Medium": 0.75, "Strong": 1, "x-strong": 1.25}
         self._vits_speakers_count = len(self._voice_speakers["VITS"])
         self._hubert_speakers_count = len(self._voice_speakers["HUBERT-VITS"])
         self._w2v2_speakers_count = len(self._voice_speakers["W2V2-VITS"])
+        self._w2v2_emotion_count = w2v2_emotion_count
         self.dem = None
         # Initialization information
+        self.logger = logger
         self.logger.info(f"torch:{torch.__version__} cuda_available:{torch.cuda.is_available()}")
         self.logger.info(f'device:{device} device.type:{device.type}')
         return voice_tasks, format
+    def create_ssml_infer_task(self, voice_tasks, format, fname):
         audios = []
         for voice in voice_tasks:
             if voice.get("break"):
         audio = np.concatenate(audios, axis=0)
         encoded_audio = self.encode(voice_obj.hps_ms.data.sampling_rate, audio, format)
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
+        return encoded_audio
     def vits_infer(self, voice, fname):
         format = voice.get("format", "wav")
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice, auto_break=True)
         encoded_audio = self.encode(sampling_rate, audio, format)
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
             encoded_audio = self.encode(sampling_rate, chunk, format)
             for encoded_audio_chunk in self.generate_audio_chunks(encoded_audio):
                 yield encoded_audio_chunk
+            if getattr(config, "SAVE_AUDIO", False):
+                audio.write(encoded_audio.getvalue())
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(audio.getvalue(), path)
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice)
         encoded_audio = self.encode(sampling_rate, audio, format)
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
         sampling_rate = voice_obj.hps_ms.data.sampling_rate
         audio = voice_obj.get_audio(voice, auto_break=True)
         encoded_audio = self.encode(sampling_rate, audio, format)
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio
         audio = voice_obj.voice_conversion(voice)
         encoded_audio = self.encode(sampling_rate, audio, format)
+        if getattr(config, "SAVE_AUDIO", False):
             path = f"{config.CACHE_PATH}/{fname}"
             utils.save_audio(encoded_audio.getvalue(), path)
         return encoded_audio