File size: 9,201 Bytes
478471e
 
4b57c2d
 
 
6ef87d4
 
 
 
 
 
 
1a89428
 
 
 
478471e
4b57c2d
e1e9e48
a0685b1
e1e9e48
 
d0880e6
 
4b57c2d
 
 
 
 
 
8225b1b
 
6395ede
27f9d53
8225b1b
4b57c2d
 
 
 
8225b1b
6395ede
27f9d53
 
4b57c2d
 
 
 
 
c340f45
4b57c2d
 
 
c340f45
4b57c2d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a0685b1
1d862a1
 
ac1a38a
 
 
1d862a1
 
4b57c2d
 
1d862a1
4b57c2d
 
 
1d862a1
806dae1
4b57c2d
1d862a1
4b57c2d
 
1d862a1
4b57c2d
 
1d862a1
4b57c2d
 
606ab36
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4b57c2d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2effc70
4b57c2d
 
c340f45
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
---
license: cc-by-sa-4.0
language:
- ja
pipeline_tag: text-to-speech
tags:
- style-bert-vits2
- style-bert-vits2-jp-extra
- tts
- childish
- childish voice
- japanese
- text2audio
- text-to-audio
- text to audio
- audio
---


[X(Twitter) アカウント](https://twitter.com/peony__snow) ぜひ遊びにきてね。


![image/png](https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/i64Rx7UbX_-KPLA3uJEEO.png)

# このモデルの長所は幼げなおっとりしたボイス生成を商用・非商用問わず無料で自由に使える点です。

# The advantage of this model is that you can freely use the childish and unapologetic voice generation for free, both commercial and non-commercial.

このモデルはRikkaBotanのスイートバージョンです。
セリフの読み上げに適しています。
もしもっと硬く話してほしい場合は、[coolバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original)
英語で話してほしい場合は[englishバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original)
ささやき声で話してほしい場合は[ASMRバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_asmr_original)
中国語で話してほしい場合は[中国語バージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_chinese_original)
を試してみてください。

This model is sweet version.
It is suitable for reading emotional text.
If you want them to speak more descriptively, try the [cool version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original).
If you want them to speak in English, try the [English version](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original)
If you want them to speak whisper voice, try the [ASMR version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_asmr_original).
If you want them to speak in Chinese, try the [Chinese version](https://huggingface.co/RikkaBotan/style_bert_vits2_chinese_original)


# モデルのサンプル音声/sample voice

このモデルのサンプル音声①です

<audio controls src="https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/REXsvPirk6F_PVp3oKLp-.mpga"></audio>

このモデルのサンプル音声②です。

<audio controls src="https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/0Xr9KOdkjd-qj5xnR5vJv.mpga"></audio>

# モデルの説明/model description

このモデルはTTS(text-to-speech)モデルである、
style_bert_vits2_jp_extraを独自の音声データで学習させたモデルです。
style_bert_vits2_jp_extraは日本語に特化した音声生成モデルであり、
これまでのモデルと比較して高精度かつ自然な音声生成が可能となっています。
学習データはモデルを作成した研究者本人の音声のみであるため、
ライセンスはstyle_bert_vits2_jp_extraと同様に
商用・非商用問わず、自由に無料でご使用いただけます。

This model is a TTS (text-to-speech) model.
This is a model that has trained style_bert_vits2_jp_extra with my own voice data.
style_bert_vits2_jp_extra is a speech generation model specialized for Japanese.
Compared to previous models, it is possible to generate highly accurate and natural speech.
Since the training data is only the voice of the researcher who created the model,
The license is the same as style_bert_vits2_jp_extra
You can use it freely and free of charge, regardless of whether it is commercial or non-commercial.

# モデルを使うときのお約束/limitation

〇できること/What you can do

成果物の加工 Processing of deliverables

成果物の商用利用 Commercial use of deliverables

成果物の学習素材としての利用 Use of deliverables as learning materials

R-18、R-18G表現への利用(ただしゾーニングは必須です(小さなお友達のことをちゃんと考えてあげてね))

Use for R-18 and R-18G expressions (but zoning is required (please think about your little friends))


×できないこと/What you cannot do

音声モデルの二次配布 Secondary distribution of voice models

人を批判・攻撃すること Criticizing or attacking others

特定の政治的立場・宗教・思想への賛同または反対を呼びかけること Calling for support or opposition to a particular political position, religion, or ideology

刺激の強い表現をゾーニングなしで公開すること Publishing R-18 voice without zoning

なりすましなど、提供者に不利益をもたらすこと detrimental to the provider

# 商用利用可能なVRMも簡素ですが作りました。/ VRM(Vroid) model for commercial use


AITuberや動画解説などに用いてください。/Please use this for AITuber and video creations


[VRM(Vroid)Model](https://hub.vroid.com/characters/610722650807128806/models/3779097297253430502)


# できればやって欲しいこと/If you like

X(Twitter)や説明文でこのモデルを使ったことを書いてもらえると作者が喜びます。(必須ではありません)
If you write that you are using this model, I will be glad!


# モデルの使い方/how to use (コードはgoogle colab用です。 For google colab)


2通りの使用方法があります。必要に応じて選択してください。There are 2 ways to use model.


1.style-bert-vits2のアプリを使ってボイスを生成する/to use style-bert-vits2 app


①Style-Bert-VITS2 インストール先の Style-Bert-VITS2/model_assets/rikka_botan/ フォルダに config.json, safetensors, style_vectors.npy の 3ファイルを置きます。
Put 3 files on Style-Bert-VITS2/model_assets/rikka_botan/ folder
以下のプログラムで自動的に保存できます。By using this program, we can save files.
```python
from google.colab import drive
drive.mount("/content/drive")
%cd /content/drive/MyDrive/
!mkdir Style-Bert-VITS2/
%cd Style-Bert-VITS2/
!mkdir model_assets/
%cd model_assets/
!mkdir rikka_botan/
from huggingface_hub import snapshot_download

model_name = "RikkaBotan/style_bert_vits2_jp_extra_sweet_original"
download_path = snapshot_download(
    repo_id=model_name,
    local_dir = f"rikka_botan/",
    local_dir_use_symlinks=False
    )
```

②以下のプログラムを実行します execute this program

```python
!git clone https://github.com/litagin02/Style-Bert-VITS2.git
%cd Style-Bert-VITS2/
!pip install -r requirements.txt
!python initialize.py --skip_jvnv

from google.colab import drive
drive.mount("/content/drive")

dataset_root = "/content/drive/MyDrive/Style-Bert-VITS2/Data"
assets_root = "/content/drive/MyDrive/Style-Bert-VITS2/model_assets"
import yaml
with open("configs/paths.yml", "w", encoding="utf-8") as f:
    yaml.dump({"dataset_root": dataset_root, "assets_root": assets_root}, f)

!python app.py --share
```
③public URLにアクセスします。access public url

2.以下のコードを利用します。use this code

```python
# At first, we will install the required libraries
!git clone https://github.com/litagin02/Style-Bert-VITS2.git
%cd Style-Bert-VITS2/
!pip install -r requirements.txt 
!pip install style-bert-vits2 --no-build-isolation  # To avoid bugs

# load Japanese bert model
from style_bert_vits2.nlp import bert_models
from style_bert_vits2.constants import Languages

bert_models.load_model(Languages.JP, "ku-nlp/deberta-v2-large-japanese-char-wwm")
bert_models.load_tokenizer(Languages.JP, "ku-nlp/deberta-v2-large-japanese-char-wwm")

# save model files to model_assets dir
from pathlib import Path
from huggingface_hub import hf_hub_download

model_file = "rikka_botan_mokyumokyu.safetensors"
config_file = "config.json"
style_file = "style_vectors.npy"

for file in [model_file, config_file, style_file]:
    print(file)
    hf_hub_download(
        "RikkaBotan/style_bert_vits2_jp_extra_sweet_original",
        file,
        local_dir="model_assets"
    )
     

# By using saved model, we will test text-to-speech demo
from style_bert_vits2.tts_model import TTSModel

assets_root = Path("model_assets")

model = TTSModel(
    model_path=assets_root / model_file,
    config_path=assets_root / config_file,
    style_vec_path=assets_root / style_file,
    device="cuda"  # If you cannot use cuda, please input cpu
)

# Please input the Japanese text
from IPython.display import Audio, display

sr, audio = model.infer(text="ここに文章を入力してください")
display(Audio(audio, rate=sr))
```


# 謝辞/Acknowledgments
style-bert-vits2-jp-extraを開発してくださった[litagin](https://huggingface.co/litagin)さんに感謝いたします。
また、本モデルは多くの研究者さんの努力の上にできています。先人たちの努力に深く感謝します。
We would like to thank Mr./Ms. [litagin](https://huggingface.co/litagin) for developing style-bert-vits2-jp-extra.
Additionally, this model was created based on the efforts of many developers. We are deeply grateful for the efforts of our predecessors.