File size: 3,302 Bytes
e09bf73
 
 
 
a3af92b
 
aba9814
db5934e
66a9e0c
 
 
 
 
88076be
 
 
 
 
 
 
 
 
 
 
d695e73
88076be
 
 
 
 
66a9e0c
 
88076be
 
 
 
 
66a9e0c
88076be
66a9e0c
88076be
 
 
66a9e0c
 
 
 
65d87fa
 
 
 
d695e73
88076be
 
66a9e0c
88076be
66a9e0c
 
88076be
 
 
66a9e0c
88076be
 
 
66a9e0c
 
88076be
 
 
66a9e0c
88076be
 
 
66a9e0c
 
88076be
 
 
31be2a9
 
 
 
 
 
 
 
 
88076be
 
 
66a9e0c
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
---
license: mit
language:
- ja
datasets:
- Akjava/ja005_speech_common-voice_22khz
---
<div>model card are outdated ,continue training,now epoch over 5000</div>
<div class="audio-container">
  <h4>ITA-Rectaion-010:家具商人のフィシェルは、荷車と仔馬を貸してくれた。(kagushooniNnofisheruwa,nigurumatokoumaokashItekureta.)</h4>
  <audio controls src="https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/examples/ita-recitation_ja005_ep2799_spk_single/utterance_010.wav
"></audio>
</div>

**モデル名:**  Matcha-TTS-Japanese Single Speaker Female Voice - ja005

**バージョン:** ver1.0

**作成者:** Akihito Miyazaki

**作成日:** 2024.Sep

**モデルの説明:**

このモデルは、[Matcha-TTS-Japanese](https://github.com/akjava/Matcha-TTS-Japanese)を用いて、日本語の女性音声合成を行うための、話者1人のモデルです。コモンボイスから作られた ja005 の音声を再現することを目的としています。

**データセット:**

* ja005_speech_common-voice_22khz - Large

この音声はVAD済です。データーセットそのものから、学習に不向きな音声が除かれている場合もありますが訓練時に省いたものもあります。

**トレーニング方法:**

* ベースモデル: Matcha_LJSpeech
* トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
* バッチサイズ: 80
* エポック数:  2799
* その他トレーニング設定: デフォルト
* 問題なくトレーニング終了

**モデルの性能:**

現状、若干の学習不足を感じる。

* 音量・ノイズ・音質共に、標準以上
* イントネーションが酷いところがある。若干一部音素にノイズあり(学習不足?)
* 漢字CER:0.160 by [jyakoTen 0.2](https://github.com/akjava/jyakoTen)
* カナCER:0.065
* Mora-Error-Rate:0.019
* Phonome-Error-Rate:0.016
* [mora-all出力v0.2](https://github.com/akjava/Matcha-TTS-Japanese/wiki/mora%E2%80%90all%E5%87%BA%E5%8A%9B)を検証 - サ行にノイズ有り

**使用例:**
ほぼ同じ容量で話者多数のマルチスピーカーがあるのでシングルを使う局面は限られている。

* 一番音質がいいはずなので、他のトレーニング用の音を作るのには向いている。
* イントネーションはいまいちなので、制御が必要

**重要なチェックポイント:**

* [2799](https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/runs/2024-09-14_10-10-15/checkpoints/checkpoint_epoch%3D2799.ckpt) - 最終

**既知の問題点/警告:**

* 若干Roboticになる可能性有り
* イントネーションに難あり

**今後の課題:**

* もう少しトレーニングが必要

**クレジット:**

* Shivam Mehta ([GitHub](https://github.com/shivammehta25/Matcha-TTS)) - Matcha-TTS
* [Mozilla Common Voice](https://commonvoice.mozilla.org/ja)

**引用情報:**

```
@misc{akjava_matcha-tts_2024,
  title = {Matcha-TTS Japanese Female Voice - ja004},
  author = {Akjava},
  year = {2024},
  version = {v1.0},
  url = {https://huggingface.co/Akjava/matcha-tts-japanese-female-ja004}
}
```

**その他:**

* 同Datasetのマルチスピーカー版など有り