README.md · Akjava/matcha-tts_ja_single-speaker

metadata

license: mit
language:
  - ja
datasets:
  - Akjava/ja005_speech_common-voice_22khz

model card are outdated ,continue training,now epoch over 5000

ITA-Rectaion-010:家具商人のフィシェルは、荷車と仔馬を貸してくれた。(kagushooniNnofisheruwa,nigurumatokoumaokashItekureta.)

モデル名: Matcha-TTS-Japanese Single Speaker Female Voice - ja005

バージョン: ver1.0

作成者: Akihito Miyazaki

作成日: 2024.Sep

モデルの説明:

このモデルは、Matcha-TTS-Japaneseを用いて、日本語の女性音声合成を行うための、話者１人のモデルです。コモンボイスから作られた ja005 の音声を再現することを目的としています。

データセット:

ja005_speech_common-voice_22khz - Large

この音声はVAD済です。データーセットそのものから、学習に不向きな音声が除かれている場合もありますが訓練時に省いたものもあります。

トレーニング方法:

ベースモデル: Matcha_LJSpeech
トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
バッチサイズ: 80
エポック数: 2799
その他トレーニング設定: デフォルト
問題なくトレーニング終了

モデルの性能:

現状、若干の学習不足を感じる。

音量・ノイズ・音質共に、標準以上
イントネーションが酷いところがある。若干一部音素にノイズあり(学習不足?)
漢字CER:0.160 by jyakoTen 0.2
カナCER:0.065
Mora-Error-Rate:0.019
Phonome-Error-Rate:0.016
mora-all出力v0.2を検証 - サ行にノイズ有り

使用例: ほぼ同じ容量で話者多数のマルチスピーカーがあるのでシングルを使う局面は限られている。

一番音質がいいはずなので、他のトレーニング用の音を作るのには向いている。
イントネーションはいまいちなので、制御が必要

重要なチェックポイント:

2799 - 最終

既知の問題点/警告:

若干Roboticになる可能性有り
イントネーションに難あり

今後の課題:

もう少しトレーニングが必要

クレジット:

Shivam Mehta (GitHub) - Matcha-TTS
Mozilla Common Voice

引用情報:

@misc{akjava_matcha-tts_2024,
  title = {Matcha-TTS Japanese Female Voice - ja004},
  author = {Akjava},
  year = {2024},
  version = {v1.0},
  url = {https://huggingface.co/Akjava/matcha-tts-japanese-female-ja004}
}

その他:

同Datasetのマルチスピーカー版など有り