Audio-to-Audio
audio
speech
voice-conversion
Project Beatrice commited on
Commit
92cd895
1 Parent(s): a9864f2

Update docs, add LICENSE, add model card

Browse files
Files changed (4) hide show
  1. LICENSE +7 -1
  2. README.md +29 -14
  3. assets/README.md +1 -1
  4. pyproject.toml +4 -1
LICENSE CHANGED
@@ -1 +1,7 @@
1
- TBW
 
 
 
 
 
 
 
1
+ Copyright 2024 Project Beatrice
2
+
3
+ Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:
4
+
5
+ The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.
6
+
7
+ THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
README.md CHANGED
@@ -1,3 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  # このリポジトリは現在非公開のはずです。見えている場合はProject Beatriceにご連絡ください
2
 
3
  # Beatrice Trainer
@@ -13,7 +26,7 @@ Beatrice 2 は、以下を目標に開発されています。
13
  * 公式 VST での変換時、外部の録音機器を使った実測で 50ms 程度の遅延
14
  * 開発者のノート PC (Intel Core i7-1165G7) でシングルスレッドで動作させ、RTF < 0.25 となる程度の負荷
15
  * 最小構成で 30MB 以下の容量
16
- * VST と VCClient での動作
17
  * その他 (内緒)
18
 
19
  ## Getting Started
@@ -24,16 +37,19 @@ Git などを使用して、このリポジトリをダウンロードしてく
24
 
25
  ```sh
26
  git lfs install
27
- git clone (TBW)
28
  cd beatrice-trainer
29
  ```
30
 
31
  ### 2. Environment Setup
32
 
33
  Poetry などを使用して、依存ライブラリをインストールしてください。
 
34
  ```sh
35
  poetry install
36
  poetry shell
 
 
37
  ```
38
 
39
  正しくインストールできていれば、 `python3 beatrice_trainer -h` で以下のようなヘルプが表示されます。
@@ -105,7 +121,7 @@ tensorboard --logdir <output_dir>
105
  ### 5. After Training
106
 
107
  学習が正常に完了すると、出力ディレクトリ内に `paraphernalia_(data_dir_name)_(step)` という名前のディレクトリが生成されています。
108
- このディレクトリを公式 VST や VCClient で読み込むことで、ストリーム (リアルタイム) 変換を行うことができます。
109
 
110
  ## Detailed Usage
111
 
@@ -146,22 +162,21 @@ python3 beatrice_trainer -d <your_training_data_dir> -o <output_dir> -r
146
 
147
  ### Customize Paraphernalia
148
 
149
- 学習スクリプトによって生成された paraphernalia ディレクトリ内にある `beatrice_paraphernalia_*.toml` ファイルを編集することで、 VST や VCClient 上での表示を変更できます。 (願望)
150
 
151
  ## Resource
152
 
153
  このリポジトリには、学習などに使用する各種データが含まれています。
154
- 詳しくは [assets/README.md](/assets/README.md) をご覧ください。
155
 
156
  ## Reference
157
 
158
- * [wav2vec 2.0](https://github.com/facebookresearch/fairseq)
159
- * [EnCodec](https://github.com/facebookresearch/encodec)
160
- * [HiFi-GAN](https://github.com/jik876/hifi-gan)
161
- * [Vocos](https://github.com/gemelo-ai/vocos)
162
- * [BigVSAN](https://github.com/sony/bigvsan)
163
- * [UnivNet](https://arxiv.org/abs/2106.07889)
164
- * [unofficial implementation](https://github.com/maum-ai/univnet)
165
  * [Soft-VC](https://arxiv.org/abs/2111.02392)
166
  * [StreamVC](https://arxiv.org/abs/2401.03078)
167
  * [EVA-GAN](https://arxiv.org/abs/2402.00892)
@@ -170,5 +185,5 @@ python3 beatrice_trainer -d <your_training_data_dir> -o <output_dir> -r
170
 
171
  ## License
172
 
173
- このリポジトリ内のソースコードおよび学習済みモデルは (TBW) のもとで公開されています。
174
- 詳しくは [LICENSE](/LICENSE) をご覧ください。
 
1
+ ---
2
+ license: mit
3
+ pipeline_tag: audio-to-audio
4
+ tags:
5
+ - audio
6
+ - speech
7
+ - voice-conversion
8
+ datasets:
9
+ - reazon-research/reazonspeech
10
+ - dns-challenge
11
+ - libritts-r
12
+ ---
13
+
14
  # このリポジトリは現在非公開のはずです。見えている場合はProject Beatriceにご連絡ください
15
 
16
  # Beatrice Trainer
 
26
  * 公式 VST での変換時、外部の録音機器を使った実測で 50ms 程度の遅延
27
  * 開発者のノート PC (Intel Core i7-1165G7) でシングルスレッドで動作させ、RTF < 0.25 となる程度の負荷
28
  * 最小構成で 30MB 以下の容量
29
+ * VST と [VC Client](https://github.com/w-okada/voice-changer) での動作
30
  * その他 (内緒)
31
 
32
  ## Getting Started
 
37
 
38
  ```sh
39
  git lfs install
40
+ git clone https://huggingface.co/fierce-cats/beatrice-trainer
41
  cd beatrice-trainer
42
  ```
43
 
44
  ### 2. Environment Setup
45
 
46
  Poetry などを使用して、依存ライブラリをインストールしてください。
47
+
48
  ```sh
49
  poetry install
50
  poetry shell
51
+ # Alternatively, you can use pip to install dependencies directly:
52
+ # pip3 install -e .
53
  ```
54
 
55
  正しくインストールできていれば、 `python3 beatrice_trainer -h` で以下のようなヘルプが表示されます。
 
121
  ### 5. After Training
122
 
123
  学習が正常に完了すると、出力ディレクトリ内に `paraphernalia_(data_dir_name)_(step)` という名前のディレクトリが生成されています。
124
+ このディレクトリを公式 VST や [VC Client](https://github.com/w-okada/voice-changer) で読み込むことで、ストリーム (リアルタイム) 変換を行うことができます。
125
 
126
  ## Detailed Usage
127
 
 
162
 
163
  ### Customize Paraphernalia
164
 
165
+ 学習スクリプトによって生成された paraphernalia ディレクトリ内にある `beatrice_paraphernalia_*.toml` ファイルを編集することで、 VST や VC Client 上での表示を変更できます。
166
 
167
  ## Resource
168
 
169
  このリポジトリには、学習などに使用する各種データが含まれています。
170
+ 詳しくは [assets/README.md](https://huggingface.co/fierce-cats/beatrice-trainer/blob/main/assets/README.md) をご覧ください。
171
 
172
  ## Reference
173
 
174
+ * [wav2vec 2.0](https://arxiv.org/abs/2006.11477) ([Official implementation](https://github.com/facebookresearch/fairseq), [MIT License](https://github.com/facebookresearch/fairseq/blob/main/LICENSE))
175
+ * [EnCodec](https://arxiv.org/abs/2210.13438) ([Official implementation](https://github.com/facebookresearch/encodec), [MIT License](https://github.com/facebookresearch/encodec/blob/main/LICENSE))
176
+ * [HiFi-GAN](https://arxiv.org/abs/2010.05646) ([Official implementation](https://github.com/jik876/hifi-gan), [MIT License](https://github.com/jik876/hifi-gan/blob/master/LICENSE))
177
+ * [Vocos](https://arxiv.org/abs/2306.00814) ([Official implementation](https://github.com/gemelo-ai/vocos), [MIT License](https://github.com/gemelo-ai/vocos/blob/main/LICENSE))
178
+ * [BigVSAN](https://arxiv.org/abs/2309.02836) ([Official implementation](https://github.com/sony/bigvsan), [MIT License](https://github.com/sony/bigvsan/blob/main/LICENSE))
179
+ * [UnivNet](https://arxiv.org/abs/2106.07889) ([Unofficial implementation](https://github.com/maum-ai/univnet), [BSD 3-Clause License](https://github.com/maum-ai/univnet/blob/master/LICENSE))
 
180
  * [Soft-VC](https://arxiv.org/abs/2111.02392)
181
  * [StreamVC](https://arxiv.org/abs/2401.03078)
182
  * [EVA-GAN](https://arxiv.org/abs/2402.00892)
 
185
 
186
  ## License
187
 
188
+ このリポジトリ内のソースコードおよび学習済みモデルは MIT License のもとで公開されています。
189
+ 詳���くは [LICENSE](https://huggingface.co/fierce-cats/beatrice-trainer/blob/main/LICENSE) をご覧ください。
assets/README.md CHANGED
@@ -15,7 +15,7 @@
15
  ## Pretrained
16
 
17
  Beatrice の事前学習済みモデルです。
18
- [ReazonSpeech](https://huggingface.co/datasets/reazon-research/reazonspeech), [DNS-Chellenge](https://github.com/microsoft/DNS-Challenge), [LibriTTS-R (予定)](https://www.openslr.org/141/) のデータを使用して学習されています。
19
 
20
  ## Test
21
 
 
15
  ## Pretrained
16
 
17
  Beatrice の事前学習済みモデルです。
18
+ [ReazonSpeech](https://huggingface.co/datasets/reazon-research/reazonspeech), [DNS-Chellenge](https://github.com/microsoft/DNS-Challenge), [LibriTTS-R](https://www.openslr.org/141/) のデータを使用して学習されています。
19
 
20
  ## Test
21
 
pyproject.toml CHANGED
@@ -1,9 +1,12 @@
1
  [tool.poetry]
2
  name = "beatrice-trainer"
3
- version = "2.0.0a2"
4
  description = "A tool to train Beatrice models"
 
5
  authors = ["Project Beatrice <[email protected]>"]
6
  readme = "README.md"
 
 
7
 
8
  [tool.poetry.dependencies]
9
  python = "^3.9"
 
1
  [tool.poetry]
2
  name = "beatrice-trainer"
3
+ version = "2.0.0b0"
4
  description = "A tool to train Beatrice models"
5
+ license = "MIT"
6
  authors = ["Project Beatrice <[email protected]>"]
7
  readme = "README.md"
8
+ homepage = "https://prj-beatrice.com/"
9
+ repository = "https://huggingface.co/fierce-cats/beatrice-trainer"
10
 
11
  [tool.poetry.dependencies]
12
  python = "^3.9"