add samples and pretrained checkpoint

Files changed (7) hide show

README.md CHANGED Viewed

@@ -26,7 +26,12 @@ This manifest is an attempt to recreate the Text-to-Speech recipe used for train
 ### Tools
 - [manifest/utils](./manifest/utils/) is used to downsample waveform, extract speaker embedding, generate manifest, and apply vocoder.
-- [pretrained_vocoder](./pretrained_vocoder/) provides the pre-trained vocoder.
 ### Reference

 ### Tools
 - [manifest/utils](./manifest/utils/) is used to downsample waveform, extract speaker embedding, generate manifest, and apply vocoder.
+- [pretrained_vocoder](./pretrained_vocoder/) provides the pre-trained vocoder.
+### Model and Samples
+- [speecht5_tts.pt](./speecht5_tts.pt) are reimplemented Voice Conversion fine-tuning on the released manifest **but with a smaller batch size or max updates** (Ensure the manifest is ok).
+- [samples](./samples/) are created by the released fine-tuned model and vocoder.
 ### Reference

samples/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

samples/121_121726_000020_000001_gen.wav ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:39ad3be797066e764f94b9966f231142ae8b3ee0c608b714699d162d762eb227
+size 32812

samples/237_134493_000021_000002_gen.wav ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee0fb2e1b9035b980c4d15ea51de77c7a82b73a495aed9ae2c4d2dfa76338a9b
+size 193580

samples/260_123286_000038_000001_gen.wav ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:050b3400319535e4ff9a5d493e363bf070d81eacb414a094406fd9109fcf030d
+size 182316

samples/gen_wav200.tar.gz ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ff3458af0c41c4f466ebffc29cca112bcfd7639408c4ba3e86a07eb0c428cdd
+size 36323514

speecht5_tts.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a1fb04815fe33e7b6f765270e99ea6353cc98758aba82a195c18dfe0ffbf7ee
+size 616005677