Spaces:

AIGC-Audio
/

Make_An_Audio

Sleeping

App Files Files Community

lmzjms commited on Mar 20, 2023

Commit

b63f63b

•

1 Parent(s): 8e99fb3

Upload 5 files

Browse files

Files changed (2) hide show

.gitignore +2 -0
app.py +11 -9

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *.pyc
2	+ __pycache__

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 from PIL import Image
 from omegaconf import OmegaConf
 from pathlib import Path
-from vocoder.hifigan.modules import VocoderHifigan
 from ldm.models.diffusion.ddim import DDIMSampler
 from ldm.util import instantiate_from_config
 from wav_evaluation.models.CLAPWrapper import CLAPWrapper
@@ -29,7 +29,7 @@ def initialize_model(config, ckpt):
     return sampler
 sampler = initialize_model('configs/text_to_audio/txt2audio_args.yaml', 'useful_ckpts/ta40multi_epoch=000085.ckpt')
-vocoder = VocoderHifigan('vocoder/logs/hifi_0127',device=device)
 clap_model = CLAPWrapper('useful_ckpts/CLAP/CLAP_weights_2022.pth','useful_ckpts/CLAP/config.yml',use_cuda=torch.cuda.is_available())
 def select_best_audio(prompt,wav_list):
@@ -52,7 +52,7 @@ def txt2audio(sampler,vocoder,prompt, seed, scale, ddim_steps, n_samples=1, W=62
     uc = None
     if scale != 1.0:
         uc = sampler.model.get_learned_conditioning(n_samples * [""])
-    c = sampler.model.get_learned_conditioning(n_samples * [prompt])
     shape = [sampler.model.first_stage_model.embed_dim, H//8, W//8]  # (z_dim, 80//2^x, 848//2^x)
     samples_ddim, _ = sampler.sample(S=ddim_steps,
                                         conditioning=c,
@@ -74,7 +74,7 @@ def txt2audio(sampler,vocoder,prompt, seed, scale, ddim_steps, n_samples=1, W=62
     return best_wav
-def predict(prompt, ddim_steps, num_samples, scale, seed):
     melbins,mel_len = 80,624
     with torch.no_grad():
         result = txt2audio(
@@ -97,21 +97,23 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
-            prompt = gr.Textbox(label="Prompt: Input your text here:")
             run_button = gr.Button(label="Run")
             with gr.Accordion("Advanced options", open=False):
                 num_samples = gr.Slider(
-                    label="Candidates", minimum=1, maximum=10, value=3, step=1)
                 # num_samples = 1
                 ddim_steps = gr.Slider(label="Steps", minimum=1,
                                        maximum=150, value=100, step=1)
                 scale = gr.Slider(
-                    label="Guidance Scale", minimum=0.1, maximum=4.0, value=1.5, step=0.1
                 )
                 seed = gr.Slider(
-                    label="Seed",
                     minimum=0,
                     maximum=2147483647,
                     step=1,
@@ -138,4 +140,4 @@ with gr.Blocks() as demo:
         with gr.Column():
             pass
-demo.launch()

 from PIL import Image
 from omegaconf import OmegaConf
 from pathlib import Path
+from vocoder.bigvgan.models import VocoderBigVGAN
 from ldm.models.diffusion.ddim import DDIMSampler
 from ldm.util import instantiate_from_config
 from wav_evaluation.models.CLAPWrapper import CLAPWrapper
     return sampler
 sampler = initialize_model('configs/text_to_audio/txt2audio_args.yaml', 'useful_ckpts/ta40multi_epoch=000085.ckpt')
+vocoder = VocoderBigVGAN('vocoder/logs/bigv16k53w',device=device)
 clap_model = CLAPWrapper('useful_ckpts/CLAP/CLAP_weights_2022.pth','useful_ckpts/CLAP/config.yml',use_cuda=torch.cuda.is_available())
 def select_best_audio(prompt,wav_list):
     uc = None
     if scale != 1.0:
         uc = sampler.model.get_learned_conditioning(n_samples * [""])
+    c = sampler.model.get_learned_conditioning(n_samples * [prompt])# shape:[1,77,1280],即还没有变成句子embedding，仍是每个单词的embedding
     shape = [sampler.model.first_stage_model.embed_dim, H//8, W//8]  # (z_dim, 80//2^x, 848//2^x)
     samples_ddim, _ = sampler.sample(S=ddim_steps,
                                         conditioning=c,
     return best_wav
+def predict(prompt, ddim_steps, num_samples, scale, seed):# 经过试验，这个input_image需要是256x256、512x512的大小效果才正常，实际应该resize一下，输出再resize回去，但是他们使用的是pad，不知道为什么
     melbins,mel_len = 80,624
     with torch.no_grad():
         result = txt2audio(
     with gr.Row():
         with gr.Column():
+            prompt = gr.Textbox(label="Prompt: Input your text here.        ")
             run_button = gr.Button(label="Run")
             with gr.Accordion("Advanced options", open=False):
                 num_samples = gr.Slider(
+                    label="Select from audios num.This number control the number of candidates \
+                        (e.g., generate three audios and choose the best to show you). A Larger value usually lead to \
+                        better quality with heavier computation", minimum=1, maximum=10, value=3, step=1)
                 # num_samples = 1
                 ddim_steps = gr.Slider(label="Steps", minimum=1,
                                        maximum=150, value=100, step=1)
                 scale = gr.Slider(
+                    label="Guidance Scale:(Large => more relevant to text but the quality may drop)", minimum=0.1, maximum=4.0, value=1.5, step=0.1
                 )
                 seed = gr.Slider(
+                    label="Seed:Change this value (any integer number) will lead to a different generation result.",
                     minimum=0,
                     maximum=2147483647,
                     step=1,
         with gr.Column():
             pass
+demo.launch(share=True)