Spaces:

pyp1
/

VoiceCraft_gradio

Build error

pyp1 commited on Apr 29

Commit

4a359f0

•

1 Parent(s): eb0f340

better handle numbers 2

Files changed (3) hide show

app.py CHANGED Viewed

@@ -271,6 +271,7 @@ def run(seed, left_margin, right_margin, codec_audio_sr, codec_sr, top_k, top_p,
             inference_transcript += target_transcript + "\n"
             prompt_end_frame = int(min(audio_dur, prompt_end_time) * info.sample_rate)
             _, gen_audio = inference_one_sample(voicecraft_model["model"],
                                                 voicecraft_model["config"],
                                                 voicecraft_model["phn2num"],
@@ -299,7 +300,7 @@ def run(seed, left_margin, right_margin, codec_audio_sr, codec_sr, top_k, top_p,
             morphed_span = (max(edit_start_time - left_margin, 1 / codec_sr), min(edit_end_time + right_margin, audio_dur))
             mask_interval = [[round(morphed_span[0]*codec_sr), round(morphed_span[1]*codec_sr)]]
             mask_interval = torch.LongTensor(mask_interval)
             _, gen_audio = inference_one_sample(voicecraft_model["model"],
                                                 voicecraft_model["config"],
                                                 voicecraft_model["phn2num"],

             inference_transcript += target_transcript + "\n"
             prompt_end_frame = int(min(audio_dur, prompt_end_time) * info.sample_rate)
+            target_transcript = replace_numbers_with_words(target_transcript).replace("  ", " ").replace("  ", " ") # replace numbers with words, so that the phonemizer can do a better job
             _, gen_audio = inference_one_sample(voicecraft_model["model"],
                                                 voicecraft_model["config"],
                                                 voicecraft_model["phn2num"],
             morphed_span = (max(edit_start_time - left_margin, 1 / codec_sr), min(edit_end_time + right_margin, audio_dur))
             mask_interval = [[round(morphed_span[0]*codec_sr), round(morphed_span[1]*codec_sr)]]
             mask_interval = torch.LongTensor(mask_interval)
+            target_transcript = replace_numbers_with_words(target_transcript).replace("  ", " ").replace("  ", " ") # replace numbers with words, so that the phonemizer can do a better job
             _, gen_audio = inference_one_sample(voicecraft_model["model"],
                                                 voicecraft_model["config"],
                                                 voicecraft_model["phn2num"],

pretrained_models/giga330M.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:35e028b8c5237cb4a6050ca81d4569b98e3a34ad9175fa252f7b1d13e6a9ad26
-size 1746844161

pretrained_models/giga830M.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2454b51575822a04d24a00f8ba78f201f916439ffa62a3c1ac0ffa5220f429e3
-size 3358342977