indic_s2s

Sleeping

App Files Files Community

balaramas commited on Jul 13, 2023

Commit

8e74bf4

•

0 Parent(s):

Duplicate from balaramas/indic_s2t

Browse files

Files changed (32) hide show

.gitattributes +35 -0
README.md +14 -0
app.py +130 -0
input.txt +0 -0
lang/bn/config_st.yaml +19 -0
lang/bn/spm_unigram8000_st.model +3 -0
lang/bn/spm_unigram8000_st.txt +0 -0
lang/gj/config_st.yaml +19 -0
lang/gj/spm_unigram8000_st.model +3 -0
lang/gj/spm_unigram8000_st.txt +0 -0
lang/hi/config_st.yaml +19 -0
lang/hi/spm_unigram8000_st.model +3 -0
lang/hi/spm_unigram8000_st.txt +0 -0
lang/mt/config_st.yaml +19 -0
lang/mt/spm_unigram8000_st.model +3 -0
lang/mt/spm_unigram8000_st.txt +0 -0
lang/ne/config_st.yaml +19 -0
lang/ne/spm_unigram8000_st.model +3 -0
lang/ne/spm_unigram8000_st.txt +0 -0
lang/tm/config_st.yaml +19 -0
lang/tm/spm_unigram8000_st.model +3 -0
lang/tm/spm_unigram8000_st.txt +0 -0
models/bn_m.pt +3 -0
models/de_m.pt +3 -0
models/fr_m.pt +3 -0
models/gj_m.pt +3 -0
models/hi_m.pt +3 -0
models/mt_m.pt +3 -0
models/ne_m.pt +3 -0
models/tm_m.pt +3 -0
test.wav +0 -0
test2.wav +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Indic S2t
+emoji: 🌖
+colorFrom: blue
+colorTo: indigo
+sdk: gradio
+sdk_version: 3.36.1
+app_file: app.py
+pinned: false
+license: other
+duplicated_from: balaramas/indic_s2t
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,130 @@

+"""
+Script to translate given single english audio file to corresponding hindi text
+Usage : python s2t_en2hi.py <audio_file_path> <averaged_checkpoints_file_path>
+"""
+import gradio as gr
+import sys
+import os
+import subprocess
+from pydub import AudioSegment
+from huggingface_hub import snapshot_download
+def install_fairseq():
+    try:
+        # Run pip install command to install fairseq
+        subprocess.check_call(["pip", "install", "fairseq"])
+        subprocess.check_call(["pip", "install", "sentencepiece"])
+        subprocess.check_call(["pip", "install", "soundfile"])
+        return "fairseq successfully installed!"
+    except subprocess.CalledProcessError as e:
+        return f"An error occurred while installing fairseq: {str(e)}"
+def convert_audio_to_16k_wav(audio_input):
+    sound = AudioSegment.from_file(audio_input)
+    sample_rate = sound.frame_rate
+    num_channels = sound.channels
+    num_frames = int(sound.frame_count())
+    filename = audio_input.split("/")[-1]
+    print("original file is at:", audio_input)
+    if (num_channels > 1) or (sample_rate != 16000): # convert to mono-channel 16k wav
+        if num_channels > 1:
+            sound = sound.set_channels(1)
+        if sample_rate != 16000:
+            sound = sound.set_frame_rate(16000)
+        num_frames = int(sound.frame_count())
+        filename = filename.replace(".wav", "") + "_16k.wav"
+        sound.export(f"{filename}", format="wav")
+    return filename
+def run_my_code(input_text, language):
+    # TODO better argument handling
+    audio=convert_audio_to_16k_wav(input_text)
+    hi_wav = audio
+    data_root=""
+    model_checkpoint=""
+    d_r=""
+    if(language=="Hindi"):
+        model_checkpoint = "./models/hi_m.pt"
+        data_root="./lang/hi/"
+    if(language=="Gujrati"):
+        model_checkpoint = "./models/gj_m.pt"
+        data_root="./lang/gj/"
+    if(language=="Bengali"):
+        model_checkpoint = "./models/bn_m.pt"
+        data_root="./lang/bn/"
+    if(language=="Nepali"):
+        model_checkpoint = "./models/ne_m.pt"
+        data_root="./lang/ne/"
+    if(language=="Tamil"):
+        model_checkpoint = "./models/tm_m.pt"
+        data_root="./lang/tm/"
+    if(language=="Marathi"):
+        model_checkpoint = "./models/mt_m.pt"
+        data_root="./lang/mt/"
+    #os.system(f"cp {hi_wav} {data_root}data/tst-COMMON/wav/test.wav")
+    f = open('input.txt', 'w')
+    f.write(hi_wav)
+    f = open('input.txt', 'r')
+    content = f. read()
+    print(content)
+    print(hi_wav)
+    print("------Performing translation...")
+    #subprocess.run(["fairseq-interactive", data_root, "--config-yaml", "config_st.yaml", "--task", "speech_to_text", "--path", model_checkpoint, "--max-tokens", "50000", "--beam", "5" ,"--input" ,"input.txt"])
+    translation_result = subprocess.run(["fairseq-interactive", data_root, "--config-yaml", "config_st.yaml", "--task", "speech_to_text", "--path", model_checkpoint, "--max-tokens", "50000", "--beam", "5" ,"--input" ,"input.txt"], capture_output=True, text=True)
+    translation_result_text = translation_result.stdout
+    lines = translation_result_text.split("\n")
+    output_text=""
+    print("\n\n------Translation results are:")
+    for i in lines:
+        if (i.startswith("D-0")):
+            print(i.split("\t")[2])
+            output_text=i.split("\t")[2]
+            break
+    #os.system(f"rm {data_root}data/tst-COMMON/wav/test.wav")
+    f = open('input.txt', 'w')
+    f.write("")
+    f = open('input.txt', 'r')
+    content = f. read()
+    print(content)
+    return output_text
+install_fairseq()
+# Define the input and output interfaces for Gradio
+#inputs = [
+  #      gr.inputs.Audio(source="microphone", type="filepath", label="Record something (in English)..."),
+  #      gr.inputs.Dropdown(list(LANGUAGE_CODES.keys()), default="Hindi", label="From English to Languages X..."),
+   # ]
+#input_textbox = gr.inputs.Textbox(label="test2.wav")
+#input=gr.inputs.Audio(source="microphone", type="filepath", label="Record something (in English)...")
+#audio=convert_audio_to_16k_wav(input)
+output_textbox = gr.outputs.Textbox(label="Translated Text")
+# Create a Gradio interface
+iface = gr.Interface(
+        fn=run_my_code,
+        inputs=[gr.inputs.Audio(source="microphone", type="filepath", label="Record something (in American English accent)"), gr.inputs.Radio(["Hindi", "Gujrati", "Bengali", "Tamil", "Nepali", "Marathi"], label="Language")],
+        outputs=output_textbox,
+        title="English to Indic Language Translator")
+# Launch the interface
+iface.launch()

input.txt ADDED Viewed

File without changes

lang/bn/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: ./spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/bn/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:892dd0398e561af3bd035798ff1682f9a35c2736378e041922a46e111c3d7a72
+size 467219

lang/bn/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

lang/gj/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: ./spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/gj/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af23c356de872a60a32cfd6eacd7d5313934d7252b1b4ccc011bfc6992c2e904
+size 454913

lang/gj/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

lang/hi/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: ./spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/hi/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf7b26c17db61dcd76400fbb74c5395d5f13837ed0fd5fa1098930de4f2a8202
+size 449800

lang/hi/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

lang/mt/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: ./spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/mt/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ba6aa66df08e7b5614deadfe3fc08d5473dc7dcf672d15134ce0e4db6dd99e1
+size 458987

lang/mt/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

lang/ne/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: /home/deepakprasad/nlp_code/Nepali_MUSTC/en-ne/spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/ne/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9b431e41320a5738c0af5368d23c5071a71899c897887f06a22f2efc087dd80
+size 459775

lang/ne/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

lang/tm/config_st.yaml ADDED Viewed

	@@ -0,0 +1,19 @@

+bpe_tokenizer:
+  bpe: sentencepiece
+  sentencepiece_model: ./spm_unigram8000_st.model
+input_channels: 1
+input_feat_per_channel: 80
+specaugment:
+  freq_mask_F: 27
+  freq_mask_N: 1
+  time_mask_N: 1
+  time_mask_T: 100
+  time_mask_p: 1.0
+  time_wrap_W: 0
+transforms:
+  '*':
+  - utterance_cmvn
+  _train:
+  - utterance_cmvn
+  - specaugment
+vocab_filename: spm_unigram8000_st.txt

lang/tm/spm_unigram8000_st.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8111dca119a0b896f1a2f371fbe60682b804cf1e0f99281dd4cf410ea9e8bd29
+size 500276

lang/tm/spm_unigram8000_st.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models/bn_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97a2b6d13570a7296bb8530ff4a97306c643dddfa8abff9197df53d20cd8b735
+size 373237256

models/de_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbd8f22a2b8d90dc24ba9d4fc84df3c3b0bcf711366ac93bef27e0fe2deaa6cd
+size 373237192

models/fr_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34199f96a7194ed36bdde18cf9137df39fff82f725e57923627909c369d75433
+size 373237448

models/gj_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a7d7a21002847ec8e16dd1737b35495574e266fdf39aecfa9bb9126d8444a62
+size 373237448

models/hi_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47e8bfef22034ac859da3a2726b142876793113cf18ac18bb6f6eb85415a7893
+size 373227272

models/mt_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b300d014121494e5583ac83df275038b7a5728e25c25caf2d0a566f482f33a6
+size 373237192

models/ne_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8ac42610702980cf090b41356e4b525ac1999b147c0564d8a45605b571b3018
+size 373237192

models/tm_m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:487b409230de732f76fad7bb40581490ff207054b13dcabf8cd52d6ed1334668
+size 373237448

test.wav ADDED Viewed

Binary file (141 kB). View file

test2.wav ADDED Viewed

Binary file (126 kB). View file