Spaces:

pourmand1376
/

Seamlessm4t_diarization_VAD

Running

App Files Files Community

a.pourmand commited on Sep 18, 2023

Commit

0d83c55

•

1 Parent(s): 3e79246

add seamlessm4t

Browse files

Files changed (6) hide show

.idea/.gitignore +8 -0
.idea/Seamlessm4t_diarization_VAD.iml +8 -0
.idea/inspectionProfiles/profiles_settings.xml +6 -0
.idea/modules.xml +8 -0
.idea/vcs.xml +6 -0
app.py +40 -12

.idea/.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+# Default ignored files
+/shelf/
+/workspace.xml
+# Editor-based HTTP Client requests
+/httpRequests/
+# Datasource local storage ignored files
+/dataSources/
+/dataSources.local.xml

.idea/Seamlessm4t_diarization_VAD.iml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="inheritedJdk" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>

.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

.idea/modules.xml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/Seamlessm4t_diarization_VAD.iml" filepath="$PROJECT_DIR$/.idea/Seamlessm4t_diarization_VAD.iml" />
+    </modules>
+  </component>
+</project>

.idea/vcs.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+  </component>
+</project>

app.py CHANGED Viewed

@@ -29,8 +29,15 @@ To duplicate this repo, you have to give permission from three reopsitories and
 """
 from pyannote.audio import Pipeline
-pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization",use_auth_token=HF_API)
-def predict(target_language, number_of_speakers, audio_source, input_audio_mic, input_audio_file):
     if audio_source == "microphone":
         input_data = input_audio_mic
     else:
@@ -53,8 +60,8 @@ def predict(target_language, number_of_speakers, audio_source, input_audio_mic,
     for turn, value, speaker in diarization.itertracks(yield_label=True):
         print(turn)
         try:
-            clipped = song[turn.start * 1000: turn.end * 1000]
-            clipped.export(f'my.wav', format='wav', bitrate=16000)
             _, result = client.predict(
                 "ASR (Automatic Speech Recognition)",
@@ -64,19 +71,19 @@ def predict(target_language, number_of_speakers, audio_source, input_audio_mic,
                 "text",
                 target_language,
                 target_language,
-                api_name="/run"
             )
-            current_text = f'start: {turn.start:.1f} end: {turn.end:.1f} text: {result} speaker: {speaker}'
             if current_text is not None:
                 output_text = output_text + "\n" + current_text
             yield output_text
         except Exception as e:
             print(e)
-        #return output_text
 def update_audio_ui(audio_source: str) -> tuple[dict, dict]:
     mic = audio_source == "microphone"
@@ -95,9 +102,12 @@ with gr.Blocks(css="style.css") as demo:
                 label="Output Language",
                 value=DEFAULT_TARGET_LANGUAGE,
                 interactive=True,
-                info="Select your target language"
             )
-            number_of_speakers=gr.Number(label="Number of Speakers",info="Keep it zero, if you want the model to automatically detect the number of speakers")
         with gr.Row() as audio_box:
             audio_source = gr.Radio(
                 choices=["file", "microphone"], value="file", interactive=True
@@ -125,9 +135,27 @@ with gr.Blocks(css="style.css") as demo:
         input_audio_mic.change(lambda x: x, input_audio_mic, final_audio)
         input_audio_file.change(lambda x: x, input_audio_file, final_audio)
         submit = gr.Button("Submit")
-        text_output = gr.Textbox(label="Transcribed Text", value="", interactive=False,lines=2,scale=3,max_lines=2)
-        submit.click(fn=predict, inputs=[target_language,number_of_speakers, audio_source,input_audio_mic, input_audio_file], outputs=[text_output],api_name="predict")
     gr.Markdown(DUPLICATE)

 """
 from pyannote.audio import Pipeline
+pipeline = Pipeline.from_pretrained(
+    "pyannote/speaker-diarization", use_auth_token=HF_API
+)
+def predict(
+    target_language, number_of_speakers, audio_source, input_audio_mic, input_audio_file
+):
     if audio_source == "microphone":
         input_data = input_audio_mic
     else:
     for turn, value, speaker in diarization.itertracks(yield_label=True):
         print(turn)
         try:
+            clipped = song[turn.start * 1000 : turn.end * 1000]
+            clipped.export(f"my.wav", format="wav", bitrate=16000)
             _, result = client.predict(
                 "ASR (Automatic Speech Recognition)",
                 "text",
                 target_language,
                 target_language,
+                api_name="/run",
             )
+            current_text = f"start: {turn.start:.1f} end: {turn.end:.1f} text: {result} speaker: {speaker}"
             if current_text is not None:
                 output_text = output_text + "\n" + current_text
             yield output_text
         except Exception as e:
             print(e)
+        # return output_text
 def update_audio_ui(audio_source: str) -> tuple[dict, dict]:
     mic = audio_source == "microphone"
                 label="Output Language",
                 value=DEFAULT_TARGET_LANGUAGE,
                 interactive=True,
+                info="Select your target language",
+            )
+            number_of_speakers = gr.Number(
+                label="Number of Speakers",
+                info="Keep it zero, if you want the model to automatically detect the number of speakers",
             )
         with gr.Row() as audio_box:
             audio_source = gr.Radio(
                 choices=["file", "microphone"], value="file", interactive=True
         input_audio_mic.change(lambda x: x, input_audio_mic, final_audio)
         input_audio_file.change(lambda x: x, input_audio_file, final_audio)
         submit = gr.Button("Submit")
+        text_output = gr.Textbox(
+            label="Transcribed Text",
+            value="",
+            interactive=False,
+            lines=10,
+            scale=10,
+            max_lines=10,
+        )
+        submit.click(
+            fn=predict,
+            inputs=[
+                target_language,
+                number_of_speakers,
+                audio_source,
+                input_audio_mic,
+                input_audio_file,
+            ],
+            outputs=[text_output],
+            api_name="predict",
+        )
     gr.Markdown(DUPLICATE)