Spaces:

3loi
/

WavLM-SER-Multi-Baseline-Odyssey2024

Running

3loi commited on Mar 5

Commit

35545b0

•

1 Parent(s): 8655a3e

ser_app.py

Files changed (1) hide show

app.py ADDED Viewed

+from transformers import pipeline
+from transformers import AutoModelForAudioClassification
+import gradio as gr
+import librosa
+import torch
+import numpy as np
+def classify_audio(audio_file):
+    model = AutoModelForAudioClassification.from_pretrained("3loi/SER-Odyssey-Baseline-WavLM-Multi-Attributes", trust_remote_code=True)
+    print(audio_file)
+    mean, std = -8.278621631819787e-05, 0.08485510250851999
+    raw_wav, _ = librosa.load(audio_file, sr=16000)
+    norm_wav = (raw_wav - mean) / (std+0.000001)
+    mask = torch.ones(1, len(norm_wav))
+    wavs = torch.tensor(norm_wav).unsqueeze(0)
+    pred = model(wavs, mask).detach().numpy()
+    print(str(pred))
+    return str(pred)
+def main():
+    audio_input = gr.inputs.Audio(source="upload", type="filepath")
+    output_text = gr.outputs.Textbox()
+    iface = gr.Interface(fn=classify_audio, inputs=audio_input,
+                         outputs=output_text, title="Speech Emotion Recognition App",
+                         description="Upload an audio file and hit the 'Submit'\
+                             button")
+    iface.launch()
+if __name__ == '__main__':
+    main()