Spaces:

mohAhmad
/

ChildDron

Running

mohAhmad commited on Sep 1

Commit

1956df9

•

1 Parent(s): fc391ac

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -86,8 +86,18 @@ elif options == "Phoneme Practice":
     if uploaded_audio:
         with st.spinner("Analyzing phonemes..."):
-            audio_input, _ = torchaudio.load(uploaded_audio)
-            input_values = phoneme_processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values
             logits = phoneme_model(input_values).logits
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription = phoneme_processor.batch_decode(predicted_ids)

     if uploaded_audio:
         with st.spinner("Analyzing phonemes..."):
+            waveform, sample_rate = torchaudio.load(uploaded_audio)
+            # Ensure mono audio by averaging channels if stereo
+            if waveform.shape[0] > 1:
+                waveform = waveform.mean(dim=0, keepdim=True)
+            # Resample if needed
+            if sample_rate != 16000:
+                resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
+                waveform = resampler(waveform)
+            input_values = phoneme_processor(waveform.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
             logits = phoneme_model(input_values).logits
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription = phoneme_processor.batch_decode(predicted_ids)