Bartusito commited on
Commit
7e4bb2d
1 Parent(s): 5d9a7ee

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +7 -3
app.py CHANGED
@@ -3,18 +3,22 @@ import numpy as np
3
  from huggingsound import SpeechRecognitionModel
4
  from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
5
  from transformers import pipeline
 
6
 
7
  # Función para convertir la tasa de muestreo del audio de entrada
8
  def modelo1(audio):
9
- # Convertir la tasa de muestreo del audio
10
  audio_data, sample_rate = audio
11
  # Asegurarse de que audio_data sea un array NumPy
12
  if not isinstance(audio_data, np.ndarray):
13
  audio_data = np.array(audio_data)
14
-
 
 
 
 
15
  # Utilizar audio_data como entrada para el modelo
16
  whisper = pipeline('automatic-speech-recognition', model='openai/whisper-medium', device=-1) # Cambia 'device' a -1 para usar la CPU
17
- text = whisper(audio_data)
18
  return text
19
 
20
  def modelo2(text):
 
3
  from huggingsound import SpeechRecognitionModel
4
  from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
5
  from transformers import pipeline
6
+ import librosa
7
 
8
  # Función para convertir la tasa de muestreo del audio de entrada
9
  def modelo1(audio):
 
10
  audio_data, sample_rate = audio
11
  # Asegurarse de que audio_data sea un array NumPy
12
  if not isinstance(audio_data, np.ndarray):
13
  audio_data = np.array(audio_data)
14
+
15
+ # Convertir audio estéreo a mono
16
+ if audio_data.shape[0] == 2:
17
+ audio_data = np.mean(audio_data, axis=0)
18
+
19
  # Utilizar audio_data como entrada para el modelo
20
  whisper = pipeline('automatic-speech-recognition', model='openai/whisper-medium', device=-1) # Cambia 'device' a -1 para usar la CPU
21
+ text = whisper(audio_data, sample_rate)
22
  return text
23
 
24
  def modelo2(text):