Spaces:

Siddhant
/

Voice_Assistant

Sleeping

Siddhant commited on Sep 8

Commit

b9d404b

•

1 Parent(s): 1cf9f4d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,7 +22,6 @@ import gradio as gr
 # import os
 # os.system('python -m unidic download')
-from transformers import pipeline
 import numpy as np
 from VAD.vad_iterator import VADIterator
 import torch
@@ -47,7 +46,7 @@ user_role = "user"
 tts_model = TTS(language="EN_NEWEST", device="auto")
 speaker_id = tts_model.hps.data.spk2id["EN-Newest"]
 blocksize = 512
 def int2float(sound):
     """
     Taken from https://github.com/snakers4/silero-vad
@@ -108,16 +107,17 @@ def transcribe(stream, new_chunk):
         array = torch.cat(vad_output).cpu().numpy()
         duration_ms = len(array) / sr * 1000
         if (not(duration_ms < min_speech_ms or duration_ms > max_speech_ms)):
-            input_features = ASR_processor(
-                array, sampling_rate=16000, return_tensors="pt"
-            ).input_features
-            print(input_features)
-            input_features = input_features.to("cpu", dtype=getattr(torch, "float16"))
-            pred_ids = ASR_model.generate(input_features, max_new_tokens=128, min_new_tokens=0, num_beams=1, return_timestamps=False,task="transcribe",language="en")
-            print(pred_ids)
-            prompt = ASR_processor.batch_decode(
-                pred_ids, skip_special_tokens=True, decode_with_timestamps=False
-            )[0]
             print(prompt)
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})

 # import os
 # os.system('python -m unidic download')
 import numpy as np
 from VAD.vad_iterator import VADIterator
 import torch
 tts_model = TTS(language="EN_NEWEST", device="auto")
 speaker_id = tts_model.hps.data.spk2id["EN-Newest"]
 blocksize = 512
+transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base.en")
 def int2float(sound):
     """
     Taken from https://github.com/snakers4/silero-vad
         array = torch.cat(vad_output).cpu().numpy()
         duration_ms = len(array) / sr * 1000
         if (not(duration_ms < min_speech_ms or duration_ms > max_speech_ms)):
+            # input_features = ASR_processor(
+            #     array, sampling_rate=16000, return_tensors="pt"
+            # ).input_features
+            # print(input_features)
+            # input_features = input_features.to("cpu", dtype=getattr(torch, "float16"))
+            # pred_ids = ASR_model.generate(input_features, max_new_tokens=128, min_new_tokens=0, num_beams=1, return_timestamps=False,task="transcribe",language="en")
+            # print(pred_ids)
+            # prompt = ASR_processor.batch_decode(
+            #     pred_ids, skip_special_tokens=True, decode_with_timestamps=False
+            # )[0]
+            prompt=transcriber({"sampling_rate": sr, "raw": array})["text"]
             print(prompt)
             # prompt=ASR_model.transcribe(array)["text"].strip()
             chat.append({"role": user_role, "content": prompt})