Spaces:

ID2223-labs
/

romanian_parliament_transcription

Sleeping

App Files Files Community

FarhadMadadzade commited on Dec 10, 2023

Commit

04717a8

•

1 Parent(s): 270a894

new model version

Browse files

Files changed (2) hide show

app.py +5 -22
video_downloader.py +3 -0

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ from pydub import AudioSegment
 from pydub.silence import split_on_silence
 import re
-pipe = pipeline("automatic-speech-recognition", model="Artanis1551/whisper_romanian")
 def process_video1(date):
@@ -38,18 +38,12 @@ def process_video1(date):
         audio_path = f"audio_{date}.wav"
         AudioFileClip(video_path).write_audiofile(audio_path)
-        # Split the audio into chunks
         audio = AudioSegment.from_wav(audio_path)
         chunks = split_on_silence(audio, min_silence_len=500, silence_thresh=-40)
-        # Transcribe each chunk
-        transcription = ""
-        for i, chunk in enumerate(chunks):
-            chunk.export(f"chunk{i}.wav", format="wav")
-            with open(f"chunk{i}.wav", "rb") as audio_file:
-                audio = audio_file.read()
-            transcription += pipe(audio)["text"] + "\n "
-            os.remove(f"chunk{i}.wav")
         # Remove the audio file
         os.remove(audio_path)
@@ -83,19 +77,8 @@ def process_video(date):
         # Extract audio from the short video
         audio_path = f"audio_{date}.wav"
         AudioFileClip(short_video_path).write_audiofile(audio_path)
-        # Split the audio into chunks
         audio = AudioSegment.from_wav(audio_path)
-        # chunks = split_on_silence(audio, min_silence_len=500, silence_thresh=-40)
-        # # Transcribe each chunk
-        # transcription = ""
-        # for i, chunk in enumerate(chunks):
-        #     chunk.export(f"chunk{i}.wav", format="wav")
-        #     with open(f"chunk{i}.wav", "rb") as audio_file:
-        #         audio = audio_file.read()
-        #     transcription += pipe(audio)["text"] + " "
-        #     os.remove(f"chunk{i}.wav")
         with open(audio_path, "rb") as audio_file:
             audio = audio_file.read()
         transcription = pipe(audio)["text"]

 from pydub.silence import split_on_silence
 import re
+pipe = pipeline("automatic-speech-recognition", model="Artanis1551/whisper_romanian4")
 def process_video1(date):
         audio_path = f"audio_{date}.wav"
         AudioFileClip(video_path).write_audiofile(audio_path)
         audio = AudioSegment.from_wav(audio_path)
         chunks = split_on_silence(audio, min_silence_len=500, silence_thresh=-40)
+        with open(audio_path, "rb") as audio_file:
+            audio = audio_file.read()
+        transcription = pipe(audio)["text"]
         # Remove the audio file
         os.remove(audio_path)
         # Extract audio from the short video
         audio_path = f"audio_{date}.wav"
         AudioFileClip(short_video_path).write_audiofile(audio_path)
         audio = AudioSegment.from_wav(audio_path)
         with open(audio_path, "rb") as audio_file:
             audio = audio_file.read()
         transcription = pipe(audio)["text"]

video_downloader.py CHANGED Viewed

@@ -93,3 +93,6 @@ def download_youtube_video(url):
         return video_path
     except Exception as e:
         print(f"An error occurred while downloading the video: {e}")

         return video_path
     except Exception as e:
         print(f"An error occurred while downloading the video: {e}")
+download_video("20230503")