ytdlp-whisper

Running

lanbogao commited on Apr 3, 2023

Commit

43f5428

•

1 Parent(s): a6f578a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,20 +7,22 @@ import yt_dlp
 langs = ["None"] + sorted(list(whisper.tokenizer.LANGUAGES.values()))
 model_size = list(whisper._MODELS.keys())
-def get_subtitles(url, langs=['en']):
     # Download subtitles if available
     ydl_opts = {
         'writesubtitles': True,
         'outtmpl': '%(id)s.%(ext)s',
-        'subtitleslangs': langs,
         'skip_download': True,
     }
-    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
-        result = ydl.extract_info(url, download=False)
-        subtitles = result.get("subtitles")
-        if subtitles and len(subtitles):
-            return subtitles
-    return None
 def download_audio(video_url, quality: str = '128', speed: float = None):
     ydl_opts = {
@@ -52,10 +54,9 @@ def get_audio(url):
     return yt.streams.filter(only_audio=True)[0].download(filename="tmp.mp4")
 def get_transcript(url, model_size, lang, format):
-    subtitles = get_subtitles(url, langs)
-    if subtitles:
-        print(subtitles)
-        return subtitles.get(lang)
     model = whisper.load_model(model_size)

 langs = ["None"] + sorted(list(whisper.tokenizer.LANGUAGES.values()))
 model_size = list(whisper._MODELS.keys())
+def get_subtitle(url, lang='en'):
     # Download subtitles if available
     ydl_opts = {
         'writesubtitles': True,
         'outtmpl': '%(id)s.%(ext)s',
+        'subtitleslangs': [lang],
         'skip_download': True,
     }
+    info_dict = ydl.extract_info(url, download=True)
+        video_id = info_dict.get("id", None)
+        if video_id is None:
+            return None
+        subtitle_file = f"{video_id}.{lang}.vtt"
+        if not os.path.exists(subtitle_file):
+            return None
+        return subtitle_file
 def download_audio(video_url, quality: str = '128', speed: float = None):
     ydl_opts = {
     return yt.streams.filter(only_audio=True)[0].download(filename="tmp.mp4")
 def get_transcript(url, model_size, lang, format):
+    subtitle = get_subtitle(url, lang)
+    print(subtitle)
+    return subtitle
     model = whisper.load_model(model_size)