Spaces:

Saim-11
/

Youtube-video-chatbot

Sleeping

Saim-11 commited on Aug 26

Commit

e997c7d

•

1 Parent(s): d12d928

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,18 +2,25 @@ import gradio as gr
 from langchain_community.vectorstores import Qdrant
 from langchain_community.embeddings import HuggingFaceBgeEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 import re
-from langchain_community.document_loaders import YoutubeLoader
-from langchain_community.document_loaders.youtube import TranscriptFormat
 def get_text(video_id):
-    loader = YoutubeLoader.from_youtube_url(
-    video_id,
-    transcript_format=TranscriptFormat.TEXT,
-    chunk_size_seconds=30,
-    )
-    return "\n\n".join(map(repr, loader.load()))
 def create_qdrant_database(url):

 from langchain_community.vectorstores import Qdrant
 from langchain_community.embeddings import HuggingFaceBgeEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from youtube_transcript_api import YouTubeTranscriptApi
 import re
+from pytubefix import YouTube
 def get_text(video_id):
+    yt = YouTube(video_id)
+    caption = yt.captions.get_by_language_code('en')
+    transcript = caption.generate_srt_captions()
+    # Split the transcript into lines
+    lines = transcript.splitlines()
+    # Extract text from every third line (lines 3, 6, 9, ...)
+    extracted_text = " ".join(lines[i] for i in range(2, len(lines), 4))
+    print(extracted_text)
+    return extracted_text
 def create_qdrant_database(url):