Spaces:

Ayushnangia
/

Whispercpp_yt

Paused

App Files Files Community

Ayushnangia commited on Aug 23, 2023

Commit

5167b0f

•

1 Parent(s): 29685bd

updating with summarizer

Browse files

Files changed (2) hide show

app.py +35 -6
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -1,6 +1,9 @@
 import gradio as gr
 import yt_dlp as ydlp
 from whispercpp import Whisper
 def download_audio(youtube_url, output_folder='.'):
     ydl_opts = {
@@ -32,21 +35,47 @@ def process_general_transcription(transcription):
     transcript_str = "\n".join(formatted_transcription)
     return transcript_str
-def transcribe_youtube(youtube_url):
     download_audio(youtube_url)
     result = w.transcribe("audio.wav")
     text = w.extract_text(result)
-    return process_general_transcription(text)
 with gr.Blocks() as demo:
     gr.Markdown(
     """
     # CPP Whisperer - Transcribe YouTube Videos
     """)
-    inp = gr.Textbox(placeholder="Insert YT Url here")
-    result_button_transcribe = gr.Button('Transcribe')
-    out = gr.Textbox()
-    result_button_transcribe.click(transcribe_youtube, inputs = inp, outputs = out)
 demo.launch()

 import gradio as gr
 import yt_dlp as ydlp
+from transformers import pipeline
 from whispercpp import Whisper
+summarizer = pipeline("summarization", model="knkarthick/MEETING_SUMMARY")
 def download_audio(youtube_url, output_folder='.'):
     ydl_opts = {
     transcript_str = "\n".join(formatted_transcription)
     return transcript_str
+def chunk_to_tokens(text, n):
+        tokens = text.split()
+        max_chunk_size = min(len(tokens), 512)
+        token_size = max(1, int(max_chunk_size * (1 - n / 100)))
+        chunks = [" ".join(tokens[i:i + token_size]) for i in range(0, len(tokens), token_size)]
+        return chunks
+def summarizing(text,n):
+    valid_tok=chunk_to_tokens(text,n)
+    res=""
+    for i in valid_tok:
+        res+=summarizer(i)[0]['summary_text']+'\n'
+    return res
+def transcribe_sum_youtube(youtube_url,n):
     download_audio(youtube_url)
     result = w.transcribe("audio.wav")
     text = w.extract_text(result)
+    res=process_general_transcription(text)
+    return summarizing(res,n)
 with gr.Blocks() as demo:
     gr.Markdown(
     """
     # CPP Whisperer - Transcribe YouTube Videos
     """)
+    with gr.Row():
+        with gr.Column():
+            inp = gr.Textbox(label="Youtube Url",placeholder="Insert YT Url here")
+            inp2 = gr.Slider(label="Summarization Percentage",min_value=0,max_value=100,step_size=1)
+            result_button_transcribe = gr.Button('Transcribe and Summarize')
+        with gr.Column():
+            out = gr.Textbox(label="Transcribed and Summarize Text")
+    result_button_transcribe.click(transcribe_sum_youtube, inputs = [inp,inp2] , outputs = out)
 demo.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,5 @@
 git+https://github.com/stlukey/whispercpp.py
 gradio
-yt_dlp

 git+https://github.com/stlukey/whispercpp.py
 gradio
+yt_dlp
+transformers
+torch