sooolee
/

flan-t5-base-cnn-samsum-lora

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

sooolee commited on Apr 26, 2023

Commit

b89b5ed

•

1 Parent(s): 370fa95

Update handler.py

Files changed (1) hide show

handler.py +13 -6

handler.py CHANGED Viewed

@@ -2,18 +2,19 @@ from typing import  List, Any
 import torch
 from peft import PeftModel, PeftConfig
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 def preprocessing(data):
     texts = list()
     i = 0
-    if len(data) <= i+4000:
         texts = data
     else:
         while len(data[i:]) != 0:
-            if len(data[i:]) > 4000:
-                string = str(data[i:i+4000])
                 texts.append(string)
-                i = i + 3800
             else:
                 string = str(data[i:])
                 texts.append(string)
@@ -33,10 +34,16 @@ class EndpointHandler:
     def __call__(self, data: Any) -> List[str]:
-        inputs = data.pop("inputs", data)
         # process input
-        texts = preprocessing(inputs)
         inputs = self.tokenizer(texts, return_tensors="pt", padding=True, ) # truncation=True
         with torch.no_grad():

 import torch
 from peft import PeftModel, PeftConfig
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+from youtube_transcript_api import YouTubeTranscriptApi
 def preprocessing(data):
     texts = list()
     i = 0
+    if len(data) <= i+3000:
         texts = data
     else:
         while len(data[i:]) != 0:
+            if len(data[i:]) > 3000:
+                string = str(data[i:i+3000])
                 texts.append(string)
+                i = i + 2800
             else:
                 string = str(data[i:])
                 texts.append(string)
     def __call__(self, data: Any) -> List[str]:
+        video_id = data.pop("inputs", data)
+        dict = YouTubeTranscriptApi.get_transcript(video_id)
+        transcript = ""
+        for i in range(len(dict)):
+            transcript += dict[i]['text']
         # process input
+        texts = preprocessing(transcript)
         inputs = self.tokenizer(texts, return_tensors="pt", padding=True, ) # truncation=True
         with torch.no_grad():