Spaces:

wing-nus
/

SciAssist

Sleeping

App Files Files Community

wing-nus

dyxohjl666 commited on Oct 23, 2023

Commit

7236411

•

1 Parent(s): 3893bea

Support url input (#14)

Browse files

- Support url input (f7eb0178c5732d964fba21fb274dcada7799686d)

Co-authored-by: Yixi Ding <[email protected]>

Files changed (2) hide show

app.py +10 -29
controlled_summarization.py +37 -9

app.py CHANGED Viewed

@@ -6,27 +6,6 @@ from controlled_summarization import *
 from dataset_extraction import *
 import requests
-def download_pdf(url, dest_folder):
-    """
-    Download a PDF from a given URL and save it to a specified destination folder.
-    Parameters:
-        url (str): URL of the PDF
-        dest_folder (str): Destination folder to save the downloaded PDF
-    """
-    if not os.path.exists(dest_folder):
-        os.makedirs(dest_folder)
-    response = requests.get(url, stream=True)
-    filename = os.path.join(dest_folder, url.split("/")[-1])
-    with open(filename, 'wb') as file:
-        for chunk in response.iter_content(chunk_size=1024):
-            if chunk:
-                file.write(chunk)
-    print(f"Downloaded {url} to {filename}")
-    return filename
 # Example Usage
 #url = "https://arxiv.org/pdf/2305.14996.pdf"
@@ -45,8 +24,8 @@ with gr.Blocks(css="#htext span {white-space: pre-line}") as demo:
                 gr.Markdown(ctrlsum_file_md)
                 with gr.Row():
                     with gr.Column():
-                        ctrlsum_url = gr.TextArea(label="PDF URL", max_lines=1)
-                        ctrlsum_file = gr.File(label="Input File", max_lines=2)
                         ctrlsum_str = gr.TextArea(label="Input String", max_lines=5)
                         with gr.Column():
                             gr.Markdown("* Length 0 will exert no control over length.")
@@ -63,19 +42,21 @@ with gr.Blocks(css="#htext span {white-space: pre-line}") as demo:
                 ctrlsum_file_examples = gr.Examples(examples=[["examples/H01-1042_body.txt", 50, "automatic evaluation technique"],["examples/H01-1042.pdf", 0, "automatic evaluation technique"]],
                                                 inputs=[ctrlsum_file, ctrlsum_file_length, ctrlsum_file_keywords])
-        if len(ctrlsum_url.value) > 4:
-            ctrlsum_file = download_pdf(ctrlsum_url.value, './cache/')
         ctrlsum_file_btn.click(
             fn=ctrlsum_for_file,
-            inputs=[ctrlsum_file, ctrlsum_file_length, ctrlsum_file_keywords, ctrlsum_str],
-            outputs=[ctrlsum_file_output, ctrlsum_str]
         )
         def clear():
-            return None,0,None
-        ctrlsum_file.change(clear, inputs=None,outputs=[ctrlsum_str,ctrlsum_file_length,ctrlsum_file_keywords])
         # Reference String Parsing
         with gr.TabItem("Reference String Parsing"):
             with gr.Box():

 from dataset_extraction import *
 import requests
 # Example Usage
 #url = "https://arxiv.org/pdf/2305.14996.pdf"
                 gr.Markdown(ctrlsum_file_md)
                 with gr.Row():
                     with gr.Column():
+                        ctrlsum_url = gr.Textbox(label="PDF URL", max_lines=1)
+                        ctrlsum_file = gr.File(label="Input File")
                         ctrlsum_str = gr.TextArea(label="Input String", max_lines=5)
                         with gr.Column():
                             gr.Markdown("* Length 0 will exert no control over length.")
                 ctrlsum_file_examples = gr.Examples(examples=[["examples/H01-1042_body.txt", 50, "automatic evaluation technique"],["examples/H01-1042.pdf", 0, "automatic evaluation technique"]],
                                                 inputs=[ctrlsum_file, ctrlsum_file_length, ctrlsum_file_keywords])
         ctrlsum_file_btn.click(
             fn=ctrlsum_for_file,
+            inputs=[ctrlsum_file, ctrlsum_file_length, ctrlsum_file_keywords, ctrlsum_str, ctrlsum_url],
+            outputs=[ctrlsum_file_output, ctrlsum_str, ctrlsum_file]
         )
         def clear():
+            return None,0,None, None
+        ctrlsum_file.upload(clear, inputs=None,outputs=[ctrlsum_str,ctrlsum_file_length,ctrlsum_file_keywords, ctrlsum_url])
+        ctrlsum_url.input(clear, inputs=None, outputs=[ctrlsum_str, ctrlsum_file_length, ctrlsum_file_keywords, ctrlsum_file])
+        ctrlsum_str.input(clear, inputs=None,
+                          outputs=[ctrlsum_url, ctrlsum_file_length, ctrlsum_file_keywords, ctrlsum_file])
         # Reference String Parsing
         with gr.TabItem("Reference String Parsing"):
             with gr.Box():

controlled_summarization.py CHANGED Viewed

@@ -1,12 +1,35 @@
 from typing import List, Tuple
 import torch
 from SciAssist import Summarization
 device = "gpu" if torch.cuda.is_available() else "cpu"
 ctrlsum_pipeline = Summarization(os_name="nt",checkpoint="google/flan-t5-base",device=device)
 def ctrlsum_for_str(input,length=None, keywords=None) -> List[Tuple[str, str]]:
     if keywords is not None:
@@ -24,15 +47,20 @@ def ctrlsum_for_str(input,length=None, keywords=None) -> List[Tuple[str, str]]:
     return "".join(output)
-def ctrlsum_for_file(input, length=None, keywords=None, text="") -> List[Tuple[str, str]]:
-    if input == None:
         if text=="":
-            return None
         else:
-            return ctrlsum_for_str(text,length,keywords),text
     else:
-        filename = input.name
-        if keywords is not None:
             keywords = keywords.strip().split(",")
             if keywords[0] == "":
                 keywords = None
@@ -47,12 +75,12 @@ def ctrlsum_for_file(input, length=None, keywords=None, text="") -> List[Tuple[s
             results = ctrlsum_pipeline.predict(filename,
                                             save_results=False, length=length, keywords=keywords)
         else:
-            return [("File Format Error !", None)]
         output = []
         for res in results["summary"]:
             output.append(f"{res}\n\n")
-        return "".join(output), results["raw_text"]

 from typing import List, Tuple
 import torch
 from SciAssist import Summarization
+import os
+import requests
 device = "gpu" if torch.cuda.is_available() else "cpu"
 ctrlsum_pipeline = Summarization(os_name="nt",checkpoint="google/flan-t5-base",device=device)
+def download_pdf(url, dest_folder):
+    """
+    Download a PDF from a given URL and save it to a specified destination folder.
+    Parameters:
+        url (str): URL of the PDF
+        dest_folder (str): Destination folder to save the downloaded PDF
+    """
+    if not os.path.exists(dest_folder):
+        os.makedirs(dest_folder)
+    response = requests.get(url, stream=True)
+    filename = os.path.join(dest_folder, url.split("/")[-1])
+    with open(filename, 'wb') as file:
+        for chunk in response.iter_content(chunk_size=1024):
+            if chunk:
+                file.write(chunk)
+    print(f"Downloaded {url} to {filename}")
+    return filename
 def ctrlsum_for_str(input,length=None, keywords=None) -> List[Tuple[str, str]]:
     if keywords is not None:
     return "".join(output)
+def ctrlsum_for_file(input=None, length=None, keywords="", text="", url="") -> List[Tuple[str, str, str]]:
+    if input == None and url == "":
         if text=="":
+            return None,"Input cannot be left blank.",None
         else:
+            return ctrlsum_for_str(text,length,keywords),text, None
     else:
+        filename=""
+        if url != "":
+            if len(url) > 4:
+                filename = download_pdf(url, './cache/')
+        else:
+            filename = input.name
+        if keywords != "":
             keywords = keywords.strip().split(",")
             if keywords[0] == "":
                 keywords = None
             results = ctrlsum_pipeline.predict(filename,
                                             save_results=False, length=length, keywords=keywords)
         else:
+            return "File Format Error !", None, filename
         output = []
         for res in results["summary"]:
             output.append(f"{res}\n\n")
+        return "".join(output), results["raw_text"], filename