Spaces:

chansung
/

paper_qa

Running on CPU Upgrade

App Files Files Community

chansung commited on Mar 7

Commit

4572f9c

•

1 Parent(s): f4902e0

Update app.py

Browse files

Files changed (1) hide show

app.py +175 -81

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import datasets
 import pandas as pd
 import gradio as gr
 from datetime import datetime, timedelta
 from datasets import Dataset
 from huggingface_hub import HfApi
@@ -24,6 +25,15 @@ from constants.js import UPDATE_SEARCH_RESULTS, UPDATE_IF_TYPE
 from apscheduler.schedulers.background import BackgroundScheduler
 gemini_api_key = os.getenv("GEMINI_API_KEY")
 hf_token = os.getenv("HF_TOKEN")
@@ -40,7 +50,42 @@ requested_arxiv_ids_df = pd.DataFrame({'Requested arXiv IDs': requested_arxiv_id
 title2qna = {}
 date2qna = {}
-longest_qans = 0
 def filter_function(example, ids):
     ids_e = example['Requested arXiv IDs']
@@ -197,54 +242,38 @@ def add_arxiv_ids_to_queue(queue, arxiv_ids_str):
     else:
         gr.Warning(f"No valid arXiv IDs found...")
-    return queue
-def count_nans(row):
-    count = 0
-    for _, (k, v) in enumerate(data.items()):
-        if v is None:
-            count = count + 1
-    return count
-for data in ds["train"]:
-    date = data["target_date"].strftime("%Y-%m-%d")
-    if date in date2qna:
-        papers = copy.deepcopy(date2qna[date])
-        for paper in papers:
-            if paper["title"] == data["title"]:
-                if count_nans(paper) > count_nans(data):
-                    date2qna[date].remove(paper)
-        date2qna[date].append(data)
-        del papers
-    else:
-        date2qna[date] = [data]
-for date in date2qna:
-    papers = date2qna[date]
-    for paper in papers:
-        title2qna[paper["title"]] = paper
-titles = title2qna.keys()
-sorted_dates = sorted(date2qna.keys())
-last_date = sorted_dates[-1]
-last_papers = date2qna[last_date]
-selected_paper = last_papers[0]
-def get_papers(date):
-    papers = [paper["title"] for paper in date2qna[date]]
-    return gr.Dropdown(
-        papers,
-        value=papers[0]
     )
-def set_paper(date, paper_title):
     selected_paper = None
-    for paper in date2qna[date]:
         if paper["title"] == paper_title:
             selected_paper = paper
             break
@@ -331,11 +360,11 @@ def search(search_in, max_results=3):
 def set_date(title):
     paper = title2qna[title]
-    date = paper["target_date"].strftime("%Y-%m-%d")
-    return date
-def set_papers(date, title):
-    papers = [paper["title"] for paper in date2qna[date]]
     return (
         gr.Dropdown(choices=papers, value=title),
         gr.Textbox("")
@@ -346,13 +375,28 @@ with gr.Blocks(css=STYLE, theme=gr.themes.Soft()) as demo:
     with gr.Column(elem_id="control-panel", elem_classes=["group"]):
         with gr.Row():
-            date_dd = gr.Dropdown(
-                sorted_dates,
-                value=last_date,
-                label="Select date",
-                interactive=True,
-                scale=3, filterable=False
-            )
             papers_dd = gr.Dropdown(
                 [paper["title"] for paper in last_papers],
                 value=selected_paper["title"],
@@ -459,7 +503,7 @@ with gr.Blocks(css=STYLE, theme=gr.themes.Soft()) as demo:
         arxiv_id_enter.submit(
             add_arxiv_ids_to_queue,
             [arxiv_queue, arxiv_id_enter],
-            arxiv_queue
         )
@@ -468,71 +512,121 @@ with gr.Blocks(css=STYLE, theme=gr.themes.Soft()) as demo:
                 "If you are curious how it is done, visit the [Auto Paper Q&A Generation project repository](https://github.com/deep-diver/auto-paper-analysis) "
                 "Also, the generated dataset is hosted on Hugging Face 🤗 Dataset repository as well([Link](https://huggingface.co/datasets/chansung/auto-paper-qa2)). ")
-    search_r1.click(set_date, search_r1, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r1],
         outputs=[papers_dd, search_in]
     )
-    search_r2.click(set_date, search_r2, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r2],
         outputs=[papers_dd, search_in]
     )
-    search_r3.click(set_date, search_r3, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r3],
         outputs=[papers_dd, search_in]
     )
-    search_r4.click(set_date, search_r4, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r4],
         outputs=[papers_dd, search_in]
     )
-    search_r5.click(set_date, search_r5, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r5],
         outputs=[papers_dd, search_in]
     )
-    search_r6.click(set_date, search_r6, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r6],
         outputs=[papers_dd, search_in]
     )
-    search_r7.click(set_date, search_r7, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r7],
         outputs=[papers_dd, search_in]
     )
-    search_r8.click(set_date, search_r8, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r8],
         outputs=[papers_dd, search_in]
     )
-    search_r9.click(set_date, search_r9, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r9],
         outputs=[papers_dd, search_in]
     )
-    search_r10.click(set_date, search_r10, date_dd).then(
         set_papers,
-        inputs=[date_dd, search_r10],
         outputs=[papers_dd, search_in]
     )
-    date_dd.input(get_papers, date_dd, papers_dd).then(
         set_paper,
-        [date_dd, papers_dd],
         [
-            title, arxiv_link, hf_paper_link, summary,
             basic_q_0, basic_q_eli5_0, basic_q_expert_0,
             depth_q_0, depth_q_eli5_0, depth_q_expert_0,
             breath_q_0, breath_q_eli5_0, breath_q_expert_0,
@@ -549,9 +643,9 @@ with gr.Blocks(css=STYLE, theme=gr.themes.Soft()) as demo:
     papers_dd.change(
         set_paper,
-        [date_dd, papers_dd],
         [
-            title, arxiv_link, hf_paper_link, summary,
             basic_q_0, basic_q_eli5_0, basic_q_expert_0,
             depth_q_0, depth_q_eli5_0, depth_q_expert_0,
             breath_q_0, breath_q_eli5_0, breath_q_expert_0,

 import pandas as pd
 import gradio as gr
+from collections import defaultdict
 from datetime import datetime, timedelta
 from datasets import Dataset
 from huggingface_hub import HfApi
 from apscheduler.schedulers.background import BackgroundScheduler
+def count_nans(row):
+    count = 0
+    for _, (k, v) in enumerate(data.items()):
+        if v is None:
+            count = count + 1
+    return count
 gemini_api_key = os.getenv("GEMINI_API_KEY")
 hf_token = os.getenv("HF_TOKEN")
 title2qna = {}
 date2qna = {}
+date_dict = defaultdict(lambda: defaultdict(lambda: defaultdict(list)))
+for data in ds["train"]:
+    date = data["target_date"].strftime("%Y-%m-%d")
+    if date in date2qna:
+        papers = copy.deepcopy(date2qna[date])
+        for paper in papers:
+            if paper["title"] == data["title"]:
+                if count_nans(paper) > count_nans(data):
+                    date2qna[date].remove(paper)
+        date2qna[date].append(data)
+        del papers
+    else:
+        date2qna[date] = [data]
+for date in date2qna:
+    year, month, day = date.split("-")
+    papers = date2qna[date]
+    for paper in papers:
+        title2qna[paper["title"]] = paper
+        date_dict[year][month][day].append(paper)
+titles = title2qna.keys()
+sorted_dates = sorted(date2qna.keys())
+sorted_year = sorted(date_dict.keys())
+last_year = sorted_year[-1]
+sorted_month = sorted(date_dict[last_year].keys())
+last_month = sorted_month[-1]
+sorted_day = sorted(date_dict[last_year][last_month].keys())
+last_day = sorted_day[-1]
+last_papers = date_dict[last_year][last_month][last_date]
+selected_paper = last_papers[0]
 def filter_function(example, ids):
     ids_e = example['Requested arXiv IDs']
     else:
         gr.Warning(f"No valid arXiv IDs found...")
+    return (
+        queue, gr.Textbox("")
+    )
+def get_paper_by_year(y):
+    m = sorted(date_dict[y].keys())
+    last_m = m[-1]
+    d = sorted(date_dict[y][last_m].keys())
+    last_d = d[-1]
+    papers = [paper["title"] for paper in date_dict[y][last_m][last_d]]
+    return (
+        gr.Dropdown(choices=m, value=last_m),
+        gr.Dropdown(choices=d, value=last_d),
+        gr.Dropdown(choices=papers, value=papers[0])
+    )
+def get_paper_by_month(y, m):
+    d = sorted(date_dict[y][m].keys())
+    last_d = d[-1]
+    papers = [paper["title"] for paper in date_dict[y][m][last_d]]
+    return (
+        gr.Dropdown(choices=d, value=last_d),
+        gr.Dropdown(choices=papers, value=papers[0])
     )
+def get_paper_by_day(y, m, d):
+    papers = [paper["title"] for paper in date_dict[y][m][d]]
+    return gr.Dropdown(choices=papers, value=papers[0])
+def set_paper(y, m, d, paper_title):
     selected_paper = None
+    for paper in date_dict[y][m][d]:
         if paper["title"] == paper_title:
             selected_paper = paper
             break
 def set_date(title):
     paper = title2qna[title]
+    year, month, day = paper["target_date"].strftime("%Y-%m-%d").split("-")
+    return year, month, day
+def set_papers(y, m, d, title):
+    papers = [paper["title"] for paper in date_dict[y][m][d]]
     return (
         gr.Dropdown(choices=papers, value=title),
         gr.Textbox("")
     with gr.Column(elem_id="control-panel", elem_classes=["group"]):
         with gr.Row():
+            with gr.Row():
+                year_dd = gr.Dropdown(
+                    sorted_year,
+                    value=last_year,
+                    label="Year",
+                    interactive=True,
+                )
+                month_dd = gr.Dropdown(
+                    sorted_month,
+                    value=last_month,
+                    label="Month",
+                    interactive=True,
+                )
+                day_dd = gr.Dropdown(
+                    sorted_day,
+                    value=last_day,
+                    label="Day",
+                    interactive=True,
+                )
             papers_dd = gr.Dropdown(
                 [paper["title"] for paper in last_papers],
                 value=selected_paper["title"],
         arxiv_id_enter.submit(
             add_arxiv_ids_to_queue,
             [arxiv_queue, arxiv_id_enter],
+            [arxiv_queue, arxiv_id_enter]
         )
                 "If you are curious how it is done, visit the [Auto Paper Q&A Generation project repository](https://github.com/deep-diver/auto-paper-analysis) "
                 "Also, the generated dataset is hosted on Hugging Face 🤗 Dataset repository as well([Link](https://huggingface.co/datasets/chansung/auto-paper-qa2)). ")
+    search_r1.click(set_date, search_r1, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r1],
         outputs=[papers_dd, search_in]
     )
+    search_r2.click(set_date, search_r2, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r2],
         outputs=[papers_dd, search_in]
     )
+    search_r3.click(set_date, search_r3, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r3],
         outputs=[papers_dd, search_in]
     )
+    search_r4.click(set_date, search_r4, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r4],
         outputs=[papers_dd, search_in]
     )
+    search_r5.click(set_date, search_r5, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r5],
         outputs=[papers_dd, search_in]
     )
+    search_r6.click(set_date, search_r6, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r6],
         outputs=[papers_dd, search_in]
     )
+    search_r7.click(set_date, search_r7, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r7],
         outputs=[papers_dd, search_in]
     )
+    search_r8.click(set_date, search_r8, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r8],
         outputs=[papers_dd, search_in]
     )
+    search_r9.click(set_date, search_r9, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r9],
         outputs=[papers_dd, search_in]
     )
+    search_r10.click(set_date, search_r10, [year_dd, month_dd, day_dd]).then(
         set_papers,
+        inputs=[year_dd, month_dd, day_dd, search_r10],
         outputs=[papers_dd, search_in]
     )
+    year_dd.input(
+        get_paper_by_year,
+        inputs=[year_dd],
+        outputs=[month_dd, day_dd, papers_dd]
+    ).then(
+        set_paper,
+        [year_dd, month_dd, day_dd, papers_dd],
+        [
+            title, summary,
+            basic_q_0, basic_q_eli5_0, basic_q_expert_0,
+            depth_q_0, depth_q_eli5_0, depth_q_expert_0,
+            breath_q_0, breath_q_eli5_0, breath_q_expert_0,
+            basic_q_1, basic_q_eli5_1, basic_q_expert_1,
+            depth_q_1, depth_q_eli5_1, depth_q_expert_1,
+            breath_q_1, breath_q_eli5_1, breath_q_expert_1,
+            basic_q_2, basic_q_eli5_2, basic_q_expert_2,
+            depth_q_2, depth_q_eli5_2, depth_q_expert_2,
+            breath_q_2, breath_q_eli5_2, breath_q_expert_2
+        ]
+    )
+    month_dd.input(
+        get_paper_by_month,
+        inputs=[year_dd, month_dd],
+        outputs=[day_dd, papers_dd]
+    ).then(
+        set_paper,
+        [year_dd, month_dd, day_dd, papers_dd],
+        [
+            title, summary,
+            basic_q_0, basic_q_eli5_0, basic_q_expert_0,
+            depth_q_0, depth_q_eli5_0, depth_q_expert_0,
+            breath_q_0, breath_q_eli5_0, breath_q_expert_0,
+            basic_q_1, basic_q_eli5_1, basic_q_expert_1,
+            depth_q_1, depth_q_eli5_1, depth_q_expert_1,
+            breath_q_1, breath_q_eli5_1, breath_q_expert_1,
+            basic_q_2, basic_q_eli5_2, basic_q_expert_2,
+            depth_q_2, depth_q_eli5_2, depth_q_expert_2,
+            breath_q_2, breath_q_eli5_2, breath_q_expert_2
+        ]
+    )
+    day_dd.input(
+        get_paper_by_day,
+        inputs=[year_dd, month_dd, day_dd],
+        outputs=[papers_dd]
+    ).then(
         set_paper,
+        [year_dd, month_dd, day_dd, papers_dd],
         [
+            title, summary,
             basic_q_0, basic_q_eli5_0, basic_q_expert_0,
             depth_q_0, depth_q_eli5_0, depth_q_expert_0,
             breath_q_0, breath_q_eli5_0, breath_q_expert_0,
     papers_dd.change(
         set_paper,
+        [year_dd, month_dd, day_dd, papers_dd],
         [
+            title, summary,
             basic_q_0, basic_q_eli5_0, basic_q_expert_0,
             depth_q_0, depth_q_eli5_0, depth_q_expert_0,
             breath_q_0, breath_q_eli5_0, breath_q_expert_0,