Spaces:

DrGabrielLopez
/

BERTopic

Running

App Files Files Community

DrGabrielLopez commited on Mar 24, 2023

Commit

0bfcadb

•

1 Parent(s): bd9233d

ádd

Browse files

Files changed (2) hide show

.DS_Store +0 -0
app.py +5 -6

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import pandas as pd
 import numpy as np
 import spacy
 import gradio as gr
 import umap
 from sklearn.cluster import OPTICS
@@ -27,15 +28,13 @@ ARTICLE = r"""<center>
 def load_data(fileobj):
     """Load dataset (keep only 500 rows for efficiency)"""
-    data = pd.read_csv(fileobj, on_bad_lines='skip', nrows=500)
     assert "text" in data.columns, "The data must have a column named 'text'"
     return data[['text']]
 def run_nlp_processing(data):
     """As reference for standard NLP processing"""
-    import os
     # NLP processing
     docs = []
     nlp = spacy.load("en_core_web_sm", disable=["tagger", "parser", "ner"])
@@ -130,7 +129,7 @@ with blocks:
             )
             in_file = gr.File()
             gr.Markdown("## Inspect the data")
-            in_data = gr.Dataframe()
             submit_button = gr.Button("Run BERTopic!")
             gr.Examples(inputs=in_file, examples=EXAMPLES)
         with gr.Column():
@@ -139,7 +138,7 @@ with blocks:
                 "Text -> Word-Piece Tokenization -> BERT-embedding -> UMAP -> HDBSCAN -> Topic"
             )
             gr.Markdown("## Processed Text")
-            out_dataset = gr.Dataframe()
             gr.Markdown("## Embedding + Projection + Clustering")
             embedding_plot = gr.Plot(label="BERTopic projections")
             gr.Markdown("## Extracted Topics")
@@ -147,7 +146,7 @@ with blocks:
     gr.Markdown(ARTICLE)
     # event listeners
     in_file = in_file.upload(inputs=in_file, outputs=in_data, fn=load_data)
-    # submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
     # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)
 blocks.launch()

 import pandas as pd
 import numpy as np
 import spacy
+import os
 import gradio as gr
 import umap
 from sklearn.cluster import OPTICS
 def load_data(fileobj):
     """Load dataset (keep only 500 rows for efficiency)"""
+    data = pd.read_csv(fileobj.name, on_bad_lines='skip', nrows=500)
     assert "text" in data.columns, "The data must have a column named 'text'"
     return data[['text']]
 def run_nlp_processing(data):
     """As reference for standard NLP processing"""
     # NLP processing
     docs = []
     nlp = spacy.load("en_core_web_sm", disable=["tagger", "parser", "ner"])
             )
             in_file = gr.File()
             gr.Markdown("## Inspect the data")
+            in_data = gr.Dataframe(max_rows=5)
             submit_button = gr.Button("Run BERTopic!")
             gr.Examples(inputs=in_file, examples=EXAMPLES)
         with gr.Column():
                 "Text -> Word-Piece Tokenization -> BERT-embedding -> UMAP -> HDBSCAN -> Topic"
             )
             gr.Markdown("## Processed Text")
+            out_dataset = gr.Dataframe(max_rows=5)
             gr.Markdown("## Embedding + Projection + Clustering")
             embedding_plot = gr.Plot(label="BERTopic projections")
             gr.Markdown("## Extracted Topics")
     gr.Markdown(ARTICLE)
     # event listeners
     in_file = in_file.upload(inputs=in_file, outputs=in_data, fn=load_data)
+    submit_button.click(inputs=in_data, outputs=out_dataset, fn=run_bert_tokenization)
     # out_dataset.change(inputs=out_dataset, outputs=embedding_plot, fn=run_bertopic)
 blocks.launch()