Spaces:

cgr28
/

cs482-project

Runtime error

App Files Files Community

cgr28 commited on Apr 27, 2023

Commit

8fdaf9e

•

1 Parent(s): c073d3a

milestone-3

Browse files

Files changed (2) hide show

app.py +22 -21
milestone_3.py → train.py +5 -6

app.py CHANGED Viewed

@@ -1,30 +1,31 @@
 import streamlit as st
-from transformers import AutoTokenizer, RobertaForSequenceClassification
 import numpy as np
 import torch
-# assignment 2
-st.title("CS482 Project Sentiment Analysis")
-text = st.text_area(label="Text to be analyzed", value="This sentiment analysis app is great!")
-selected_model = st.radio(label="Model", options=["Model 1", "Model 2"])
-analyze_button = st.button(label="Analyze")
-st.markdown("**:red[Sentiment:]**")
-with st.spinner(text="Analyzing..."):
-    if analyze_button:
-        if selected_model=="Model 1":
-            tokenizer = AutoTokenizer.from_pretrained("cardiffnlp/twitter-roberta-base-emotion")
-            model = RobertaForSequenceClassification.from_pretrained("cardiffnlp/twitter-roberta-base-emotion")
-        else:
-            tokenizer = AutoTokenizer.from_pretrained("cardiffnlp/twitter-roberta-base-sentiment-latest")
-            model = RobertaForSequenceClassification.from_pretrained("cardiffnlp/twitter-roberta-base-sentiment-latest")
-        inputs = tokenizer(text, return_tensors="pt")
-        with torch.no_grad():
-            logits = model(**inputs).logits
-        prediction_id = logits.argmax().item()
-        results = model.config.id2label[prediction_id]
-        st.write(results)

 import streamlit as st
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
 import numpy as np
 import torch
+import pandas as pd
+import torch.nn.functional as F
+model_name = "unitary/toxic-bert"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+df = pd.DataFrame(columns=("Tweet", "Toxicity", "Probability"))
+sample_tweets = ["Ask Sityush to clean up his behavior than issue me nonsensical warnings...", "be a man and lets discuss it-maybe over the phone?", "Don't look, come or think of comming back! Tosser."]
+classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
+results = classifier(sample_tweets)
+batch  = tokenizer(sample_tweets, padding=True, truncation=True, max_length=512, return_tensors="pt")
+# assignment 3
+st.title("CS482 Project Sentiment Analysis")
+st.markdown("**:red[unitary/toxic-bert]**")
+for i in range(len(sample_tweets)):
+    df.loc[len(df.index)] = [sample_tweets[i], results[i]["label"], results[i]["score"]]
+st.table(df)

milestone_3.py → train.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification, Trainer, TrainingArguments
 import torch
 from torch.utils.data import Dataset
 # from torch.optim import AdamW
@@ -7,7 +7,7 @@ from sklearn.model_selection import train_test_split
 # assignment 3
-model_name = "distilbert-base-uncased"
 class ToxicDataset(Dataset):
@@ -18,7 +18,6 @@ class ToxicDataset(Dataset):
     def __getitem__(self, idx):
         item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
         item["labels"] = torch.tensor(self.labels[idx])
-        print(item)
         return item
     def __len__(self):
@@ -35,7 +34,7 @@ train_texts, val_texts, train_labels, val_labels = train_test_split(toxic_data.t
 print("Data split. Tokenizing data...")
-tokenizer = DistilBertTokenizerFast.from_pretrained(model_name)
 train_encodings = tokenizer.batch_encode_plus(train_texts, truncation=True, padding=True, return_tensors='pt')
 val_encodings = tokenizer.batch_encode_plus(val_texts, truncation=True, padding=True, return_tensors='pt')
@@ -59,7 +58,7 @@ training_args = TrainingArguments(
 # device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
-model = DistilBertForSequenceClassification.from_pretrained(model_name, num_labels=6)
 trainer = Trainer(
     model=model,
@@ -101,7 +100,7 @@ trainer.train()
 print("Training complete. Saving model...")
-save_directory = ".results/model"
 model.save_pretrained(save_directory)
 print("Model saved.")

+from transformers import BertTokenizerFast, BertModel, Trainer, TrainingArguments
 import torch
 from torch.utils.data import Dataset
 # from torch.optim import AdamW
 # assignment 3
+model_name = "bert-base-uncased"
 class ToxicDataset(Dataset):
     def __getitem__(self, idx):
         item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
         item["labels"] = torch.tensor(self.labels[idx])
         return item
     def __len__(self):
 print("Data split. Tokenizing data...")
+tokenizer = BertTokenizerFast.from_pretrained(model_name)
 train_encodings = tokenizer.batch_encode_plus(train_texts, truncation=True, padding=True, return_tensors='pt')
 val_encodings = tokenizer.batch_encode_plus(val_texts, truncation=True, padding=True, return_tensors='pt')
 # device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
+model = BertModel.from_pretrained(model_name, num_labels=6)
 trainer = Trainer(
     model=model,
 print("Training complete. Saving model...")
+save_directory = "./results/model"
 model.save_pretrained(save_directory)
 print("Model saved.")