FpOliveira commited on
Commit
f4b1b2c
1 Parent(s): a65148d

app: first commit

Browse files
Files changed (2) hide show
  1. app.py +132 -0
  2. requirements.txt +4 -0
app.py ADDED
@@ -0,0 +1,132 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import gradio as gr
2
+ from transformers import AutoTokenizer, AutoModelForSequenceClassification
3
+ import torch
4
+ from collections import Counter
5
+ from scipy.special import softmax
6
+
7
+ article_string = "Author: <a href=\"https://huggingface.co/FpOliveira\">Felipe Ramos de Oliveira</a>. Read more about our <a href=\"https://github.com/Silly-Machine/TuPi-Portuguese-Hate-Speech-Dataset\">The Portuguese hate speech dataset (TuPI) </a>."
8
+
9
+ app_title = "Portuguese hate speech classifier - Classicador de discurso de ódio em português"
10
+
11
+ app_description = """
12
+ EN: This application employs multiple models to identify hate speech in Portuguese texts. You have the option to enter your own phrases by filling in the "Text" field or choosing one of the examples provided below.
13
+ \nPT: Esta aplicativo emprega múltiplos modelos para identificar discurso de ódio em textos portugueses. Você tem a opção de inserir suas próprias frases preenchendo o campo "Texto" ou escolhendo um dos exemplos abaixo
14
+ """
15
+
16
+ app_examples = [
17
+ ["bom dia flor do dia!!!"],
18
+ ["o ódio é muito grande no coração da ex-deputada federal joise hasselmann contra a família bolsonaro"],
19
+ ["mano deus me livre q nojo da porra!🤮🤮🤮🤮🤮"],
20
+ ["obrigada princesa, porra, tô muito feliz snrsss 🤩🤩🤩❤️"],
21
+ ["mds mas o viado vir responder meus status falando q a taylor foi racista foi o auge 😂😂"],
22
+ ["Pra ser minha inimiga no mínimo tem que ter um rostinho bonito e delicado, não se considere minha rival com essa sua cara de cavalo não, feia, cara de traveco, cabeçuda, queixo quadrado 🤣🤣"]
23
+ ]
24
+
25
+ output_textbox_component_description = """
26
+ EN: This box will display hate speech results based on the average score of multiple models.
27
+ PT: Esta caixa exibirá resultados da classicação de discurso de ódio com base na pontuação média de vários modelos.
28
+ """
29
+
30
+ output_json_component_description = { "breakdown": """
31
+ This box presents a detailed breakdown of the evaluation for each model.
32
+ """,
33
+ "detalhamento": """
34
+ (Esta caixa apresenta um detalhamento da avaliação para cada modelo.)
35
+ """ }
36
+
37
+ short_score_descriptions = {
38
+ 0: "Not hate",
39
+ 1: "Hate"
40
+ }
41
+
42
+ # Define hate speech categories
43
+ hate_speech_categories = {
44
+ 0: "ageism",
45
+ 1: "aporophobia",
46
+ 2: "body_shame",
47
+ 3: "capacitism",
48
+ 4: "lgbtphobia",
49
+ 5: "political",
50
+ 6: "racism",
51
+ 7: "religious intolerance",
52
+ 8: "misogyny",
53
+ 9: "xenophobia",
54
+ 10: "other",
55
+ 11: "not hate"
56
+ }
57
+ model_list = [
58
+ "FpOliveira/tupi-bert-large-portuguese-cased",
59
+ "FpOliveira/tupi-bert-base-portuguese-cased",
60
+ ]
61
+
62
+ user_friendly_name = {
63
+ "FpOliveira/tupi-bert-large-portuguese-cased": "BERTimbau large (TuPi)",
64
+ "FpOliveira/tupi-bert-base-portuguese-cased": "BERTimbau base (TuPi)",
65
+ }
66
+
67
+ reverse_user_friendly_name = { v:k for k,v in user_friendly_name.items() }
68
+
69
+ user_friendly_name_list = list(user_friendly_name.values())
70
+
71
+ model_array = []
72
+
73
+ for model_name in model_list:
74
+ row = {}
75
+ row["name"] = model_name
76
+ row["tokenizer"] = AutoTokenizer.from_pretrained(model_name)
77
+ row["model"] = AutoModelForSequenceClassification.from_pretrained(model_name)
78
+ model_array.append(row)
79
+
80
+ def most_frequent(array):
81
+ occurence_count = Counter(array)
82
+ return occurence_count.most_common(1)[0][0]
83
+
84
+
85
+ def predict(s1, chosen_model):
86
+ if not chosen_model:
87
+ chosen_model = user_friendly_name_list[0]
88
+ full_chosen_model_name = reverse_user_friendly_name[chosen_model]
89
+
90
+ for row in model_array:
91
+ name = row["name"]
92
+ if name != full_chosen_model_name:
93
+ continue
94
+ else:
95
+ tokenizer = row["tokenizer"]
96
+ model = row["model"]
97
+ model_input = tokenizer(*([s1],), padding=True, return_tensors="pt")
98
+ with torch.no_grad():
99
+ output = model(**model_input)
100
+ logits = output[0][0].detach().numpy()
101
+ logits = softmax(logits).tolist()
102
+ break
103
+
104
+ # Get the indices of the top two probabilities
105
+ top_two_indices = sorted(range(len(logits)), key=lambda i: logits[i], reverse=True)[:2]
106
+
107
+ # Get the categories and probabilities for the top two
108
+ top_two_categories = [hate_speech_categories[str(index)] for index in top_two_indices]
109
+ top_two_probabilities = [logits[index] for index in top_two_indices]
110
+
111
+ result = {
112
+ "predicted_categories": top_two_categories,
113
+ "probabilities": top_two_probabilities,
114
+ }
115
+
116
+ return result
117
+
118
+ inputs = [
119
+ gr.Textbox(label="Text", value=app_examples[0][0]),
120
+ gr.Dropdown(label="Model", choices=user_friendly_name_list, value=user_friendly_name_list[0])
121
+ ]
122
+
123
+ # Output components
124
+ outputs = [
125
+ gr.Label(label="Top Predicted Categories"),
126
+ gr.Label(label="Top Probabilities"),
127
+ ]
128
+
129
+ gr.Interface(fn=predict, inputs=inputs, outputs=outputs, title=app_title,
130
+ description=app_description,
131
+ examples=app_examples,
132
+ article = article_string).launch()
requirements.txt ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ torch
2
+ gradio
3
+ transformers
4
+ scipy