joaomsimoes
commited on
Commit
•
766b574
1
Parent(s):
57e0c7f
Update README.md
Browse files
README.md
CHANGED
@@ -4,4 +4,105 @@ Pretrained model on Portuguese (Portugal) language using a masked language model
|
|
4 |
|
5 |
## Training data
|
6 |
|
7 |
-
Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
5 |
## Training data
|
6 |
|
7 |
+
Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data.
|
8 |
+
|
9 |
+
## Limitations and Bias
|
10 |
+
```
|
11 |
+
>>> from transformers import pipeline
|
12 |
+
>>> fill_mask= pipeline('fill-mask', model='BERTpt')
|
13 |
+
|
14 |
+
>>> unmasker("2020 foi um ano [MASK].")
|
15 |
+
|
16 |
+
[{'sequence': '[CLS] 2020 foi um ano dificil. [SEP]',
|
17 |
+
'score': 0.146935 ,
|
18 |
+
'token': 7591,
|
19 |
+
'token_str': 'dificil'},
|
20 |
+
{'sequence': '[CLS] 2020 foi um ano historico. [SEP]',
|
21 |
+
'score': 0.101181,
|
22 |
+
'token': 9902,
|
23 |
+
'token_str': 'historico'},
|
24 |
+
{'sequence': '[CLS] 2020 foi um ano terrivel. [SEP]',
|
25 |
+
'score': 0.080123,
|
26 |
+
'token': 19675,
|
27 |
+
'token_str': 'terrivel'},
|
28 |
+
{'sequence': '[CLS] 2020 foi um ano especial. [SEP]',
|
29 |
+
'score': 0.034216,
|
30 |
+
'token': 6835,
|
31 |
+
'token_str': 'especial'},
|
32 |
+
{'sequence': '[CLS] 2020 foi um ano complicado. [SEP]',
|
33 |
+
'score': 0.028791,
|
34 |
+
'token': 12082,
|
35 |
+
'token_str': 'complicado'}]
|
36 |
+
|
37 |
+
|
38 |
+
>>> unmasker("O FCPorto é melhor que o [MASK].")
|
39 |
+
|
40 |
+
[{'sequence': '[CLS] O FCPorto é melhor que o benfica. [SEP]',
|
41 |
+
'score': 0.608609,
|
42 |
+
'token': 7709,
|
43 |
+
'token_str': 'benfica'},
|
44 |
+
{'sequence': '[CLS] O FCPorto é melhor que o sporting. [SEP]',
|
45 |
+
'score': 0.188474,
|
46 |
+
'token': 7935,
|
47 |
+
'token_str': 'sporting'},
|
48 |
+
{'sequence': '[CLS] O FCPorto é melhor que o atletico. [SEP]',
|
49 |
+
'score': 0.023601,
|
50 |
+
'token': 16116,
|
51 |
+
'token_str': 'atletico'},
|
52 |
+
{'sequence': '[CLS] O FCPorto é melhor que o boavista. [SEP]',
|
53 |
+
'score': 0.010015,
|
54 |
+
'token': 16116,
|
55 |
+
'token_str': 'boavista'},
|
56 |
+
{'sequence': '[CLS] O FCPorto é melhor que o barcelona. [SEP]',
|
57 |
+
'score': 0.009242,
|
58 |
+
'token': 10609,
|
59 |
+
'token_str': 'barcelona'}]
|
60 |
+
|
61 |
+
|
62 |
+
>>> unmasker("[MASK] é uma boa linguagem de programacao")
|
63 |
+
|
64 |
+
[{'sequence': '[CLS] python é uma boa linguagem de programacao [SEP]',
|
65 |
+
'score': 0.155832,
|
66 |
+
'token': 27384,
|
67 |
+
'token_str': 'python'},
|
68 |
+
{'sequence': '[CLS] java é uma boa linguagem de programacao [SEP]',
|
69 |
+
'score': 0.152056,
|
70 |
+
'token': 14348,
|
71 |
+
'token_str': 'java'},
|
72 |
+
{'sequence': '[CLS] programacao é uma boa linguagem de programacao [SEP]',
|
73 |
+
'score': 0.106369,
|
74 |
+
'token': 11304,
|
75 |
+
'token_str': 'programacao'},
|
76 |
+
{'sequence': '[CLS] isto é uma boa linguagem de programacao [SEP]',
|
77 |
+
'score': 0.056731,
|
78 |
+
'token': 6267,
|
79 |
+
'token_str': 'isto'},
|
80 |
+
{'sequence': '[CLS] linguagem é uma boa linguagem de programacao [SEP]',
|
81 |
+
'score': 0.044161,
|
82 |
+
'token': 13206,
|
83 |
+
'token_str': 'linguagem'}]
|
84 |
+
|
85 |
+
|
86 |
+
>>> unmasker("Eu quero uma [MASK] melhor.")
|
87 |
+
|
88 |
+
[{'sequence': '[CLS] Eu quero uma vida melhor. [SEP]',
|
89 |
+
'score': 0.138783,
|
90 |
+
'token': 6503,
|
91 |
+
'token_str': 'vida'},
|
92 |
+
{'sequence': '[CLS] Eu quero uma experiencia melhor. [SEP]',
|
93 |
+
'score': 0.083636,
|
94 |
+
'token': 7479,
|
95 |
+
'token_str': 'experiencia'},
|
96 |
+
{'sequence': '[CLS] Eu quero uma internet melhor. [SEP]',
|
97 |
+
'score': 0.059155,
|
98 |
+
'token': 7051,
|
99 |
+
'token_str': 'internet'},
|
100 |
+
{'sequence': '[CLS] Eu quero uma coisa melhor. [SEP]',
|
101 |
+
'score': 0.059155,
|
102 |
+
'token': 6645,
|
103 |
+
'token_str': 'coisa'},
|
104 |
+
{'sequence': '[CLS] Eu quero uma plataforma melhor. [SEP]',
|
105 |
+
'score': 0.044105,
|
106 |
+
'token': 7834,
|
107 |
+
'token_str': 'plataforma'}]
|
108 |
+
```
|