joaomsimoes commited on
Commit
766b574
1 Parent(s): 57e0c7f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +102 -1
README.md CHANGED
@@ -4,4 +4,105 @@ Pretrained model on Portuguese (Portugal) language using a masked language model
4
 
5
  ## Training data
6
 
7
- Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
 
5
  ## Training data
6
 
7
+ Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data.
8
+
9
+ ## Limitations and Bias
10
+ ```
11
+ >>> from transformers import pipeline
12
+ >>> fill_mask= pipeline('fill-mask', model='BERTpt')
13
+
14
+ >>> unmasker("2020 foi um ano [MASK].")
15
+
16
+ [{'sequence': '[CLS] 2020 foi um ano dificil. [SEP]',
17
+ 'score': 0.146935 ,
18
+ 'token': 7591,
19
+ 'token_str': 'dificil'},
20
+ {'sequence': '[CLS] 2020 foi um ano historico. [SEP]',
21
+ 'score': 0.101181,
22
+ 'token': 9902,
23
+ 'token_str': 'historico'},
24
+ {'sequence': '[CLS] 2020 foi um ano terrivel. [SEP]',
25
+ 'score': 0.080123,
26
+ 'token': 19675,
27
+ 'token_str': 'terrivel'},
28
+ {'sequence': '[CLS] 2020 foi um ano especial. [SEP]',
29
+ 'score': 0.034216,
30
+ 'token': 6835,
31
+ 'token_str': 'especial'},
32
+ {'sequence': '[CLS] 2020 foi um ano complicado. [SEP]',
33
+ 'score': 0.028791,
34
+ 'token': 12082,
35
+ 'token_str': 'complicado'}]
36
+
37
+
38
+ >>> unmasker("O FCPorto é melhor que o [MASK].")
39
+
40
+ [{'sequence': '[CLS] O FCPorto é melhor que o benfica. [SEP]',
41
+ 'score': 0.608609,
42
+ 'token': 7709,
43
+ 'token_str': 'benfica'},
44
+ {'sequence': '[CLS] O FCPorto é melhor que o sporting. [SEP]',
45
+ 'score': 0.188474,
46
+ 'token': 7935,
47
+ 'token_str': 'sporting'},
48
+ {'sequence': '[CLS] O FCPorto é melhor que o atletico. [SEP]',
49
+ 'score': 0.023601,
50
+ 'token': 16116,
51
+ 'token_str': 'atletico'},
52
+ {'sequence': '[CLS] O FCPorto é melhor que o boavista. [SEP]',
53
+ 'score': 0.010015,
54
+ 'token': 16116,
55
+ 'token_str': 'boavista'},
56
+ {'sequence': '[CLS] O FCPorto é melhor que o barcelona. [SEP]',
57
+ 'score': 0.009242,
58
+ 'token': 10609,
59
+ 'token_str': 'barcelona'}]
60
+
61
+
62
+ >>> unmasker("[MASK] é uma boa linguagem de programacao")
63
+
64
+ [{'sequence': '[CLS] python é uma boa linguagem de programacao [SEP]',
65
+ 'score': 0.155832,
66
+ 'token': 27384,
67
+ 'token_str': 'python'},
68
+ {'sequence': '[CLS] java é uma boa linguagem de programacao [SEP]',
69
+ 'score': 0.152056,
70
+ 'token': 14348,
71
+ 'token_str': 'java'},
72
+ {'sequence': '[CLS] programacao é uma boa linguagem de programacao [SEP]',
73
+ 'score': 0.106369,
74
+ 'token': 11304,
75
+ 'token_str': 'programacao'},
76
+ {'sequence': '[CLS] isto é uma boa linguagem de programacao [SEP]',
77
+ 'score': 0.056731,
78
+ 'token': 6267,
79
+ 'token_str': 'isto'},
80
+ {'sequence': '[CLS] linguagem é uma boa linguagem de programacao [SEP]',
81
+ 'score': 0.044161,
82
+ 'token': 13206,
83
+ 'token_str': 'linguagem'}]
84
+
85
+
86
+ >>> unmasker("Eu quero uma [MASK] melhor.")
87
+
88
+ [{'sequence': '[CLS] Eu quero uma vida melhor. [SEP]',
89
+ 'score': 0.138783,
90
+ 'token': 6503,
91
+ 'token_str': 'vida'},
92
+ {'sequence': '[CLS] Eu quero uma experiencia melhor. [SEP]',
93
+ 'score': 0.083636,
94
+ 'token': 7479,
95
+ 'token_str': 'experiencia'},
96
+ {'sequence': '[CLS] Eu quero uma internet melhor. [SEP]',
97
+ 'score': 0.059155,
98
+ 'token': 7051,
99
+ 'token_str': 'internet'},
100
+ {'sequence': '[CLS] Eu quero uma coisa melhor. [SEP]',
101
+ 'score': 0.059155,
102
+ 'token': 6645,
103
+ 'token_str': 'coisa'},
104
+ {'sequence': '[CLS] Eu quero uma plataforma melhor. [SEP]',
105
+ 'score': 0.044105,
106
+ 'token': 7834,
107
+ 'token_str': 'plataforma'}]
108
+ ```