|
# BERTpt |
|
|
|
``` |
|
from transformers import BertModel, BertTokenizerFast |
|
tokenizer = BertTokenizerFast.from_pretrained('joaomsimoes/bertpt-portuguese-portugal') |
|
model = BertModel.from_pretrained("joaomsimoes/bertpt-portuguese-portugal") |
|
|
|
text = "Tudo vale a pena quando a alma não é pequena." |
|
encoded_input = tokenizer(text, return_tensors='pt') |
|
output = model(**encoded_input) |
|
``` |
|
|
|
Pretrained model on Portuguese (Portugal) language using a masked language modeling (MLM) objective. [Notebook](https://colab.research.google.com/drive/1OaSDl7oVrbg2tYrT24xWPWxAyKmu4cNp?usp=sharing) |
|
|
|
## Training data |
|
|
|
Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data. |
|
|
|
## Limitations and Bias |
|
``` |
|
from transformers import pipeline |
|
fill_mask= pipeline('fill-mask', model='joaomsimoes/bertpt-portuguese-portugal') |
|
|
|
fill_mask("2020 foi um ano [MASK].") |
|
|
|
[{'sequence': '[CLS] 2020 foi um ano dificil. [SEP]', |
|
'score': 0.146935 , |
|
'token': 7591, |
|
'token_str': 'dificil'}, |
|
{'sequence': '[CLS] 2020 foi um ano historico. [SEP]', |
|
'score': 0.101181, |
|
'token': 9902, |
|
'token_str': 'historico'}, |
|
{'sequence': '[CLS] 2020 foi um ano terrivel. [SEP]', |
|
'score': 0.080123, |
|
'token': 19675, |
|
'token_str': 'terrivel'}, |
|
{'sequence': '[CLS] 2020 foi um ano especial. [SEP]', |
|
'score': 0.034216, |
|
'token': 6835, |
|
'token_str': 'especial'}, |
|
{'sequence': '[CLS] 2020 foi um ano complicado. [SEP]', |
|
'score': 0.028791, |
|
'token': 12082, |
|
'token_str': 'complicado'}] |
|
|
|
|
|
fill_mask("O FCPorto é melhor que o [MASK].") |
|
|
|
[{'sequence': '[CLS] O FCPorto é melhor que o benfica. [SEP]', |
|
'score': 0.608609, |
|
'token': 7709, |
|
'token_str': 'benfica'}, |
|
{'sequence': '[CLS] O FCPorto é melhor que o sporting. [SEP]', |
|
'score': 0.188474, |
|
'token': 7935, |
|
'token_str': 'sporting'}, |
|
{'sequence': '[CLS] O FCPorto é melhor que o atletico. [SEP]', |
|
'score': 0.023601, |
|
'token': 16116, |
|
'token_str': 'atletico'}, |
|
{'sequence': '[CLS] O FCPorto é melhor que o boavista. [SEP]', |
|
'score': 0.010015, |
|
'token': 16116, |
|
'token_str': 'boavista'}, |
|
{'sequence': '[CLS] O FCPorto é melhor que o barcelona. [SEP]', |
|
'score': 0.009242, |
|
'token': 10609, |
|
'token_str': 'barcelona'}] |
|
|
|
|
|
fill_mask("[MASK] é uma boa linguagem de programacao") |
|
|
|
[{'sequence': '[CLS] python é uma boa linguagem de programacao [SEP]', |
|
'score': 0.155832, |
|
'token': 27384, |
|
'token_str': 'python'}, |
|
{'sequence': '[CLS] java é uma boa linguagem de programacao [SEP]', |
|
'score': 0.152056, |
|
'token': 14348, |
|
'token_str': 'java'}, |
|
{'sequence': '[CLS] programacao é uma boa linguagem de programacao [SEP]', |
|
'score': 0.106369, |
|
'token': 11304, |
|
'token_str': 'programacao'}, |
|
{'sequence': '[CLS] isto é uma boa linguagem de programacao [SEP]', |
|
'score': 0.056731, |
|
'token': 6267, |
|
'token_str': 'isto'}, |
|
{'sequence': '[CLS] linguagem é uma boa linguagem de programacao [SEP]', |
|
'score': 0.044161, |
|
'token': 13206, |
|
'token_str': 'linguagem'}] |
|
|
|
|
|
fill_mask("Eu quero uma [MASK] melhor.") |
|
|
|
[{'sequence': '[CLS] Eu quero uma vida melhor. [SEP]', |
|
'score': 0.138783, |
|
'token': 6503, |
|
'token_str': 'vida'}, |
|
{'sequence': '[CLS] Eu quero uma experiencia melhor. [SEP]', |
|
'score': 0.083636, |
|
'token': 7479, |
|
'token_str': 'experiencia'}, |
|
{'sequence': '[CLS] Eu quero uma internet melhor. [SEP]', |
|
'score': 0.059155, |
|
'token': 7051, |
|
'token_str': 'internet'}, |
|
{'sequence': '[CLS] Eu quero uma coisa melhor. [SEP]', |
|
'score': 0.059155, |
|
'token': 6645, |
|
'token_str': 'coisa'}, |
|
{'sequence': '[CLS] Eu quero uma plataforma melhor. [SEP]', |
|
'score': 0.044105, |
|
'token': 7834, |
|
'token_str': 'plataforma'}] |
|
``` |