metadata
license: apache-2.0
datasets:
- nicholasKluge/Pt-Corpus
language:
- pt
É um modelo base pré-treinado com cerca de 1b tokens em portugues iniciado com os pesos oficiais do modelo, o modelo não segue instrução então precisa fazer fine tuning.
Mistral Base PTBR | Mistral Base | Melhoria | |
---|---|---|---|
assin2_rte | 90,11 | 87,74 | 2,37 |
assin2_sts | 72,51 | 67,05 | 5,46 |
bluex | 53,97 | 53,27 | 0,70 |
enem | 64,94 | 62,42 | 2,52 |
faquad_nli | 69,04 | 47,63 | 21,41 |
hatebr_offensive_binary | 79,62 | 77,63 | 1,99 |
oab_exams | 45,42 | 45,24 | 0,18 |
portuguese_hate_speech_binary | 58,52 | 55,72 | 2,80 |