File size: 1,046 Bytes
e3dc84a dac10cc e3dc84a dac10cc e3dc84a dac10cc e3dc84a |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
---
license: apache-2.0
datasets:
- nicholasKluge/Pt-Corpus
language:
- pt
---
É um modelo base pré-treinado com cerca de 1b tokens em portugues iniciado com os pesos oficiais do modelo, o modelo não segue instrução então precisa fazer fine tuning.
| | Mistral Base PTBR | Mistral Base | Melhoria |
|------------------------------|-------------------|--------------|----------|
| assin2_rte | 90,11 | 87,74 | 2,37 |
| assin2_sts | 72,51 | 67,05 | 5,46 |
| bluex | 53,97 | 53,27 | 0,70 |
| enem | 64,94 | 62,42 | 2,52 |
| faquad_nli | 69,04 | 47,63 | 21,41 |
| hatebr_offensive_binary | 79,62 | 77,63 | 1,99 |
| oab_exams | 45,42 | 45,24 | 0,18 |
| portuguese_hate_speech_binary| 58,52 | 55,72 | 2,80 | |