File size: 1,046 Bytes
e3dc84a
dac10cc
 
 
e3dc84a
 
dac10cc
 
e3dc84a
dac10cc
e3dc84a
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
---
license: apache-2.0
datasets:
- nicholasKluge/Pt-Corpus
language:
- pt
---

É um modelo base pré-treinado com cerca de 1b tokens em portugues iniciado com os pesos oficiais do modelo, o modelo não segue instrução então precisa fazer fine tuning.

|                              | Mistral Base PTBR | Mistral Base | Melhoria |
|------------------------------|-------------------|--------------|----------|
| assin2_rte                   | 90,11             | 87,74        | 2,37     |
| assin2_sts                   | 72,51             | 67,05        | 5,46     |
| bluex                        | 53,97             | 53,27        | 0,70     |
| enem                         | 64,94             | 62,42        | 2,52     |
| faquad_nli                   | 69,04             | 47,63        | 21,41    |
| hatebr_offensive_binary      | 79,62             | 77,63        | 1,99     |
| oab_exams                    | 45,42             | 45,24        | 0,18     |
| portuguese_hate_speech_binary| 58,52             | 55,72        | 2,80     |