CabraQwen14b / README.md
nicolasdec's picture
Fixing some errors of the leaderboard evaluation results in the ModelCard yaml (#2)
3dc2086 verified
metadata
language:
  - pt
  - en
license: cc
tags:
  - text-generation-inference
  - transformers
  - qwen
  - gguf
  - brazil
  - brasil
  - 14b
  - portuguese
base_model: Qwen/Qwen1.5-14B-Chat
pipeline_tag: text-generation
model-index:
  - name: CabraQwen14b
    results:
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: ENEM Challenge (No Images)
          type: eduagarcia/enem_challenge
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 75.16
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: BLUEX (No Images)
          type: eduagarcia-temp/BLUEX_without_images
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 60.78
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: OAB Exams
          type: eduagarcia/oab_exams
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 49.89
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 RTE
          type: assin2
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 91.42
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 STS
          type: eduagarcia/portuguese_benchmark
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: pearson
            value: 80.85
            name: pearson
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: FaQuAD NLI
          type: ruanchaves/faquad-nli
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 46.05
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: HateBR Binary
          type: ruanchaves/hatebr
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 79.32
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: PT Hate Speech Binary
          type: hate_speech_portuguese
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 71.8
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: tweetSentBR
          type: eduagarcia-temp/tweetsentbr
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 62.65
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen14b
          name: Open Portuguese LLM Leaderboard

Cabra Qwen 14b

Esse modelo é um finetune do Qwen 1.5 14b Chat com o dataset interno Cabra 10k. Esse modelo é otimizado para português e responde em portuguese nativamente. Ele apresenta melhoria em vários benchmarks brasileiros em comparação com o modelo base.

Experimente o nosso demo aqui: CabraChat.

Conheça os nossos outros modelos Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 14b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 10k

Dataset interno para fine-tuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST]Quem são os jogadores brasileiros de futebol mais conhecidos, atuais e passados?? [/INST] 

O Brasil tem uma rica história na produção de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que já jogaram incluem:

Pelé - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelé venceu três Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo Nazário de Lima - conhecido como Ronaldo, este jogador de ataque é o segundo maior artilheiro da história da seleção brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho Gaúcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para várias vitórias em torneios principais e é conhecido por suas habilidades incríveis de drible e capacidade de marcar gols.

Esses são apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica história.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigação e compreensão das limitações e vieses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks Version Filter n-shot Metric Value Stderr
assin2_rte 1.1 all 15 f1_macro 0.9142 ± 0.0040
all 15 acc 0.9142 ± 0.0040
assin2_sts 1.1 all 15 pearson 0.8085 ± 0.0059
all 15 mse 0.4023 ± N/A
bluex 1.1 all 3 acc 0.6078 ± 0.0105
exam_id__UNICAMP_2020 3 acc 0.5818 ± 0.0385
exam_id__UNICAMP_2021_1 3 acc 0.6087 ± 0.0416
exam_id__USP_2023 3 acc 0.6591 ± 0.0410
exam_id__USP_2020 3 acc 0.5714 ± 0.0381
exam_id__USP_2018 3 acc 0.5926 ± 0.0385
exam_id__UNICAMP_2018 3 acc 0.5556 ± 0.0390
exam_id__UNICAMP_2023 3 acc 0.6279 ± 0.0426
exam_id__USP_2024 3 acc 0.8293 ± 0.0339
exam_id__USP_2022 3 acc 0.5306 ± 0.0411
exam_id__USP_2019 3 acc 0.5750 ± 0.0452
exam_id__UNICAMP_2024 3 acc 0.6444 ± 0.0412
exam_id__UNICAMP_2019 3 acc 0.6400 ± 0.0392
exam_id__UNICAMP_2021_2 3 acc 0.5882 ± 0.0397
exam_id__USP_2021 3 acc 0.5577 ± 0.0400
exam_id__UNICAMP_2022 3 acc 0.6154 ± 0.0450
enem 1.1 all 3 acc 0.7516 ± 0.0066
exam_id__2009 3 acc 0.7739 ± 0.0225
exam_id__2013 3 acc 0.7407 ± 0.0244
exam_id__2012 3 acc 0.7586 ± 0.0230
exam_id__2023 3 acc 0.6741 ± 0.0233
exam_id__2016 3 acc 0.7686 ± 0.0220
exam_id__2015 3 acc 0.7731 ± 0.0221
exam_id__2011 3 acc 0.8205 ± 0.0205
exam_id__2010 3 acc 0.7179 ± 0.0241
exam_id__2014 3 acc 0.7339 ± 0.0245
exam_id__2016_2 3 acc 0.7724 ± 0.0219
exam_id__2022 3 acc 0.7143 ± 0.0227
exam_id__2017 3 acc 0.7845 ± 0.0220
faquad_nli 1.1 all 15 f1_macro 0.4605 ± 0.0093
all 15 acc 0.7862 ± 0.0114
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7932 ± 0.0077
all 25 acc 0.7986 ± 0.0076
oab_exams 1.5 all 3 acc 0.4989 ± 0.0062
exam_id__2012-08 3 acc 0.5250 ± 0.0322
exam_id__2015-17 3 acc 0.6795 ± 0.0305
exam_id__2016-21 3 acc 0.4000 ± 0.0316
exam_id__2013-12 3 acc 0.4750 ± 0.0323
exam_id__2010-02 3 acc 0.5300 ± 0.0288
exam_id__2011-04 3 acc 0.4625 ± 0.0323
exam_id__2011-05 3 acc 0.5750 ± 0.0319
exam_id__2015-18 3 acc 0.5250 ± 0.0322
exam_id__2012-07 3 acc 0.4750 ± 0.0323
exam_id__2013-11 3 acc 0.4750 ± 0.0322
exam_id__2012-09 3 acc 0.4156 ± 0.0324
exam_id__2014-13 3 acc 0.4875 ± 0.0323
exam_id__2015-16 3 acc 0.5500 ± 0.0321
exam_id__2017-23 3 acc 0.3875 ± 0.0314
exam_id__2017-24 3 acc 0.5250 ± 0.0322
exam_id__2018-25 3 acc 0.5250 ± 0.0323
exam_id__2012-06 3 acc 0.4125 ± 0.0317
exam_id__2010-01 3 acc 0.3882 ± 0.0305
exam_id__2011-03 3 acc 0.4646 ± 0.0288
exam_id__2014-14 3 acc 0.5750 ± 0.0319
exam_id__2016-20a 3 acc 0.4875 ± 0.0323
exam_id__2012-06a 3 acc 0.5500 ± 0.0320
exam_id__2016-20 3 acc 0.5375 ± 0.0322
exam_id__2016-19 3 acc 0.4231 ± 0.0322
exam_id__2013-10 3 acc 0.5125 ± 0.0323
exam_id__2017-22 3 acc 0.5250 ± 0.0322
exam_id__2014-15 3 acc 0.5897 ± 0.0323
portuguese_hate_speech_binary 1.0 all 25 f1_macro 0.7180 ± 0.0115
all 25 acc 0.7462 ± 0.0106

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here

Metric Value
Average 68.66
ENEM Challenge (No Images) 75.16
BLUEX (No Images) 60.78
OAB Exams 49.89
Assin2 RTE 91.42
Assin2 STS 80.85
FaQuAD NLI 46.05
HateBR Binary 79.32
PT Hate Speech Binary 71.80
tweetSentBR 62.65