File size: 2,217 Bytes
d8253be
 
 
 
 
 
bd1c146
 
 
 
d8253be
bd1c146
 
 
 
 
 
 
 
 
 
 
d8253be
 
 
 
 
 
 
 
 
5351f1c
 
 
 
d8253be
 
5351f1c
d8253be
5351f1c
 
 
 
 
 
 
d8253be
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
license: apache-2.0
---

# phibode-3-mini-4k-ultraalpaca

<!--- PROJECT LOGO -->
<p align="center">
  <img src="https://huggingface.co/recogna-nlp/Phi-Bode/resolve/main/phi-bode.jpg" alt="Phi-Bode Logo" width="400" style="margin-left:'auto' margin-right:'auto' display:'block'"/>
</p>

Phi-Bode é um modelo de linguagem ajustado para o idioma português, desenvolvido a partir do modelo base Phi-3-mini-4k-instruct fornecido pela [Microsoft](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct). Este modelo foi refinado através do processo de fine-tuning utilizando o dataset Alpaca traduzido para o português. O principal objetivo deste modelo é ser viável para pessoas
que não possuem recursos computacionais disponíveis para o uso de LLMs (Large Language Models). Ressalta-se que este é um trabalho em andamento e o modelo ainda apresenta problemas na geração de texto em português.

## Características Principais

- **Modelo Base:** Phi-3-mini-4k-instruct, criado pela Microsoft, com 3.8 bilhões de parâmetros.
- **Dataset para Fine-tuning:** [UltraAlpaca](https://huggingface.co/datasets/recogna-nlp/ultra-alpaca-ptbr)
- **Treinamento:** O treinamento foi realizado utilizando o método LoRa, visando eficiência computacional e otimização de recursos.


## 💻 Como utilizar o Phibode-3-mini-4k-ultraalpaca

```python
!pip install -qU transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model = "recogna-nlp/phibode-3-mini-4k-ultraalpaca"
tokenizer = AutoTokenizer.from_pretrained(model)

# Example prompt
messages = [
    {"role": "system", "content": "Você é assistente de IA chamado PhiBode. O PhiBode é um modelo de língua conversacional projetado para ser prestativo, honesto e inofensivo."},
    {"role": "user", "content": "<Insira seu prompt aqui>"},
]

# Generate a response
model = AutoModelForCausalLM.from_pretrained(model, trust_remote_code=True)
pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False,
    "temperature": 0.0,
    "do_sample": False,
}
outputs = pipeline(messages, **generation_args)
print(outputs[0]["generated_text"])
```