|
--- |
|
license: apache-2.0 |
|
--- |
|
|
|
# phibode-3-mini-4k-ultraalpaca |
|
|
|
<!--- PROJECT LOGO --> |
|
<p align="center"> |
|
<img src="https://huggingface.co/recogna-nlp/Phi-Bode/resolve/main/phi-bode.jpg" alt="Phi-Bode Logo" width="400" style="margin-left:'auto' margin-right:'auto' display:'block'"/> |
|
</p> |
|
|
|
Phi-Bode é um modelo de linguagem ajustado para o idioma português, desenvolvido a partir do modelo base Phi-3-mini-4k-instruct fornecido pela [Microsoft](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct). Este modelo foi refinado através do processo de fine-tuning utilizando o dataset Alpaca traduzido para o português. O principal objetivo deste modelo é ser viável para pessoas |
|
que não possuem recursos computacionais disponíveis para o uso de LLMs (Large Language Models). Ressalta-se que este é um trabalho em andamento e o modelo ainda apresenta problemas na geração de texto em português. |
|
|
|
## Características Principais |
|
|
|
- **Modelo Base:** Phi-3-mini-4k-instruct, criado pela Microsoft, com 3.8 bilhões de parâmetros. |
|
- **Dataset para Fine-tuning:** [UltraAlpaca](https://huggingface.co/datasets/recogna-nlp/ultra-alpaca-ptbr) |
|
- **Treinamento:** O treinamento foi realizado utilizando o método LoRa, visando eficiência computacional e otimização de recursos. |
|
|
|
|
|
## 💻 Como utilizar o Phibode-3-mini-4k-ultraalpaca |
|
|
|
```python |
|
!pip install -qU transformers |
|
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline |
|
|
|
model = "recogna-nlp/phibode-3-mini-4k-ultraalpaca" |
|
tokenizer = AutoTokenizer.from_pretrained(model) |
|
|
|
# Example prompt |
|
messages = [ |
|
{"role": "system", "content": "Você é assistente de IA chamado PhiBode. O PhiBode é um modelo de língua conversacional projetado para ser prestativo, honesto e inofensivo."}, |
|
{"role": "user", "content": "<Insira seu prompt aqui>"}, |
|
] |
|
|
|
# Generate a response |
|
model = AutoModelForCausalLM.from_pretrained(model, trust_remote_code=True) |
|
pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer) |
|
generation_args = { |
|
"max_new_tokens": 500, |
|
"return_full_text": False, |
|
"temperature": 0.0, |
|
"do_sample": False, |
|
} |
|
outputs = pipeline(messages, **generation_args) |
|
print(outputs[0]["generated_text"]) |
|
``` |