|
--- |
|
license: apache-2.0 |
|
language: |
|
- en |
|
- ru |
|
--- |
|
|
|
# Описание Saiga2-13B-4bit |
|
Это GPTQ модель для [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) model. |
|
## Технические детали |
|
Модель квантизована в 4-битную с помощью [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) library |
|
## Пример использования |
|
1. Удостоверьтесь, что [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) установлена: |
|
GITHUB_ACTIONS=true pip install auto-gptq |
|
|
|
2. Пример кода для использования модели в генерации ответа: |
|
|
|
```python |
|
from transformers import AutoTokenizer |
|
from auto_gptq import AutoGPTQForCausalLM |
|
|
|
|
|
def generate_answer(model, tokenizer, request: str, system_prompt: str): |
|
s = f"system\n{system_prompt}</s>\n" + \ |
|
f"<s>user\n{request}</s>\n" + \ |
|
f"<s>bot\n" |
|
request_tokens = tokenizer(s, return_tensors="pt") |
|
del request_tokens['token_type_ids'] |
|
del request_tokens['attention_mask'] |
|
request_tokens = request_tokens.to(model.device) |
|
answer_tokens = model.generate(**request_tokens, |
|
num_beams=4, |
|
top_k=32, |
|
temperature=0.6, |
|
repetition_penalty=1.2, |
|
no_repeat_ngram_size=15, |
|
max_new_tokens=1536, |
|
pad_token_id=tokenizer.eos_token_id)[0] |
|
answer_tokens = answer_tokens[len(request_tokens[0]):-1] |
|
answer = tokenizer.decode(answer_tokens).strip() |
|
return answer |
|
|
|
|
|
model_name = "saiga2-13b-4bit" |
|
system_prompt = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им." |
|
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True) |
|
model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0") |
|
model.eval() |
|
|
|
user_text = "Сочини стих, который начинается словами: Буря мглою небо кроет" |
|
answer_text = generate_answer(model, tokenizer, user_text, system_prompt) |
|
print(answer_text) |
|
``` |
|
# Исходная модель: [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) |
|
Модель ассистента на основе LLaMA2 дообученная на русскоязычных наборах. Модель имеет 13 млрд. параметров. |
|
|