Edit model card

Описание Saiga2-13B-4bit

Это GPTQ модель для saiga2-13B-lora model.

Технические детали

Модель квантизована в 4-битную с помощью AutoGPTQ library

Пример использования

  1. Удостоверьтесь, что AutoGPTQ установлена: GITHUB_ACTIONS=true pip install auto-gptq

  2. Пример кода для использования модели в генерации ответа:

from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM


def generate_answer(model, tokenizer, request: str, system_prompt: str):
    s = f"system\n{system_prompt}</s>\n" + \
        f"<s>user\n{request}</s>\n" + \
        f"<s>bot\n"
    request_tokens = tokenizer(s, return_tensors="pt")    
    del request_tokens['token_type_ids']
    del request_tokens['attention_mask']
    request_tokens = request_tokens.to(model.device)
    answer_tokens = model.generate(**request_tokens,
                    num_beams=4,
                    top_k=32,
                    temperature=0.6,
                    repetition_penalty=1.2,
                    no_repeat_ngram_size=15,
                    max_new_tokens=1536,
                    pad_token_id=tokenizer.eos_token_id)[0]
    answer_tokens = answer_tokens[len(request_tokens[0]):-1]
    answer = tokenizer.decode(answer_tokens).strip()
    return answer


model_name = "saiga2-13b-4bit"
system_prompt = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0")
model.eval()

user_text = "Сочини стих, который начинается словами: Буря мглою небо кроет"
answer_text = generate_answer(model, tokenizer, user_text, system_prompt)  
print(answer_text)

Исходная модель: saiga2-13B-lora

Модель ассистента на основе LLaMA2 дообученная на русскоязычных наборах. Модель имеет 13 млрд. параметров.

Downloads last month
17
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.