--- license: apache-2.0 language: - en - ru --- # Описание Saiga2-13B-4bit Это GPTQ модель для [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) model. ## Технические детали Модель квантизована в 4-битную с помощью [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) library ## Пример использования 1. Удостоверьтесь, что [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) установлена: GITHUB_ACTIONS=true pip install auto-gptq 2. Пример кода для использования модели в генерации ответа: ```python from transformers import AutoTokenizer from auto_gptq import AutoGPTQForCausalLM def generate_answer(model, tokenizer, request: str, system_prompt: str): s = f"system\n{system_prompt}\n" + \ f"user\n{request}\n" + \ f"bot\n" request_tokens = tokenizer(s, return_tensors="pt") del request_tokens['token_type_ids'] del request_tokens['attention_mask'] request_tokens = request_tokens.to(model.device) answer_tokens = model.generate(**request_tokens, num_beams=4, top_k=32, temperature=0.6, repetition_penalty=1.2, no_repeat_ngram_size=15, max_new_tokens=1536, pad_token_id=tokenizer.eos_token_id)[0] answer_tokens = answer_tokens[len(request_tokens[0]):-1] answer = tokenizer.decode(answer_tokens).strip() return answer model_name = "saiga2-13b-4bit" system_prompt = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им." tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True) model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0") model.eval() user_text = "Сочини стих, который начинается словами: Буря мглою небо кроет" answer_text = generate_answer(model, tokenizer, user_text, system_prompt) print(answer_text) ``` # Исходная модель: [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) Модель ассистента на основе LLaMA2 дообученная на русскоязычных наборах. Модель имеет 13 млрд. параметров.