gurgutan
/

saiga2-13b-4bit

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

saiga2-13b-4bit / README.md

gurgutan's picture

Update README.md

d837ee8 about 1 year ago

|

history blame contribute delete

2.51 kB

	---
	license: apache-2.0
	language:
	- en
	- ru
	---

	# Описание Saiga2-13B-4bit
	Это GPTQ модель для [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) model.
	## Технические детали
	Модель квантизована в 4-битную с помощью [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) library
	## Пример использования
	1. Удостоверьтесь, что [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) установлена:
	GITHUB_ACTIONS=true pip install auto-gptq

	2. Пример кода для использования модели в генерации ответа:

	```python
	from transformers import AutoTokenizer
	from auto_gptq import AutoGPTQForCausalLM


	def generate_answer(model, tokenizer, request: str, system_prompt: str):
	s = f"system\n{system_prompt}</s>\n" + \
	f"<s>user\n{request}</s>\n" + \
	f"<s>bot\n"
	request_tokens = tokenizer(s, return_tensors="pt")
	del request_tokens['token_type_ids']
	del request_tokens['attention_mask']
	request_tokens = request_tokens.to(model.device)
	answer_tokens = model.generate(**request_tokens,
	num_beams=4,
	top_k=32,
	temperature=0.6,
	repetition_penalty=1.2,
	no_repeat_ngram_size=15,
	max_new_tokens=1536,
	pad_token_id=tokenizer.eos_token_id)[0]
	answer_tokens = answer_tokens[len(request_tokens[0]):-1]
	answer = tokenizer.decode(answer_tokens).strip()
	return answer


	model_name = "saiga2-13b-4bit"
	system_prompt = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
	tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
	model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0")
	model.eval()

	user_text = "Сочини стих, который начинается словами: Буря мглою небо кроет"
	answer_text = generate_answer(model, tokenizer, user_text, system_prompt)
	print(answer_text)
	```
	# Исходная модель: [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora)
	Модель ассистента на основе LLaMA2 дообученная на русскоязычных наборах. Модель имеет 13 млрд. параметров.