gurgutan
/

saiga2-13b-4bit

Text Generation

Inference Endpoints

Model card Files Files and versions Community

gurgutan commited on Jul 26, 2023

Commit

2f0aa8b

•

1 Parent(s): b28d871

Update README.md

Files changed (1) hide show

README.md +4 -8

README.md CHANGED Viewed

@@ -6,17 +6,14 @@ language:
 ---
 # Saiga2-13B-4bit
-This files are GPTQ model files for [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) model.
 ## Technical details
-Model was quantized to 4-bit with [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) library
 ## Examples of usage
-First make sure you have [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) installed:
 GITHUB_ACTIONS=true pip install auto-gptq
-Then try the following example code:
 ```python
 from transformers import AutoTokenizer, TextGenerationPipeline
@@ -82,7 +79,6 @@ MODEL_NAME = "gurgutan/saiga2-13b-4bit"
 DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>\n"
 DEFAULT_SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)
 model = AutoGPTQForCausalLM.from_quantized(MODEL_NAME, device="cuda:0", use_safetensors=True, use_triton=False)
 generation_config = GenerationConfig.from_pretrained(MODEL_NAME)

 ---
 # Saiga2-13B-4bit
+Это GPTQ модель для [saiga2-13B-lora](https://huggingface.co/IlyaGusev/saiga2_13b_lora) model.
 ## Technical details
+Модель квантизована в 4-битную с помощью [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) library
 ## Examples of usage
+Удостоверьтесь, что [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) установлена:
 GITHUB_ACTIONS=true pip install auto-gptq
+Пример кода для использования модели в генерации ответа:
 ```python
 from transformers import AutoTokenizer, TextGenerationPipeline
 DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>\n"
 DEFAULT_SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)
 model = AutoGPTQForCausalLM.from_quantized(MODEL_NAME, device="cuda:0", use_safetensors=True, use_triton=False)
 generation_config = GenerationConfig.from_pretrained(MODEL_NAME)