File size: 6,425 Bytes

---
library_name: transformers
model_name: Vikhr-Gemma-2B-instruct
base_model:
- google/gemma-2-2b-it
language:
- ru
license: apache-2.0
datasets:
- Vikhrmodels/GrandMaster-PRO-MAX
---

# 🌪️ Vikhr-Gemma-2B-instruct

#### RU

Мощная инструктивная модель на основе Gemma 2 2B, обученная на русскоязычном датасете GrandMaster-PRO-MAX.

#### EN

A powerful instructive model based on Gemma 2 2B, trained on the Russian-language dataset GrandMaster-PRO-MAX.

## Особенности:

- 📚 Основа / Base: [gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
- 🇷🇺 Специализация / Specialization: **RU**
- 💾 Датасет / Dataset: [GrandMaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX)

## Попробовать / Try now:

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1htw3x1OS73vIJrMYvdQfflGg4ASdGg9P)

## Описание:

#### RU

Vikhr-Gemma-2B-instruct — это мощная и компактная языковая модель, обученная на датасете GrandMaster-PRO-MAX, специально разработанная для обработки русского языка. Эта модель способна решать широкий спектр задач, включая генерацию текста, ответы на вопросы, создание диалогов и выполнение инструкций на русском языке.

#### EN

Vikhr-Gemma-2B-instruct is a powerful and compact language model trained on the GrandMaster-PRO-MAX dataset, specifically designed for processing the Russian language. This model is capable of solving a wide range of tasks, including text generation, question answering, dialogue creation, and executing instructions in Russian.

## Пример кода для запуска / Sample code to run:

```python
from transformers import AutoModelForCausalLM, AutoTokenizer

# Загрузка модели и токенизатора
model_name = "Vikhrmodels/Vikhr-Gemma-2B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Подготовка входного текста
input_text = "Напиши стихотворение о весне в России."

# Токенизация и генерация текста
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)

# Декодирование и вывод результата
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
```

#### Ответ модели / Model response:

> Весна в России – это время обновления природы, когда природа пробуждается >от зимнего сна. Вот стихотворение, отражающее эту красоту:
>
> ---
>
> **Весна в России**
>
> Зимняя тишина утихла,
> Весна в России пришла.
> Солнце светит, словно в сказке,
> В небесах – птицы в полете.
>
> Снег пошел, ушел вдаль,
> И в каждом уголке – весна.
> Лед промерз, вода в реке –
> Ветры вьют, и листья поют.
>
> Цветы распустились, как будто
> В честь весны, в честь жизни.
> Зеленая трава, как полотно,
> Под ногами – мягкость.
>
> Весна в России – это чудо,
> Счастье, что в сердце живет.
> И каждый день – праздник,
> Когда природа в цвету.
>
> ---
>
> Надеюсь, это стихотворение передало дух и красоту весны в России.

## Метрики на ru_arena_general / Metrics on ru_arena_general

| Model                                          | Score     | 95% CI          | Avg Tokens | Std Tokens | LC Score  |
| ---------------------------------------------- | --------- | --------------- | ---------- | ---------- | --------- |
| suzume-llama-3-8B-multilingual-orpo-borda-half | 90.89     | +1.1 / -1.1     | 2495.38    | 1211.62    | 55.86     |
| mistral-nemo-instruct-2407                     | 50.53     | +2.5 / -2.2     | 403.17     | 321.53     | 50.08     |
| sfr-iterative-dpo-llama-3-8b-r                 | 50.06     | +2.1 / -2.1     | 516.74     | 316.84     | 50.01     |
| gpt-3.5-turbo-0125                             | 50.00     | +0.0 / -0.0     | 220.83     | 170.30     | 50.00     |
| glm-4-9b-chat                                  | 49.75     | +1.9 / -2.3     | 568.81     | 448.76     | 49.96     |
| c4ai-command-r-v01                             | 48.95     | +2.6 / -1.7     | 529.34     | 368.98     | 49.85     |
| llama-3-instruct-8b-sppo-iter3                 | 47.45     | +2.0 / -2.2     | 502.27     | 304.27     | 49.63     |
| **Vikhrmodels-vikhr-gemma-2b-it**              | **45.82** | **+2.4 / -2.0** | **722.83** | **710.71** | **49.40** |
| suzume-llama-3-8b-multilingual                 | 45.71     | +2.4 / -1.7     | 641.18     | 858.96     | 49.38     |
| yandex_gpt_pro                                 | 45.11     | +2.2 / -2.5     | 345.30     | 277.64     | 49.30     |
| hermes-2-theta-llama-3-8b                      | 44.07     | +2.0 / -2.2     | 485.99     | 390.85     | 49.15     |
| gpt-3.5-turbo-1106                             | 41.48     | +1.9 / -2.0     | 191.19     | 177.31     | 48.77     |
| llama-3-smaug-8b                               | 40.80     | +2.1 / -1.6     | 524.02     | 480.56     | 48.68     |
| llama-3-8b-saiga-suzume-ties                   | 39.94     | +2.0 / -1.7     | 763.27     | 699.39     | 48.55     |

```
@article{nikolich2024vikhr,
  title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},
  author={Aleksandr Nikolich and Konstantin Korolev and Sergey Bratchikov and Nikolay Kompanets and Artem Shelmanov},
  journal={arXiv preprint arXiv:2405.13929},
  year={2024},
  url={https://arxiv.org/pdf/2405.13929}
}
```