Updates I nREADME

3791712 verified about 2 months ago

5.9 kB

	---
	license: apache-2.0
	datasets:
	- Vikhrmodels/GrandMaster-PRO-MAX
	- Vikhrmodels/Grounded-RAG-RU-v2
	language:
	- en
	- ru
	base_model:
	- mistralai/Mistral-Nemo-Instruct-2407
	---

	## Vikhr-Nemo-12B-Instruct-R-21-09-24

	### Описание

	Vikhr-Nemo - это наша фалгманская умнимодальная LLM (Large Language Model) представляющая из себя улучшенную версию [mistralai/Mistral-Nemo-Instruct-2407](https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407) командой VikhrModels, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включаюзих в себя SFT и SMPO - нашу собственную вариацию DPO, подробнее читайте в секции "Как эта модель создавалась".

	Модель оптимизированна для различных вариантов использования, включая рассуждения, обобщение и ответы на вопросы. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторыых случаях может использоваться как локальная замена для gpt-4o-mini от OpenAI.

	Весь использованный код для обучения выложен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/leffective_llm_alignment/) на GitHub, а основаные датасеты дсотупны в нашем [профиле на HF](https://huggingface.co/Vikhrmodels).

	### Особенности
	1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету Grandmaster-PRO-MAX и исходной модели.
	2. Поддержка системных промптов для регулриования стиля ответов
	3. Поддержка до 128k токенов контекста благодаря исходной модели
	4. Grounded RAG режим - модель имеет специальную роль documents и специальный режим работы для поиска идентификаторов релевантных вопросу пользователя документов и использования их для ответа на вопрос, вдохновлено аналогичной способность модели Command-R

	### Метрики и оценка качества

	Модель оценивалась на нашем русскоязычном опен-сорс SBS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 вопросов по 10 топикам), где судьей выступает gpt-4-1106-preview и [бенчмарке]() для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.

	#### Результаты на Ru-Arena-General

	В качестве референсых отвеов, с которыми сравниваются модели выступают ответы от gpt-3.5-turbo-0125, поэтому она имеет винрейт 50%.

	Здесь приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка.

	\| Model Name \| Winrate \| 95% CI \| Average # Tokens \|
	\|--------------------------------------------------\|--------\|--------------------\|------------------\|
	\| gpt-4-1106-preview \| 90.9 \| (-1.3, 1.0) \| 541 \|
	\| gpt-4o-mini \| 83.9 \| (-1.8, 1.1) \| 448 \|
	\| vikhr-nemo-12b-instruct-r-21-09-24 \| 79.8 \| (-2.2, 1.9) \| 627 \|
	\| gemma-2-9b-it-sppo-iter3 \| 73.6 \| (-1.6, 2.2) \| 509 \|
	\| gemma-2-9b-it \| 69.2 \| (-2.5, 1.9) \| 459 \|
	\| t-lite-instruct-0.1 \| 64.7 \| (-2.1, 1.7) \| 810 \|
	\| vikhr-llama3.1-8b-instruct-r-21-09-24 \| 63.4 \| (-2.1, 2.5) \| 618 \|
	\| suzume-llama-3-8B-multilingual-orpo-borda-half \| 57.1 \| (-1.9, 2.2) \| 682 \|
	\| mistral-nemo-instruct-2407 \| 50.5 \| (-2.7, 2.6) \| 403 \|
	\| gpt-3.5-turbo-0125 \| 50.0 \| (0.0, 0.0) \| 220 \|
	\| c4ai-command-r-v01 \| 49.0 \| (-1.7, 2.2) \| 529 \|

	#### Результаты на бенчмарке RAG

	Тут в для оценки качества модель-судья была проинструктирована учитывать релеватность и фактологичкскую полноту ответов исходя из документов и реферсного ответа от gpt-4-1106-preview.

	...

	### Как эта модель создавалась

	### Как работать с RAG

	### Нюансы и ограничения

	### Авторы