|
--- |
|
license: apache-2.0 |
|
language: |
|
- ru |
|
base_model: |
|
- facebook/nllb-200-3.3B |
|
--- |
|
|
|
# Модель машинного первода для языковой пары русский-мансийский |
|
|
|
|
|
## Описание |
|
|
|
Эта модель машинного перевода предназначена для перевода текста с русского на мансийский язык. Модель основана на модели `facebook/nllb200-3.3B`. Проект находится в стадии разработки и совершенствования. |
|
|
|
Проект был создан в рамках Национального корпуса мансийского языка. Его цель - создать корпус параллельных предложений для языковой пары русский-мансийский, для сохранения и развития коренных малочисленных народов севера. |
|
|
|
## Обновления в модели |
|
|
|
- Расширен базовый словарь токенизатора за счет добавления мансийских символов и токенов. |
|
- Добавлен языковой код для мансийского языка `mancy_Cyrl` (в будущих версиях будет изменен на `mns_Cyrl`). |
|
|
|
## Установка |
|
|
|
Для использования модели необходимо установить библиотеки `transformers` и `torch`: |
|
|
|
```bash |
|
pip install transformers torch |
|
``` |
|
|
|
## Использование |
|
|
|
### Загрузка модели и токенизатора |
|
|
|
```python |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
# Замените 'your_model_name' на имя модели, которую вы хотите использовать |
|
tokenizer = AutoTokenizer.from_pretrained("your_model_name") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("your_model_name") |
|
``` |
|
|
|
### Пример перевода |
|
|
|
```python |
|
# Пример текста для перевода |
|
text = "Ваш текст для перевода здесь." |
|
|
|
# Токенизация текста |
|
inputs = tokenizer(text, return_tensors="pt") |
|
|
|
# Перевод текста |
|
outputs = model.generate(**inputs) |
|
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) |
|
|
|
print(translated_text) |
|
``` |
|
|
|
## Лицензия |
|
|
|
Модель и код предоставляются под лицензией [Apache 2.0](LICENSE). Пожалуйста, ознакомьтесь с условиями перед использованием. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|