Neira commited on
Commit
00aec0b
1 Parent(s): 8c5a108

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +67 -1
README.md CHANGED
@@ -2,4 +2,70 @@
2
  license: apache-2.0
3
  language:
4
  - ru
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  license: apache-2.0
3
  language:
4
  - ru
5
+ base_model:
6
+ - facebook/nllb-200-3.3B
7
+ ---
8
+
9
+ # Модель машинного первода для языковой пары русский-мансийский
10
+
11
+
12
+ ## Описание
13
+
14
+ Эта модель машинного перевода предназначена для перевода текста с русского на мансийский язык. Модель основана на модели `facebook/nllb200-3.3B`. Проект находится в стадии разработки и совершенствования.
15
+
16
+ Проект был создан в рамках Национального корпуса мансийского языка. Его цель - создать корпус параллельных предложений для языковой пары русский-мансийский, для сохранения и развития коренных малочисленных народов севера.
17
+
18
+ ## Обновления в модели
19
+
20
+ - Расширен базовый словарь токенизатора за счет добавления мансийских символов и токенов.
21
+ - Добавлен языковой код для мансийского языка `mancy_Cyrl` (в будущих версиях будет изменен на `mns_Cyrl`).
22
+
23
+ ## Установка
24
+
25
+ Для использования модели необходимо установить библиотеки `transformers` и `torch`:
26
+
27
+ ```bash
28
+ pip install transformers torch
29
+ ```
30
+
31
+ ## Использование
32
+
33
+ ### Загрузка модели и токенизатора
34
+
35
+ ```python
36
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
37
+
38
+ # Замените 'your_model_name' на имя модели, которую вы хотите использовать
39
+ tokenizer = AutoTokenizer.from_pretrained("your_model_name")
40
+ model = AutoModelForSeq2SeqLM.from_pretrained("your_model_name")
41
+ ```
42
+
43
+ ### Пример перевода
44
+
45
+ ```python
46
+ # Пример текста для перевода
47
+ text = "Ваш текст для перевода здесь."
48
+
49
+ # Токенизация текста
50
+ inputs = tokenizer(text, return_tensors="pt")
51
+
52
+ # Перевод текста
53
+ outputs = model.generate(**inputs)
54
+ translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
55
+
56
+ print(translated_text)
57
+ ```
58
+
59
+ ## Лицензия
60
+
61
+ Модель и код предоставляются под лицензией [Apache 2.0](LICENSE). Пожалуйста, ознакомьтесь с условиями перед использованием.
62
+
63
+
64
+
65
+
66
+
67
+
68
+
69
+
70
+
71
+