Commit
•
06e4493
1
Parent(s):
a0948d0
Update README.md (#1)
Browse files- Update README.md (ac977b12a8c55ffc3323f8622c5722f6b0478214)
Co-authored-by: Andrey Grabovoy <[email protected]>
README.md
CHANGED
@@ -11,10 +11,77 @@ metrics:
|
|
11 |
- bleu
|
12 |
- chrf
|
13 |
---
|
14 |
-
|
15 |
|
16 |
-
|
17 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
18 |
|
19 |
| BLEU | All | Bible | Quran | Qusar |
|
20 |
| ------ | ----- | ----- | ----- | ----- |
|
@@ -25,6 +92,8 @@ Final model for paper ["Neural machine translation system for Lezgian, Russian a
|
|
25 |
| ru-az | 31.65 | 25.73 | 32.93 | 41.10* |
|
26 |
| az-ru | 33.63 | 28.78 | 36.83 | 40.46* |
|
27 |
|
|
|
|
|
28 |
| ChrF++ | All | Bible | Quran | Qusar |
|
29 |
| ------ | ----- | ----- | ----- | ----- |
|
30 |
| lez2az | 48.62 | 47.17 | 53.95 | 47.02 |
|
@@ -35,10 +104,26 @@ Final model for paper ["Neural machine translation system for Lezgian, Russian a
|
|
35 |
| az2ru | 54.71 | 49.21 | 56.32 | 62.54* |
|
36 |
|
37 |
|
38 |
-
Random examples of translation from Russian to Lezgian:
|
39 |
|
40 |
| Russian (source) | Lezgian (target) | Comment |
|
41 |
|---------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|----------------------------------------------------|
|
42 |
| Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли" | Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна | "Association" translated as "team" |
|
43 |
| На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс" | ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. | "On eleven's bithday" translated as "On tenth day" |
|
44 |
-
| В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. | 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай. | |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
- bleu
|
12 |
- chrf
|
13 |
---
|
14 |
+
# Neural machine translation system for Lezgian, Russian and Azerbaijani languages
|
15 |
|
16 |
+
We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system.
|
17 |
|
18 |
+
# Get Usage
|
19 |
+
|
20 |
+
## Russian-Lezgian example
|
21 |
+
|
22 |
+
```python
|
23 |
+
from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
|
24 |
+
|
25 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
|
26 |
+
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )
|
27 |
+
|
28 |
+
model.eval()
|
29 |
+
|
30 |
+
tokenizer.src_lang = 'rus_Cyrl'
|
31 |
+
inputs = tokenizer(
|
32 |
+
'Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли"',
|
33 |
+
return_tensors='pt',
|
34 |
+
padding=True,
|
35 |
+
truncation=True,
|
36 |
+
max_length=40
|
37 |
+
)
|
38 |
+
|
39 |
+
tokenizer.tgt_lang = 'lez_Cyrl'
|
40 |
+
tokenizer.batch_decode(
|
41 |
+
model.generate(
|
42 |
+
**inputs,
|
43 |
+
forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
|
44 |
+
max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
|
45 |
+
num_beams=5
|
46 |
+
),
|
47 |
+
skip_special_tokens=True
|
48 |
+
)
|
49 |
+
```
|
50 |
+
|
51 |
+
## Azerbaijani-Lezgian example
|
52 |
+
|
53 |
+
```python
|
54 |
+
from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
|
55 |
+
|
56 |
+
model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
|
57 |
+
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )
|
58 |
+
|
59 |
+
model.eval()
|
60 |
+
|
61 |
+
tokenizer.src_lang = 'azj_Latn'
|
62 |
+
inputs = tokenizer(
|
63 |
+
'1741-ci ilin payızında Nadir s ̧ah Mu ̈s ̧ku ̈r lәzgilәrinә hu ̈cum edib onlara divan tutur.',
|
64 |
+
return_tensors='pt',
|
65 |
+
padding=True,
|
66 |
+
truncation=True,
|
67 |
+
max_length=102
|
68 |
+
)
|
69 |
+
|
70 |
+
tokenizer.tgt_lang = 'lez_Cyrl'
|
71 |
+
tokenizer.batch_decode(
|
72 |
+
model.generate(
|
73 |
+
**inputs,
|
74 |
+
forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
|
75 |
+
max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
|
76 |
+
num_beams=5
|
77 |
+
),
|
78 |
+
skip_special_tokens=True
|
79 |
+
)
|
80 |
+
```
|
81 |
+
|
82 |
+
# Quality
|
83 |
+
|
84 |
+
## BLEU score
|
85 |
|
86 |
| BLEU | All | Bible | Quran | Qusar |
|
87 |
| ------ | ----- | ----- | ----- | ----- |
|
|
|
92 |
| ru-az | 31.65 | 25.73 | 32.93 | 41.10* |
|
93 |
| az-ru | 33.63 | 28.78 | 36.83 | 40.46* |
|
94 |
|
95 |
+
## ChrF score
|
96 |
+
|
97 |
| ChrF++ | All | Bible | Quran | Qusar |
|
98 |
| ------ | ----- | ----- | ----- | ----- |
|
99 |
| lez2az | 48.62 | 47.17 | 53.95 | 47.02 |
|
|
|
104 |
| az2ru | 54.71 | 49.21 | 56.32 | 62.54* |
|
105 |
|
106 |
|
107 |
+
## Random examples of translation from Russian to Lezgian:
|
108 |
|
109 |
| Russian (source) | Lezgian (target) | Comment |
|
110 |
|---------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|----------------------------------------------------|
|
111 |
| Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли" | Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна | "Association" translated as "team" |
|
112 |
| На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс" | ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. | "On eleven's bithday" translated as "On tenth day" |
|
113 |
+
| В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. | 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай. | |
|
114 |
+
|
115 |
+
# Citation
|
116 |
+
|
117 |
+
If you use that results in your research, please cite our paper:
|
118 |
+
|
119 |
+
```bibtex
|
120 |
+
@misc{asvarov2024neuralmachinetranslationlezgian,
|
121 |
+
title={Neural machine translation system for Lezgian, Russian and Azerbaijani languages},
|
122 |
+
author={Alidar Asvarov and Andrey Grabovoy},
|
123 |
+
year={2024},
|
124 |
+
eprint={2410.05472},
|
125 |
+
archivePrefix={arXiv},
|
126 |
+
primaryClass={cs.CL},
|
127 |
+
url={https://arxiv.org/abs/2410.05472},
|
128 |
+
}
|
129 |
+
```
|