AlidarAsvarov andriygav commited on
Commit
06e4493
1 Parent(s): a0948d0

Update README.md (#1)

Browse files

- Update README.md (ac977b12a8c55ffc3323f8622c5722f6b0478214)


Co-authored-by: Andrey Grabovoy <[email protected]>

Files changed (1) hide show
  1. README.md +89 -4
README.md CHANGED
@@ -11,10 +11,77 @@ metrics:
11
  - bleu
12
  - chrf
13
  ---
14
- Final model for paper ["Neural machine translation system for Lezgian, Russian and Azerbaijani languages"](https://arxiv.org/abs/2410.05472).
15
 
16
- **Russian version of Qusar test set was machine translated from Azerbaijani.**
17
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
18
 
19
  | BLEU | All | Bible | Quran | Qusar |
20
  | ------ | ----- | ----- | ----- | ----- |
@@ -25,6 +92,8 @@ Final model for paper ["Neural machine translation system for Lezgian, Russian a
25
  | ru-az | 31.65 | 25.73 | 32.93 | 41.10* |
26
  | az-ru | 33.63 | 28.78 | 36.83 | 40.46* |
27
 
 
 
28
  | ChrF++ | All | Bible | Quran | Qusar |
29
  | ------ | ----- | ----- | ----- | ----- |
30
  | lez2az | 48.62 | 47.17 | 53.95 | 47.02 |
@@ -35,10 +104,26 @@ Final model for paper ["Neural machine translation system for Lezgian, Russian a
35
  | az2ru | 54.71 | 49.21 | 56.32 | 62.54* |
36
 
37
 
38
- Random examples of translation from Russian to Lezgian:
39
 
40
  | Russian (source) | Lezgian (target) | Comment |
41
  |---------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|----------------------------------------------------|
42
  | Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли" | Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна | "Association" translated as "team" |
43
  | На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс" | ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. | "On eleven's bithday" translated as "On tenth day" |
44
- | В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. | 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай. | |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11
  - bleu
12
  - chrf
13
  ---
14
+ # Neural machine translation system for Lezgian, Russian and Azerbaijani languages
15
 
16
+ We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system.
17
 
18
+ # Get Usage
19
+
20
+ ## Russian-Lezgian example
21
+
22
+ ```python
23
+ from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
24
+
25
+ model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
26
+ tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )
27
+
28
+ model.eval()
29
+
30
+ tokenizer.src_lang = 'rus_Cyrl'
31
+ inputs = tokenizer(
32
+ 'Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли"',
33
+ return_tensors='pt',
34
+ padding=True,
35
+ truncation=True,
36
+ max_length=40
37
+ )
38
+
39
+ tokenizer.tgt_lang = 'lez_Cyrl'
40
+ tokenizer.batch_decode(
41
+ model.generate(
42
+ **inputs,
43
+ forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
44
+ max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
45
+ num_beams=5
46
+ ),
47
+ skip_special_tokens=True
48
+ )
49
+ ```
50
+
51
+ ## Azerbaijani-Lezgian example
52
+
53
+ ```python
54
+ from transformers import NllbTokenizer, AutoModelForSeq2SeqLM
55
+
56
+ model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
57
+ tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )
58
+
59
+ model.eval()
60
+
61
+ tokenizer.src_lang = 'azj_Latn'
62
+ inputs = tokenizer(
63
+ '1741-ci ilin payızında Nadir s ̧ah Mu ̈s ̧ku ̈r lәzgilәrinә hu ̈cum edib onlara divan tutur.',
64
+ return_tensors='pt',
65
+ padding=True,
66
+ truncation=True,
67
+ max_length=102
68
+ )
69
+
70
+ tokenizer.tgt_lang = 'lez_Cyrl'
71
+ tokenizer.batch_decode(
72
+ model.generate(
73
+ **inputs,
74
+ forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
75
+ max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
76
+ num_beams=5
77
+ ),
78
+ skip_special_tokens=True
79
+ )
80
+ ```
81
+
82
+ # Quality
83
+
84
+ ## BLEU score
85
 
86
  | BLEU | All | Bible | Quran | Qusar |
87
  | ------ | ----- | ----- | ----- | ----- |
 
92
  | ru-az | 31.65 | 25.73 | 32.93 | 41.10* |
93
  | az-ru | 33.63 | 28.78 | 36.83 | 40.46* |
94
 
95
+ ## ChrF score
96
+
97
  | ChrF++ | All | Bible | Quran | Qusar |
98
  | ------ | ----- | ----- | ----- | ----- |
99
  | lez2az | 48.62 | 47.17 | 53.95 | 47.02 |
 
104
  | az2ru | 54.71 | 49.21 | 56.32 | 62.54* |
105
 
106
 
107
+ ## Random examples of translation from Russian to Lezgian:
108
 
109
  | Russian (source) | Lezgian (target) | Comment |
110
  |---------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|----------------------------------------------------|
111
  | Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли" | Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна | "Association" translated as "team" |
112
  | На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс" | ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. | "On eleven's bithday" translated as "On tenth day" |
113
+ | В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. | 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай. | |
114
+
115
+ # Citation
116
+
117
+ If you use that results in your research, please cite our paper:
118
+
119
+ ```bibtex
120
+ @misc{asvarov2024neuralmachinetranslationlezgian,
121
+ title={Neural machine translation system for Lezgian, Russian and Azerbaijani languages},
122
+ author={Alidar Asvarov and Andrey Grabovoy},
123
+ year={2024},
124
+ eprint={2410.05472},
125
+ archivePrefix={arXiv},
126
+ primaryClass={cs.CL},
127
+ url={https://arxiv.org/abs/2410.05472},
128
+ }
129
+ ```