SHA-RNN without a boom gate pretrained on raw bytes of UberText 2.0 and finetuned to perform g2p for Ukrainian on uk_pron.v3.vcb
dataset with joint LM objective.
Training data has been oversampled to make the distribution of word lengths uniform. Training set has 1376542 word pairs.
The model's hidden state needs to be warmed up with in-context examples to work.
uk_pron.v3.vcb
has been kindly provided by Mykola Sazhok. Check out their joint paper with Valentyna Robeiko on Bidirectional Text-To-Pronunciation Conversion with Word Stress Prediction for Ukrainian.
The model produces stressed vowels a1 i1 e1 o1 y1 u1 and unstressed a i e o y u. Stress placement is not context-aware. Training data does not contain heteronyms.
Code: https://github.com/proger/sha-rnn
$ python -m generate --checkpoint PRON4.pt вийшов я із швайнокарасем на поле сів похрустити і тут бачу ведмідя так я його джавеліном гаплик у гу карасем в гвинтокрилі \
перепрограмувати швайнокарасевий кондомініум швайнокарасево-кондомініумно підутюжувавшись філософсько-політологічная шліфувально-полірувальній шліфувально полірувальній
я j a1
із i1 z
швайнокарасем sh v a j n o k a r a s e1 m
на n a1
поле p o1 l e
сів s1 i1 v
похрустити p o kh r u s t y1 t y
і i1
тут t u1 t
бачу b a ch u1
ведмідя v e d m1 i1 d1 a
так t a1 k
я j a1
його j o1 h o
джавеліном dzh a v e1 l1 i n o m
гаплик h a1 p l y k
у u1
гу h u1
карасем k a r a1 s e m
в v
гвинтокрилі h v y n t o k r y1 l1 i
перепрограмувати p e r e p r o h r a m u v a1 t y
швайнокарасевий sh v a j n o k a r a s e1 v y j
кондомініум k o n d o m1 i1 n1 i u m
швайнокарасево-кондомініумно sh v a j n o k a1 r o d o k a n u s m e n t a l o1 r n e
підутюжувавшись p1 i d u t1 u1 zh u v a v sh y s1
філософсько-політологічная f1 i l o s o1 f s1 k o p o l1 i t o l o h1 i1 ch n a j a
шліфувально-полірувальній sh l1 i f u v a1 l1 n o p o l1 i r u v a1 l1 n1 i j
шліфувально sh l1 i f u v a1 l1 n o
полірувальній p o l1 i r u v a1 l1 n1 i j