# Mapping the BCP-47 codes used in the MADLAD-400 models to the language names # [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](https://arxiv.org/pdf/2309.04662) langid_to_language = { # Page 16 '<2en>': 'English', '<2ru>': 'Russian', '<2es>': 'Spanish', '<2fr>': 'French', '<2de>': 'German', '<2it>': 'Italian', '<2pt>': 'Portuguese', '<2pl>': 'Polish', '<2nl>': 'Dutch', '<2vi>': 'Vietnamese', '<2tr>': 'Turkish', '<2sv>': 'Swedish', '<2id>': 'Indonesian', '<2ro>': 'Romanian', '<2cs>': 'Czech', '<2zh>': 'Mandarin Chinese', '<2hu>': 'Hungarian', '<2ja>': 'Japanese', '<2th>': 'Thai', '<2fi>': 'Finnish', '<2fa>': 'Persian', '<2uk>': 'Ukrainian', '<2da>': 'Danish', '<2el>': 'Greek', '<2no>': 'Norwegian', '<2bg>': 'Bulgarian', '<2sk>': 'Slovak', '<2ko>': 'Korean', '<2ar>': 'Arabic', '<2lt>': 'Lithuanian', '<2ca>': 'Catalan', '<2sl>': 'Slovenian', '<2he>': 'Hebrew', '<2et>': 'Estonian', '<2lv>': 'Latvian', '<2hi>': 'Hindi', '<2sq>': 'Albanian', '<2ms>': 'Malay', '<2az>': 'Azerbaijani', '<2sr>': 'Serbian', '<2ta>': 'Tamil', '<2hr>': 'Croatian', '<2kk>': 'Kazakh', '<2is>': 'Icelandic', '<2ml>': 'Malayalam', '<2mr>': 'Marathi', '<2te>': 'Telugu', '<2af>': 'Afrikaans', '<2gl>': 'Galician', '<2fil>': 'Filipino', '<2be>': 'Belarusian', # Page 17 '<2mk>': 'Macedonian', '<2eu>': 'Basque', '<2bn>': 'Bengali', '<2ka>': 'Georgian', '<2mn>': 'Mongolian', '<2bs>': 'Bosnian', '<2uz>': 'Uzbek', '<2ur>': 'Urdu', '<2sw>': 'Swahili', '<2yue>': 'Cantonese', '<2ne>': 'Nepali', '<2kn>': 'Kannada', '<2kaa>': 'Kara-Kalpak', '<2gu>': 'Gujarati', '<2si>': 'Sinhala', '<2cy>': 'Welsh', '<2eo>': 'Esperanto', '<2la>': 'Latin', '<2hy>': 'Armenian', '<2ky>': 'Kyrghyz', '<2tg>': 'Tajik', '<2ga>': 'Irish', '<2mt>': 'Maltese', '<2my>': 'Myanmar (Burmese)', '<2km>': 'Khmer', '<2tt>': 'Tatar', '<2so>': 'Somali', '<2ku>': 'Kurdish (Kurmanji)', '<2ps>': 'Pashto', '<2pa>': 'Punjabi', '<2rw>': 'Kinyarwanda', '<2lo>': 'Lao', '<2ha>': 'Hausa', '<2dv>': 'Dhivehi', '<2fy>': 'W. Frisian', '<2lb>': 'Luxembourgish', '<2ckb>': 'Kurdish (Sorani)', '<2mg>': 'Malagasy', '<2gd>': 'Scottish Gaelic', '<2am>': 'Amharic', '<2ug>': 'Uyghur', '<2ht>': 'Haitian Creole', '<2grc>': 'Ancient Greek', '<2hmn>': 'Hmong', '<2sd>': 'Sindhi', '<2jv>': 'Javanese', '<2mi>': 'Maori', '<2tk>': 'Turkmen', '<2ceb>': 'Cebuano', '<2yi>': 'Yiddish', '<2ba>': 'Bashkir', '<2fo>': 'Faroese', '<2or>': 'Odia (Oriya)', '<2xh>': 'Xhosa', '<2su>': 'Sundanese', '<2kl>': 'Kalaallisut', '<2ny>': 'Chichewa', '<2sm>': 'Samoan', '<2sn>': 'Shona', '<2co>': 'Corsican', '<2zu>': 'Zulu', '<2ig>': 'Igbo', '<2yo>': 'Yoruba', '<2pap>': 'Papiamento', '<2st>': 'Sesotho', '<2haw>': 'Hawaiian', '<2as>': 'Assamese', '<2oc>': 'Occitan', '<2cv>': 'Chuvash', '<2lus>': 'Mizo', '<2tet>': 'Tetum', '<2gsw>': 'Swiss German', '<2sah>': 'Yakut', '<2br>': 'Breton', '<2rm>': 'Romansh', '<2sa>': 'Sanskrit', '<2bo>': 'Tibetan', '<2om>': 'Oromo', '<2se>': 'N. Sami', '<2ce>': 'Chechen', '<2cnh>': 'Hakha Chin', # Page 18 '<2ilo>': 'Ilocano', '<2hil>': 'Hiligaynon', '<2udm>': 'Udmurt', '<2os>': 'Ossetian', '<2lg>': 'Luganda', '<2ti>': 'Tigrinya', '<2vec>': 'Venetian', '<2ts>': 'Tsonga', '<2tyv>': 'Tuvinian', '<2kbd>': 'Kabardian', '<2ee>': 'Ewe', '<2iba>': 'Iban', '<2av>': 'Avar', '<2kha>': 'Khasi', '<2to>': 'Tonga (Tonga Islands)', '<2tn>': 'Tswana', '<2nso>': 'Sepedi', '<2fj>': 'Fijian', '<2zza>': 'Zaza', '<2ak>': 'Twi', '<2ada>': 'Adangme', '<2otq>': 'Querétaro Otomi', '<2dz>': 'Dzongkha', '<2bua>': 'Buryat', '<2cfm>': 'Falam Chin', '<2ln>': 'Lingala', '<2chm>': 'Meadow Mari', '<2gn>': 'Guarani', '<2krc>': 'Karachay-Balkar', '<2wa>': 'Walloon', '<2hif>': 'Fiji Hindi', '<2yua>': 'Yucateco', '<2srn>': 'Sranan Tongo', '<2war>': 'Waray (Philippines)', '<2rom>': 'Romani', '<2bik>': 'Central Bikol', '<2pam>': 'Pampanga', '<2sg>': 'Sango', '<2lu>': 'Luba-Katanga', '<2ady>': 'Adyghe', '<2kbp>': 'Kabiyè', '<2syr>': 'Syriac', '<2ltg>': 'Latgalian', '<2myv>': 'Erzya', '<2iso>': 'Isoko', '<2kac>': 'Kachin', '<2bho>': 'Bhojpuri', '<2ay>': 'Aymara', '<2kum>': 'Kumyk', '<2qu>': 'Quechua', '<2za>': 'Zhuang', '<2pag>': 'Pangasinan', '<2ngu>': 'Guerrero Nahuatl', '<2ve>': 'Venda', '<2pck>': 'Paite Chin', '<2zap>': 'Zapotec', '<2tyz>': 'Tày', '<2hui>': 'Huli', '<2bbc>': 'Batak Toba', '<2tzo>': 'Tzotzil', '<2tiv>': 'Tiv', '<2ksd>': 'Kuanua', '<2gom>': 'Goan Konkani', '<2min>': 'Minangkabau', '<2ang>': 'Old English', '<2nhe>': 'E. Huasteca Nahuatl', '<2bgp>': 'E. Baluchi', '<2nzi>': 'Nzima', '<2nnb>': 'Nande', '<2nv>': 'Navajo', # '<2zxx>': 'Noise', '<2bci>': 'Baoulé', '<2kv>': 'Komi', '<2new>': 'Newari', '<2mps>': 'Dadibi', '<2alt>': 'S. Altai', '<2meu>': 'Motu', '<2bew>': 'Betawi', '<2fon>': 'Fon', '<2iu>': 'Inuktitut', '<2abt>': 'Ambulas', # Page 19 '<2mgh>': 'Makhuwa-Meetto', '<2mnw>': 'Mon', '<2tvl>': 'Tuvalu', '<2dov>': 'Dombe', '<2tlh>': 'Klingon', '<2ho>': 'Hiri Motu', '<2kw>': 'Cornish', '<2mrj>': 'Hill Mari', '<2meo>': 'Kedah Malay', '<2crh>': 'Crimean Tatar', '<2mbt>': 'Matigsalug Manobo', '<2emp>': 'N. Emberá', '<2ace>': 'Achinese', '<2ium>': 'Iu Mien', '<2mam>': 'Mam', '<2gym>': 'Ngäbere', '<2mai>': 'Maithili', '<2crs>': 'Seselwa Creole French', '<2pon>': 'Pohnpeian', '<2ubu>': 'Umbu-Ungu', '<2fip>': 'Fipa', '<2quc>': 'K’iche’', '<2gv>': 'Manx', '<2kj>': 'Kuanyama', '<2btx>': 'Batak Karo', '<2ape>': 'Bukiyip', '<2chk>': 'Chuukese', '<2rcf>': 'Réunion Creole French', '<2shn>': 'Shan', '<2tzh>': 'Tzeltal', '<2mdf>': 'Moksha', '<2ppk>': 'Uma', '<2ss>': 'Swati', '<2gag>': 'Gagauz', '<2cab>': 'Garifuna', '<2kri>': 'Krio', '<2seh>': 'Sena', '<2ibb>': 'Ibibio', '<2tbz>': 'Ditammari', '<2bru>': 'E. Bru', '<2enq>': 'Enga', '<2ach>': 'Acoli', '<2cuk>': 'San Blas Kuna', '<2kmb>': 'Kimbundu', '<2wo>': 'Wolof', '<2kek>': 'Kekchí', '<2qub>': 'Huallaga Huánuco Quechua', '<2tab>': 'Tabassaran', '<2bts>': 'Batak Simalungun', '<2kos>': 'Kosraean', '<2rwo>': 'Rawa', '<2cak>': 'Kaqchikel', '<2tuc>': 'Mutu', '<2bum>': 'Bulu', '<2cjk>': 'Chokwe', '<2gil>': 'Gilbertese', '<2stq>': 'Saterfriesisch', '<2tsg>': 'Tausug', '<2quh>': 'S. Bolivian Quechua', '<2mak>': 'Makasar', '<2arn>': 'Mapudungun', '<2ban>': 'Balinese', '<2jiv>': 'Shuar', '<2sja>': 'Epena', '<2yap>': 'Yapese', '<2tcy>': 'Tulu', '<2toj>': 'Tojolabal', '<2twu>': 'Termanu', '<2xal>': 'Kalmyk', '<2amu>': 'Guerrero Amuzgo', '<2rmc>': 'Carpathian Romani', '<2hus>': 'Huastec', '<2nia>': 'Nias', '<2kjh>': 'Khakas', '<2bm>': 'Bambara', '<2guh>': 'Guahibo', '<2mas>': 'Masai', '<2acf>': 'St Lucian Creole French', '<2dtp>': 'Kadazan Dusun', '<2ksw>': 'S’gaw Karen', '<2bzj>': 'Belize Kriol English', # Page 20 '<2din>': 'Dinka', '<2zne>': 'Zande', '<2mad>': 'Madurese', '<2msi>': 'Sabah Malay', '<2mag>': 'Magahi', '<2mkn>': 'Kupang Malay', '<2kg>': 'Kongo', '<2lhu>': 'Lahu', '<2ch>': 'Chamorro', '<2qvi>': 'Imbabura H. Quichua', '<2mh>': 'Marshallese', '<2djk>': 'E. Maroon Creole', '<2sus>': 'Susu', '<2mfe>': 'Morisien', '<2srm>': 'Saramaccan', '<2dyu>': 'Dyula', '<2ctu>': 'Chol', '<2gui>': 'E. Bolivian Guaraní', '<2pau>': 'Palauan', '<2inb>': 'Inga', '<2bi>': 'Bislama', '<2mni>': 'Meiteilon (Manipuri)', '<2guc>': 'Wayuu', '<2jam>': 'Jamaican Creole English', '<2wal>': 'Wolaytta', '<2jac>': 'Popti’', '<2bas>': 'Basa (Cameroon)', '<2gor>': 'Gorontalo', '<2skr>': 'Saraiki', '<2nyu>': 'Nyungwe', '<2noa>': 'Woun Meu', '<2sda>': 'Toraja-Sa’dan', '<2gub>': 'Guajajára', '<2nog>': 'Nogai', '<2cni>': 'Asháninka', '<2teo>': 'Teso', '<2tdx>': 'Tandroy-Mahafaly Malagasy', '<2sxn>': 'Sangir', '<2rki>': 'Rakhine', '<2nr>': 'South Ndebele', '<2frp>': 'Arpitan', '<2alz>': 'Alur', '<2taj>': 'E. Tamang', '<2lrc>': 'N. Luri', '<2cce>': 'Chopi', '<2rn>': 'Rundi', '<2jvn>': 'Caribbean Javanese', '<2hvn>': 'Sabu', '<2nij>': 'Ngaju', '<2dwr>': 'Dawro', '<2izz>': 'Izii', '<2msm>': 'Agusan Manobo', '<2bus>': 'Bokobaru', '<2ktu>': 'Kituba (DRC)', '<2chr>': 'Cherokee', '<2maz>': 'Central Mazahua', '<2tzj>': ' Tz’utujil', '<2suz>': 'Sunwar', '<2knj>': 'W. Kanjobal', '<2bim>': 'Bimoba', '<2gvl>': 'Gulay', '<2bqc>': 'Boko (Benin)', '<2tca>': 'Ticuna', '<2pis>': 'Pijin', '<2prk>': 'Parauk', '<2laj>': 'Lango (Uganda)', '<2mel>': 'Central Melanau', '<2qxr>': 'Cañar H. Quichua', '<2niq>': 'Nandi', '<2ahk>': 'Akha', '<2shp>': 'Shipibo-Conibo', '<2hne>': 'Chhattisgarhi', '<2spp>': 'Supyyire Senoufo', '<2koi>': 'Komi-Permyak', '<2krj>': 'Kinaray-A', '<2quf>': 'Lambayeque Quechua', '<2luz>': 'S. Luri', '<2agr>': 'Aguaruna', '<2tsc>': 'Tswa', '<2mqy>': 'Manggarai', '<2gof>': 'Gofa', # Page 21 '<2gbm>': 'Garhwali', '<2miq>': 'Mískito', '<2dje>': 'Zarma', '<2awa>': 'Awadhi', '<2bjj>': 'Kanauji', '<2qvz>': 'N. Pastaza Quichua', '<2sjp>': 'Surjapuri', '<2tll>': 'Tetela', '<2raj>': 'Rajasthani', '<2kjg>': 'Khmu', '<2bgz>': 'Banggai', '<2quy>': 'Ayacucho Quechua', '<2cbk>': 'Chavacano', '<2akb>': 'Batak Angkola', '<2oj>': 'Ojibwa', '<2ify>': 'Keley-I Kallahan', '<2mey>': 'Hassaniyya', '<2ks>': 'Kashimiri', '<2cac>': 'Chuj', '<2brx>': 'Bodo (India)', '<2qup>': 'S. Pastaza Quechua', '<2syl>': 'Sylheti', '<2jax>': 'Jambi Malay', '<2ff>': 'Fulfulde', '<2ber>': 'Tamazight (Tfng)', '<2tks>': 'Takestani', '<2trp>': 'Kok Borok', '<2mrw>': 'Maranao', '<2adh>': 'Adhola', '<2smt>': 'Simte', '<2srr>': 'Serer', '<2ffm>': 'Maasina Fulfulde', '<2qvc>': 'Cajamarca Quechua', '<2mtr>': 'Mewari', '<2ann>': 'Obolo', '<2kaa-Latn>': 'Kara-Kalpak (Latn)', '<2aa>': 'Afar', '<2noe>': 'Nimadi', '<2nut>': 'Nung (Viet Nam)', '<2gyn>': 'Guyanese Creole English', '<2kwi>': 'Awa-Cuaiquer', '<2xmm>': 'Manado Malay', '<2msb>': 'Masbatenyo' }