m2m100_418M_tq_fr_new_data / tokenizer_config.json

yassine benlaria

Upload tokenizer

e728050 about 1 year ago

1.92 kB

	{
	"additional_special_tokens": [
	"__liv__",
	"__vro__",
	"__sma__",
	"__sme__",
	"__smn__",
	"__sms__",
	"__smj__",
	"__af__",
	"__am__",
	"__ar__",
	"__ast__",
	"__az__",
	"__ba__",
	"__be__",
	"__bg__",
	"__bn__",
	"__br__",
	"__bs__",
	"__ca__",
	"__ceb__",
	"__cs__",
	"__cy__",
	"__da__",
	"__de__",
	"__el__",
	"__en__",
	"__es__",
	"__et__",
	"__fa__",
	"__ff__",
	"__fi__",
	"__fr__",
	"__fy__",
	"__ga__",
	"__gd__",
	"__gl__",
	"__gu__",
	"__ha__",
	"__he__",
	"__hi__",
	"__hr__",
	"__ht__",
	"__hu__",
	"__hy__",
	"__id__",
	"__ig__",
	"__ilo__",
	"__is__",
	"__it__",
	"__ja__",
	"__jv__",
	"__ka__",
	"__kk__",
	"__km__",
	"__kn__",
	"__ko__",
	"__lb__",
	"__lg__",
	"__ln__",
	"__lo__",
	"__lt__",
	"__lv__",
	"__mg__",
	"__mk__",
	"__ml__",
	"__mn__",
	"__mr__",
	"__ms__",
	"__my__",
	"__ne__",
	"__nl__",
	"__no__",
	"__ns__",
	"__oc__",
	"__or__",
	"__pa__",
	"__pl__",
	"__ps__",
	"__pt__",
	"__ro__",
	"__ru__",
	"__sd__",
	"__si__",
	"__sk__",
	"__sl__",
	"__so__",
	"__sq__",
	"__sr__",
	"__ss__",
	"__su__",
	"__sv__",
	"__sw__",
	"__ta__",
	"__th__",
	"__tl__",
	"__tn__",
	"__tr__",
	"__uk__",
	"__ur__",
	"__uz__",
	"__vi__",
	"__wo__",
	"__xh__",
	"__yi__",
	"__yo__",
	"__zh__",
	"__zu__"
	],
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"eos_token": "</s>",
	"language_codes": "m2m100",
	"model_max_length": 1024,
	"num_madeup_words": 8,
	"pad_token": "<pad>",
	"sep_token": "</s>",
	"sp_model_kwargs": {},
	"src_lang": null,
	"tgt_lang": null,
	"tokenizer_class": "M2M100Tokenizer",
	"tokenizer_file": null,
	"unk_token": "<unk>"
	}