BPE-HF-Wikipedia-FR-Morphemes / special_tokens_map.json
qanastek's picture
Upload 43 files
db219b2
raw
history blame contribute delete
No virus
8.04 kB
{
"additional_special_tokens": [
"adéno",
"adria",
"aéro",
"afro",
"agri",
"agro",
"algie",
"allo",
"amino",
"andr",
"andro",
"aneuplo",
"angi",
"angio",
"anthra",
"anthropo",
"anti",
"anto",
"anxio",
"aréolo",
"aroma",
"arthr",
"arthro",
"astr",
"astro",
"audio",
"auto",
"axillo",
"biblio",
"blast",
"blastique",
"blasto",
"brachy",
"brom",
"bromo",
"bronch",
"bronchio",
"broncho",
"calc",
"calco",
"calori",
"cancér",
"cancéro",
"carb",
"carbo",
"carcin",
"carcino",
"carde",
"cardi",
"cardie",
"cardio",
"cardique",
"caryo",
"cèle",
"cèles",
"célio",
"cellulo",
"centi",
"centr",
"centrie",
"centrique",
"centrisme",
"centro",
"cépro",
"cérébr",
"cérébro",
"cervico",
"charactér",
"charactéro",
"chémo",
"chimio",
"chlor",
"chloro",
"chondr",
"chondrie",
"chondro",
"chor",
"choré",
"choréo",
"chori",
"chorio",
"choro",
"chrom",
"chromat",
"chromato",
"chrome",
"chromie",
"chromo",
"chron",
"chrono",
"cide",
"cinéma",
"cinémato",
"claustr",
"claustro",
"clinico",
"clono",
"coelio",
"cole",
"coles",
"coli",
"colo",
"comédo",
"contr",
"contra",
"contre",
"contro",
"cortico",
"cosmo",
"crate",
"cratie",
"crine",
"cryo",
"crypto",
"cule",
"cules",
"culteur",
"cutanéo",
"cycl",
"cycle",
"cyclo",
"cyte",
"cyto",
"déci",
"démo",
"densit",
"densito",
"déonto",
"dermat",
"dermato",
"dermo",
"diamino",
"dosi",
"drome",
"écho",
"ectasie",
"ectomie",
"edème",
"électr",
"électro",
"embry",
"embryo",
"émie",
"émique",
"endo",
"endocrino",
"entéro",
"entr",
"entre",
"épidémio",
"érythro",
"estro",
"ethno",
"extra",
"ferro",
"fibr",
"fibro",
"fluor",
"fluoro",
"fluro",
"forme",
"gastr",
"gastro",
"gène",
"géné",
"gènes",
"génés",
"génicité",
"génique",
"génit",
"génito",
"géno",
"ghrapho",
"glandulo",
"gluc",
"gluco",
"glyc",
"glyco",
"gonado",
"gramme",
"graphe",
"grapheur",
"graphie",
"graphique",
"grapho",
"gynéco",
"gyno",
"hecto",
"hélio",
"hémat",
"hémato",
"hémie",
"hémo",
"hépar",
"héparo",
"hépat",
"hépato",
"hétéro",
"hippo",
"hist",
"histi",
"histio",
"histo",
"homéo",
"homo",
"hydr",
"hydro",
"hygiéno",
"hyper",
"hyphophys",
"hypn",
"hypno",
"hypo",
"hystér",
"hystéro",
"iatre",
"iatrie",
"iatro",
"ides",
"ïdes",
"immun",
"immuno",
"indo",
"inhomo",
"inter",
"intra",
"iono",
"kaleido",
"kilo",
"kine",
"kines",
"kinési",
"kinésio",
"lacto",
"laparo",
"léio",
"leuc",
"leuco",
"lévo",
"lipo",
"lisso",
"loco",
"logie",
"logies",
"logique",
"logiste",
"logo",
"logue",
"logues",
"lombo",
"lymph",
"lympho",
"lyse",
"lyte",
"macrie",
"macro",
"mamm",
"mamma",
"mammo",
"mane",
"manie",
"mast",
"mastie",
"masto",
"mastoïd",
"mastoïdo",
"mate",
"maxi",
"maxillo",
"médi",
"média",
"médico",
"médio",
"méga",
"mégalo",
"mène",
"méno",
"mère",
"mérisme",
"méro",
"meta",
"méta",
"méthodo",
"mètre",
"métrie",
"métrique",
"métro",
"micro",
"milli",
"mini",
"mito",
"mono",
"morph",
"morphe",
"morphie",
"morphique",
"morphisme",
"morpho",
"mucéto",
"multi",
"muscul",
"musculo",
"myce",
"mycét",
"mycète",
"mycine",
"myco",
"négato",
"neur",
"neural",
"neurie",
"neuro",
"névro",
"nome",
"nomie",
"nuclé",
"nucléo",
"ocul",
"oculo",
"oeso",
"oestr",
"oestro",
"œstro",
"olig",
"oligo",
"omni",
"onch",
"oncho",
"onco",
"onto",
"onycho",
"oophor",
"oophoro",
"ophtalm",
"ophtalmo",
"orchi",
"orchid",
"organ",
"organo",
"ortho",
"ossi",
"osté",
"ostéo",
"ostro",
"ovar",
"ovari",
"ovario",
"panto",
"para",
"pariéto",
"path",
"pathe",
"pathie",
"patho",
"pausé",
"pède",
"pédi",
"pédie",
"pédo",
"pénie",
"péri",
"pexie",
"phage",
"phago",
"pharmac",
"pharmaco",
"phén",
"phénique",
"phéno",
"phénol",
"phényl",
"phil",
"phile",
"philes",
"philo",
"phobe",
"phobie",
"phon",
"phone",
"phonie",
"phono",
"phosph",
"phosphat",
"phosphato",
"phospho",
"photo",
"physico",
"physio",
"phyt",
"phyto",
"plase",
"plasie",
"plasique",
"plasme",
"plasmino",
"plastie",
"plastique",
"pleuro",
"ploïde",
"pluri",
"pneumo",
"pode",
"podo",
"pole",
"poly",
"poso",
"post",
"préo",
"progesto",
"prot",
"protéin",
"protéino",
"protéo",
"proto",
"pseud",
"pseudo",
"psych",
"psycho",
"pyro",
"quadr",
"quadri",
"radi",
"radio",
"rapa",
"réacto",
"réflex",
"réflexo",
"rétin",
"rétino",
"retro",
"rétro",
"rhabd",
"rhabdo",
"rhumato",
"ribo",
"rithme",
"scano",
"scope",
"scopie",
"scopique",
"scopol",
"semi",
"sémio",
"séno",
"séro",
"sexo",
"socio",
"soma",
"somat",
"somato",
"some",
"somie",
"sono",
"sophro",
"sous",
"soya",
"spectr",
"spectro",
"spermo",
"stat",
"stéréo",
"sterno",
"stéroïd",
"steroïdo",
"stéroïdo",
"stérone",
"strep",
"strepto",
"sulfo",
"super",
"supéro",
"technie",
"technique",
"techno",
"télé",
"térato",
"tétr",
"tétra",
"thelial",
"thélial",
"thelium",
"thélium",
"thérapie",
"therm",
"therme",
"thermie",
"thermo",
"thoraco",
"thromb",
"thrombo",
"tomie",
"tomo",
"tonine",
"tope",
"topo",
"trano",
"trans",
"tumor",
"tumori",
"tumoro",
"type",
"typie",
"typo",
"ultra",
"vascul",
"vasculo",
"vaso",
"xéno",
"zoaire",
"zygo",
"zygote",
"zygotique"
],
"bos_token": {
"content": "<s>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"cls_token": {
"content": "<s>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "</s>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"mask_token": {
"content": "<mask>",
"lstrip": true,
"normalized": true,
"rstrip": false,
"single_word": false
},
"pad_token": {
"content": "<pad>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"sep_token": {
"content": "</s>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
},
"unk_token": {
"content": "<unk>",
"lstrip": false,
"normalized": true,
"rstrip": false,
"single_word": false
}
}