xu-song commited on
Commit
4cbb545
1 Parent(s): 299dc31

add more tokenizers

Browse files
Files changed (3) hide show
  1. stats/character_stats.json +114 -0
  2. stats/compression_rate.json +648 -0
  3. vocab.py +12 -2
stats/character_stats.json CHANGED
@@ -1803,5 +1803,119 @@
1803
  "len(ja-kana)": "1,4,16",
1804
  "num(ko)": 384,
1805
  "len(ko)": "1,1,1"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1806
  }
1807
  }
 
1803
  "len(ja-kana)": "1,4,16",
1804
  "num(ko)": 384,
1805
  "len(ko)": "1,1,1"
1806
+ },
1807
+ "01-ai/Yi-1.5-34B": {
1808
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
1809
+ "organization": "Yi",
1810
+ "vocab_size": 63992,
1811
+ "num(digit)": 195,
1812
+ "len(digit)": "1,13,13",
1813
+ "num(space)": 43,
1814
+ "len(space)": "1,2,15",
1815
+ "num(ar)": 18,
1816
+ "len(ar)": "1,1,4",
1817
+ "num(zh)": 21350,
1818
+ "len(zh)": "1,2,12",
1819
+ "num(ja)": 21401,
1820
+ "len(ja)": "1,2,12",
1821
+ "num(ja-kana)": 51,
1822
+ "len(ja-kana)": "1,1,2",
1823
+ "num(ko)": 28,
1824
+ "len(ko)": "1,1,2"
1825
+ },
1826
+ "Qwen/Qwen2-72B": {
1827
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
1828
+ "organization": "Alibaba",
1829
+ "vocab_size": 151646,
1830
+ "num(digit)": 10,
1831
+ "len(digit)": "1,1,1",
1832
+ "num(space)": 55883,
1833
+ "len(space)": "1,6,128",
1834
+ "num(ar)": 4018,
1835
+ "len(ar)": "1,3,12",
1836
+ "num(zh)": 25557,
1837
+ "len(zh)": "1,2,7",
1838
+ "num(ja)": 27206,
1839
+ "len(ja)": "1,2,11",
1840
+ "num(ja-kana)": 2089,
1841
+ "len(ja-kana)": "1,3,11",
1842
+ "num(ko)": 3495,
1843
+ "len(ko)": "1,1,5"
1844
+ },
1845
+ "apple/DCLM-7B": {
1846
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
1847
+ "organization": "Apple",
1848
+ "vocab_size": 50277,
1849
+ "num(digit)": 2036,
1850
+ "len(digit)": "1,3,35",
1851
+ "num(space)": 28996,
1852
+ "len(space)": "1,7,512",
1853
+ "num(ar)": 94,
1854
+ "len(ar)": "1,2,4",
1855
+ "num(zh)": 313,
1856
+ "len(zh)": "1,1,2",
1857
+ "num(ja)": 480,
1858
+ "len(ja)": "1,1,4",
1859
+ "num(ja-kana)": 167,
1860
+ "len(ja-kana)": "1,1,4",
1861
+ "num(ko)": 25,
1862
+ "len(ko)": "1,1,2"
1863
+ },
1864
+ "google/gemma-2-9b": {
1865
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
1866
+ "organization": "Google",
1867
+ "vocab_size": 256000,
1868
+ "num(digit)": 134,
1869
+ "len(digit)": "1,10,12",
1870
+ "num(space)": 125662,
1871
+ "len(space)": "1,7,31",
1872
+ "num(ar)": 6274,
1873
+ "len(ar)": "1,4,15",
1874
+ "num(zh)": 23767,
1875
+ "len(zh)": "1,2,12",
1876
+ "num(ja)": 28852,
1877
+ "len(ja)": "1,2,12",
1878
+ "num(ja-kana)": 7061,
1879
+ "len(ja-kana)": "1,3,12",
1880
+ "num(ko)": 2295,
1881
+ "len(ko)": "1,1,5"
1882
+ },
1883
+ "meta-llama/Meta-Llama-3.1-405B": {
1884
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
1885
+ "organization": "Meta",
1886
+ "vocab_size": 128256,
1887
+ "num(digit)": 1110,
1888
+ "len(digit)": "1,3,3",
1889
+ "num(space)": 60860,
1890
+ "len(space)": "1,6,128",
1891
+ "num(ar)": 3810,
1892
+ "len(ar)": "1,4,11",
1893
+ "num(zh)": 4424,
1894
+ "len(zh)": "1,1,7",
1895
+ "num(ja)": 5387,
1896
+ "len(ja)": "1,2,8",
1897
+ "num(ja-kana)": 1086,
1898
+ "len(ja-kana)": "1,2,8",
1899
+ "num(ko)": 2281,
1900
+ "len(ko)": "1,2,6"
1901
+ },
1902
+ "mistralai/Mistral-Large-Instruct-2407": {
1903
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
1904
+ "organization": "Mistral",
1905
+ "vocab_size": 32768,
1906
+ "num(digit)": 775,
1907
+ "len(digit)": "1,13,18",
1908
+ "num(space)": 15823,
1909
+ "len(space)": "1,6,16",
1910
+ "num(ar)": 71,
1911
+ "len(ar)": "1,1,3",
1912
+ "num(zh)": 1459,
1913
+ "len(zh)": "1,1,2",
1914
+ "num(ja)": 1593,
1915
+ "len(ja)": "1,1,2",
1916
+ "num(ja-kana)": 134,
1917
+ "len(ja-kana)": "1,1,1",
1918
+ "num(ko)": 346,
1919
+ "len(ko)": "1,1,1"
1920
  }
1921
  }
stats/compression_rate.json CHANGED
@@ -9610,5 +9610,653 @@
9610
  "oov_ratio": 0.7118713655580824,
9611
  "_oov_charset": "[\"윈\", \"드\", \"싣\", \"譯\", \"칵\", \"섯\", \"🥁\", \"미\", \"을\", \"펌\", \"싶\", \"퀘\", \"뭇\", \"묘\", \"폭\", \"룡\", \"^\", \"훔\", \"츈\", \"😗\", \"ㅙ\", \"Ⅲ\", \"잣\", \"른\", \"밀\", \"및\", \"근\", \"붉\", \"훑\", \"액\", \"껍\", \"參\", \"샴\", \"린\", \"업\", \"맙\", \"빵\", \"힐\", \"쫀\", \"푹\", \"꺽\", \"얻\", \"└\", \"Ⅹ\", \"믐\", \"쁨\", \"궤\", \"남\", \"햇\", \"숲\", \"밋\", \"ㅁ\", \"유\", \"늘\", \"뵙\", \"돼\", \"네\", \"쥔\", \"은\", \"넨\", \"듭\", \"륜\", \"특\", \"룹\", \"댈\", \"ㅕ\", \"️\", \"힘\", \"핏\", \"억\", \"겁\", \"딜\", \"榮\", \"🍞\", \"깥\", \"ᴄ\", \"앨\", \"위\", \"푼\", \"툼\", \"콩\", \"왼\", \"뗀\", \"음\", \"결\", \"專\", \"낮\", \"ㄱ\", \"구\", \"⁴\", \"작\", \"눔\", \"♣\", \"金\", \"禮\", \"◦\", \"팀\", \"­\", \"넓\", \"☞\", \"쬐\", \"ㅇ\", \"경\", \"득\", \"덥\", \"쩌\", \"㉰\", \"벚\", \"쪄\", \"얍\", \"켓\", \"닫\", \"송\", \"💸\", \"톤\", \"혀\", \"卽\", \"폼\", \"듯\", \"팥\", \"멜\", \"포\", \"읽\", \"맵\", \"굉\", \"껏\", \"괄\", \"셀\", \"속\", \"잎\", \"촨\", \"다\", \"례\", \"킵\", \"듣\", \"펀\", \"⋅\", \"컴\", \"?\", \"친\", \"풀\", \"ã\", \"챗\", \"짱\", \"목\", \"겟\", \"넣\", \"랬\", \"🤕\", \"란\", \"온\", \"튿\", \"ㅓ\", \"쌍\", \"같\", \"본\", \"Ⅰ\", \"벨\", \"이\", \"승\", \"죤\", \"앰\", \"밧\", \"칫\", \"쓰\", \"먼\", \"뿔\", \"픈\", \"투\", \"련\", \"로\", \"즙\", \"객\", \"뻔\", \"잇\", \"놓\", \"콰\", \"캄\", \"륭\", \"팡\", \"맴\", \"긁\", \"싱\", \"좋\", \"👍\", \"북\", \"쉘\", \"틋\", \"갖\", \"증\", \"쌀\", \"뒷\", \"캔\", \"펩\", \"뵐\", \"풋\", \"➎\", \"밍\", \"렘\", \"👋\", \"표\", \"럼\", \"쐐\", \"손\", \"덴\", \"묻\", \"훠\", \"꺼\", \"밌\", \"뛰\", \"마\", \"협\", \"맨\", \"잊\", \"휘\", \"격\", \"②\", \"➊\", \"눕\", \"낍\", \"벳\", \"ㅈ\", \"냄\", \"햄\", \"펑\", \"♧\", \"갭\", \"멤\", \"디\", \"캣\", \"춘\", \"뜯\", \"팟\", \"낱\", \"각\", \"◆\", \"뽐\", \"뭘\", \"깽\", \"뉘\", \"빕\", \"텔\", \"용\", \"준\", \"빔\", \"쾅\", \"ㅜ\", \"에\", \"밝\", \"뜹\", \"며\", \"록\", \"눌\", \"왜\", \"ㅎ\", \"ㅍ\", \"념\", \"뭐\", \"그\", \"러\", \"텍\", \"옷\", \"곳\", \"테\", \"엇\", \"믿\", \"룩\", \"뭔\", \"💰\", \"만\", \"燭\", \"즘\", \"끄\", \"섬\", \"염\", \"럭\", \"명\", \"왁\", \"엡\", \"섣\", \"↓\", \"슨\", \"랄\", \"ㅠ\", \"눅\", \"즉\", \"빛\", \"치\", \"호\", \"찰\", \"별\", \"성\", \"핸\", \"씌\", \"식\", \"촘\", \"♀\", \"떤\", \"딱\", \"완\", \"⑥\", \"왕\", \"샷\", \"꾸\", \"시\", \"섰\", \"설\", \"씨\", \"얇\", \"냐\", \"뽀\", \"♥\", \"힉\", \"슝\", \"듬\", \"최\", \"🦄\", \"향\", \"숫\", \"잴\", \"케\", \"떄\", \"팎\", \"합\", \"몸\", \"ㅊ\", \"옥\", \"애\", \"춤\", \"쾨\", \"찜\", \"맞\", \"현\", \"수\", \"카\", \"땐\", \"암\", \"갱\", \"꺄\", \"힌\", \"볕\", \"戌\", \"뜩\", \"낌\", \"짙\", \"삿\", \"짖\", \"💡\", \"베\", \"져\", \"뜬\", \"삘\", \"∮\", \"씹\", \"웨\", \"횡\", \"팅\", \"막\", \"떳\", \"끊\", \"웁\", \"딛\", \"보\", \"챌\", \"롯\", \"♡\", \"릿\", \"눴\", \"난\", \"력\", \"곶\", \"패\", \"많\", \"바\", \"센\", \"캉\", \"게\", \"춧\", \"창\", \"탰\", \"」\", \"병\", \"므\", \"없\", \"깜\", \"黃\", \"쏟\", \"쳇\", \"맡\", \"홉\", \"안\", \"당\", \"언\", \"겐\", \"찔\", \"궜\", \"좆\", \"꽂\", \"홈\", \"돌\", \"쉴\", \"둔\", \"광\", \"렐\", \"緞\", \"몽\", \"죄\", \"습\", \"루\", \"좁\", \"상\", \"濟\", \"솜\", \"틈\", \"€\", \"워\", \"닐\", \"퀵\", \"댄\", \"낳\", \"밟\", \"⑸\", \"쥰\", \"플\", \"튬\", \"뷰\", \"겸\", \"괜\", \"굿\", \"줬\", \"휙\", \"역\", \"»\", \"≤\", \"∙\", \"끌\", \"吳\", \"텅\", \"채\", \"렴\", \"겨\", \"곽\", \"파\", \"첫\", \"공\", \"겹\", \"야\", \"藥\", \"對\", \"짚\", \"기\", \"뎀\", \"屠\", \"끼\", \"짠\", \"슬\", \"쏭\", \"깁\", \"또\", \"콕\", \"티\", \"꿨\", \"션\", \"첼\", \"싹\", \"🦅\", \"◼\", \"김\", \"뉜\", \"얕\", \"뒀\", \"롱\", \"둬\", \"휠\", \"ㅞ\", \"삽\", \"①\", \"렸\", \"�\", \"\", \"④\", \"함\", \"✔\", \"썸\", \"곱\", \"께\", \"똥\", \"늦\", \"ᴀ\", \"비\", \"중\", \"류\", \"웰\", \"將\", \"융\", \"환\", \"췄\", \"해\", \"콘\", \"女\", \"새\", \"💌\", \"쥐\", \"뻑\", \"섞\", \"홋\", \"ω\", \"쎄\", \"굶\", \"껑\", \"튜\", \"큰\", \"㎥\", \"잦\", \"폿\", \"멕\", \"샌\", \"듀\", \"척\", \"🗺\", \"쿵\", \"받\", \"밤\", \"▶\", \"걍\", \"썹\", \"빼\", \"았\", \"백\", \"런\", \"敎\", \"품\", \"길\", \"름\", \"원\", \"킨\", \"빤\", \"까\", \"랩\", \"ᴛ\", \"⑴\", \"걷\", \"섭\", \"릎\", \"짝\", \"꿰\", \"③\", \"⑨\", \"틱\", \"혐\", \"했\", \"는\", \"툴\", \"劍\", \"짭\", \"씩\", \"덮\", \"교\", \"문\", \"한\", \"딤\", \"끝\", \"취\", \"활\", \"琪\", \"큼\", \"탈\", \"빚\", \"옐\", \"☀\", \"ㄷ\", \"림\", \"둡\", \"군\", \"능\", \"롤\", \"빅\", \"불\", \"…\", \"촬\", \"전\", \"Ⅳ\", \"높\", \"셈\", \"샹\", \"淨\", \"흉\", \"뜰\", \"딴\", \"💕\", \"앱\", \"觸\", \"흩\", \"퇴\", \"켐\", \"들\", \"냥\", \"꿍\", \"➋\", \"족\", \"롬\", \"둥\", \"←\", \"끽\", \"고\", \"끙\", \"꼴\", \"갚\", \"ㅒ\", \"찮\", \"쇼\", \"항\", \"ㅔ\", \"양\", \"쎈\", \"燦\", \"무\", \"롸\", \"행\", \"말\", \"□\", \"ㅚ\", \"브\", \"둠\", \"때\", \"꿔\", \"뤄\", \"쿠\", \"셋\", \"익\", \"릴\", \"깨\", \"빴\", \"經\", \"꿈\", \"궁\", \"쫓\", \"槪\", \"대\", \"묶\", \"렬\", \"든\", \"낀\", \"셨\", \"內\", \"🔹\", \"램\", \"쩔\", \"레\", \"밸\", \"앎\", \"윌\", \"평\", \"뀔\", \"곧\", \"앤\", \"씀\", \"텐\", \"좀\", \"셔\", \"쉼\", \"략\", \"범\", \"횟\", \"낭\", \"쟤\", \"옌\", \"납\", \"려\", \"퍙\", \"쁠\", \"악\", \"웖\", \"​\", \"숭\", \"〮\", \"썰\", \"탭\", \"트\", \"졸\", \"띈\", \"긋\", \"릇\", \"아\", \"랭\", \"됐\", \"예\", \"갤\", \"찬\", \"초\", \"假\", \"켰\", \"민\", \"쨌\", \"홍\", \"않\", \"갯\", \"갑\", \"켠\", \"ㅑ\", \"悧\", \"🍕\", \"리\", \"거\", \"렜\", \"뺐\", \"귈\", \"혼\", \"숱\", \"첨\", \"➍\", \"간\", \"녜\", \"덩\", \"얘\", \"허\", \"딪\", \"뮐\", \"캠\", \"꼭\", \"賣\", \"🤔\", \"똑\", \"🏫\", \"래\", \"💥\", \"훗\", \"㉿\", \"곡\", \"킁\", \"돠\", \"👨\", \"뻗\", \"낡\", \"탓\", \"關\", \"회\", \"됩\", \"댔\", \"젠\", \"열\", \"훌\", \"價\", \"혔\", \"섹\", \"펼\", \"핵\", \"숍\", \"법\", \"빌\", \"릅\", \"임\", \"꾼\", \"탑\", \"휩\", \"데\", \"理\", \"된\", \"헨\", \"옹\", \"ㅖ\", \"앵\", \"짬\", \"쁜\", \"뿍\", \"쩐\", \"옛\", \"㉠\", \"쯤\", \"좌\", \"ㅟ\", \"ㅆ\", \"땅\", \"❏\", \"녕\", \"흑\", \"⬇\", \"어\", \"씬\", \"관\", \"솥\", \"發\", \"닙\", \"돈\", \"팝\", \"累\", \"퓰\", \"봤\", \"홀\", \"냉\", \"움\", \"좇\", \"욱\", \"쫑\", \"컷\", \"캘\", \"탐\", \"s\", \"굽\", \"응\", \"앉\", \"휴\", \"큽\", \"싫\", \"줘\", \"톨\", \"識\", \"님\", \"퀄\", \"라\", \"헝\", \"짧\", \"참\", \"흠\", \"ᴇ\", \"생\", \"뚜\", \"컵\", \"꿕\", \"ᴍ\", \"맑\", \"「\", \"췌\", \"희\", \"왘\", \"戮\", \"닷\", \"넉\", \"渴\", \"감\", \"²\", \"킥\", \"눈\", \"댁\", \"힙\", \"꺾\", \"겠\", \"🤗\", \"클\", \"폄\", \"쫒\", \"꽁\", \"첸\", \"빠\", \"박\", \"뤘\", \"켜\", \"跏\", \"샬\", \"곁\", \"릉\", \"동\", \"번\", \"랍\", \"측\", \"뮬\", \"띠\", \"‪\", \"저\", \"빈\", \"뾱\", \"궈\", \"훼\", \"😊\", \"ⅲ\", \"얏\", \"퓨\", \"℃\", \"꿀\", \"컨\", \"듐\", \"배\", \"갈\", \"났\", \"몇\", \"뛴\", \"처\", \"폰\", \"*\", \"렌\", \"\", \"땡\", \"잘\", \"턱\", \"픔\", \"꽉\", \"샤\", \"⑵\", \"🙆\", \"균\", \"獻\", \"낄\", \"뱃\", \"즐\", \"닭\", \"청\", \"숙\", \"悖\", \"붐\", \"연\", \"쁘\", \"➌\", \"옆\", \"락\", \"낚\", \"켈\", \"크\", \"삭\", \"▼\", \"죽\", \"쓸\", \"제\", \"택\", \"븐\", \"질\", \"팔\", \"확\", \"🏻\", \"요\", \"流\", \"직\", \"턴\", \"뺑\", \"깝\", \"울\", \"핑\", \"`\", \"앗\", \"곰\", \"껴\", \"적\", \"놨\", \"여\", \"◎\", \"엠\", \"맷\", \"歲\", \"퍼\", \"%\", \"피\", \"ɪ\", \"커\", \"|\", \"땠\", \"끓\", \"꿇\", \"💅\", \"헉\", \"깐\", \"웅\", \"◀\", \"헤\", \"땀\", \"앓\", \"맹\", \"띄\", \"닮\", \"춥\", \"ㅢ\", \"깊\", \"세\", \"일\", \"뿌\", \"됬\", \"璣\", \"룬\", \"실\", \"귀\", \"鎭\", \"툭\", \"면\", \"촉\", \"층\", \"ᴡ\", \"믄\", \"샀\", \"찼\", \"폐\", \"못\", \"낫\", \"쵸\", \"봬\", \"닳\", \"였\", \"멍\", \"헬\", \"팁\", \"퀸\", \"딩\", \"멈\", \"낸\", \"◐\", \"톰\", \"봄\", \"쌩\", \"더\", \"💦\", \"몫\", \"윙\", \"ᴏ\", \"튼\", \"쭉\", \"넷\", \"獨\", \"뿜\", \"튀\", \"쭈\", \"Ⅵ\", \"맘\", \"벅\", \"읍\", \"맥\", \"•\", \"탁\", \"얽\", \"➏\", \"소\", \"떻\", \"두\", \"렉\", \"봇\", \"잤\", \"韜\", \"탕\", \"홑\", \"히\", \"정\", \"늑\", \"걱\", \"쿤\", \"를\", \"닦\", \"썅\", \"쿨\", \"페\", \"헛\", \"살\", \"녘\", \"헐\", \"즈\", \"삼\", \"느\", \"톱\", \"됨\", \"릭\", \"괌\", \"💣\", \"주\", \"뢰\", \"뇌\", \"블\", \"㏊\", \"검\", \"돔\", \"률\", \"달\", \"흥\", \"ㆍ\", \"칭\", \"멘\", \"🤟\", \"건\", \"ㅅ\", \"🌵\", \"칼\", \"황\", \"ⓔ\", \"긍\", \"끗\", \"버\", \"쏙\", \"쐬\", \"앙\", \"댓\", \"흐\", \"끔\", \"樂\", \"ㅣ\", \"☎\", \"뀌\", \"쉽\", \"룸\", \"짢\", \"재\", \"웬\", \"德\", \"륨\", \"럿\", \"蟄\", \"등\", \"샵\", \"팩\", \"ㅘ\", \"변\", \"넬\", \"탄\", \"발\", \"🍟\", \"촌\", \"벤\", \"있\", \"썼\", \"흘\", \"랜\", \"諒\", \"줏\", \"딥\", \"😭\", \"조\", \"잔\", \"볍\", \"❤\", \"엔\", \"흰\", \"👏\", \"뎅\", \":\", \"육\", \"혹\", \"흡\", \"뤼\", \"꽤\", \"쌈\", \"룰\", \"㎡\", \"숏\", \"셸\", \"캐\", \"춰\", \"쭙\", \"꽝\", \"녹\", \"쏜\", \"◾\", \"후\", \"삣\", \"몬\", \"튄\", \"텝\", \"깅\", \"징\", \"널\", \"틴\", \"쑥\", \"혜\", \"것\", \"옮\", \"킹\", \"싼\", \"§\", \"권\", \"틀\", \"인\", \"슴\", \"렛\", \"툰\", \"뼈\", \"펜\", \"믹\", \"샐\", \"찍\", \"앞\", \"靑\", \"✈\", \"순\", \"🙇\", \"할\", \"®\", \"뛸\", \"쉰\", \"챔\", \"렀\", \"젖\", \"雙\", \"딘\", \"깡\", \"킬\", \"榜\", \"尤\", \"벙\", \"으\", \"옴\", \"찾\", \"월\", \"싸\", \"쪽\", \"픕\", \"몹\", \"날\", \"키\", \"立\", \"엄\", \"엌\", \"⑧\", \"탱\", \"뮌\", \"계\", \"칸\", \"닥\", \"따\", \"렵\", \"삶\", \"챨\", \"슈\", \"峴\", \"냠\", \"욜\", \"뇨\", \"⑦\", \"밖\", \"델\", \"흙\", \"떨\", \"뺏\", \"점\", \"의\", \"반\", \"통\", \"윤\", \"變\", \"터\", \"臺\", \"녀\", \"㎍\", \"쌓\", \"약\", \"↕\", \"넵\", \"젊\", \"오\", \"줄\", \"필\", \"‧\", \"잉\", \"도\", \"총\", \"쩍\", \"陸\", \"가\", \"졌\", \"형\", \"욕\", \"뚝\", \"ⅰ\", \"꽃\", \"돕\", \"쥬\", \"과\", \"넹\", \"착\", \"▣\", \"년\", \"梁\", \"🙌\", \"탠\", \"윗\", \"‬\", \"팹\", \"논\", \"르\", \"숯\", \"닿\", \"쉬\", \"ń\", \"훈\", \"방\", \"잃\", \"접\", \"Ⅷ\", \"혁\", \"쌉\", \"캇\", \"태\", \"론\", \"벵\", \"맺\", \"갔\", \"럴\", \"값\", \"옵\", \"편\", \"뼘\", \"ㅐ\", \"진\", \"흔\", \"켄\", \"겼\", \"효\", \"침\", \"쾌\", \"뮈\", \"쏘\", \"젝\", \"잰\", \"뮤\", \"🍔\", \"똘\", \"갛\", \"텨\", \"엿\", \"쫗\", \"템\", \"@\", \"힜\", \"핫\", \"솔\", \"젓\", \"엘\", \"‘\", \"떠\", \"↑\", \"절\", \"츄\", \"농\", \"딸\", \"옳\", \"팰\", \"볼\", \"너\", \"흄\", \"귤\", \"놔\", \"Ⅶ\", \"낯\", \"🌿\", \"던\", \"캡\", \"🤭\", \"부\", \"출\", \"얼\", \"럽\", \"픽\", \"팜\", \"칠\", \"딧\", \"웠\", \"멋\", \"▷\", \"켤\", \"넘\", \"⚀\", \"핀\", \"펄\", \"찌\", \"쳤\", \"ⓒ\", \"氣\", \"數\", \"뷔\", \"팠\", \"랴\", \"심\", \"올\", \"쨍\", \"쓕\", \"⇒\", \"솨\", \"종\", \"붓\", \"알\", \"핥\", \"ㅡ\", \"메\", \"극\", \"걔\", \"료\", \"飮\", \"壞\", \"먹\", \"돋\", \"타\", \"렷\", \"골\", \"짜\", \"쏠\", \"랑\", \"넥\", \"곤\", \"뭥\", \"떴\", \"독\", \"◑\", \"▒\", \"≫\", \"뜨\", \"선\", \"듈\", \"璿\", \"쟁\", \"蚩\", \"될\", \"樂\", \"굵\", \"닝\", \"띕\", \"붕\", \"틔\", \"걀\", \"誡\", \"엉\", \"曆\", \"🙋\", \"不\", \"큐\", \"떼\", \"❍\", \"ㅗ\", \"철\", \"맬\", \"늙\", \"싯\", \"국\", \"렁\", \"⑹\", \"밥\", \"망\", \"석\", \"뉴\", \"율\", \"贖\", \"둘\", \"나\", \"봉\", \"링\", \"산\", \"Ⅱ\", \"쳐\", \"趺\", \"쟈\", \"량\", \"텁\", \"엽\", \"㎞\", \"규\", \"🚿\", \"사\", \"깃\", \"밭\", \"靈\", \"코\", \"弛\", \"쫄\", \"차\", \"웹\", \"분\", \"뚫\", \"매\", \"쿄\", \"댐\", \"개\", \"욥\", \"줌\", \"닛\", \"🍎\", \"Ⅸ\", \"킌\", \"줍\", \"◇\", \"峙\", \"🍰\", \"노\", \"와\", \"龍\", \"쓴\", \"렇\", \"즌\", \"팬\", \"🚨\", \"셉\", \"돗\", \"술\", \"내\", \"🍭\", \"v\", \"↔\", \"었\", \"죠\", \"짤\", \"끈\", \"얹\", \"장\", \"스\", \"롭\", \"촛\", \"😂\", \"털\", \"풍\", \"칙\", \"◈\", \"쩡\", \"녔\", \"£\", \"넌\", \"훨\", \"꼬\", \"답\", \"벽\", \"ⅱ\", \"멀\", \"쪼\", \"몰\", \"모\", \"놈\", \"폈\", \"㉣\", \"천\", \"갓\", \"섦\", \"물\", \"찢\", \"잠\", \"콜\", \"험\", \"령\", \"륙\", \"셌\", \"‍\", \"겉\", \"눠\", \"빙\", \"셜\", \"십\", \"킷\", \"떡\", \"추\", \"츠\", \"외\", \"푸\", \"⊙\", \"›\", \"갉\", \"하\", \"덕\", \"폴\", \"띤\", \"누\", \"😣\", \"컬\", \"금\", \" \", \"낼\", \"덧\", \"괴\", \"밉\", \"뽑\", \"©\", \"헌\", \"뱀\", \"깔\", \"색\", \"짐\", \"잭\", \"걸\", \"쇠\", \"쿡\", \"숨\", \"俠\", \"읊\", \"낙\", \"說\", \"슐\", \"綃\", \"🌳\", \"토\", \"엣\", \"압\", \"첩\", \"꼽\", \"짊\", \"體\", \"擒\", \"벌\", \"ʏ\", \"ㅏ\", \"펙\", \"닌\", \"뒤\", \"충\", \"뜻\", \"︎\", \"퍽\", \"Ⅴ\", \"강\", \"쒀\", \"쿰\", \"늄\", \"지\", \"봐\", \"솟\", \"굴\", \"굳\", \"뻤\", \"⑤\", \"콤\", \"급\", \"뱉\", \"콥\", \"왠\", \"쇄\", \"≪\", \"봅\", \"단\", \"랐\", \"텀\", \"펠\", \"쯔\", \"화\", \"벼\", \"축\", \"良\", \"륵\", \"혈\", \"째\", \"핍\", \"폍\", \"뻐\", \"∼\", \"\", \"뜸\", \"뫼\", \"벗\", \"겔\", \"뿐\", \"훅\", \"ⅳ\", \"꼈\", \"람\", \"판\", \"견\", \"칩\", \"😱\", \"프\", \"퀀\", \"臀\", \"복\", \"겪\", \"잖\", \"운\", \"․\", \"궐\", \"집\", \"젤\", \"놀\", \"‥\", \"잡\", \" \", \"뺀\", \"존\", \"랙\", \"냈\", \"묵\", \"얀\", \"빳\", \"숟\", \"흗\", \"슷\", \"니\", \"웃\", \"립\", \"뀐\", \"샘\", \"녁\", \"엑\", \"컸\", \"긴\", \"왔\", \"획\", \"밴\", \"㈜\", \"‎\", \"¹\", \"빗\", \"튠\", \"붙\", \"뱅\", \"멸\", \"ㄹ\", \"劫\", \"덜\", \"⑶\", \"써\", \"삐\", \"잼\", \"덟\", \"뭉\", \"팍\", \"자\", \"탬\", \"♤\", \"ㅛ\", \"닉\", \"체\", \"틸\", \"서\", \"슛\", \"킴\", \"우\", \"글\", \"되\", \"짓\", \"맛\", \"담\", \"웍\", \"셰\", \"꾀\", \"썬\", \"학\", \"씽\", \"랫\", \"빡\", \"ʟ\", \"냅\", \"갇\", \"덤\", \"펴\", \"둑\", \"엮\", \"입\", \"퀴\", \"팽\", \"챙\", \"밑\", \"왓\", \"씻\", \"ㅋ\", \"拜\", \"넛\", \"퉁\", \"썩\", \"쑤\", \"🏷\", \"책\", \"엎\", \"ㄴ\", \"늬\", \"신\", \"볶\", \"머\", \"껀\", \"ㅝ\", \"쿼\", \"영\", \"빨\", \"얄\", \"톡\"]",
9612
  "lossless": false
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9613
  }
9614
  }
 
9610
  "oov_ratio": 0.7118713655580824,
9611
  "_oov_charset": "[\"윈\", \"드\", \"싣\", \"譯\", \"칵\", \"섯\", \"🥁\", \"미\", \"을\", \"펌\", \"싶\", \"퀘\", \"뭇\", \"묘\", \"폭\", \"룡\", \"^\", \"훔\", \"츈\", \"😗\", \"ㅙ\", \"Ⅲ\", \"잣\", \"른\", \"밀\", \"및\", \"근\", \"붉\", \"훑\", \"액\", \"껍\", \"參\", \"샴\", \"린\", \"업\", \"맙\", \"빵\", \"힐\", \"쫀\", \"푹\", \"꺽\", \"얻\", \"└\", \"Ⅹ\", \"믐\", \"쁨\", \"궤\", \"남\", \"햇\", \"숲\", \"밋\", \"ㅁ\", \"유\", \"늘\", \"뵙\", \"돼\", \"네\", \"쥔\", \"은\", \"넨\", \"듭\", \"륜\", \"특\", \"룹\", \"댈\", \"ㅕ\", \"️\", \"힘\", \"핏\", \"억\", \"겁\", \"딜\", \"榮\", \"🍞\", \"깥\", \"ᴄ\", \"앨\", \"위\", \"푼\", \"툼\", \"콩\", \"왼\", \"뗀\", \"음\", \"결\", \"專\", \"낮\", \"ㄱ\", \"구\", \"⁴\", \"작\", \"눔\", \"♣\", \"金\", \"禮\", \"◦\", \"팀\", \"­\", \"넓\", \"☞\", \"쬐\", \"ㅇ\", \"경\", \"득\", \"덥\", \"쩌\", \"㉰\", \"벚\", \"쪄\", \"얍\", \"켓\", \"닫\", \"송\", \"💸\", \"톤\", \"혀\", \"卽\", \"폼\", \"듯\", \"팥\", \"멜\", \"포\", \"읽\", \"맵\", \"굉\", \"껏\", \"괄\", \"셀\", \"속\", \"잎\", \"촨\", \"다\", \"례\", \"킵\", \"듣\", \"펀\", \"⋅\", \"컴\", \"?\", \"친\", \"풀\", \"ã\", \"챗\", \"짱\", \"목\", \"겟\", \"넣\", \"랬\", \"🤕\", \"란\", \"온\", \"튿\", \"ㅓ\", \"쌍\", \"같\", \"본\", \"Ⅰ\", \"벨\", \"이\", \"승\", \"죤\", \"앰\", \"밧\", \"칫\", \"쓰\", \"먼\", \"뿔\", \"픈\", \"투\", \"련\", \"로\", \"즙\", \"객\", \"뻔\", \"잇\", \"놓\", \"콰\", \"캄\", \"륭\", \"팡\", \"맴\", \"긁\", \"싱\", \"좋\", \"👍\", \"북\", \"쉘\", \"틋\", \"갖\", \"증\", \"쌀\", \"뒷\", \"캔\", \"펩\", \"뵐\", \"풋\", \"➎\", \"밍\", \"렘\", \"👋\", \"표\", \"럼\", \"쐐\", \"손\", \"덴\", \"묻\", \"훠\", \"꺼\", \"밌\", \"뛰\", \"마\", \"협\", \"맨\", \"잊\", \"휘\", \"격\", \"②\", \"➊\", \"눕\", \"낍\", \"벳\", \"ㅈ\", \"냄\", \"햄\", \"펑\", \"♧\", \"갭\", \"멤\", \"디\", \"캣\", \"춘\", \"뜯\", \"팟\", \"낱\", \"각\", \"◆\", \"뽐\", \"뭘\", \"깽\", \"뉘\", \"빕\", \"텔\", \"용\", \"준\", \"빔\", \"쾅\", \"ㅜ\", \"에\", \"밝\", \"뜹\", \"며\", \"록\", \"눌\", \"왜\", \"ㅎ\", \"ㅍ\", \"념\", \"뭐\", \"그\", \"러\", \"텍\", \"옷\", \"곳\", \"테\", \"엇\", \"믿\", \"룩\", \"뭔\", \"💰\", \"만\", \"燭\", \"즘\", \"끄\", \"섬\", \"염\", \"럭\", \"명\", \"왁\", \"엡\", \"섣\", \"↓\", \"슨\", \"랄\", \"ㅠ\", \"눅\", \"즉\", \"빛\", \"치\", \"호\", \"찰\", \"별\", \"성\", \"핸\", \"씌\", \"식\", \"촘\", \"♀\", \"떤\", \"딱\", \"완\", \"⑥\", \"왕\", \"샷\", \"꾸\", \"시\", \"섰\", \"설\", \"씨\", \"얇\", \"냐\", \"뽀\", \"♥\", \"힉\", \"슝\", \"듬\", \"최\", \"🦄\", \"향\", \"숫\", \"잴\", \"케\", \"떄\", \"팎\", \"합\", \"몸\", \"ㅊ\", \"옥\", \"애\", \"춤\", \"쾨\", \"찜\", \"맞\", \"현\", \"수\", \"카\", \"땐\", \"암\", \"갱\", \"꺄\", \"힌\", \"볕\", \"戌\", \"뜩\", \"낌\", \"짙\", \"삿\", \"짖\", \"💡\", \"베\", \"져\", \"뜬\", \"삘\", \"∮\", \"씹\", \"웨\", \"횡\", \"팅\", \"막\", \"떳\", \"끊\", \"웁\", \"딛\", \"보\", \"챌\", \"롯\", \"♡\", \"릿\", \"눴\", \"난\", \"력\", \"곶\", \"패\", \"많\", \"바\", \"센\", \"캉\", \"게\", \"춧\", \"창\", \"탰\", \"」\", \"병\", \"므\", \"없\", \"깜\", \"黃\", \"쏟\", \"쳇\", \"맡\", \"홉\", \"안\", \"당\", \"언\", \"겐\", \"찔\", \"궜\", \"좆\", \"꽂\", \"홈\", \"돌\", \"쉴\", \"둔\", \"광\", \"렐\", \"緞\", \"몽\", \"죄\", \"습\", \"루\", \"좁\", \"상\", \"濟\", \"솜\", \"틈\", \"€\", \"워\", \"닐\", \"퀵\", \"댄\", \"낳\", \"밟\", \"⑸\", \"쥰\", \"플\", \"튬\", \"뷰\", \"겸\", \"괜\", \"굿\", \"줬\", \"휙\", \"역\", \"»\", \"≤\", \"∙\", \"끌\", \"吳\", \"텅\", \"채\", \"렴\", \"겨\", \"곽\", \"파\", \"첫\", \"공\", \"겹\", \"야\", \"藥\", \"對\", \"짚\", \"기\", \"뎀\", \"屠\", \"끼\", \"짠\", \"슬\", \"쏭\", \"깁\", \"또\", \"콕\", \"티\", \"꿨\", \"션\", \"첼\", \"싹\", \"🦅\", \"◼\", \"김\", \"뉜\", \"얕\", \"뒀\", \"롱\", \"둬\", \"휠\", \"ㅞ\", \"삽\", \"①\", \"렸\", \"�\", \"\", \"④\", \"함\", \"✔\", \"썸\", \"곱\", \"께\", \"똥\", \"늦\", \"ᴀ\", \"비\", \"중\", \"류\", \"웰\", \"將\", \"융\", \"환\", \"췄\", \"해\", \"콘\", \"女\", \"새\", \"💌\", \"쥐\", \"뻑\", \"섞\", \"홋\", \"ω\", \"쎄\", \"굶\", \"껑\", \"튜\", \"큰\", \"㎥\", \"잦\", \"폿\", \"멕\", \"샌\", \"듀\", \"척\", \"🗺\", \"쿵\", \"받\", \"밤\", \"▶\", \"걍\", \"썹\", \"빼\", \"았\", \"백\", \"런\", \"敎\", \"품\", \"길\", \"름\", \"원\", \"킨\", \"빤\", \"까\", \"랩\", \"ᴛ\", \"⑴\", \"걷\", \"섭\", \"릎\", \"짝\", \"꿰\", \"③\", \"⑨\", \"틱\", \"혐\", \"했\", \"는\", \"툴\", \"劍\", \"짭\", \"씩\", \"덮\", \"교\", \"문\", \"한\", \"딤\", \"끝\", \"취\", \"활\", \"琪\", \"큼\", \"탈\", \"빚\", \"옐\", \"☀\", \"ㄷ\", \"림\", \"둡\", \"군\", \"능\", \"롤\", \"빅\", \"불\", \"…\", \"촬\", \"전\", \"Ⅳ\", \"높\", \"셈\", \"샹\", \"淨\", \"흉\", \"뜰\", \"딴\", \"💕\", \"앱\", \"觸\", \"흩\", \"퇴\", \"켐\", \"들\", \"냥\", \"꿍\", \"➋\", \"족\", \"롬\", \"둥\", \"←\", \"끽\", \"고\", \"끙\", \"꼴\", \"갚\", \"ㅒ\", \"찮\", \"쇼\", \"항\", \"ㅔ\", \"양\", \"쎈\", \"燦\", \"무\", \"롸\", \"행\", \"말\", \"□\", \"ㅚ\", \"브\", \"둠\", \"때\", \"꿔\", \"뤄\", \"쿠\", \"셋\", \"익\", \"릴\", \"깨\", \"빴\", \"經\", \"꿈\", \"궁\", \"쫓\", \"槪\", \"대\", \"묶\", \"렬\", \"든\", \"낀\", \"셨\", \"內\", \"🔹\", \"램\", \"쩔\", \"레\", \"밸\", \"앎\", \"윌\", \"평\", \"뀔\", \"곧\", \"앤\", \"씀\", \"텐\", \"좀\", \"셔\", \"쉼\", \"략\", \"범\", \"횟\", \"낭\", \"쟤\", \"옌\", \"납\", \"려\", \"퍙\", \"쁠\", \"악\", \"웖\", \"​\", \"숭\", \"〮\", \"썰\", \"탭\", \"트\", \"졸\", \"띈\", \"긋\", \"릇\", \"아\", \"랭\", \"됐\", \"예\", \"갤\", \"찬\", \"초\", \"假\", \"켰\", \"민\", \"쨌\", \"홍\", \"않\", \"갯\", \"갑\", \"켠\", \"ㅑ\", \"悧\", \"🍕\", \"리\", \"거\", \"렜\", \"뺐\", \"귈\", \"혼\", \"숱\", \"첨\", \"➍\", \"간\", \"녜\", \"덩\", \"얘\", \"허\", \"딪\", \"뮐\", \"캠\", \"꼭\", \"賣\", \"🤔\", \"똑\", \"🏫\", \"래\", \"💥\", \"훗\", \"㉿\", \"곡\", \"킁\", \"돠\", \"👨\", \"뻗\", \"낡\", \"탓\", \"關\", \"회\", \"됩\", \"댔\", \"젠\", \"열\", \"훌\", \"價\", \"혔\", \"섹\", \"펼\", \"핵\", \"숍\", \"법\", \"빌\", \"릅\", \"임\", \"꾼\", \"탑\", \"휩\", \"데\", \"理\", \"된\", \"헨\", \"옹\", \"ㅖ\", \"앵\", \"짬\", \"쁜\", \"뿍\", \"쩐\", \"옛\", \"㉠\", \"쯤\", \"좌\", \"ㅟ\", \"ㅆ\", \"땅\", \"❏\", \"녕\", \"흑\", \"⬇\", \"어\", \"씬\", \"관\", \"솥\", \"發\", \"닙\", \"돈\", \"팝\", \"累\", \"퓰\", \"봤\", \"홀\", \"냉\", \"움\", \"좇\", \"욱\", \"쫑\", \"컷\", \"캘\", \"탐\", \"s\", \"굽\", \"응\", \"앉\", \"휴\", \"큽\", \"싫\", \"줘\", \"톨\", \"識\", \"님\", \"퀄\", \"라\", \"헝\", \"짧\", \"참\", \"흠\", \"ᴇ\", \"생\", \"뚜\", \"컵\", \"꿕\", \"ᴍ\", \"맑\", \"「\", \"췌\", \"희\", \"왘\", \"戮\", \"닷\", \"넉\", \"渴\", \"감\", \"²\", \"킥\", \"눈\", \"댁\", \"힙\", \"꺾\", \"겠\", \"🤗\", \"클\", \"폄\", \"쫒\", \"꽁\", \"첸\", \"빠\", \"박\", \"뤘\", \"켜\", \"跏\", \"샬\", \"곁\", \"릉\", \"동\", \"번\", \"랍\", \"측\", \"뮬\", \"띠\", \"‪\", \"저\", \"빈\", \"뾱\", \"궈\", \"훼\", \"😊\", \"ⅲ\", \"얏\", \"퓨\", \"℃\", \"꿀\", \"컨\", \"듐\", \"배\", \"갈\", \"났\", \"몇\", \"뛴\", \"처\", \"폰\", \"*\", \"렌\", \"\", \"땡\", \"잘\", \"턱\", \"픔\", \"꽉\", \"샤\", \"⑵\", \"🙆\", \"균\", \"獻\", \"낄\", \"뱃\", \"즐\", \"닭\", \"청\", \"숙\", \"悖\", \"붐\", \"연\", \"쁘\", \"➌\", \"옆\", \"락\", \"낚\", \"켈\", \"크\", \"삭\", \"▼\", \"죽\", \"쓸\", \"제\", \"택\", \"븐\", \"질\", \"팔\", \"확\", \"🏻\", \"요\", \"流\", \"직\", \"턴\", \"뺑\", \"깝\", \"울\", \"핑\", \"`\", \"앗\", \"곰\", \"껴\", \"적\", \"놨\", \"여\", \"◎\", \"엠\", \"맷\", \"歲\", \"퍼\", \"%\", \"피\", \"ɪ\", \"커\", \"|\", \"땠\", \"끓\", \"꿇\", \"💅\", \"헉\", \"깐\", \"웅\", \"◀\", \"헤\", \"땀\", \"앓\", \"맹\", \"띄\", \"닮\", \"춥\", \"ㅢ\", \"깊\", \"세\", \"일\", \"뿌\", \"됬\", \"璣\", \"룬\", \"실\", \"귀\", \"鎭\", \"툭\", \"면\", \"촉\", \"층\", \"ᴡ\", \"믄\", \"샀\", \"찼\", \"폐\", \"못\", \"낫\", \"쵸\", \"봬\", \"닳\", \"였\", \"멍\", \"헬\", \"팁\", \"퀸\", \"딩\", \"멈\", \"낸\", \"◐\", \"톰\", \"봄\", \"쌩\", \"더\", \"💦\", \"몫\", \"윙\", \"ᴏ\", \"튼\", \"쭉\", \"넷\", \"獨\", \"뿜\", \"튀\", \"쭈\", \"Ⅵ\", \"맘\", \"벅\", \"읍\", \"맥\", \"•\", \"탁\", \"얽\", \"➏\", \"소\", \"떻\", \"두\", \"렉\", \"봇\", \"잤\", \"韜\", \"탕\", \"홑\", \"히\", \"정\", \"늑\", \"걱\", \"쿤\", \"를\", \"닦\", \"썅\", \"쿨\", \"페\", \"헛\", \"살\", \"녘\", \"헐\", \"즈\", \"삼\", \"느\", \"톱\", \"됨\", \"릭\", \"괌\", \"💣\", \"주\", \"뢰\", \"뇌\", \"블\", \"㏊\", \"검\", \"돔\", \"률\", \"달\", \"흥\", \"ㆍ\", \"칭\", \"멘\", \"🤟\", \"건\", \"ㅅ\", \"🌵\", \"칼\", \"황\", \"ⓔ\", \"긍\", \"끗\", \"버\", \"쏙\", \"쐬\", \"앙\", \"댓\", \"흐\", \"끔\", \"樂\", \"ㅣ\", \"☎\", \"뀌\", \"쉽\", \"룸\", \"짢\", \"재\", \"웬\", \"德\", \"륨\", \"럿\", \"蟄\", \"등\", \"샵\", \"팩\", \"ㅘ\", \"변\", \"넬\", \"탄\", \"발\", \"🍟\", \"촌\", \"벤\", \"있\", \"썼\", \"흘\", \"랜\", \"諒\", \"줏\", \"딥\", \"😭\", \"조\", \"잔\", \"볍\", \"❤\", \"엔\", \"흰\", \"👏\", \"뎅\", \":\", \"육\", \"혹\", \"흡\", \"뤼\", \"꽤\", \"쌈\", \"룰\", \"㎡\", \"숏\", \"셸\", \"캐\", \"춰\", \"쭙\", \"꽝\", \"녹\", \"쏜\", \"◾\", \"후\", \"삣\", \"몬\", \"튄\", \"텝\", \"깅\", \"징\", \"널\", \"틴\", \"쑥\", \"혜\", \"것\", \"옮\", \"킹\", \"싼\", \"§\", \"권\", \"틀\", \"인\", \"슴\", \"렛\", \"툰\", \"뼈\", \"펜\", \"믹\", \"샐\", \"찍\", \"앞\", \"靑\", \"✈\", \"순\", \"🙇\", \"할\", \"®\", \"뛸\", \"쉰\", \"챔\", \"렀\", \"젖\", \"雙\", \"딘\", \"깡\", \"킬\", \"榜\", \"尤\", \"벙\", \"으\", \"옴\", \"찾\", \"월\", \"싸\", \"쪽\", \"픕\", \"몹\", \"날\", \"키\", \"立\", \"엄\", \"엌\", \"⑧\", \"탱\", \"뮌\", \"계\", \"칸\", \"닥\", \"따\", \"렵\", \"삶\", \"챨\", \"슈\", \"峴\", \"냠\", \"욜\", \"뇨\", \"⑦\", \"밖\", \"델\", \"흙\", \"떨\", \"뺏\", \"점\", \"의\", \"반\", \"통\", \"윤\", \"變\", \"터\", \"臺\", \"녀\", \"㎍\", \"쌓\", \"약\", \"↕\", \"넵\", \"젊\", \"오\", \"줄\", \"필\", \"‧\", \"잉\", \"도\", \"총\", \"쩍\", \"陸\", \"가\", \"졌\", \"형\", \"욕\", \"뚝\", \"ⅰ\", \"꽃\", \"돕\", \"쥬\", \"과\", \"넹\", \"착\", \"▣\", \"년\", \"梁\", \"🙌\", \"탠\", \"윗\", \"‬\", \"팹\", \"논\", \"르\", \"숯\", \"닿\", \"쉬\", \"ń\", \"훈\", \"방\", \"잃\", \"접\", \"Ⅷ\", \"혁\", \"쌉\", \"캇\", \"태\", \"론\", \"벵\", \"맺\", \"갔\", \"럴\", \"값\", \"옵\", \"편\", \"뼘\", \"ㅐ\", \"진\", \"흔\", \"켄\", \"겼\", \"효\", \"침\", \"쾌\", \"뮈\", \"쏘\", \"젝\", \"잰\", \"뮤\", \"🍔\", \"똘\", \"갛\", \"텨\", \"엿\", \"쫗\", \"템\", \"@\", \"힜\", \"핫\", \"솔\", \"젓\", \"엘\", \"‘\", \"떠\", \"↑\", \"절\", \"츄\", \"농\", \"딸\", \"옳\", \"팰\", \"볼\", \"너\", \"흄\", \"귤\", \"놔\", \"Ⅶ\", \"낯\", \"🌿\", \"던\", \"캡\", \"🤭\", \"부\", \"출\", \"얼\", \"럽\", \"픽\", \"팜\", \"칠\", \"딧\", \"웠\", \"멋\", \"▷\", \"켤\", \"넘\", \"⚀\", \"핀\", \"펄\", \"찌\", \"쳤\", \"ⓒ\", \"氣\", \"數\", \"뷔\", \"팠\", \"랴\", \"심\", \"올\", \"쨍\", \"쓕\", \"⇒\", \"솨\", \"종\", \"붓\", \"알\", \"핥\", \"ㅡ\", \"메\", \"극\", \"걔\", \"료\", \"飮\", \"壞\", \"먹\", \"돋\", \"타\", \"렷\", \"골\", \"짜\", \"쏠\", \"랑\", \"넥\", \"곤\", \"뭥\", \"떴\", \"독\", \"◑\", \"▒\", \"≫\", \"뜨\", \"선\", \"듈\", \"璿\", \"쟁\", \"蚩\", \"될\", \"樂\", \"굵\", \"닝\", \"띕\", \"붕\", \"틔\", \"걀\", \"誡\", \"엉\", \"曆\", \"🙋\", \"不\", \"큐\", \"떼\", \"❍\", \"ㅗ\", \"철\", \"맬\", \"늙\", \"싯\", \"국\", \"렁\", \"⑹\", \"밥\", \"망\", \"석\", \"뉴\", \"율\", \"贖\", \"둘\", \"나\", \"봉\", \"링\", \"산\", \"Ⅱ\", \"쳐\", \"趺\", \"쟈\", \"량\", \"텁\", \"엽\", \"㎞\", \"규\", \"🚿\", \"사\", \"깃\", \"밭\", \"靈\", \"코\", \"弛\", \"쫄\", \"차\", \"웹\", \"분\", \"뚫\", \"매\", \"쿄\", \"댐\", \"개\", \"욥\", \"줌\", \"닛\", \"🍎\", \"Ⅸ\", \"킌\", \"줍\", \"◇\", \"峙\", \"🍰\", \"노\", \"와\", \"龍\", \"쓴\", \"렇\", \"즌\", \"팬\", \"🚨\", \"셉\", \"돗\", \"술\", \"내\", \"🍭\", \"v\", \"↔\", \"었\", \"죠\", \"짤\", \"끈\", \"얹\", \"장\", \"스\", \"롭\", \"촛\", \"😂\", \"털\", \"풍\", \"칙\", \"◈\", \"쩡\", \"녔\", \"£\", \"넌\", \"훨\", \"꼬\", \"답\", \"벽\", \"ⅱ\", \"멀\", \"쪼\", \"몰\", \"모\", \"놈\", \"폈\", \"㉣\", \"천\", \"갓\", \"섦\", \"물\", \"찢\", \"잠\", \"콜\", \"험\", \"령\", \"륙\", \"셌\", \"‍\", \"겉\", \"눠\", \"빙\", \"셜\", \"십\", \"킷\", \"떡\", \"추\", \"츠\", \"외\", \"푸\", \"⊙\", \"›\", \"갉\", \"하\", \"덕\", \"폴\", \"띤\", \"누\", \"😣\", \"컬\", \"금\", \" \", \"낼\", \"덧\", \"괴\", \"밉\", \"뽑\", \"©\", \"헌\", \"뱀\", \"깔\", \"색\", \"짐\", \"잭\", \"걸\", \"쇠\", \"쿡\", \"숨\", \"俠\", \"읊\", \"낙\", \"說\", \"슐\", \"綃\", \"🌳\", \"토\", \"엣\", \"압\", \"첩\", \"꼽\", \"짊\", \"體\", \"擒\", \"벌\", \"ʏ\", \"ㅏ\", \"펙\", \"닌\", \"뒤\", \"충\", \"뜻\", \"︎\", \"퍽\", \"Ⅴ\", \"강\", \"쒀\", \"쿰\", \"늄\", \"지\", \"봐\", \"솟\", \"굴\", \"굳\", \"뻤\", \"⑤\", \"콤\", \"급\", \"뱉\", \"콥\", \"왠\", \"쇄\", \"≪\", \"봅\", \"단\", \"랐\", \"텀\", \"펠\", \"쯔\", \"화\", \"벼\", \"축\", \"良\", \"륵\", \"혈\", \"째\", \"핍\", \"폍\", \"뻐\", \"∼\", \"\", \"뜸\", \"뫼\", \"벗\", \"겔\", \"뿐\", \"훅\", \"ⅳ\", \"꼈\", \"람\", \"판\", \"견\", \"칩\", \"😱\", \"프\", \"퀀\", \"臀\", \"복\", \"겪\", \"잖\", \"운\", \"․\", \"궐\", \"집\", \"젤\", \"놀\", \"‥\", \"잡\", \" \", \"뺀\", \"존\", \"랙\", \"냈\", \"묵\", \"얀\", \"빳\", \"숟\", \"흗\", \"슷\", \"니\", \"웃\", \"립\", \"뀐\", \"샘\", \"녁\", \"엑\", \"컸\", \"긴\", \"왔\", \"획\", \"밴\", \"㈜\", \"‎\", \"¹\", \"빗\", \"튠\", \"붙\", \"뱅\", \"멸\", \"ㄹ\", \"劫\", \"덜\", \"⑶\", \"써\", \"삐\", \"잼\", \"덟\", \"뭉\", \"팍\", \"자\", \"탬\", \"♤\", \"ㅛ\", \"닉\", \"체\", \"틸\", \"서\", \"슛\", \"킴\", \"우\", \"글\", \"되\", \"짓\", \"맛\", \"담\", \"웍\", \"셰\", \"꾀\", \"썬\", \"학\", \"씽\", \"랫\", \"빡\", \"ʟ\", \"냅\", \"갇\", \"덤\", \"펴\", \"둑\", \"엮\", \"입\", \"퀴\", \"팽\", \"챙\", \"밑\", \"왓\", \"씻\", \"ㅋ\", \"拜\", \"넛\", \"퉁\", \"썩\", \"쑤\", \"🏷\", \"책\", \"엎\", \"ㄴ\", \"늬\", \"신\", \"볶\", \"머\", \"껀\", \"ㅝ\", \"쿼\", \"영\", \"빨\", \"얄\", \"톡\"]",
9612
  "lossless": false
9613
+ },
9614
+ "01-ai/Yi-1.5-34B @ cc100/ar": {
9615
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9616
+ "organization": "Yi",
9617
+ "vocab_size": 63992,
9618
+ "_n_bytes": 2813283,
9619
+ "_n_tokens": 1795801,
9620
+ "_n_chars": 1560987,
9621
+ "_n_oov_chars": 0,
9622
+ "oov_ratio": 0.0,
9623
+ "_oov_charset": "[]",
9624
+ "lossless": true
9625
+ },
9626
+ "01-ai/Yi-1.5-34B @ cc100/de": {
9627
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9628
+ "organization": "Yi",
9629
+ "vocab_size": 63992,
9630
+ "_n_bytes": 1814876,
9631
+ "_n_tokens": 698366,
9632
+ "_n_chars": 1784021,
9633
+ "_n_oov_chars": 0,
9634
+ "oov_ratio": 0.0,
9635
+ "_oov_charset": "[]",
9636
+ "lossless": true
9637
+ },
9638
+ "01-ai/Yi-1.5-34B @ cc100/en": {
9639
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9640
+ "organization": "Yi",
9641
+ "vocab_size": 63992,
9642
+ "_n_bytes": 1124813,
9643
+ "_n_tokens": 270399,
9644
+ "_n_chars": 1121360,
9645
+ "_n_oov_chars": 0,
9646
+ "oov_ratio": 0.0,
9647
+ "_oov_charset": "[]",
9648
+ "lossless": true
9649
+ },
9650
+ "01-ai/Yi-1.5-34B @ cc100/es": {
9651
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9652
+ "organization": "Yi",
9653
+ "vocab_size": 63992,
9654
+ "_n_bytes": 1664455,
9655
+ "_n_tokens": 577018,
9656
+ "_n_chars": 1630297,
9657
+ "_n_oov_chars": 0,
9658
+ "oov_ratio": 0.0,
9659
+ "_oov_charset": "[]",
9660
+ "lossless": true
9661
+ },
9662
+ "01-ai/Yi-1.5-34B @ cc100/fa": {
9663
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9664
+ "organization": "Yi",
9665
+ "vocab_size": 63992,
9666
+ "_n_bytes": 2054052,
9667
+ "_n_tokens": 1337264,
9668
+ "_n_chars": 1145876,
9669
+ "_n_oov_chars": 0,
9670
+ "oov_ratio": 0.0,
9671
+ "_oov_charset": "[]",
9672
+ "lossless": true
9673
+ },
9674
+ "01-ai/Yi-1.5-34B @ cc100/fr": {
9675
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9676
+ "organization": "Yi",
9677
+ "vocab_size": 63992,
9678
+ "_n_bytes": 1540504,
9679
+ "_n_tokens": 533106,
9680
+ "_n_chars": 1484970,
9681
+ "_n_oov_chars": 0,
9682
+ "oov_ratio": 0.0,
9683
+ "_oov_charset": "[]",
9684
+ "lossless": true
9685
+ },
9686
+ "01-ai/Yi-1.5-34B @ cc100/ja": {
9687
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9688
+ "organization": "Yi",
9689
+ "vocab_size": 63992,
9690
+ "_n_bytes": 1774770,
9691
+ "_n_tokens": 740791,
9692
+ "_n_chars": 603065,
9693
+ "_n_oov_chars": 0,
9694
+ "oov_ratio": 0.0,
9695
+ "_oov_charset": "[]",
9696
+ "lossless": true
9697
+ },
9698
+ "01-ai/Yi-1.5-34B @ cc100/ko": {
9699
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9700
+ "organization": "Yi",
9701
+ "vocab_size": 63992,
9702
+ "_n_bytes": 1524839,
9703
+ "_n_tokens": 1203134,
9704
+ "_n_chars": 655190,
9705
+ "_n_oov_chars": 0,
9706
+ "oov_ratio": 0.0,
9707
+ "_oov_charset": "[]",
9708
+ "lossless": true
9709
+ },
9710
+ "01-ai/Yi-1.5-34B @ cc100/zh-Hans": {
9711
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
9712
+ "organization": "Yi",
9713
+ "vocab_size": 63992,
9714
+ "_n_bytes": 2633047,
9715
+ "_n_tokens": 588729,
9716
+ "_n_chars": 927311,
9717
+ "_n_oov_chars": 0,
9718
+ "oov_ratio": 0.0,
9719
+ "_oov_charset": "[]",
9720
+ "lossless": true
9721
+ },
9722
+ "Qwen/Qwen2-72B @ cc100/ar": {
9723
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9724
+ "organization": "Alibaba",
9725
+ "vocab_size": 151646,
9726
+ "_n_bytes": 2813283,
9727
+ "_n_tokens": 614959,
9728
+ "_n_chars": 1560987,
9729
+ "_n_oov_chars": 0,
9730
+ "oov_ratio": 0.0,
9731
+ "_oov_charset": "[]",
9732
+ "lossless": false
9733
+ },
9734
+ "Qwen/Qwen2-72B @ cc100/de": {
9735
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9736
+ "organization": "Alibaba",
9737
+ "vocab_size": 151646,
9738
+ "_n_bytes": 1814876,
9739
+ "_n_tokens": 503561,
9740
+ "_n_chars": 1784021,
9741
+ "_n_oov_chars": 0,
9742
+ "oov_ratio": 0.0,
9743
+ "_oov_charset": "[]",
9744
+ "lossless": false
9745
+ },
9746
+ "Qwen/Qwen2-72B @ cc100/en": {
9747
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9748
+ "organization": "Alibaba",
9749
+ "vocab_size": 151646,
9750
+ "_n_bytes": 1124813,
9751
+ "_n_tokens": 257983,
9752
+ "_n_chars": 1121360,
9753
+ "_n_oov_chars": 0,
9754
+ "oov_ratio": 0.0,
9755
+ "_oov_charset": "[]",
9756
+ "lossless": true
9757
+ },
9758
+ "Qwen/Qwen2-72B @ cc100/es": {
9759
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9760
+ "organization": "Alibaba",
9761
+ "vocab_size": 151646,
9762
+ "_n_bytes": 1664455,
9763
+ "_n_tokens": 434264,
9764
+ "_n_chars": 1630297,
9765
+ "_n_oov_chars": 0,
9766
+ "oov_ratio": 0.0,
9767
+ "_oov_charset": "[]",
9768
+ "lossless": true
9769
+ },
9770
+ "Qwen/Qwen2-72B @ cc100/fa": {
9771
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9772
+ "organization": "Alibaba",
9773
+ "vocab_size": 151646,
9774
+ "_n_bytes": 2054052,
9775
+ "_n_tokens": 643421,
9776
+ "_n_chars": 1145876,
9777
+ "_n_oov_chars": 0,
9778
+ "oov_ratio": 0.0,
9779
+ "_oov_charset": "[]",
9780
+ "lossless": false
9781
+ },
9782
+ "Qwen/Qwen2-72B @ cc100/fr": {
9783
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9784
+ "organization": "Alibaba",
9785
+ "vocab_size": 151646,
9786
+ "_n_bytes": 1540504,
9787
+ "_n_tokens": 413637,
9788
+ "_n_chars": 1484970,
9789
+ "_n_oov_chars": 0,
9790
+ "oov_ratio": 0.0,
9791
+ "_oov_charset": "[]",
9792
+ "lossless": false
9793
+ },
9794
+ "Qwen/Qwen2-72B @ cc100/ja": {
9795
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9796
+ "organization": "Alibaba",
9797
+ "vocab_size": 151646,
9798
+ "_n_bytes": 1774770,
9799
+ "_n_tokens": 377144,
9800
+ "_n_chars": 603065,
9801
+ "_n_oov_chars": 0,
9802
+ "oov_ratio": 0.0,
9803
+ "_oov_charset": "[]",
9804
+ "lossless": false
9805
+ },
9806
+ "Qwen/Qwen2-72B @ cc100/ko": {
9807
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9808
+ "organization": "Alibaba",
9809
+ "vocab_size": 151646,
9810
+ "_n_bytes": 1524839,
9811
+ "_n_tokens": 457492,
9812
+ "_n_chars": 655190,
9813
+ "_n_oov_chars": 25,
9814
+ "oov_ratio": 3.815687052610693e-05,
9815
+ "_oov_charset": "[\"立\", \"樂\", \"陸\", \"累\", \"龍\", \"梁\", \"金\", \"識\", \"女\", \"樂\", \"流\", \"良\", \"不\", \"靈\", \"理\"]",
9816
+ "lossless": false
9817
+ },
9818
+ "Qwen/Qwen2-72B @ cc100/zh-Hans": {
9819
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
9820
+ "organization": "Alibaba",
9821
+ "vocab_size": 151646,
9822
+ "_n_bytes": 2633047,
9823
+ "_n_tokens": 589211,
9824
+ "_n_chars": 927311,
9825
+ "_n_oov_chars": 0,
9826
+ "oov_ratio": 0.0,
9827
+ "_oov_charset": "[]",
9828
+ "lossless": true
9829
+ },
9830
+ "apple/DCLM-7B @ cc100/ar": {
9831
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9832
+ "organization": "Apple",
9833
+ "vocab_size": 50277,
9834
+ "_n_bytes": 2813283,
9835
+ "_n_tokens": 1106277,
9836
+ "_n_chars": 1560987,
9837
+ "_n_oov_chars": 0,
9838
+ "oov_ratio": 0.0,
9839
+ "_oov_charset": "[]",
9840
+ "lossless": false
9841
+ },
9842
+ "apple/DCLM-7B @ cc100/de": {
9843
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9844
+ "organization": "Apple",
9845
+ "vocab_size": 50277,
9846
+ "_n_bytes": 1814876,
9847
+ "_n_tokens": 583628,
9848
+ "_n_chars": 1784021,
9849
+ "_n_oov_chars": 0,
9850
+ "oov_ratio": 0.0,
9851
+ "_oov_charset": "[]",
9852
+ "lossless": false
9853
+ },
9854
+ "apple/DCLM-7B @ cc100/en": {
9855
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9856
+ "organization": "Apple",
9857
+ "vocab_size": 50277,
9858
+ "_n_bytes": 1124813,
9859
+ "_n_tokens": 259357,
9860
+ "_n_chars": 1121360,
9861
+ "_n_oov_chars": 0,
9862
+ "oov_ratio": 0.0,
9863
+ "_oov_charset": "[]",
9864
+ "lossless": false
9865
+ },
9866
+ "apple/DCLM-7B @ cc100/es": {
9867
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9868
+ "organization": "Apple",
9869
+ "vocab_size": 50277,
9870
+ "_n_bytes": 1664455,
9871
+ "_n_tokens": 494577,
9872
+ "_n_chars": 1630297,
9873
+ "_n_oov_chars": 0,
9874
+ "oov_ratio": 0.0,
9875
+ "_oov_charset": "[]",
9876
+ "lossless": false
9877
+ },
9878
+ "apple/DCLM-7B @ cc100/fa": {
9879
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9880
+ "organization": "Apple",
9881
+ "vocab_size": 50277,
9882
+ "_n_bytes": 2054052,
9883
+ "_n_tokens": 866434,
9884
+ "_n_chars": 1145876,
9885
+ "_n_oov_chars": 0,
9886
+ "oov_ratio": 0.0,
9887
+ "_oov_charset": "[]",
9888
+ "lossless": false
9889
+ },
9890
+ "apple/DCLM-7B @ cc100/fr": {
9891
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9892
+ "organization": "Apple",
9893
+ "vocab_size": 50277,
9894
+ "_n_bytes": 1540504,
9895
+ "_n_tokens": 458961,
9896
+ "_n_chars": 1484970,
9897
+ "_n_oov_chars": 0,
9898
+ "oov_ratio": 0.0,
9899
+ "_oov_charset": "[]",
9900
+ "lossless": false
9901
+ },
9902
+ "apple/DCLM-7B @ cc100/ja": {
9903
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9904
+ "organization": "Apple",
9905
+ "vocab_size": 50277,
9906
+ "_n_bytes": 1774770,
9907
+ "_n_tokens": 605168,
9908
+ "_n_chars": 603065,
9909
+ "_n_oov_chars": 0,
9910
+ "oov_ratio": 0.0,
9911
+ "_oov_charset": "[]",
9912
+ "lossless": false
9913
+ },
9914
+ "apple/DCLM-7B @ cc100/ko": {
9915
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9916
+ "organization": "Apple",
9917
+ "vocab_size": 50277,
9918
+ "_n_bytes": 1524839,
9919
+ "_n_tokens": 973288,
9920
+ "_n_chars": 655190,
9921
+ "_n_oov_chars": 25,
9922
+ "oov_ratio": 3.815687052610693e-05,
9923
+ "_oov_charset": "[\"立\", \"樂\", \"陸\", \"累\", \"龍\", \"梁\", \"金\", \"識\", \"女\", \"樂\", \"流\", \"良\", \"不\", \"靈\", \"理\"]",
9924
+ "lossless": false
9925
+ },
9926
+ "apple/DCLM-7B @ cc100/zh-Hans": {
9927
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
9928
+ "organization": "Apple",
9929
+ "vocab_size": 50277,
9930
+ "_n_bytes": 2633047,
9931
+ "_n_tokens": 1220529,
9932
+ "_n_chars": 927311,
9933
+ "_n_oov_chars": 0,
9934
+ "oov_ratio": 0.0,
9935
+ "_oov_charset": "[]",
9936
+ "lossless": false
9937
+ },
9938
+ "google/gemma-2-9b @ cc100/ar": {
9939
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
9940
+ "organization": "Google",
9941
+ "vocab_size": 256000,
9942
+ "_n_bytes": 2813283,
9943
+ "_n_tokens": 563788,
9944
+ "_n_chars": 1560987,
9945
+ "_n_oov_chars": 0,
9946
+ "oov_ratio": 0.0,
9947
+ "_oov_charset": "[]",
9948
+ "lossless": true
9949
+ },
9950
+ "google/gemma-2-9b @ cc100/de": {
9951
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
9952
+ "organization": "Google",
9953
+ "vocab_size": 256000,
9954
+ "_n_bytes": 1814876,
9955
+ "_n_tokens": 406876,
9956
+ "_n_chars": 1784021,
9957
+ "_n_oov_chars": 0,
9958
+ "oov_ratio": 0.0,
9959
+ "_oov_charset": "[]",
9960
+ "lossless": true
9961
+ },
9962
+ "google/gemma-2-9b @ cc100/en": {
9963
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
9964
+ "organization": "Google",
9965
+ "vocab_size": 256000,
9966
+ "_n_bytes": 1124813,
9967
+ "_n_tokens": 258010,
9968
+ "_n_chars": 1121360,
9969
+ "_n_oov_chars": 0,
9970
+ "oov_ratio": 0.0,
9971
+ "_oov_charset": "[]",
9972
+ "lossless": true
9973
+ },
9974
+ "google/gemma-2-9b @ cc100/es": {
9975
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
9976
+ "organization": "Google",
9977
+ "vocab_size": 256000,
9978
+ "_n_bytes": 1664455,
9979
+ "_n_tokens": 361321,
9980
+ "_n_chars": 1630297,
9981
+ "_n_oov_chars": 0,
9982
+ "oov_ratio": 0.0,
9983
+ "_oov_charset": "[]",
9984
+ "lossless": true
9985
+ },
9986
+ "google/gemma-2-9b @ cc100/fa": {
9987
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
9988
+ "organization": "Google",
9989
+ "vocab_size": 256000,
9990
+ "_n_bytes": 2054052,
9991
+ "_n_tokens": 363762,
9992
+ "_n_chars": 1145876,
9993
+ "_n_oov_chars": 0,
9994
+ "oov_ratio": 0.0,
9995
+ "_oov_charset": "[]",
9996
+ "lossless": true
9997
+ },
9998
+ "google/gemma-2-9b @ cc100/fr": {
9999
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
10000
+ "organization": "Google",
10001
+ "vocab_size": 256000,
10002
+ "_n_bytes": 1540504,
10003
+ "_n_tokens": 364551,
10004
+ "_n_chars": 1484970,
10005
+ "_n_oov_chars": 0,
10006
+ "oov_ratio": 0.0,
10007
+ "_oov_charset": "[]",
10008
+ "lossless": true
10009
+ },
10010
+ "google/gemma-2-9b @ cc100/ja": {
10011
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
10012
+ "organization": "Google",
10013
+ "vocab_size": 256000,
10014
+ "_n_bytes": 1774770,
10015
+ "_n_tokens": 307873,
10016
+ "_n_chars": 603065,
10017
+ "_n_oov_chars": 0,
10018
+ "oov_ratio": 0.0,
10019
+ "_oov_charset": "[]",
10020
+ "lossless": true
10021
+ },
10022
+ "google/gemma-2-9b @ cc100/ko": {
10023
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
10024
+ "organization": "Google",
10025
+ "vocab_size": 256000,
10026
+ "_n_bytes": 1524839,
10027
+ "_n_tokens": 454410,
10028
+ "_n_chars": 655190,
10029
+ "_n_oov_chars": 0,
10030
+ "oov_ratio": 0.0,
10031
+ "_oov_charset": "[]",
10032
+ "lossless": true
10033
+ },
10034
+ "google/gemma-2-9b @ cc100/zh-Hans": {
10035
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
10036
+ "organization": "Google",
10037
+ "vocab_size": 256000,
10038
+ "_n_bytes": 2633047,
10039
+ "_n_tokens": 631795,
10040
+ "_n_chars": 927311,
10041
+ "_n_oov_chars": 0,
10042
+ "oov_ratio": 0.0,
10043
+ "_oov_charset": "[]",
10044
+ "lossless": true
10045
+ },
10046
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/ar": {
10047
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10048
+ "organization": "Meta",
10049
+ "vocab_size": 128256,
10050
+ "_n_bytes": 2813283,
10051
+ "_n_tokens": 614186,
10052
+ "_n_chars": 1560987,
10053
+ "_n_oov_chars": 0,
10054
+ "oov_ratio": 0.0,
10055
+ "_oov_charset": "[]",
10056
+ "lossless": false
10057
+ },
10058
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/de": {
10059
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10060
+ "organization": "Meta",
10061
+ "vocab_size": 128256,
10062
+ "_n_bytes": 1814876,
10063
+ "_n_tokens": 499766,
10064
+ "_n_chars": 1784021,
10065
+ "_n_oov_chars": 0,
10066
+ "oov_ratio": 0.0,
10067
+ "_oov_charset": "[]",
10068
+ "lossless": false
10069
+ },
10070
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/en": {
10071
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10072
+ "organization": "Meta",
10073
+ "vocab_size": 128256,
10074
+ "_n_bytes": 1124813,
10075
+ "_n_tokens": 254944,
10076
+ "_n_chars": 1121360,
10077
+ "_n_oov_chars": 0,
10078
+ "oov_ratio": 0.0,
10079
+ "_oov_charset": "[]",
10080
+ "lossless": false
10081
+ },
10082
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/es": {
10083
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10084
+ "organization": "Meta",
10085
+ "vocab_size": 128256,
10086
+ "_n_bytes": 1664455,
10087
+ "_n_tokens": 433286,
10088
+ "_n_chars": 1630297,
10089
+ "_n_oov_chars": 0,
10090
+ "oov_ratio": 0.0,
10091
+ "_oov_charset": "[]",
10092
+ "lossless": false
10093
+ },
10094
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/fa": {
10095
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10096
+ "organization": "Meta",
10097
+ "vocab_size": 128256,
10098
+ "_n_bytes": 2054052,
10099
+ "_n_tokens": 384591,
10100
+ "_n_chars": 1145876,
10101
+ "_n_oov_chars": 0,
10102
+ "oov_ratio": 0.0,
10103
+ "_oov_charset": "[]",
10104
+ "lossless": false
10105
+ },
10106
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/fr": {
10107
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10108
+ "organization": "Meta",
10109
+ "vocab_size": 128256,
10110
+ "_n_bytes": 1540504,
10111
+ "_n_tokens": 412141,
10112
+ "_n_chars": 1484970,
10113
+ "_n_oov_chars": 0,
10114
+ "oov_ratio": 0.0,
10115
+ "_oov_charset": "[]",
10116
+ "lossless": false
10117
+ },
10118
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/ja": {
10119
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10120
+ "organization": "Meta",
10121
+ "vocab_size": 128256,
10122
+ "_n_bytes": 1774770,
10123
+ "_n_tokens": 414715,
10124
+ "_n_chars": 603065,
10125
+ "_n_oov_chars": 0,
10126
+ "oov_ratio": 0.0,
10127
+ "_oov_charset": "[]",
10128
+ "lossless": false
10129
+ },
10130
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/ko": {
10131
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10132
+ "organization": "Meta",
10133
+ "vocab_size": 128256,
10134
+ "_n_bytes": 1524839,
10135
+ "_n_tokens": 412433,
10136
+ "_n_chars": 655190,
10137
+ "_n_oov_chars": 0,
10138
+ "oov_ratio": 0.0,
10139
+ "_oov_charset": "[]",
10140
+ "lossless": false
10141
+ },
10142
+ "meta-llama/Meta-Llama-3.1-405B @ cc100/zh-Hans": {
10143
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
10144
+ "organization": "Meta",
10145
+ "vocab_size": 128256,
10146
+ "_n_bytes": 2633047,
10147
+ "_n_tokens": 747405,
10148
+ "_n_chars": 927311,
10149
+ "_n_oov_chars": 0,
10150
+ "oov_ratio": 0.0,
10151
+ "_oov_charset": "[]",
10152
+ "lossless": false
10153
+ },
10154
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/ar": {
10155
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10156
+ "organization": "Mistral",
10157
+ "vocab_size": 32768,
10158
+ "_n_bytes": 2813283,
10159
+ "_n_tokens": 1388980,
10160
+ "_n_chars": 1560987,
10161
+ "_n_oov_chars": 0,
10162
+ "oov_ratio": 0.0,
10163
+ "_oov_charset": "[]",
10164
+ "lossless": true
10165
+ },
10166
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/de": {
10167
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10168
+ "organization": "Mistral",
10169
+ "vocab_size": 32768,
10170
+ "_n_bytes": 1814876,
10171
+ "_n_tokens": 570172,
10172
+ "_n_chars": 1784021,
10173
+ "_n_oov_chars": 0,
10174
+ "oov_ratio": 0.0,
10175
+ "_oov_charset": "[]",
10176
+ "lossless": true
10177
+ },
10178
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/en": {
10179
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10180
+ "organization": "Mistral",
10181
+ "vocab_size": 32768,
10182
+ "_n_bytes": 1124813,
10183
+ "_n_tokens": 276803,
10184
+ "_n_chars": 1121360,
10185
+ "_n_oov_chars": 0,
10186
+ "oov_ratio": 0.0,
10187
+ "_oov_charset": "[]",
10188
+ "lossless": true
10189
+ },
10190
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/es": {
10191
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10192
+ "organization": "Mistral",
10193
+ "vocab_size": 32768,
10194
+ "_n_bytes": 1664455,
10195
+ "_n_tokens": 504711,
10196
+ "_n_chars": 1630297,
10197
+ "_n_oov_chars": 0,
10198
+ "oov_ratio": 0.0,
10199
+ "_oov_charset": "[]",
10200
+ "lossless": true
10201
+ },
10202
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/fa": {
10203
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10204
+ "organization": "Mistral",
10205
+ "vocab_size": 32768,
10206
+ "_n_bytes": 2054052,
10207
+ "_n_tokens": 1114580,
10208
+ "_n_chars": 1145876,
10209
+ "_n_oov_chars": 0,
10210
+ "oov_ratio": 0.0,
10211
+ "_oov_charset": "[]",
10212
+ "lossless": true
10213
+ },
10214
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/fr": {
10215
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10216
+ "organization": "Mistral",
10217
+ "vocab_size": 32768,
10218
+ "_n_bytes": 1540504,
10219
+ "_n_tokens": 467708,
10220
+ "_n_chars": 1484970,
10221
+ "_n_oov_chars": 0,
10222
+ "oov_ratio": 0.0,
10223
+ "_oov_charset": "[]",
10224
+ "lossless": true
10225
+ },
10226
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/ja": {
10227
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10228
+ "organization": "Mistral",
10229
+ "vocab_size": 32768,
10230
+ "_n_bytes": 1774770,
10231
+ "_n_tokens": 665746,
10232
+ "_n_chars": 603065,
10233
+ "_n_oov_chars": 0,
10234
+ "oov_ratio": 0.0,
10235
+ "_oov_charset": "[]",
10236
+ "lossless": true
10237
+ },
10238
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/ko": {
10239
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10240
+ "organization": "Mistral",
10241
+ "vocab_size": 32768,
10242
+ "_n_bytes": 1524839,
10243
+ "_n_tokens": 711304,
10244
+ "_n_chars": 655190,
10245
+ "_n_oov_chars": 0,
10246
+ "oov_ratio": 0.0,
10247
+ "_oov_charset": "[]",
10248
+ "lossless": true
10249
+ },
10250
+ "mistralai/Mistral-Large-Instruct-2407 @ cc100/zh-Hans": {
10251
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
10252
+ "organization": "Mistral",
10253
+ "vocab_size": 32768,
10254
+ "_n_bytes": 2633047,
10255
+ "_n_tokens": 1022751,
10256
+ "_n_chars": 927311,
10257
+ "_n_oov_chars": 0,
10258
+ "oov_ratio": 0.0,
10259
+ "_oov_charset": "[]",
10260
+ "lossless": true
10261
  }
10262
  }
vocab.py CHANGED
@@ -238,6 +238,7 @@ _all_tokenizer_config = [
238
  TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
239
  TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
240
  TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
 
241
  TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
242
 
243
  ####### google/sentencepiece tokenizer:
@@ -254,14 +255,19 @@ _all_tokenizer_config = [
254
 
255
  TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"),
256
  TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"),
 
 
 
 
 
257
  TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
258
  impl=TokenizerImpl.SentencePiece, org="Meta",
259
  desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),
260
- # byte-level BPE
261
- # '中文单字': 700, '中文多字': 0
262
  TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece,
263
  org="Meta"),
264
  TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"),
 
 
265
  TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"),
266
  # 由.model文件转化为了
267
  TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-",
@@ -328,14 +334,17 @@ _all_tokenizer_config = [
328
  # 未分类
329
  # ("amber", ""),
330
  TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"),
 
331
  TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"),
332
  TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"),
 
333
 
334
  TokenizerConfig("paust/pko-t5-large", org="PAUST"),
335
 
336
  TokenizerConfig("01-ai/Yi-6B", org="Yi"),
337
  TokenizerConfig("01-ai/Yi-34B", org="Yi"),
338
  TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"),
 
339
  TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"),
340
  TokenizerConfig("microsoft/phi-1", org="Microsoft"),
341
  TokenizerConfig("microsoft/phi-2", org="Microsoft"),
@@ -356,6 +365,7 @@ _all_tokenizer_config = [
356
  TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
357
  TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
358
  TokenizerConfig("google/gemma-7b", org="Google"),
 
359
  TokenizerConfig("allenai/OLMo-7B", org="Allen AI"),
360
  TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"),
361
  TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"),
 
238
  TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
239
  TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
240
  TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
241
+ TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
242
  TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
243
 
244
  ####### google/sentencepiece tokenizer:
 
255
 
256
  TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"),
257
  TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"),
258
+
259
+ # byte-level BPE
260
+ # '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
261
+ TokenizerConfig("meta-llama/Meta-Llama-3.1-405B", name_display="Meta/llama3.1", impl=TokenizerImpl.SentencePiece,
262
+ org="Meta"),
263
  TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
264
  impl=TokenizerImpl.SentencePiece, org="Meta",
265
  desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),
 
 
266
  TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece,
267
  org="Meta"),
268
  TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"),
269
+
270
+
271
  TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"),
272
  # 由.model文件转化为了
273
  TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-",
 
334
  # 未分类
335
  # ("amber", ""),
336
  TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"),
337
+ TokenizerConfig("apple/DCLM-7B", org="Apple"),
338
  TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"),
339
  TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"),
340
+ TokenizerConfig("mistralai/Mistral-Large-Instruct-2407", org="Mistral"),
341
 
342
  TokenizerConfig("paust/pko-t5-large", org="PAUST"),
343
 
344
  TokenizerConfig("01-ai/Yi-6B", org="Yi"),
345
  TokenizerConfig("01-ai/Yi-34B", org="Yi"),
346
  TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"),
347
+ TokenizerConfig("01-ai/Yi-1.5-34B", org="Yi"),
348
  TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"),
349
  TokenizerConfig("microsoft/phi-1", org="Microsoft"),
350
  TokenizerConfig("microsoft/phi-2", org="Microsoft"),
 
365
  TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
366
  TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
367
  TokenizerConfig("google/gemma-7b", org="Google"),
368
+ TokenizerConfig("google/gemma-2-9b", org="Google"),
369
  TokenizerConfig("allenai/OLMo-7B", org="Allen AI"),
370
  TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"),
371
  TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"),