Is the tokenizer correct?
#2
by
niryuu
- opened
The tokenizer decodes different words for given encoded token ids.
https://colab.research.google.com/drive/1iLPyJ5SNZ4gpLXBJp6k6V9NULX14q3R7?usp=sharing
一応、出力とtokenizer.jsonのバイナリを観察した傾向を述べておきます。
- 漢字(e3-e9から始まる3バイト)が、2バイト文字(Latin-1 Supplementなど。cから始まる)3つとマッチすることが多い。
- 2バイト3文字(以上)になったら漢字になる。
- 2バイト2文字と2バイト1文字になったら文字化けする。
- いずれの場合も、最初の2バイトの2バイト目(a3-a9)が、漢字の1バイト目のe3-e9と対応することが多い。例えばe3から始まる漢字はa3になる。ならないこともある。
- おそらく2バイト文字の2バイト目しか見ていない。2バイト目を3つ組み合わせて3バイトの漢字とマッチしている。そうでないこともある。
- ある種2バイト文字をhackして3バイト文字のtokenizeをしているのではないか。
Anyway, it works.
niryuu
changed discussion status to
closed