matsuo-lab/weblab-10b-instruction-sft · Is the tokenizer correct?

Aug 18, 2023

niryuu

Aug 18, 2023

一応、出力とtokenizer.jsonのバイナリを観察した傾向を述べておきます。

漢字(e3-e9から始まる3バイト)が、2バイト文字(Latin-1 Supplementなど。cから始まる)3つとマッチすることが多い。
2バイト3文字(以上)になったら漢字になる。
2バイト2文字と2バイト1文字になったら文字化けする。
いずれの場合も、最初の2バイトの2バイト目(a3-a9)が、漢字の1バイト目のe3-e9と対応することが多い。例えばe3から始まる漢字はa3になる。ならないこともある。
おそらく2バイト文字の2バイト目しか見ていない。2バイト目を3つ組み合わせて3バイトの漢字とマッチしている。そうでないこともある。
ある種2バイト文字をhackして3バイト文字のtokenizeをしているのではないか。

niryuu

Aug 19, 2023

Anyway, it works.

niryuu changed discussion status to closed Aug 19, 2023