text-embedding-inferenceを通じて利用する際のtokenizer.jsonがないことによるエラーについて

#1
by ktr-n - opened

text-embedding-inferenceタグがあったため、これを通じて利用を試みたところ、画像のようにtokenizer.jsonがないことによるエラーが生じました。
もしよろしければ、tokenizer.jsonをご追加いただくことは可能でしょうか。
スクリーンショット 2024-09-27 004707.png

CL Research Group in Nagoya, Japan org

@ktr-n
ご連絡いただきありがとうございます!
Ruri-{large, base}が元にしている東北大BERTモデルはTokenizerに専用の実装があるのですが、そちらがFastTokenizerと呼ばれる高速な実装に対応していないことが原因のようです。
tokenizer.jsonはfast対応しているtokenizerが生成する設定ファイルなのですが、Tokenizerがfast対応していないことから、すぐにtokenizer.jsonを用意することは難しそうです。
誤解を生んでしまい申し訳ないのですが、当面はtext-embedding-inferenceタグを削除させていただき、解決策が見つかり次第再度掲示という対応をさせていただきたく思います。
もし何か解決策など見つかりそうでしたら、いつでもお教えいただけますと幸いです。よろしくお願いいたします。

素早いお返事ありがとうございます。
FastTokenizerに関する件、承知いたしました。
私の方でも引き続き調べてみます。

Sign up or log in to comment