量子化

by tomgm - opened Apr 5

Apr 5

こんにちは
以下のように量子化を試したのですが、自分の環境ではエラーが出てしまいます。
py convert-hf-to-gguf.py --outtype f16 F:/models/c4ai-command-r-v01-japanese-instruct
最初はconfiguration_cohere.py等のpyファイルが足りないようなメッセージが出たので、元のcommand-rからコピーしたところ、
trust_remote_code=Trueにせよとのエラーがでたので、pyを修正
元のcommand-rはこれで量子化でき、Q6_kの推論まで問題なくできたのですが、
こちらのモデルでは
ValueError: Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.
のエラーがでてしまい、
pip install transformers[sentencepiece]等も試したのですがエラー解消できませんでした。
自分の環境では無理かもしれないので、
できましたら、Q6_kの量子化をお願いしたく思います。

Aratako

Owner Apr 5

@tomgm
私の環境では問題なく変換できたので、Q6_KとQ4_K_Mをアップロード中です！必要そうであればImatrixを使ったものも後ほど用意しようかと思います。

Aratako

Owner Apr 6

@tomgm
こちらにアップロードしましたので、お試しください。
https://huggingface.co/Aratako/c4ai-command-r-v01-japanese-instruct-GGUF

tomgm

Apr 6

ありがとうございます！
日本語表現が上がっていい感じですね。

tomgm changed discussion status to closed Apr 6

Aratako

Owner Apr 6

@tomgm
すみません、imatrixの方でも動作問題なかったでしょうか？
私の手元の環境でテストしたところimatrixで量子化したものの出力がかなり崩壊していたのですが…。

tomgm

Apr 7

•

edited Apr 7

@Aratako

少し変な回答になりますが、崩壊までは行ってない気がします。（IQ3_XXSで試しました。koboldは自前ビルドしたものを使いました）
ちなみに、あれからtranceformerをupdateしたら、量子化はできるようになりました。
しかし、imatrixがcompute_imatrix: tokenizing the inputの所で止まってしまい、これの原因がまだわかっていません。

tomgm

Apr 7

あ、もしかしたら、再アップされたのかな？
確認が遅れてしまいました（＾＾；

Aratako

Owner Apr 7

@tomgm
確認ありがとうございます！再アップはしていますが、中身は以前と変わっていません。
私の方でも色々と試しましたが、どうやらプロンプトテンプレートにかなり敏感なようで、公式のフォーマット（<|START_OF_TURN_TOKEN|>などのスペシャルトークン）をちゃんと設定して試したところある程度問題なく動作するようになりました。
適当なプロンプトフォーマットを使うと続きを生成しがちになるようです。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment