量子化
こんにちは
以下のように量子化を試したのですが、自分の環境ではエラーが出てしまいます。
py convert-hf-to-gguf.py --outtype f16 F:/models/c4ai-command-r-v01-japanese-instruct
最初はconfiguration_cohere.py等のpyファイルが足りないようなメッセージが出たので、元のcommand-rからコピーしたところ、
trust_remote_code=Trueにせよとのエラーがでたので、pyを修正
元のcommand-rはこれで量子化でき、Q6_kの推論まで問題なくできたのですが、
こちらのモデルでは
ValueError: Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.
のエラーがでてしまい、
pip install transformers[sentencepiece]等も試したのですがエラー解消できませんでした。
自分の環境では無理かもしれないので、
できましたら、Q6_kの量子化をお願いしたく思います。
@tomgm
こちらにアップロードしましたので、お試しください。
https://huggingface.co/Aratako/c4ai-command-r-v01-japanese-instruct-GGUF
ありがとうございます!
日本語表現が上がっていい感じですね。
@Aratako
少し変な回答になりますが、崩壊までは行ってない気がします。(IQ3_XXSで試しました。koboldは自前ビルドしたものを使いました)
ちなみに、あれからtranceformerをupdateしたら、量子化はできるようになりました。
しかし、imatrixがcompute_imatrix: tokenizing the inputの所で止まってしまい、これの原因がまだわかっていません。
あ、もしかしたら、再アップされたのかな?
確認が遅れてしまいました(^^;