weblab-GENIAC
/

Tanuki-8x8B-dpo-v1.0

 ---
 license: apache-2.0
+language:
+- ja
+- en
+library_name: transformers
+tags:
+- japanese
+---
+# Tanuki-8x8B-dpo-v1.0
+## モデルについて
+Tanuki-8x8Bは、フルスクラッチで?トークン事前学習された8x8Bパラメータ（総パラメータ約47B、アクティブパラメータ約13B）の大規模言語モデルです。
+Tanuki-8x8B-dpo-v1.0は、Tanuki-8x8BにSFTおよびDPOを適用し作成された対話用モデルです。
+## 量子化モデル
+- [AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ)
+- [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit)
+- [GPTQ 8bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bit)
+- [GGUF量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GGUF)*
+*GGUF版は性能低下が発生している可能性があり、非推奨
+## 使い方
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
+model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0", device_map="auto", torch_dtype="auto", trust_remote_code=True)
+tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0")
+streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+messages = [
+    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
+    {"role": "user", "content": "AIによって私たちの暮らしはどのように変わりますか？"}
+]
+input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+output_ids = model.generate(input_ids,
+                            max_new_tokens=1024,
+                            temperature=0.5,
+                            streamer=streamer)
+```
+## プロンプト形式
+Tanuki-8x8B-dpo-v1.0は日本語版Alpacaのプロンプトフォーマットを利用します。
+```
+<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
+### 指示:
+AIによって私たちの暮らしはどのように変わりますか？
+### 応答:
+```
+なお、本モデルはデフォルトのシステムプロンプトである`以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。`以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。
+## ベンチマーク
+**Japanese MT-Bench**
+GPT-4による評価 (gpt-4-0613、平均スコア算出においてスコア-1は除外)
+| | Tanuki-8B-dpo-v1.0 | Tanuki-8x8B-dpo-v1.0 |
+| ---- | ---- | ---- |
+| 平均スコア | 7.24 | 7.96 |
+| coding |	5.4	| 6.75 |
+| extraction |	6.65	| 6.90|
+| humanities	| 9.1	| 9.3 |
+| math	| 3.9	| 5.75 |
+| reasoning	| 5.75	| 7.35 |
+| roleplay	| 8.75	| 8.95 |
+| stem	| 9.35	| 9.40 |
+| writing	| 9.05	| 8.85 |
+GPT-4oによる評価
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/TMl4VIoTyUzzdbj5PdVEi.png)
+**人手評価**
+Chatbot Arena的なシステムを使った人手によるブラインドテストの結果
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/RzPOQfETYD9_AFEjVkwCX.png)