aixsatoshi
commited on
Commit
•
4aad6e1
1
Parent(s):
e38d61e
Update README.md
Browse files
README.md
CHANGED
@@ -4,12 +4,12 @@ license: cc-by-4.0
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。bf16での使用を想定しています。量子化推論する場合は、bf16で読み込んだ状態でLora適応、またはマージ、その後に量子化してください。
|
6 |
|
7 |
-
|
8 |
|
9 |
Mixtral-8x7Bは優秀な言語モデルですが、日本語のアウトプットに、多言語が混入するcode-switchingがよく見られます。
|
10 |
元の性能を維持しながら、日本語生成を安定させる方法としてLoraの効果を検証しました。
|
11 |
|
12 |
-
|
13 |
|
14 |
学習データセットとして、下記のDPOデータセットを使用しています。
|
15 |
今回は、chosenのデータを使用しsft学習しています。
|
@@ -19,11 +19,11 @@ lmsys/chatbot_arena_conversationsのユーザ入力(CC-BY 4.0)を和訳
|
|
19 |
和訳にはfacebookの翻訳モデル(MIT License)が使用されています。
|
20 |
[cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
|
21 |
|
22 |
-
|
23 |
|
24 |
大きな性能低下がないことを確認しました
|
25 |
|
26 |
-
|
27 |
|
28 |
num_fewshot: 2, batch_size: 1
|
29 |
| Task |Version| Metric | Value | |Stderr|
|
@@ -45,7 +45,7 @@ num_fewshot: 2, batch_size: 1
|
|
45 |
| | |f1 |79.4725| | |
|
46 |
|
47 |
|
48 |
-
|
49 |
|
50 |
num_fewshot: 3,3, batch_size: 1
|
51 |
| Task |Version| Metric | Value | |Stderr|
|
@@ -66,14 +66,14 @@ num_fewshot: 2, batch_size: 1
|
|
66 |
|jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
|
67 |
| | |f1 |78.7550| | |
|
68 |
|
69 |
-
|
70 |
|
71 |
追加の事前学習なく安定した日本語出力が可能となったのは以下の作用と考えました。
|
72 |
未学習のモデルでは、日本語のシグナルが弱く言語選択が不安定になっていると推測されます。
|
73 |
Loraのみでも日本語コードへのバイアスを一定レベル強めることが可能となり、
|
74 |
もともと学習していた日本語のシグナルを抽出しやすくなったと考えられました。
|
75 |
|
76 |
-
|
77 |
|
78 |
過度な日本語出力バイアスはなく、他の言語も出力可能でした。
|
79 |
context長は4096tokenまでの学習ですが、4k token以上の出力も可能です。
|
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。bf16での使用を想定しています。量子化推論する場合は、bf16で読み込んだ状態でLora適応、またはマージ、その後に量子化してください。
|
6 |
|
7 |
+
#目的
|
8 |
|
9 |
Mixtral-8x7Bは優秀な言語モデルですが、日本語のアウトプットに、多言語が混入するcode-switchingがよく見られます。
|
10 |
元の性能を維持しながら、日本語生成を安定させる方法としてLoraの効果を検証しました。
|
11 |
|
12 |
+
#学習データセット
|
13 |
|
14 |
学習データセットとして、下記のDPOデータセットを使用しています。
|
15 |
今回は、chosenのデータを使用しsft学習しています。
|
|
|
19 |
和訳にはfacebookの翻訳モデル(MIT License)が使用されています。
|
20 |
[cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)
|
21 |
|
22 |
+
#evaluation
|
23 |
|
24 |
大きな性能低下がないことを確認しました
|
25 |
|
26 |
+
##Lora
|
27 |
|
28 |
num_fewshot: 2, batch_size: 1
|
29 |
| Task |Version| Metric | Value | |Stderr|
|
|
|
45 |
| | |f1 |79.4725| | |
|
46 |
|
47 |
|
48 |
+
##Base model
|
49 |
|
50 |
num_fewshot: 3,3, batch_size: 1
|
51 |
| Task |Version| Metric | Value | |Stderr|
|
|
|
66 |
|jaqket_v2-0.1-0.3| 0.1|exact_match|67.9553| | |
|
67 |
| | |f1 |78.7550| | |
|
68 |
|
69 |
+
#考察
|
70 |
|
71 |
追加の事前学習なく安定した日本語出力が可能となったのは以下の作用と考えました。
|
72 |
未学習のモデルでは、日本語のシグナルが弱く言語選択が不安定になっていると推測されます。
|
73 |
Loraのみでも日本語コードへのバイアスを一定レベル強めることが可能となり、
|
74 |
もともと学習していた日本語のシグナルを抽出しやすくなったと考えられました。
|
75 |
|
76 |
+
##その他
|
77 |
|
78 |
過度な日本語出力バイアスはなく、他の言語も出力可能でした。
|
79 |
context長は4096tokenまでの学習ですが、4k token以上の出力も可能です。
|