aixsatoshi
commited on
Commit
•
587b5bc
1
Parent(s):
170c18b
Update README.md
Browse files
README.md
CHANGED
@@ -4,9 +4,6 @@ license: cc-by-4.0
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLoraです。
|
6 |
|
7 |
-
注:bf16での使用を想定しています。
|
8 |
-
量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
|
9 |
-
|
10 |
**目的**
|
11 |
|
12 |
Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
|
@@ -74,3 +71,6 @@ num_fewshot: 2, batch_size: 1
|
|
74 |
**その他**
|
75 |
|
76 |
Lora学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。
|
|
|
|
|
|
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLoraです。
|
6 |
|
|
|
|
|
|
|
7 |
**目的**
|
8 |
|
9 |
Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
|
|
|
71 |
**その他**
|
72 |
|
73 |
Lora学習時のcontext長は4096tokenまでですが、4k token以上の出力も可能です。
|
74 |
+
|
75 |
+
注:bf16での使用を想定しています。
|
76 |
+
量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
|