dahara1 commited on
Commit
da18eba
1 Parent(s): c803ee5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -21
README.md CHANGED
@@ -1,10 +1,8 @@
1
  ---
2
- # For reference on model card metadata, see the spec: https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1
3
- # Doc / guide: https://huggingface.co/docs/hub/model-cards
4
  {}
5
  ---
6
 
7
- # Model Card for Model ID
8
 
9
  gemma-2-9b-it quantized with imatrix containing a lot of Japanese text
10
  日本語テキストを多く含むimatrixで量子化されたgemma-2-9b-it
@@ -12,23 +10,29 @@ gemma-2-9b-it quantized with imatrix containing a lot of Japanese text
12
  ## Model Details
13
 
14
  It is known that using imatrix when quantizing a model for llama.cpp improves performance.
15
- However, imatrix is often created only from English text. In cases where a model is used in languages other than English, wouldn't it be better to create an imatrix by mixing text in other languages?
16
- This page confirms the effectiveness of multilingual imatrix.
 
17
 
18
  モデルをllama.cpp用に量子化する際にimatrixを使うと性能が向上する事が知られています。
19
- しかし、imatrixは英語テキストのみから作成されている事が多いです。英語以外の言語を使ってモデルを使用するケースでは他の言語のテキストも混ぜてimatrixを作成した方がよいのではないでしょうか?
20
- 本ページは多言語版imatrixの有効性を確かめました。
 
21
 
22
- ### Model Description
23
 
24
- ## Performance Evaluation
25
 
26
  The experiments took considerable time, totaling 18 runs (3 hours per file x 18 runs). The `imatrix-jpn-test` consistently showed lower perplexity scores compared to the `no imatrix` models, particularly on Japanese datasets (`ja-wiki`). For instance, the `imatrix-jpn-test M` scored 17.2069, improving over the `no imatrix M` score of 17.3948.
27
  実験にはかなりの時間がかかり、合計 18 回実行されました (ファイルあたり 3 時間 x 18 回実行)。`imatrix-jpn-test` は、特に日本語データセット (`ja-wiki`) で、`no imatrix` モデルと比較して一貫して低いパープレキシティ スコアを示しました。たとえば、`imatrix-jpn-test M` のスコアは 17.2069 で、`no imatrix M` のスコア 17.3948 よりも向上しました。
28
 
29
- `imatrix-jpn-test` outperformed `no imatrix` models across all sizes (M, L, fp16) in both English and Japanese datasets, indicating the effectiveness of the imatrix approach, especially for non-English languages.
30
- `imatrix-jpn-test` は、英語と日本語の両方のデータセットにおいて、すべてのサイズ (M、L、fp16) `no imatrix` モデルよりも優れたパフォーマンスを示し、特に英語以外の言語において imatrix アプローチの有効性を示しました。
31
- ## Results Summary
 
 
 
 
32
 
33
  ![wiki.test.raw_perplexity_score.png](wiki.test.raw_perplexity_score.png)
34
  Measurements using English wiki.test.raw suggest that imatrix improves perplexity scores.
@@ -36,9 +40,8 @@ Measurements using English wiki.test.raw suggest that imatrix improves perplexit
36
 
37
  ![ja-wiki.test.raw_perplexity_score.png](ja-wiki.test.raw_perplexity_score.png)
38
 
39
- Measurements using Japanese ja-wiki.test.raw data suggest that L/fp16 quants improve scores.
40
- 日本語のja-wiki.test.rawデータを使った計測ではL/fp16クォンツがスコアを向上させる事が示唆された
41
-
42
 
43
  | Model | wiki.test.raw Perplexity | ja-wiki.test.raw Perplexity |
44
  |----------------------|--------------------------|-----------------------------|
@@ -99,12 +102,12 @@ Example:
99
 
100
  ### 注意事項 Notes
101
 
102
- - These results may vary depending on the model. It is best not to assume that these results apply to all models.In particular, gemma is said to improve performance with L/fp16 quant.
103
  - Even under almost identical conditions, scores may increase or decrease slightly. It is better to focus on trends rather than small differences.
104
  - Please note that the imatrix-jpn-test model uses 5 times as much text for the imatrix as the bartowski model. There is a possibility that the performance may be slightly increased simply because there is more text.
105
  - In reality, it is better to measure performance with real tasks rather than perplexity. However, there are many different benchmarks for real tasks, so I will leave it up to you to verify this.
106
 
107
- - モデルによってこの結果は異なってくる可能性があります。あらゆるモデルに通用する結果とはまだ思わない方がよいです。特にgemmaL/fp16クォンツで性能が向上すると言われています
108
  - ほぼ同等の条件でも微妙にスコアが増減する事があります。わずかな差に注目するのではなく傾向に注目する事が望ましいです
109
  - imatrix-jpn-testモデルはbartowskiモデルに比べてimatrixに5倍のテキストを使用している事に留意してください。単純にテキストが多いため性能が微妙に増えている可能性があります
110
  - 本来はperplexityではなく実タスクで性能を測定する事が望ましいです。しかし、実タスクのベンチマークも多様なのでその検証は皆さんにお任せします
@@ -113,10 +116,10 @@ Example:
113
 
114
  - Imatrix is effective in the 4-bit quantization we tried this time.
115
  - If you want to improve the performance of languages other than English, it may be worth adding other languages to the imatrix, but it may decrease the model's English ability.
116
- - If you are only using English, the quantization variations may not make much difference.
117
  - 今回試した4bit量子化においてimatrixは有効です
118
  - 英語以外の言語の性能を少しでも向上させたい場合はimatrixに他言語を追加する価値はありそうです。しかし、モデルの英語能力が下がる可能性があります。
119
- - 英語だけを使っている場合、量子化のバリエーションは大きな違いがない可能性があります
120
 
121
  ### その他参考情報 Other references
122
 
@@ -130,7 +133,6 @@ The following information may be helpful in your further exploration.
130
 
131
  ### 謝辞 Acknowledgements
132
 
133
-
134
  Thanks to the llama.cpp community.  
135
  llama.cppのコミュニティの皆さんに感謝します。
136
  Thanks to the Google Gemma-2.
@@ -143,7 +145,7 @@ I do not know all the inventors of each method, so please point out any that I h
143
 
144
  - **Developed by:** [dahara1@webbigdata]
145
  - **Language(s) (NLP):** [English, Japanese]
146
- - **base model [optional]:** [gemma-2-9b-it]
147
 
148
 
149
  **BibTeX:**
 
1
  ---
 
 
2
  {}
3
  ---
4
 
5
+ # Model Card for imatrix-jpn-test
6
 
7
  gemma-2-9b-it quantized with imatrix containing a lot of Japanese text
8
  日本語テキストを多く含むimatrixで量子化されたgemma-2-9b-it
 
10
  ## Model Details
11
 
12
  It is known that using imatrix when quantizing a model for llama.cpp improves performance.
13
+ Imatrixes are often created only from English text.
14
+ However, if you are using a model in a language other than English, wouldn't it be better to create an imatrix that includes text in other languages ​​as well?
15
+ This model was created to verify the effectiveness of a multilingual imatrix.
16
 
17
  モデルをllama.cpp用に量子化する際にimatrixを使うと性能が向上する事が知られています。
18
+ imatrixは英語テキストのみから作成されている事が多いです。
19
+ しかし、英語以外の言語を使ってモデルを使用するケースでは他の言語のテキストも混ぜてimatrixを作成した方がよいのではないでしょうか?
20
+ 本モデルは多言語版imatrixの有効性を確かめるために作成されたモデルです。
21
 
22
+ ## Model Description
23
 
24
+ ### Performance Evaluation
25
 
26
  The experiments took considerable time, totaling 18 runs (3 hours per file x 18 runs). The `imatrix-jpn-test` consistently showed lower perplexity scores compared to the `no imatrix` models, particularly on Japanese datasets (`ja-wiki`). For instance, the `imatrix-jpn-test M` scored 17.2069, improving over the `no imatrix M` score of 17.3948.
27
  実験にはかなりの時間がかかり、合計 18 回実行されました (ファイルあたり 3 時間 x 18 回実行)。`imatrix-jpn-test` は、特に日本語データセット (`ja-wiki`) で、`no imatrix` モデルと比較して一貫して低いパープレキシティ スコアを示しました。たとえば、`imatrix-jpn-test M` のスコアは 17.2069 で、`no imatrix M` のスコア 17.3948 よりも向上しました。
28
 
29
+ The imatrix-jpn-test model performed better than the no imatrix model and the Bartowski model in terms of perplexity measured with Japanese data, but was slightly higher than the Bartowski model in terms of perplexity measured with English data.
30
+ *The lower the perplexity, the better.
31
+
32
+ imatrix-jpn-testモデルは、日本語データで測定したパープレキシティではno imatrixモデルおよびbartowskiモデルよりも優れたパフォーマンスを示しましたが、英語データで測定したパープレキシティではbartowskiモデルよりも若干高いパープレキシティを示しました。
33
+ ※パープレキシティは低い方が良い指標です
34
+
35
+ ### Results Summary
36
 
37
  ![wiki.test.raw_perplexity_score.png](wiki.test.raw_perplexity_score.png)
38
  Measurements using English wiki.test.raw suggest that imatrix improves perplexity scores.
 
40
 
41
  ![ja-wiki.test.raw_perplexity_score.png](ja-wiki.test.raw_perplexity_score.png)
42
 
43
+ Measurements using the Japanese ja-wiki.test.raw data suggest that quantizations variation L and quantizations variation fp16 improve scores.
44
+ 日本語のja-wiki.test.rawデータを使った計測ではquantizations variation Lとquantizations variation fp16がスコアを向上させる事が示唆された
 
45
 
46
  | Model | wiki.test.raw Perplexity | ja-wiki.test.raw Perplexity |
47
  |----------------------|--------------------------|-----------------------------|
 
102
 
103
  ### 注意事項 Notes
104
 
105
+ - These results may vary depending on the model. It is best not to assume that these results apply to all models. Gemma is known to improve performance, especially with L and fp16 quantizations variations.
106
  - Even under almost identical conditions, scores may increase or decrease slightly. It is better to focus on trends rather than small differences.
107
  - Please note that the imatrix-jpn-test model uses 5 times as much text for the imatrix as the bartowski model. There is a possibility that the performance may be slightly increased simply because there is more text.
108
  - In reality, it is better to measure performance with real tasks rather than perplexity. However, there are many different benchmarks for real tasks, so I will leave it up to you to verify this.
109
 
110
+ - モデルによってこの結果は異なってくる可能性があります。あらゆるモデルに通用する結果とはまだ思わない方がよいです。gemmaは特にLおよびfp16のquantizations variationクォンツで性能が向上する事は知られています
111
  - ほぼ同等の条件でも微妙にスコアが増減する事があります。わずかな差に注目するのではなく傾向に注目する事が望ましいです
112
  - imatrix-jpn-testモデルはbartowskiモデルに比べてimatrixに5倍のテキストを使用している事に留意してください。単純にテキストが多いため性能が微妙に増えている可能性があります
113
  - 本来はperplexityではなく実タスクで性能を測定する事が望ましいです。しかし、実タスクのベンチマークも多様なのでその検証は皆さんにお任せします
 
116
 
117
  - Imatrix is effective in the 4-bit quantization we tried this time.
118
  - If you want to improve the performance of languages other than English, it may be worth adding other languages to the imatrix, but it may decrease the model's English ability.
119
+ - If you are only using English, the quantization variations may not make much difference in 4bit.
120
  - 今回試した4bit量子化においてimatrixは有効です
121
  - 英語以外の言語の性能を少しでも向上させたい場合はimatrixに他言語を追加する価値はありそうです。しかし、モデルの英語能力が下がる可能性があります。
122
+ - 英語だけを使っている場合、量子化のバリエーションは4bitでは大きな違いがない可能性があります
123
 
124
  ### その他参考情報 Other references
125
 
 
133
 
134
  ### 謝辞 Acknowledgements
135
 
 
136
  Thanks to the llama.cpp community.  
137
  llama.cppのコミュニティの皆さんに感謝します。
138
  Thanks to the Google Gemma-2.
 
145
 
146
  - **Developed by:** [dahara1@webbigdata]
147
  - **Language(s) (NLP):** [English, Japanese]
148
+ - **base model [optional]:** [gemma-2-9b-it](https://huggingface.co/google/gemma-2-9b-it)
149
 
150
 
151
  **BibTeX:**