keitokei1994
commited on
Commit
•
c0065e6
1
Parent(s):
c34cb30
Update README.md
Browse files
README.md
CHANGED
@@ -3,4 +3,78 @@ license: llama3
|
|
3 |
language:
|
4 |
- ja
|
5 |
- en
|
6 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
language:
|
4 |
- ja
|
5 |
- en
|
6 |
+
---
|
7 |
+
|
8 |
+
### モデルの説明(English explanation is below.)
|
9 |
+
|
10 |
+
このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。
|
11 |
+
|
12 |
+
元のmeta-llama/Meta-Llama-3-8B-Instructに、日本語データセットでファインチューニングされたshisa-ai/shisa-v1-llama3-8を合わせることで、
|
13 |
+
|
14 |
+
元のMeta-Llama-3-8B-Instructの能力を維持したまま、日本語能力を向上させようとしたモデルです。
|
15 |
+
|
16 |
+
[Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B)と
|
17 |
+
[Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B)にインスパイアされて、Llama3でのMoEを始めています。お二人に感謝します。
|
18 |
+
|
19 |
+
お二人が行なっているような、ファインチューニングモデルから取り出したchatvectorを加算し、MoEモデル化するアプローチも手元では行なっていますので、
|
20 |
+
|
21 |
+
今後時間のある時にモデルのアップロードができたらと考えています。
|
22 |
+
|
23 |
+
### モデルの詳細
|
24 |
+
|
25 |
+
- **モデル名**: Llama-3-8B-shisa-2x8B
|
26 |
+
- **モデルアーキテクチャ**: Mixture of Experts (MoE)
|
27 |
+
- **ベースモデル**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
|
28 |
+
- **マージツール**: MergeKit
|
29 |
+
|
30 |
+
#### 要求スペック
|
31 |
+
Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
|
32 |
+
|
33 |
+
筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行なっています。
|
34 |
+
|
35 |
+
- CPU: Ryzen 5 3600
|
36 |
+
- GPU: GeForce RTX 3060 12GB
|
37 |
+
- RAM: DDR4-3200 96GB
|
38 |
+
- OS: Windows 10
|
39 |
+
|
40 |
+
---
|
41 |
+
license: llama3
|
42 |
+
language:
|
43 |
+
- ja
|
44 |
+
- en
|
45 |
+
---
|
46 |
+
|
47 |
+
---
|
48 |
+
license: llama3
|
49 |
+
language:
|
50 |
+
- ja
|
51 |
+
- en
|
52 |
+
---
|
53 |
+
|
54 |
+
### Model Description
|
55 |
+
|
56 |
+
This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
|
57 |
+
|
58 |
+
By combining the original meta-llama/Meta-Llama-3-8B-Instruct with shisa-ai/shisa-v1-llama3-8, which was fine-tuned on a Japanese dataset, this model aims to improve Japanese language capabilities while maintaining the abilities of the original Meta-Llama-3-8B-Instruct.
|
59 |
+
|
60 |
+
Inspired by [Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B) and [Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B), I have started MoE on Llama3. I am grateful to both of them.
|
61 |
+
|
62 |
+
I am also experimenting with adding chatvectors extracted from fine-tuned models and creating MoE models, similar to the approach taken by the two individuals mentioned above. I plan to upload the models in the future.
|
63 |
+
|
64 |
+
### Model Details
|
65 |
+
|
66 |
+
- **Model Name**: Llama-3-8B-shisa-2x8B
|
67 |
+
- **Model Architecture**: Mixture of Experts (MoE)
|
68 |
+
- **Base Models**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
|
69 |
+
- **Merge Tool**: MergeKit
|
70 |
+
|
71 |
+
#### Required Specifications
|
72 |
+
|
73 |
+
With Q4_K_M quantization, the model can be fully loaded on an RTX 3060 12GB.
|
74 |
+
|
75 |
+
I have tested the model on Windows, WSL2 in Windows and Google Colaboratory Pro after creation, and have verified its functionality using Llama.cpp and LMstudio.
|
76 |
+
|
77 |
+
- CPU: Ryzen 5 3600
|
78 |
+
- GPU: GeForce RTX 3060 12GB
|
79 |
+
- RAM: DDR4-3200 96GB
|
80 |
+
- OS: Windows 10
|