keitokei1994 commited on
Commit
c0065e6
1 Parent(s): c34cb30

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +75 -1
README.md CHANGED
@@ -3,4 +3,78 @@ license: llama3
3
  language:
4
  - ja
5
  - en
6
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  language:
4
  - ja
5
  - en
6
+ ---
7
+
8
+ ### モデルの説明(English explanation is below.)
9
+
10
+ このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。
11
+
12
+ 元のmeta-llama/Meta-Llama-3-8B-Instructに、日本語データセットでファインチューニングされたshisa-ai/shisa-v1-llama3-8を合わせることで、
13
+
14
+ 元のMeta-Llama-3-8B-Instructの能力を維持したまま、日本語能力を向上させようとしたモデルです。
15
+
16
+ [Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B)と
17
+ [Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B)にインスパイアされて、Llama3でのMoEを始めています。お二人に感謝します。
18
+
19
+ お二人が行なっているような、ファインチューニングモデルから取り出したchatvectorを加算し、MoEモデル化するアプローチも手元では行なっていますので、
20
+
21
+ 今後時間のある時にモデルのアップロードができたらと考えています。
22
+
23
+ ### モデルの詳細
24
+
25
+ - **モデル名**: Llama-3-8B-shisa-2x8B
26
+ - **モデルアーキテクチャ**: Mixture of Experts (MoE)
27
+ - **ベースモデル**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
28
+ - **マージツール**: MergeKit
29
+
30
+ #### 要求スペック
31
+ Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
32
+
33
+ 筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行なっています。
34
+
35
+ - CPU: Ryzen 5 3600
36
+ - GPU: GeForce RTX 3060 12GB
37
+ - RAM: DDR4-3200 96GB
38
+ - OS: Windows 10
39
+
40
+ ---
41
+ license: llama3
42
+ language:
43
+ - ja
44
+ - en
45
+ ---
46
+
47
+ ---
48
+ license: llama3
49
+ language:
50
+ - ja
51
+ - en
52
+ ---
53
+
54
+ ### Model Description
55
+
56
+ This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
57
+
58
+ By combining the original meta-llama/Meta-Llama-3-8B-Instruct with shisa-ai/shisa-v1-llama3-8, which was fine-tuned on a Japanese dataset, this model aims to improve Japanese language capabilities while maintaining the abilities of the original Meta-Llama-3-8B-Instruct.
59
+
60
+ Inspired by [Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B) and [Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B), I have started MoE on Llama3. I am grateful to both of them.
61
+
62
+ I am also experimenting with adding chatvectors extracted from fine-tuned models and creating MoE models, similar to the approach taken by the two individuals mentioned above. I plan to upload the models in the future.
63
+
64
+ ### Model Details
65
+
66
+ - **Model Name**: Llama-3-8B-shisa-2x8B
67
+ - **Model Architecture**: Mixture of Experts (MoE)
68
+ - **Base Models**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
69
+ - **Merge Tool**: MergeKit
70
+
71
+ #### Required Specifications
72
+
73
+ With Q4_K_M quantization, the model can be fully loaded on an RTX 3060 12GB.
74
+
75
+ I have tested the model on Windows, WSL2 in Windows and Google Colaboratory Pro after creation, and have verified its functionality using Llama.cpp and LMstudio.
76
+
77
+ - CPU: Ryzen 5 3600
78
+ - GPU: GeForce RTX 3060 12GB
79
+ - RAM: DDR4-3200 96GB
80
+ - OS: Windows 10