Update README_zh-CN.md
Browse files- README_zh-CN.md +7 -0
README_zh-CN.md
CHANGED
@@ -12,6 +12,13 @@
|
|
12 |
|
13 |
## 模型详情
|
14 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
15 |
NanoLM-70M-Instruct-v1 的分词器和模型架构与 [SmolLM-135M](https://huggingface.co/HuggingFaceTB/SmolLM-135M) 相同,但层数从30减少到12。
|
16 |
|
17 |
本质上是纯粹的 LLaMA 架构,即 LlamaForCausalLM。
|
|
|
12 |
|
13 |
## 模型详情
|
14 |
|
15 |
+
| Nano LMs | Non-emb Params | Arch | Layers | Dim | Heads | Seq Len |
|
16 |
+
| :----------: | :------------------: | :---: | :----: | :-------: | :---: | :---: |
|
17 |
+
| 25M | 15M | MistralForCausalLM | 12 | 312 | 12 |2K|
|
18 |
+
| **70M** | **42M** | **LlamaForCausalLM** | **12** | **576** | **9** | **2K** |
|
19 |
+
| 0.3B | 180M | Qwen2ForCausalLM | 12 | 896 | 14 |4K|
|
20 |
+
| 1B | 840M | Qwen2ForCausalLM | 18 | 1536 | 12 |4K|
|
21 |
+
|
22 |
NanoLM-70M-Instruct-v1 的分词器和模型架构与 [SmolLM-135M](https://huggingface.co/HuggingFaceTB/SmolLM-135M) 相同,但层数从30减少到12。
|
23 |
|
24 |
本质上是纯粹的 LLaMA 架构,即 LlamaForCausalLM。
|