Mxode commited on
Commit
eb55317
1 Parent(s): 192ae32

Update README_zh-CN.md

Browse files
Files changed (1) hide show
  1. README_zh-CN.md +7 -0
README_zh-CN.md CHANGED
@@ -12,6 +12,13 @@
12
 
13
  ## 模型详情
14
 
 
 
 
 
 
 
 
15
  NanoLM-70M-Instruct-v1 的分词器和模型架构与 [SmolLM-135M](https://huggingface.co/HuggingFaceTB/SmolLM-135M) 相同,但层数从30减少到12。
16
 
17
  本质上是纯粹的 LLaMA 架构,即 LlamaForCausalLM。
 
12
 
13
  ## 模型详情
14
 
15
+ | Nano LMs | Non-emb Params | Arch | Layers | Dim | Heads | Seq Len |
16
+ | :----------: | :------------------: | :---: | :----: | :-------: | :---: | :---: |
17
+ | 25M | 15M | MistralForCausalLM | 12 | 312 | 12 |2K|
18
+ | **70M** | **42M** | **LlamaForCausalLM** | **12** | **576** | **9** | **2K** |
19
+ | 0.3B | 180M | Qwen2ForCausalLM | 12 | 896 | 14 |4K|
20
+ | 1B | 840M | Qwen2ForCausalLM | 18 | 1536 | 12 |4K|
21
+
22
  NanoLM-70M-Instruct-v1 的分词器和模型架构与 [SmolLM-135M](https://huggingface.co/HuggingFaceTB/SmolLM-135M) 相同,但层数从30减少到12。
23
 
24
  本质上是纯粹的 LLaMA 架构,即 LlamaForCausalLM。