horiz94 commited on
Commit
7b9c234
1 Parent(s): 9055d75

minor readme modification

Browse files
Files changed (1) hide show
  1. README_zh.md +5 -5
README_zh.md CHANGED
@@ -9,9 +9,9 @@
9
 
10
  # FLM-101B
11
 
12
- FLM-101B是一个开源的decoder-only架构的语言模型,参数规模101B.训练过程采用模型生长技术,通过训练前期在小规模模型上快速学习知识,后期将模型逐步生长成大模型的方式,实现了千亿规模模型的低成本(~$100K)训练。
13
  FLM-101B支持中英双语,训练上下文窗口长度为2048,得益于使用了xPos旋转位置编码,推理时窗口大小可进行良好的拓展。
14
- 为推动千亿规模LLM技术发展,FLM-101B现已全面开源.
15
 
16
 
17
  ## 为什么使用FLM-101B
@@ -96,12 +96,12 @@ print(tokenizer.decode(generated.cpu()[0], skip_special_tokens=True))
96
 
97
  #### 硬件
98
 
99
- FLM-101B在24节点DGX-A800 GPU(8×80G)集群上完成的训练,总耗时近26天.基于模型生长策略,我们依次在该集群上进行了16B, 51B和101B的模型的训练和生长.
100
 
101
  #### 软件
102
 
103
- FLM-101B的训练代码Megatron-FLM基于Megatron-LM框架修改,将在近期开源.
104
- 框架支持3D并行策略以及分布式优化器.
105
 
106
  ## 偏见、风险与限制
107
 
 
9
 
10
  # FLM-101B
11
 
12
+ FLM-101B是一个开源的decoder-only架构的语言模型,参数规模101B。训练过程采用模型生长技术,通过训练前期在小规模模型上快速学习知识,后期将模型逐步生长成大模型的方式,实现了千亿规模模型的低成本(~$100K)训练。
13
  FLM-101B支持中英双语,训练上下文窗口长度为2048,得益于使用了xPos旋转位置编码,推理时窗口大小可进行良好的拓展。
14
+ 为推动千亿规模LLM技术发展,FLM-101B现已全面开源。
15
 
16
 
17
  ## 为什么使用FLM-101B
 
96
 
97
  #### 硬件
98
 
99
+ FLM-101B在24节点DGX-A800 GPU(8×80G)集群上完成的训练,总耗时近26天。基于模型生长策略,我们依次在该集群上进行了16B, 51B和101B的模型的训练和生长。
100
 
101
  #### 软件
102
 
103
+ FLM-101B的训练代码Megatron-FLM基于Megatron-LM框架修改,将在近期开源。
104
+ 框架支持3D并行策略以及分布式优化器。
105
 
106
  ## 偏见、风险与限制
107