minor readme modification
Browse files- README_zh.md +5 -5
README_zh.md
CHANGED
@@ -9,9 +9,9 @@
|
|
9 |
|
10 |
# FLM-101B
|
11 |
|
12 |
-
FLM-101B是一个开源的decoder-only架构的语言模型,参数规模101B
|
13 |
FLM-101B支持中英双语,训练上下文窗口长度为2048,得益于使用了xPos旋转位置编码,推理时窗口大小可进行良好的拓展。
|
14 |
-
为推动千亿规模LLM技术发展,FLM-101B
|
15 |
|
16 |
|
17 |
## 为什么使用FLM-101B
|
@@ -96,12 +96,12 @@ print(tokenizer.decode(generated.cpu()[0], skip_special_tokens=True))
|
|
96 |
|
97 |
#### 硬件
|
98 |
|
99 |
-
FLM-101B在24节点DGX-A800 GPU(8×80G)集群上完成的训练,总耗时近26
|
100 |
|
101 |
#### 软件
|
102 |
|
103 |
-
FLM-101B的训练代码Megatron-FLM基于Megatron-LM
|
104 |
-
框架支持3D
|
105 |
|
106 |
## 偏见、风险与限制
|
107 |
|
|
|
9 |
|
10 |
# FLM-101B
|
11 |
|
12 |
+
FLM-101B是一个开源的decoder-only架构的语言模型,参数规模101B。训练过程采用模型生长技术,通过训练前期在小规模模型上快速学习知识,后期将模型逐步生长成大模型的方式,实现了千亿规模模型的低成本(~$100K)训练。
|
13 |
FLM-101B支持中英双语,训练上下文窗口长度为2048,得益于使用了xPos旋转位置编码,推理时窗口大小可进行良好的拓展。
|
14 |
+
为推动千亿规模LLM技术发展,FLM-101B现已全面开源。
|
15 |
|
16 |
|
17 |
## 为什么使用FLM-101B
|
|
|
96 |
|
97 |
#### 硬件
|
98 |
|
99 |
+
FLM-101B在24节点DGX-A800 GPU(8×80G)集群上完成的训练,总耗时近26天。基于模型生长策略,我们依次在该集群上进行了16B, 51B和101B的模型的训练和生长。
|
100 |
|
101 |
#### 软件
|
102 |
|
103 |
+
FLM-101B的训练代码Megatron-FLM基于Megatron-LM框架修改,将在近期开源。
|
104 |
+
框架支持3D并行策略以及分布式优化器。
|
105 |
|
106 |
## 偏见、风险与限制
|
107 |
|