Update README.md
Browse files
README.md
CHANGED
@@ -18,7 +18,7 @@ widget:
|
|
18 |
在1300w+问答和对话数据上做有监督预训练
|
19 |
|
20 |
## 训练硬件和时间
|
21 |
-
4*Titan RTX,耗时
|
22 |
|
23 |
## 更新进度
|
24 |
model v1 :2023.3.12
|
@@ -43,6 +43,8 @@ model v4 :2023.3.30(感谢Belle 1m开源的指示学习数据)
|
|
43 |
|
44 |
6、发现top k的推理模式比top p的推理效果好一些,所以推理改成了top k。
|
45 |
|
|
|
|
|
46 |
|
47 |
## 模型推理
|
48 |
|
|
|
18 |
在1300w+问答和对话数据上做有监督预训练
|
19 |
|
20 |
## 训练硬件和时间
|
21 |
+
4*Titan RTX,耗时20天
|
22 |
|
23 |
## 更新进度
|
24 |
model v1 :2023.3.12
|
|
|
43 |
|
44 |
6、发现top k的推理模式比top p的推理效果好一些,所以推理改成了top k。
|
45 |
|
46 |
+
7、目前主要是单轮对话,多轮对话虽然也有训练,但是训练窗口太小效果不好,所以这里屏蔽了多轮对话,以后如果优化之后会写出多轮示例。
|
47 |
+
|
48 |
|
49 |
## 模型推理
|
50 |
|