Update README.md
Browse files
README.md
CHANGED
@@ -9,7 +9,7 @@ datasets:
|
|
9 |
- yuyijiong/LongData-Corpus
|
10 |
pipeline_tag: text-generation
|
11 |
---
|
12 |
-
* 2023.12.14更新:发布微调后的Qwen-14b的权重,微调后的模型能适应32k长度(约4
|
13 |
|
14 |
# LongBench测试结果
|
15 |
### LongBench的passage_retrieval_zh的评测结果
|
@@ -19,12 +19,13 @@ pipeline_tag: text-generation
|
|
19 |
| CausalLM-14b | 0.086 |
|
20 |
| LongAlpaca-7b-32k-chinese-v2 | 0.12 |
|
21 |
| **Qwen-14b-chat-yarn-32k** |**0.94**|
|
22 |
-
|
23 |
|
24 |
|
25 |
|
26 |
# Usage
|
27 |
* 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
|
|
|
28 |
* 目前仅提供 modeling_qwen.py 代码,用此py文件替换原Qwen模型的modeling_qwen.py即可,其它使用方法不变。模型权重与原Qwen模型相同。
|
29 |
* 未来可能会发布微调的权重。
|
30 |
* 使用此模型时会自动设置 config.use_logn_attn=False、config.use_dynamic_ntk=True。
|
|
|
9 |
- yuyijiong/LongData-Corpus
|
10 |
pipeline_tag: text-generation
|
11 |
---
|
12 |
+
* 2023.12.14更新:发布微调后的Qwen-14b的权重,微调后的模型能适应32k长度(约4万汉字)的中英问答,在多文档问答任务上提升非常显著,超过chatglm3-32k。
|
13 |
|
14 |
# LongBench测试结果
|
15 |
### LongBench的passage_retrieval_zh的评测结果
|
|
|
19 |
| CausalLM-14b | 0.086 |
|
20 |
| LongAlpaca-7b-32k-chinese-v2 | 0.12 |
|
21 |
| **Qwen-14b-chat-yarn-32k** |**0.94**|
|
22 |
+
| chatglm3-32k | 0.725 |
|
23 |
|
24 |
|
25 |
|
26 |
# Usage
|
27 |
* 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
|
28 |
+
|
29 |
* 目前仅提供 modeling_qwen.py 代码,用此py文件替换原Qwen模型的modeling_qwen.py即可,其它使用方法不变。模型权重与原Qwen模型相同。
|
30 |
* 未来可能会发布微调的权重。
|
31 |
* 使用此模型时会自动设置 config.use_logn_attn=False、config.use_dynamic_ntk=True。
|