Text Generation
Transformers
Safetensors
Chinese
English
qwen
conversational
custom_code
yuyijiong commited on
Commit
f2e3a30
1 Parent(s): 2f208f0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -2
README.md CHANGED
@@ -9,7 +9,7 @@ datasets:
9
  - yuyijiong/LongData-Corpus
10
  pipeline_tag: text-generation
11
  ---
12
- * 2023.12.14更新:发布微调后的Qwen-14b的权重,微调后的模型能适应32k长度(约4万汉字)的中英问答,在多文档问答任务上提升显著。
13
 
14
  # LongBench测试结果
15
  ### LongBench的passage_retrieval_zh的评测结果
@@ -19,12 +19,13 @@ pipeline_tag: text-generation
19
  | CausalLM-14b | 0.086 |
20
  | LongAlpaca-7b-32k-chinese-v2 | 0.12 |
21
  | **Qwen-14b-chat-yarn-32k** |**0.94**|
22
-
23
 
24
 
25
 
26
  # Usage
27
  * 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
 
28
  * 目前仅提供 modeling_qwen.py 代码,用此py文件替换原Qwen模型的modeling_qwen.py即可,其它使用方法不变。模型权重与原Qwen模型相同。
29
  * 未来可能会发布微调的权重。
30
  * 使用此模型时会自动设置 config.use_logn_attn=False、config.use_dynamic_ntk=True。
 
9
  - yuyijiong/LongData-Corpus
10
  pipeline_tag: text-generation
11
  ---
12
+ * 2023.12.14更新:发布微调后的Qwen-14b的权重,微调后的模型能适应32k长度(约4万汉字)的中英问答,在多文档问答任务上提升非常显著,超过chatglm3-32k。
13
 
14
  # LongBench测试结果
15
  ### LongBench的passage_retrieval_zh的评测结果
 
19
  | CausalLM-14b | 0.086 |
20
  | LongAlpaca-7b-32k-chinese-v2 | 0.12 |
21
  | **Qwen-14b-chat-yarn-32k** |**0.94**|
22
+ | chatglm3-32k | 0.725 |
23
 
24
 
25
 
26
  # Usage
27
  * 将Qwen模型的NTK插值方法替换为Yarn,同时适当缩小位置插值的缩放因子,实现了模型在更长文本长度(大于16k)下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
28
+
29
  * 目前仅提供 modeling_qwen.py 代码,用此py文件替换原Qwen模型的modeling_qwen.py即可,其它使用方法不变。模型权重与原Qwen模型相同。
30
  * 未来可能会发布微调的权重。
31
  * 使用此模型时会自动设置 config.use_logn_attn=False、config.use_dynamic_ntk=True。