yuyijiong
/

Qwen-14b-chat-yarn-32k

Text Generation

Model card Files Files and versions Community

yuyijiong commited on Dec 14, 2023

Commit

f2e3a30

•

1 Parent(s): 2f208f0

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ datasets:
 - yuyijiong/LongData-Corpus
 pipeline_tag: text-generation
 ---
-* 2023.12.14更新：发布微调后的Qwen-14b的权重，微调后的模型能适应32k长度（约4万汉字）的中英问答，在多文档问答任务上提升显著。
 # LongBench测试结果
 ### LongBench的passage_retrieval_zh的评测结果
@@ -19,12 +19,13 @@ pipeline_tag: text-generation
 | CausalLM-14b                                | 0.086    |
 | LongAlpaca-7b-32k-chinese-v2                | 0.12     |
 | **Qwen-14b-chat-yarn-32k**                     |**0.94**|
 # Usage
 * 将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
 * 目前仅提供  modeling_qwen.py  代码，用此py文件替换原Qwen模型的modeling_qwen.py即可，其它使用方法不变。模型权重与原Qwen模型相同。
 * 未来可能会发布微调的权重。
 * 使用此模型时会自动设置  config.use_logn_attn=False、config.use_dynamic_ntk=True。

 - yuyijiong/LongData-Corpus
 pipeline_tag: text-generation
 ---
+* 2023.12.14更新：发布微调后的Qwen-14b的权重，微调后的模型能适应32k长度（约4万汉字）的中英问答，在多文档问答任务上提升非常显著，超过chatglm3-32k。
 # LongBench测试结果
 ### LongBench的passage_retrieval_zh的评测结果
 | CausalLM-14b                                | 0.086    |
 | LongAlpaca-7b-32k-chinese-v2                | 0.12     |
 | **Qwen-14b-chat-yarn-32k**                     |**0.94**|
+| chatglm3-32k                                | 0.725    |
 # Usage
 * 将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
 * 目前仅提供  modeling_qwen.py  代码，用此py文件替换原Qwen模型的modeling_qwen.py即可，其它使用方法不变。模型权重与原Qwen模型相同。
 * 未来可能会发布微调的权重。
 * 使用此模型时会自动设置  config.use_logn_attn=False、config.use_dynamic_ntk=True。