yuyijiong
/

Qwen-14b-chat-yarn-32k

Text Generation

Model card Files Files and versions Community

yuyijiong commited on Dec 14, 2023

Commit

71ba403

•

1 Parent(s): d1e96df

Update README.md

Files changed (1) hide show

README.md +7 -2

README.md CHANGED Viewed

@@ -36,8 +36,13 @@ response, history = model.chat(tokenizer, input_text, history=None)
 print(response)
 ```
-## 模型结构修改
-* 将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
 # 问答例子

 print(response)
 ```
+# 训练过程
+### 1.模型结构修改
+将Qwen模型的NTK插值方法替换为Yarn，同时适当缩小位置插值的缩放因子s，实现了模型在更长文本长度（大于16k）下的正常对话能力。原版Qwen在16k文本长度下无法正常输出。
+### 2.预训练
+使用[yuyijiong/LongData-Corpus](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)数据，Qlora方法，数据切分为32k文本长度，对Qwen模型进行增量预训练。
+### 3.指令微调
+使用[yuyijiong/Long-Instruction-Chinese]https://huggingface.co/datasets/yuyijiong/Long-Instruction-Chinese)数据，Qlora方法，对Qwen模型进行微调。
 # 问答例子