yuyijiong
/

LongAlpaca-7b-32k-chinese-v2

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

yuyijiong commited on Nov 24, 2023

Commit

cf0b44a

•

1 Parent(s): 6957fe9

Update README.md

Files changed (1) hide show

README.md +11 -0

README.md CHANGED Viewed

@@ -58,6 +58,17 @@ print('模型回答：', reply_return)
 * 面对多文档问答任务时，难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的，而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
 * 经过位置插值的模型，对数字的敏感性会变差，关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的，还是基座模型本身能力不佳。
 ## 以下是一些模型的问答实例：
 <details>

 * 面对多文档问答任务时，难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的，而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
 * 经过位置插值的模型，对数字的敏感性会变差，关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的，还是基座模型本身能力不佳。
+### 各模型在LongBench的passage_retrieval_zh上的评测结果
+| 模型                           | 得分（acc）    |
+|------------------------------|-------|
+| qwen-14b-chat                | 0.525 |
+| CausalLM-14b                 | 0.086 |
+| CausalLM-7b                  | 0.04  |
+| LongAlpaca-7b-32k-chinese-v2 | 0.12  |
+CausalLM本身的段落检索能力就极弱，而Qwen则较好，导致训练出的模型段落检索能力不强（但相比基座模型仍有提升）。后续可能改用qwen作为基座模型。
 ## 以下是一些模型的问答实例：
 <details>