yuyijiong commited on
Commit
cf0b44a
1 Parent(s): 6957fe9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -0
README.md CHANGED
@@ -58,6 +58,17 @@ print('模型回答:', reply_return)
58
  * 面对多文档问答任务时,难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的,而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
59
  * 经过位置插值的模型,对数字的敏感性会变差,关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的,还是基座模型本身能力不佳。
60
 
 
 
 
 
 
 
 
 
 
 
 
61
  ## 以下是一些模型的问答实例:
62
 
63
  <details>
 
58
  * 面对多文档问答任务时,难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的,而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
59
  * 经过位置插值的模型,对数字的敏感性会变差,关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的,还是基座模型本身能力不佳。
60
 
61
+
62
+ ### 各模型在LongBench的passage_retrieval_zh上的评测结果
63
+ | 模型 | 得分(acc) |
64
+ |------------------------------|-------|
65
+ | qwen-14b-chat | 0.525 |
66
+ | CausalLM-14b | 0.086 |
67
+ | CausalLM-7b | 0.04 |
68
+ | LongAlpaca-7b-32k-chinese-v2 | 0.12 |
69
+
70
+ CausalLM本身的段落检索能力就极弱,而Qwen则较好,导致训练出的模型段落检索能力不强(但相比基座模型仍有提升)。后续可能改用qwen作为基座模型。
71
+
72
  ## 以下是一些模型的问答实例:
73
 
74
  <details>