Update README.md
Browse files
README.md
CHANGED
@@ -58,6 +58,17 @@ print('模型回答:', reply_return)
|
|
58 |
* 面对多文档问答任务时,难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的,而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
|
59 |
* 经过位置插值的模型,对数字的敏感性会变差,关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的,还是基座模型本身能力不佳。
|
60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
61 |
## 以下是一些模型的问答实例:
|
62 |
|
63 |
<details>
|
|
|
58 |
* 面对多文档问答任务时,难以给出正确的文档序号。容易出现幻觉问题。但这并非是指令微调造成的,而是基座模型 CausalLM-7b本身的段落检索能力就极弱。
|
59 |
* 经过位置插值的模型,对数字的敏感性会变差,关于数字的回答常常出现错误。尚不清楚是由于上下文窗口加长造成的,还是基座模型本身能力不佳。
|
60 |
|
61 |
+
|
62 |
+
### 各模型在LongBench的passage_retrieval_zh上的评测结果
|
63 |
+
| 模型 | 得分(acc) |
|
64 |
+
|------------------------------|-------|
|
65 |
+
| qwen-14b-chat | 0.525 |
|
66 |
+
| CausalLM-14b | 0.086 |
|
67 |
+
| CausalLM-7b | 0.04 |
|
68 |
+
| LongAlpaca-7b-32k-chinese-v2 | 0.12 |
|
69 |
+
|
70 |
+
CausalLM本身的段落检索能力就极弱,而Qwen则较好,导致训练出的模型段落检索能力不强(但相比基座模型仍有提升)。后续可能改用qwen作为基座模型。
|
71 |
+
|
72 |
## 以下是一些模型的问答实例:
|
73 |
|
74 |
<details>
|