请问一下“效果评估 ”结果是使用哪种测评方式?

#4
by wandyli - opened

感谢开源!

同问,可以给出评估case和评估结果吗?
另外,我看到IDEA放出的测试集 https://huggingface.co/datasets/IDEA-CCNL/Ziya-Eval-Chinese/blob/main/test.jsonl 只有185条,数据太少,在这个评测集上评估可能不中肯。

Fengshenbang-LM org

采用人为评估,IDEA-CCNL/Ziya-Eval-Chinese这个数据集主要测试生成效果,需要多个标注人员对这些数据打分,代价较大,所以目前只给出这个数据集,后续也会持续扩充。另外最近clue也在他们更大的数据集上评估了一次,跟我们的评估结论基本一致,可以参考 https://mp.weixin.qq.com/s/5mYyq8qAMdi1Z6auqjmoDA

Sign up or log in to comment