PRELUDE:一个需要对长上下文进行全局理解和推理的基准

发表
CindyCindy 提交
作者: MoMo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan XuLiyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

摘要

我们引入了 PRELUDE,这是一个通过判断角色的前传故事是否与原书的官方叙事一致的任务来评估长上下文理解能力的基准。与现有基准相比,我们的任务对全局理解和深度推理提出了更高的要求——由于前传并非原始故事的一部分,评估其合理性通常需要搜索和整合仅间接相关的信息。根据经验分析,88% 的实例需要来自叙事中多个部分的证据。实验结果凸显了我们任务的挑战性:无论是使用最先进大语言模型的上下文学习、RAG 和领域内训练,还是商业化的 DeepResearch 服务,其表现都比人类落后超过 15%。进一步的人类研究表明,模型经常在推理过程有缺陷的情况下得出正确答案,导致其推理准确率与人类相比存在超过 30% 的差距。这些发现强调了在长上下文理解和推理方面仍有巨大的提升空间。
查看 arXiv 页面查看 PDF

评论