我们是否在评估文档检索增强生成方面走在正确的道路上?

发表
Chen DongpingChen Dongping 提交
作者: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

摘要

使用多模态大型语言模型(MLLMs)的检索增强生成(RAG)系统在复杂文档理解方面展现出巨大潜力,但其开发却因评估不足而受到严重阻碍。当前的基准测试通常侧重于文档 RAG 系统的特定部分,并使用合成数据,其中包含不完整的真实标签和证据标签,因此未能反映现实世界的瓶颈和挑战。为了克服这些限制,我们引入了 Double-Bench:一个新型的大规模、多语言、多模态评估系统,能够对文档 RAG 系统中的每个组件进行细粒度评估。它包含 3,276 份文档(72,880 页)和 5,168 个单跳和多跳查询,涵盖 6 种语言和 4 种文档类型,并支持流线型的动态更新以解决潜在的数据污染问题。查询基于详尽扫描的证据页面,并经人工专家验证,以确保最高质量和完整性。我们对 9 种最先进的嵌入模型、4 种 MLLM 和 4 种端到端文档 RAG 框架进行了全面实验,结果表明文本和视觉嵌入模型之间的差距正在缩小,这凸显了构建更强文档检索模型的必要性。我们的发现还揭示了当前文档 RAG 框架中的过度自信困境,即它们倾向于在没有证据支持的情况下提供答案。我们希望我们完全开源的 Double-Bench 能为未来高级文档 RAG 系统的研究提供坚实的基础。我们计划及时检索语料库并每年发布新的基准。
查看 arXiv 页面查看 PDF
我们是否在评估文档检索增强生成方面走在正确的道路上?

评论

Chen DongpingChen Dongping
论文提交者

🚀 很高兴分享我们关于彻底改变 RAG 评估的最新工作!

我们推出了 Double-Bench:一个大规模、多语言、多模态的新型评估系统,能够对文档 RAG 系统中的每个组件进行细粒度评估 [2508.03644] 我们在评估文档检索增强生成方面是否走对了路?

📊 Double-Bench 包含 3,276 份文档(72,880 页)和 5,168 个单跳和多跳查询,涵盖 6 种语言和 4 种文档类型,解决了当前基准测试中依赖合成数据和不完整真实情况的关键空白。我们经过人工验证的评估框架最终提供了 RAG 社区迫切需要的全面、真实世界评估!

🌍✨ 这项工作解决了使用 MLLM 推进文档理解的最大瓶颈之一。

项目主页:https://double-bench.github.io/

代码:https://github.com/Episoode/Double-Bench

数据集:https://huggingface.co/datasets/Episoode/Double-Bench