⏶7
VisR-Bench:关于多语言长文档理解中视觉检索增强生成的实证研究
发表
由
Jian Chen 提交

作者:
Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi,
Tianyi Zhou, Changyou Chen, Ruiyi Zhang


摘要
世界上大多数组织数据都以文档形式存储,而视觉检索在释放所有这些文档的集体智能方面发挥着至关重要的作用。然而,现有基准仅关注英文文档检索或仅考虑单页图像上的多语言问答。为了弥补这一空白,我们引入了VisR-Bench,一个专为长文档中的问题驱动多模态检索设计的多语言基准。我们的基准包含超过35K高质量问答对,涵盖1.2K文档,能够对多模态检索进行细粒度评估。VisR-Bench涵盖16种语言,具有三种问题类型(图、文本和表格),提供多样化的语言和问题覆盖。与以前的数据集不同,我们包含了没有明确答案的查询,防止模型依赖肤浅的关键词匹配。我们评估了各种检索模型,包括基于文本的方法、多模态编码器和MLLM,从而深入了解它们的优势和局限性。我们的结果表明,虽然MLLM显著优于基于文本和多模态编码器模型,但它们在结构化表格和低资源语言方面仍然存在困难,突出了多语言视觉检索中的关键挑战。

VisR-Bench是一个全面的基准数据集,用于长文档中的问题驱动、多语言和多模态文档检索。