⏶53
MMLongBench:有效全面评估长文本视觉语言模型
发表
由
Rohit Saxena 提交
作者:
Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang,
Yu Zhao,
Rohit Saxena, Liang Cheng, Ginny Wong, Simon See,
Pasquale Minervini, Yangqiu Song, Mark Steedman


摘要
大型视觉-语言模型中上下文窗口的快速扩展催生了长上下文视觉-语言模型(LCVLMs),这些模型能够在单次前向传播中处理数百张图像和交错的文本 token。在这项工作中,我们介绍了 MMLongBench,这是第一个涵盖多样化长上下文视觉-语言任务的基准,旨在有效且全面地评估 LCVLMs。MMLongBench 由 13,331 个示例组成,涵盖了五种不同类别的下游任务,例如视觉 RAG 和多样本 ICL。它还提供了广泛的图像类型覆盖,包括各种自然图像和合成图像。为了评估模型对不同输入长度的鲁棒性,所有示例都通过结合视觉 patch 和文本 token 的跨模态 token 化方案,以五种标准化输入长度(8K-128K token)呈现。通过对 46 个闭源和开源 LCVLMs 进行全面基准测试,我们对当前模型的视觉-语言长上下文能力提供了全面的分析。我们的结果显示:i) 单一任务上的性能并不能很好地代表整体长上下文能力;ii) 闭源模型和开源模型在长上下文视觉-语言任务中均面临挑战,表明未来有巨大的改进空间;iii) 具有更强推理能力的模型往往表现出更好的长上下文性能。通过提供广泛的任务覆盖、多样的图像类型和严格的长度控制,MMLongBench 为诊断和推动下一代 LCVLMs 的发展提供了缺失的基础。
我们引入了 MMLongBench,这是第一个涵盖多种长上下文视觉语言任务的基准,用于有效且全面地评估长上下文视觉语言模型(LCVLMs)。MMLongBench 由 13,331 个示例组成,涵盖五类不同的下游任务,包括视觉检索增强生成(Visual RAG)、需要注意力的不是全部(NIAH)、多样本情境学习(Many-Shot ICL)、摘要生成(基于 PDF 文档)和长文档视觉问答(Long-Document VQA)。它还提供了广泛的图像类型覆盖,包括各种自然图像和合成图像。所有示例通过结合视觉块和文本标记的跨模态标记化方案,以五种标准化输入长度(8K、16K、32K、64K 和 128K 标记)提供。通过对 46 个闭源和开源 LCVLMs 的全面基准测试,我们提供了对当前模型视觉语言长上下文能力的综合分析。我们的结果表明:
单一任务上的表现并不能很好地代表整体长上下文能力;
闭源和开源模型在长上下文视觉语言任务中都面临挑战,这表明未来有很大的改进空间;
推理能力更强的模型往往表现出更好的长上下文性能。
MMLongBench 通过提供广泛的任务覆盖、多种图像类型和严格的长度控制,为诊断和推进下一代 LCVLMs 提供了缺失的基础。