MMMR:大规模多模态推理任务基准测试

发表
20242024 提交
作者: 2024Guiyao Tie, Zhou XueyangXueyang Zhou, Tianhe Gu, RheaZhangRuihang Zhang, Chaoran HuChaoran Hu, Sizhe Zhang, Mengqu SunMengqu Sun, Yan Zhang, Pan Zhou, Lichao SunLichao Sun

摘要

多模态大型语言模型(MLLMs)的最新进展使得语言、视觉和结构化输入的统一处理成为可能,从而为逻辑推理、空间推理和科学分析等复杂任务打开了大门。尽管潜力巨大,但 MLLMs 的推理能力,尤其是那些通过中间思维轨迹(MLLMs-T)增强的模型,仍然知之甚少且缺乏标准化的评估基准。现有工作主要关注感知或最终答案的正确性,对模型如何在跨模态中进行推理或失败提供了有限的洞察。为了弥合这一差距,我们引入了 MMMR,一个新的基准,旨在严格评估具有明确思维的多模态推理。MMMR 包括 1) 一个高难度数据集,包含 1,083 个问题,涵盖六种不同推理类型,具有符号深度和多跳需求,以及 2) 一个模块化的推理轨迹评估管线(RTEP),用于通过相关性、一致性和结构化错误标注等指标来评估除准确性之外的推理质量。实证结果表明,MLLMs-T 整体上优于无思维的模型,但即使是顶尖模型(如 Claude-3.7-Sonnet 和 Gemini-2.5 Pro)也存在推理病态问题,例如不一致性和过度思考。该基准揭示了准确性和推理质量之间持续存在的差距,并为未来的模型开发提供了可操作的评估管线。总的来说,MMMR 为评估、比较和改进下一代多模态推理系统提供了可扩展的基础。
查看 arXiv 页面查看 PDF

评论

20242024
论文作者
论文提交者

F1.png

F2.png

F3.png

20242024
论文作者
论文提交者
此评论已隐藏。