⏶45
MMMR:大规模多模态推理任务基准测试
发表
由
2024 提交
作者:
Guiyao Tie,
Xueyang Zhou, Tianhe Gu,
Ruihang Zhang,
Chaoran Hu, Sizhe Zhang,
Mengqu Sun, Yan Zhang, Pan Zhou,
Lichao Sun

摘要
多模态大型语言模型(MLLMs)的最新进展使得语言、视觉和结构化输入的统一处理成为可能,从而为逻辑推理、空间推理和科学分析等复杂任务打开了大门。尽管潜力巨大,但 MLLMs 的推理能力,尤其是那些通过中间思维轨迹(MLLMs-T)增强的模型,仍然知之甚少且缺乏标准化的评估基准。现有工作主要关注感知或最终答案的正确性,对模型如何在跨模态中进行推理或失败提供了有限的洞察。为了弥合这一差距,我们引入了 MMMR,一个新的基准,旨在严格评估具有明确思维的多模态推理。MMMR 包括 1) 一个高难度数据集,包含 1,083 个问题,涵盖六种不同推理类型,具有符号深度和多跳需求,以及 2) 一个模块化的推理轨迹评估管线(RTEP),用于通过相关性、一致性和结构化错误标注等指标来评估除准确性之外的推理质量。实证结果表明,MLLMs-T 整体上优于无思维的模型,但即使是顶尖模型(如 Claude-3.7-Sonnet 和 Gemini-2.5 Pro)也存在推理病态问题,例如不一致性和过度思考。该基准揭示了准确性和推理质量之间持续存在的差距,并为未来的模型开发提供了可操作的评估管线。总的来说,MMMR 为评估、比较和改进下一代多模态推理系统提供了可扩展的基础。
项目页面: https://mmmr-benchmark.github.io/
数据集: https://huggingface.co/datasets/csegirl/MMMR
代码页面: https://github.com/CsEgir/MMMR/tree/master
排行榜: https://mmmr-benchmark.github.io/#Leaderboard