⏶45

MMMR：大规模多模态推理任务基准测试

05月22日发表

05月28日由 2024 提交

作者: Guiyao Tie, Zhou Xueyang Xueyang Zhou, Tianhe Gu, RheaZhang Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

摘要

多模态大型语言模型（MLLMs）的最新进展使得语言、视觉和结构化输入的统一处理成为可能，从而为逻辑推理、空间推理和科学分析等复杂任务打开了大门。尽管潜力巨大，但 MLLMs 的推理能力，尤其是那些通过中间思维轨迹（MLLMs-T）增强的模型，仍然知之甚少且缺乏标准化的评估基准。现有工作主要关注感知或最终答案的正确性，对模型如何在跨模态中进行推理或失败提供了有限的洞察。为了弥合这一差距，我们引入了 MMMR，一个新的基准，旨在严格评估具有明确思维的多模态推理。MMMR 包括 1) 一个高难度数据集，包含 1,083 个问题，涵盖六种不同推理类型，具有符号深度和多跳需求，以及 2) 一个模块化的推理轨迹评估管线（RTEP），用于通过相关性、一致性和结构化错误标注等指标来评估除准确性之外的推理质量。实证结果表明，MLLMs-T 整体上优于无思维的模型，但即使是顶尖模型（如 Claude-3.7-Sonnet 和 Gemini-2.5 Pro）也存在推理病态问题，例如不一致性和过度思考。该基准揭示了准确性和推理质量之间持续存在的差距，并为未来的模型开发提供了可操作的评估管线。总的来说，MMMR 为评估、比较和改进下一代多模态推理系统提供了可扩展的基础。

查看 arXiv 页面查看 PDF

2024

论文作者

论文提交者

项目页面: https://mmmr-benchmark.github.io/

数据集: https://huggingface.co/datasets/csegirl/MMMR

代码页面: https://github.com/CsEgir/MMMR/tree/master

2024

论文作者

论文提交者