⏶82

MME-Reasoning：一个面向 MLLMs 中逻辑推理的综合基准

05月27日发表

05月28日由 Jiakang Yuan 提交

作者: Jiakang Yuan, Tianshuo Peng, JiangYilei Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue

摘要

逻辑推理是人类智能的基本方面，也是多模态大语言模型（MLLMs）的基本能力。尽管多模态推理取得了显著进展，但现有基准由于缺乏对逻辑推理类型的明确分类以及对推理的不清晰理解，未能全面评估其推理能力。为了解决这些问题，我们引入了 MME-Reasoning，一个旨在评估 MLLMs 推理能力的综合基准，其问题涵盖了所有三种推理类型（即，归纳推理、演绎推理和溯因推理）。我们精心策划数据，确保每个问题都有效评估推理能力，而非感知技能或知识广度，并扩展评估协议以涵盖对多样化问题的评估。我们的评估揭示了最先进 MLLMs 在整体逻辑推理能力评估中存在的重大局限性。即使是最先进的 MLLMs 在综合逻辑推理方面也表现有限，并且在不同推理类型之间存在明显的性能不平衡。此外，我们深入分析了通常被认为能增强推理能力的“思维模式”和基于规则的强化学习等方法。这些发现突显了当前 MLLMs 在多样化逻辑推理场景中的关键局限性和性能不平衡，为理解和评估推理能力提供了全面系统的见解。

查看 arXiv 页面查看 PDF

Jiakang Yuan

论文作者

论文提交者

项目页面: https://alpha-innovator.github.io/mmereasoning.github.io/

Github: https://github.com/Alpha-Innovator/MME-Reasoning

Florent Daudens

收听本文的音频摘要：https://open.spotify.com/episode/2ZLjlkY1uwTeei8D8pLS33?si=52226878d47d444a

MME-Reasoning：一个面向 MLLMs 中逻辑推理的综合基准

摘要

评论