MME-Reasoning:一个面向 MLLMs 中逻辑推理的综合基准

发表
Jiakang YuanJiakang Yuan 提交
作者: Jiakang YuanJiakang Yuan, Tianshuo PengTianshuo Peng, JiangYileiYilei Jiang, Yiting Lu, Renrui Zhang, Kaituo FengKaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo ZhangBo Zhang, Xiangyu YueXiangyu Yue

摘要

逻辑推理是人类智能的基本方面,也是多模态大语言模型(MLLMs)的基本能力。尽管多模态推理取得了显著进展,但现有基准由于缺乏对逻辑推理类型的明确分类以及对推理的不清晰理解,未能全面评估其推理能力。为了解决这些问题,我们引入了 MME-Reasoning,一个旨在评估 MLLMs 推理能力的综合基准,其问题涵盖了所有三种推理类型(即,归纳推理、演绎推理和溯因推理)。我们精心策划数据,确保每个问题都有效评估推理能力,而非感知技能或知识广度,并扩展评估协议以涵盖对多样化问题的评估。我们的评估揭示了最先进 MLLMs 在整体逻辑推理能力评估中存在的重大局限性。即使是最先进的 MLLMs 在综合逻辑推理方面也表现有限,并且在不同推理类型之间存在明显的性能不平衡。此外,我们深入分析了通常被认为能增强推理能力的“思维模式”和基于规则的强化学习等方法。这些发现突显了当前 MLLMs 在多样化逻辑推理场景中的关键局限性和性能不平衡,为理解和评估推理能力提供了全面系统的见解。
查看 arXiv 页面查看 PDF

评论