⏶73
VisuLogic:一个用于评估多模态大型语言模型中视觉推理的基准
发表
由
Jiahao Wang 提交
作者:
Weiye Xu,
Jiahao Wang,
Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang,
Lewei Lu, Houqiang Li, Xiaohua Wang,
Xizhou Zhu,
Wenhai Wang,
Jifeng Dai, Jinguo Zhu

摘要
视觉推理是人类智能的核心组成部分,也是先进多模态模型的关键能力。然而,当前对多模态大型语言模型 (MLLM) 的推理评估通常依赖文本描述,并允许基于语言的推理捷径,未能衡量真正的视觉中心推理。为解决此问题,我们引入了 VisuLogic:一个包含 1,000 个经人工验证的问题的基准,涵盖六个类别(例如,定量变化、空间关系、属性比较)。这些各种类型的问题可用于从多个角度评估 MLLM 的视觉推理能力。我们在该基准上评估了领先的 MLLM,并分析了它们的结果,以找出常见的失败模式。大多数模型的准确率低于 30%——仅略高于 25% 的随机基线,且远低于人类实现的 51.4%——这揭示了视觉推理方面的显著差距。此外,我们提供了一个补充训练数据集和一个强化学习基线,以支持进一步的研究进展。
VisuLogic 提供了一个基准测试和训练数据集,用于评估和提升多模态大模型 (MLLMs) 的视觉推理能力。项目主页是 https://visulogic-benchmark.github.io/VisuLogic/。