VisuLogic:一个用于评估多模态大型语言模型中视觉推理的基准

发表
Jiahao WangJiahao Wang 提交
作者: Xu WayenWeiye Xu, Jiahao WangJiahao Wang, Weiyun WangWeiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei LuLewei Lu, Houqiang Li, Xiaohua Wang, Xizhou ZhuXizhou Zhu, wenhai.wangWenhai Wang, Jifeng DaiJifeng Dai, Jinguo Zhu

摘要

视觉推理是人类智能的核心组成部分,也是先进多模态模型的关键能力。然而,当前对多模态大型语言模型 (MLLM) 的推理评估通常依赖文本描述,并允许基于语言的推理捷径,未能衡量真正的视觉中心推理。为解决此问题,我们引入了 VisuLogic:一个包含 1,000 个经人工验证的问题的基准,涵盖六个类别(例如,定量变化、空间关系、属性比较)。这些各种类型的问题可用于从多个角度评估 MLLM 的视觉推理能力。我们在该基准上评估了领先的 MLLM,并分析了它们的结果,以找出常见的失败模式。大多数模型的准确率低于 30%——仅略高于 25% 的随机基线,且远低于人类实现的 51.4%——这揭示了视觉推理方面的显著差距。此外,我们提供了一个补充训练数据集和一个强化学习基线,以支持进一步的研究进展。
查看 arXiv 页面查看 PDF

评论

Jiahao WangJiahao Wang
论文作者
论文提交者

VisuLogic 提供了一个基准测试和训练数据集,用于评估和提升多模态大模型 (MLLMs) 的视觉推理能力。项目主页是 https://visulogic-benchmark.github.io/VisuLogic/。