RBench-V: 对具有多模态输出的视觉推理模型的初步评估

发表
MenghaoGuoMenghaoGuo 提交
作者: MenghaoGuoMeng-Hao Guo, Xuanyu ChuXuanyu Chu, Qianrui Yang, Zhe-Han MoZhe-Han Mo, Yiqing Shen, Pei-lin Li, Xinjie Lin, Jinnian Zhang, Xin-Sheng Chen, Yi ZhangYi Zhang, Kiyohiro Nakayama, Zhengyang Geng, Houwen Peng, Han Hu, Shi-Nin Hu

摘要

原生多模态模型和全能模型的快速发展,例如 GPT-4o、Gemini 和 o3,它们具备跨文本、图像等模态处理和生成内容的能力,标志着智能发展中的一个重要里程碑。对其在视觉思维过程(也称为多模态思维链,M-CoT)中的多模态输出能力进行系统评估变得至关重要。然而,现有的多模态模型评估基准主要侧重于评估多模态输入和纯文本推理,而忽视了通过多模态输出来进行推理的重要性。在本文中,我们提出了一个名为 RBench-V 的基准,旨在评估模型的视觉不可或缺的推理能力。为了构建 RBench-V,我们精心挑选了涵盖数学、物理、计数和游戏领域的803个问题。与通常指定某些输入模态的先前基准不同,RBench-V 提出的问题围绕多模态输出,需要图像操作,例如生成新的图像和构建辅助线来支持推理过程。我们在 RBench-V 上评估了许多开源和闭源模型,包括 o3、Gemini 2.5 Pro、Qwen2.5-VL 等。即使是性能最好的模型 o3,在 RBench-V 上的准确率也仅为25.8%,远低于人类82.3%的得分,凸显了当前模型难以利用多模态推理。数据和代码可在 https://evalmodels.github.io/rbenchv 获取。
查看 arXiv 页面查看 PDF

评论

MenghaoGuoMenghaoGuo
论文作者
论文提交者
此评论已隐藏。
MenghaoGuoMenghaoGuo
论文作者
论文提交者

我们提出了一个专门用于评估 o3 式推理的基准——这种视觉推理需要多模态输出,例如在几何问题中绘制辅助线。尽管具有一定的能力,但 o3 和 Gemini 2.5 Pro 等领先模型的准确率分别仅达到 25.6% 和 20.2%,而人类表现则高达 82.3%。这种鲜明对比表明,即使是最强大的模型在人类水平的视觉推理方面仍显著落后。