可追溯证据增强的视觉接地推理:评估与方法

发表
HaochenWangHaochenWang 提交
作者: HaochenWangHaochen Wang, Xiangtai LiXiangtai Li, Zilong Huang, Anran Wang, wangJiacong Wang, Tao Zhang, zjnJiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

摘要

像OpenAI-o3这样的模型通过动态引用视觉区域,开创了视觉接地推理的先河,就像人类“用图像思考”一样。然而,目前还没有一个基准能够全面评估这些能力。为了弥补这一空白,我们提出了TreeBench(可追溯证据评估基准),这是一个基于三个原则构建的诊断性基准:(1) 专注于复杂场景中微小目标的视觉感知,(2) 通过边界框评估实现可追溯证据,以及(3) 超越简单物体定位的二阶推理,以测试物体交互和空间层次结构。我们优先选择包含密集物体的图像,初步从SA-1B中抽取1K张高质量图像,并邀请八位LMM专家手动标注每张图像的问题、候选选项和答案。经过三阶段的质量控制,TreeBench包含405个具有挑战性的视觉问答对,即使是最先进的模型也难以应对这个基准,其中没有一个能达到60%的准确率,例如OpenAI-o3得分仅为54.87。此外,我们引入了TreeVGR(可追溯证据增强视觉接地推理),这是一种训练范式,通过强化学习共同监督定位和推理,从而实现精确的定位和可解释的推理路径。它以Qwen2.5-VL-7B为基础进行初始化,改进了V* Bench(+16.8)、MME-RealWorld(+12.6)和TreeBench(+13.4),证明了可追溯性是推进视觉接地推理的关键。代码可在https://github.com/Haochen-Wang409/TreeVGR获取。
查看 arXiv 页面查看 PDF

评论

HaochenWangHaochenWang
论文作者
论文提交者

我们提出了TreeBench,这是第一个专门为评估“图像思维”能力而设计的基准。与之前仅评估最终问答准确性的基准不同,TreeBench还评估定位精度。虽然模型在V* Bench等基准上接近饱和(>90%),但目前的最新模型,即OpenAI-o3,在TreeBench上的得分仅为54.87,这意味着未来工作有巨大的改进潜力。

image.png

此外,我们提出了TreeVGR,这是目前最先进的开源视觉接地推理模型。与之前仅监督最终答案的RL方法不同,我们通过一种新颖的双IoU奖励明确监督生成的边界框。这种奖励确保了对人类标注的视觉证据的明确责任,引导策略走向空间准确和逻辑连贯的推理路径。

image.png

image.png

ZoceawnZoceawn

这是一项非常有价值的工作。