⏶8
VLM-R^3:用于增强多模态思维链的区域识别、推理与细化
发表
由
xuhaiyang 提交
作者: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang,
Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
摘要
最近,基于推理的多模态大型语言模型(MLLMs)在生成长篇文本推理链方面取得了一定成功。然而,它们在需要动态和迭代地关注和重新审视视觉区域以实现文本推理在视觉证据中精确定位的复杂任务上仍然存在困难。我们引入了VLM-R^3(具有区域识别和推理的视觉语言模型),这是一个赋予MLLM以下能力的框架:(i) 决定何时需要额外的视觉证据,(ii) 确定在图像何处进行定位,以及 (iii) 将相关的子图像内容无缝地编织回交错的思维链中。我们方法的核心是区域条件强化策略优化(R-GRPO),这是一种训练范式,通过奖励模型选择信息丰富的区域、制定适当的转换(例如裁剪、缩放)以及将产生的视觉上下文整合到后续推理步骤中。为了引导这一策略,我们编译了一个适中但精心策划的视觉-语言交错原理(VLIR)语料库,该语料库提供了区域选择和文本理由的步骤级监督。在MathVista、ScienceQA和其他基准上的广泛实验表明,VLM-R^3在零样本和少样本设置中创下了新的技术水平,尤其在需要微妙空间推理或细粒度视觉线索提取的问题上取得了最大提升。
最近,基于推理的多模态大语言模型 (MLLMs) 在生成长文本推理链方面取得了一定的成功。然而,它们仍然难以应对需要动态和迭代地聚焦并重访视觉区域的复杂任务,以实现文本推理与视觉证据的精确对齐。我们引入了 \textbf{VLM-R3}(\textbf{V}isual \textbf{L}anguage \textbf{M}odel with \textbf{R}egion \textbf{R}ecognition and \textbf{R}easoning),这是一个框架,赋予MLLM (i) 决定 \emph{何时} 需要额外视觉证据、(ii) 确定 \emph{在图像中何处} 进行对齐,以及 (iii) 将相关的子图像内容无缝地整合到交错思维链中的能力。我们方法的核心是 \textbf{区域条件强化策略优化 (R-GRPO)},这是一种训练范式,奖励模型选择信息丰富的区域、制定适当的转换(例如裁剪、缩放),并将由此产生的视觉上下文整合到后续推理步骤中。为了引导该策略,我们汇编了一个适度但精心策划的视觉-语言交错推理 (VLIR) 语料库,提供了区域选择和文本理由的步骤级监督。在 MathVista、ScienceQA 和其他基准上进行的广泛实验表明,VLM-R3 在零样本和少样本设置中达到了新的最先进水平,尤其是在需要微妙空间推理或细粒度视觉线索提取的问题上取得了最大的提升。