⏶3
接地式强化学习用于视觉推理
发表
由
Gabriel H Sarch 提交
作者: Gabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki
摘要
虽然基于思维链的强化学习(RL)在数学和编程等任务中显著提升了语言模型的能力,但视觉推理引入了额外的复杂性,要求模型引导视觉注意力、解释感知输入并将抽象推理建立在空间证据之上。我们引入 ViGoRL(视觉基础强化学习),这是一个通过 RL 训练的视觉语言模型,旨在明确地将每个推理步骤锚定到特定的视觉坐标。受人类视觉决策的启发,ViGoRL 学习生成空间基础的推理轨迹,在每一步将视觉注意力引导到与任务相关的区域。当需要精细探索时,我们新颖的多轮 RL 框架使模型能够在推理展开时动态缩放预测的坐标。在涵盖多种视觉推理基准测试中——包括用于空间推理的 SAT-2 和 BLINK,用于视觉搜索的 V*bench,以及用于基于网络的定位的 ScreenSpot 和 VisualWebArena——ViGoRL 一贯优于缺乏明确基础机制的监督微调和传统 RL 基线。将多轮 RL 与缩放视觉反馈相结合显著提高了 ViGoRL 在定位小型 GUI 元素和视觉搜索上的性能,在 V*Bench 上达到了 86.4%。此外,我们发现基础化放大了其他视觉行为,例如区域探索、基础子目标设定和视觉验证。最后,人类评估显示,该模型的视觉引用不仅在空间上准确,而且有助于理解模型的推理步骤。我们的结果表明,视觉基础 RL 是赋予模型通用视觉推理能力的强大范例。
项目页面:https://visually-grounded-rl.github.io/