VLM-R1:稳定且可泛化的R1风格大型视觉语言模型

发表
Tony ZhaoTony Zhao 提交
作者: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

摘要

最近 DeepSeek R1 表明,通过简单而有效的设计,强化学习 (RL) 可以显着提高大型语言模型 (LLM) 的推理能力。R1 的核心在于其基于规则的奖励公式,该公式利用具有确定性真实答案的任务来实现精确且稳定的奖励计算。在视觉领域,我们同样观察到,广泛的视觉理解任务本身就配备了明确定义的真实注释。这种特性使得它们与基于规则的奖励机制自然兼容。受到这一观察的启发,我们研究了将 R1 风格的强化学习扩展到视觉语言模型 (VLM),旨在增强其视觉推理能力。为此,我们开发了 VLM-R1,这是一个专门设计的框架,旨在利用 RL 提高 VLM 在通用视觉语言任务上的性能。使用这个框架,我们进一步探索了将 RL 应用于视觉领域的可行性。实验结果表明,基于 RL 的模型不仅在视觉理解任务上提供了有竞争力的性能,而且在泛化能力方面也超越了监督微调 (SFT)。此外,我们进行了全面的消融研究,揭示了一系列值得注意的见解,包括目标检测中奖励黑客的存在、“OD aha 时刻”的出现、训练数据质量的影响以及 RL 在不同模型尺寸上的缩放行为。通过这些分析,我们旨在加深对强化学习如何增强视觉语言模型能力的理解,并且我们希望我们的发现和开源贡献将支持视觉语言 RL 社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获取
查看 arXiv 页面查看 PDF

评论

Tony ZhaoTony Zhao
论文提交者

🚀 ​​VLM-R1 完整技术报告发布!​​

我们剖析了 GRPO 如何激励 VLM 中的视觉推理,包括在奖励工程、数据采样和泛化方面学到的许多经验教训。 快来看看吧!

intro.png