VL-Rethinker:使用强化学习激励视觉-语言模型的自我反思

04月10日发表
04月15日由 Wenhu ChenWenhu Chen 提交
作者: Haozhe WangHaozhe Wang, Chao Qu, Zuming HuangZuming Huang, Wei Chu, Fangzhen Lin, Wenhu ChenWenhu Chen

摘要

最近,像 GPT-o1 和 DeepSeek-R1 这样的慢思考系统在通过显式反思解决具有挑战性的问题方面表现出了巨大的潜力。在各种数学和科学基准测试中,它们的表现显著优于最佳的快思考模型,如 GPT-4o。然而,它们的多模态推理能力仍然与快思考模型相当。例如,GPT-o1 在 MathVista、MathVerse 和 MathVision 等基准测试中的表现与快思考模型相似。在本文中,我们的目标是使用强化学习(不依赖于蒸馏)来增强视觉-语言模型的慢思考能力,从而推进最先进水平。首先,我们采用 GRPO 算法和一种名为选择性样本重放 (SSR) 的新技术来解决优势消失问题。虽然这种方法产生了强大的性能,但由此产生的 RL 训练模型表现出有限的自我反思或自我验证。为了进一步鼓励慢思考,我们引入了强制重新思考,它在 RL 训练中将文本重新思考触发器附加到初始 rollout 的末尾,明确地强制执行自我反思推理步骤。通过结合这两种技术,我们的模型 VL-Rethinker 在 MathVista、MathVerse 和 MathVision 上取得了最先进的分数,分别达到了 80.3%、61.8% 和 43.9%。VL-Rethinker 还在 MMMU-Pro、EMMA 和 MEGA-Bench 等多学科基准测试中取得了开源 SoTA,缩小了与 GPT-o1 的差距。
查看 arXiv 页面查看 PDF

评论

Wenhu ChenWenhu Chen
论文作者
论文提交者

构建可以击败 GPT-o1 的开源 VLM!

overview-2.jpg