Visionary-R1:使用强化学习缓解视觉推理中的捷径

发表
Kaiyang ZhouKaiyang Zhou 提交
作者: Jiaer XiaJiaer Xia, Yuhang ZangYuhang Zang, Peng Gao, JiaerXiaYixuan Li, Kaiyang ZhouKaiyang Zhou

摘要

学习通用推理能力长期以来一直是人工智能领域的一个挑战性问题。近期在大型语言模型(LLM)上的研究,例如 DeepSeek-R1,表明像 GRPO 这样的强化学习技术可以通过简单的问答对使预训练的 LLM 发展出推理能力。在本文中,我们的目标是通过强化学习和视觉问答对来训练视觉语言模型(VLM)在图像数据上执行推理,而无需任何明确的思维链(CoT)监督。我们的发现表明,简单地将强化学习应用于 VLM——通过提示模型在提供答案之前生成推理链——可能导致模型从简单问题中发展出捷径,从而降低其在未见数据分布上的泛化能力。我们认为,减轻捷径学习的关键在于鼓励模型在推理之前先解释图像。因此,我们训练模型遵循“图像描述-推理-回答”的输出格式:首先生成图像的详细描述,然后构建详细的推理链。当仅使用强化学习并在一组包含 273K 个无 CoT 的视觉问答对上进行训练时,我们的模型 Visionary-R1 在多个视觉推理基准测试中,性能优于强大的多模态模型,例如 GPT-4o、Claude3.5-Sonnet 和 Gemini-1.5-Pro。
查看 arXiv 页面查看 PDF

评论

Kaiyang ZhouKaiyang Zhou
论文作者
论文提交者

https://github.com/maifoundations/Visionary-R1