⏶22
用于视觉-语言慢思考推理的半脱策略强化学习
发表
由
yuzhe gu 提交

作者:
Junhao Shen,
Haiteng Zhao,
Yuzhe Gu, Songyang Gao,
Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen

摘要
增强大型视觉-语言模型(LVLM)的视觉慢思考推理能力对于解决复杂的多模态任务至关重要。然而,由于LVLM主要通过视觉-语言对齐进行训练,因此难以采用在线强化学习(RL)来发展慢思考能力,因为其初始能力限制了推出空间。离线RL提供了一种超越当前策略的方法,但直接从外部模型中提取轨迹可能会由于模型间视觉感知能力不匹配而导致视觉幻觉。为了解决这些问题,本文提出了SOPHIA,一种简单且可扩展的半离线RL,用于视觉-语言慢思考推理(Semi-Off-Policy RL for vision-language slow-tHInking reAsoning)。SOPHIA通过结合可训练LVLM的在线视觉理解和语言模型的离线慢思考推理来构建半离线行为模型,为推理分配基于结果的奖励,并向后传播视觉奖励。然后,LVLM通过离线RL算法,利用获得的推理轨迹和传播的奖励来学习慢思考推理能力。对InternVL2.5和InternVL3.0(8B和38B参数量)进行的广泛实验表明了SOPHIA的有效性。值得注意的是,SOPHIA将InternVL3.0-38B的平均性能提高了8.50%,在多个多模态推理基准测试中,在开源LVLM中达到了最先进的性能,甚至在具有挑战性的MathVision和OlympiadBench上超越了一些闭源模型(例如GPT-4.1),分别达到了49.08%和49.95%的pass@1准确率。分析表明,SOPHIA优于监督微调和直接在线RL方法,为进一步的在线训练提供了更好的策略初始化。
这篇论文介绍了一种简单且可扩展的半离策略强化学习方法,即SOPHIA,旨在增强LVLM(大型视觉语言模型)进行视觉慢思考推理的能力。