⏶42
推进多模态推理:从优化冷启动到分阶段强化学习
发表
由
JiachengChen 提交
作者: Shuang Chen, Yue Guo,
Zhaochen Su, Yafu Li, Yulun Wu,
Jiacheng Chen, Jiayu Chen,
Weijie Wang, Xiaoye Qu, Yu Cheng


摘要
受 Deepseek-R1 在复杂文本任务中卓越推理能力的启发,许多工作试图通过直接应用强化学习 (RL) 来激励多模态大型语言模型 (MLLM) 具备类似的能力。然而,它们仍然难以激活复杂的推理。在本文中,我们没有孤立地研究多模态强化学习,而是深入探讨了当前的训练流程,并识别出三个关键现象:1) 有效的冷启动初始化对于增强 MLLM 推理至关重要。有趣的是,我们发现仅使用精心选择的文本数据进行初始化,即使在多模态强化学习之前,其性能也可能超越许多最近的多模态推理模型。2) 应用于多模态强化学习的标准 GRPO 存在梯度停滞问题,这会降低训练稳定性和性能。3) 在多模态强化学习阶段之后,随后的纯文本强化学习训练会进一步增强多模态推理能力。这种分阶段的训练方法有效地平衡了感知基础和认知推理的发展。通过整合上述见解并解决多模态强化学习问题,我们引入了 ReVisual-R1,在 MathVerse、MathVision、WeMath、LogicVista、DynaMath 以及具有挑战性的 AIME2024 和 AIME2025 等基准测试中,在开源 7B MLLM 中达到了新的最先进水平。
受Deepseek-R1在复杂文本任务中卓越推理能力的启发,许多工作尝试通过直接应用强化学习(RL)来激发多模态大语言模型(MLLM)的相似能力。然而,它们在激活复杂推理方面仍然面临挑战。
在本文中,我们并非孤立地考察多模态强化学习,而是深入研究了当前的训练流程,并识别出三个关键现象:
1) 有效的冷启动初始化对于增强多模态大语言模型(MLLM)的推理能力至关重要。有趣的是,我们发现仅使用精心挑选的文本数据进行初始化,就可以使模型性能超越许多最新的多模态推理模型,甚至在多模态RL之前。
2) 应用于多模态强化学习的标准GRPO存在梯度停滞问题,从而降低了训练稳定性和性能。
3) 在多模态强化学习阶段之后,随后的纯文本强化学习训练进一步增强了多模态推理能力。
这种分阶段的训练方法有效平衡了感知基础和认知推理的发展。
通过结合上述见解并解决多模态强化学习问题,我们推出了ReVisual-R1,在MathVerse、MathVision、WeMath、LogicVista、DynaMath以及具有挑战性的AIME2024和AIME2025等挑战性基准测试中,在开源7B多模态大语言模型中取得了新的最先进水平。