⏶36
通过带有冷启动的强化学习推进多模态推理
发表
由
Lai Wei 提交

作者:
Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang,
Yue Wang, Linghe Kong, Lichao Sun,
Weiran Huang

摘要
大型语言模型 (LLMs) 的最新进展展示了令人印象深刻的思维链推理能力,其中强化学习 (RL) 在此进展中发挥了关键作用。虽然“灵光一现”模式——模型通过反思表现出自我纠正——通常被归因于 RL 的涌现特性,但我们首先证明这些模式在 RL 训练之前就存在于多模态 LLMs (MLLMs) 中,但可能不一定与推理性能的提高相关。基于这些见解,我们提出了一项关于通过两阶段方法增强多模态推理的综合研究:(1) 监督微调 (SFT) 作为具有结构化思维链推理模式的冷启动,接着是 (2) 通过 GRPO 进行强化学习以进一步完善这些能力。我们广泛的实验表明,这种组合方法在具有挑战性的多模态推理基准测试中始终优于仅 SFT 和仅 RL 方法。结果模型在 3B 和 7B 规模的开源 MLLMs 中取得了最先进的性能,我们的 7B 模型相对于基础模型显示出显著改进(例如,在 MathVista 上从 66.3% 提升到 73.4%,在 We-Math 上从 62.9% 提升到 70.4%),而我们的 3B 模型取得了与几个 7B 模型相当的性能。总的来说,这项工作为构建先进的多模态推理模型提供了实用指导。我们的代码可在 https://github.com/waltonfuture/RL-with-Cold-Start 找到。
我们提出了一项关于通过两阶段方法增强多模态推理的综合研究:(1) 作为冷启动的监督微调 (SFT),采用结构化的思维链推理模式;随后是 (2) 通过 GRPO 进行强化学习以进一步完善这些能力。
我们的大量实验表明,这种组合方法在具有挑战性的多模态推理基准上,始终优于仅使用 SFT 或仅使用 RL 的方法。由此产生的模型在 3B 和 7B 规模的开源 MLLMs 中均达到了最先进的性能,我们的 7B 模型相对于基础模型显示出显著改进(例如,在 MathVista 上从 66.3\% 提升至 73.4\%,在 We-Math 上从 62.9\% 提升至 70.4\%),而我们的 3B 模型达到了与几个 7B 模型相当的性能。