通过带有冷启动的强化学习推进多模态推理

发表
Lai WeiLai Wei 提交
作者: Lai WeiLai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Weiran HuangYue Wang, Linghe Kong, Lichao Sun, Weiran HuangWeiran Huang

摘要

大型语言模型 (LLMs) 的最新进展展示了令人印象深刻的思维链推理能力,其中强化学习 (RL) 在此进展中发挥了关键作用。虽然“灵光一现”模式——模型通过反思表现出自我纠正——通常被归因于 RL 的涌现特性,但我们首先证明这些模式在 RL 训练之前就存在于多模态 LLMs (MLLMs) 中,但可能不一定与推理性能的提高相关。基于这些见解,我们提出了一项关于通过两阶段方法增强多模态推理的综合研究:(1) 监督微调 (SFT) 作为具有结构化思维链推理模式的冷启动,接着是 (2) 通过 GRPO 进行强化学习以进一步完善这些能力。我们广泛的实验表明,这种组合方法在具有挑战性的多模态推理基准测试中始终优于仅 SFT 和仅 RL 方法。结果模型在 3B 和 7B 规模的开源 MLLMs 中取得了最先进的性能,我们的 7B 模型相对于基础模型显示出显著改进(例如,在 MathVista 上从 66.3% 提升到 73.4%,在 We-Math 上从 62.9% 提升到 70.4%),而我们的 3B 模型取得了与几个 7B 模型相当的性能。总的来说,这项工作为构建先进的多模态推理模型提供了实用指导。我们的代码可在 https://github.com/waltonfuture/RL-with-Cold-Start 找到。
查看 arXiv 页面查看 PDF

评论

Lai WeiLai Wei
论文作者
论文提交者

我们提出了一项关于通过两阶段方法增强多模态推理的综合研究:(1) 作为冷启动的监督微调 (SFT),采用结构化的思维链推理模式;随后是 (2) 通过 GRPO 进行强化学习以进一步完善这些能力。

我们的大量实验表明,这种组合方法在具有挑战性的多模态推理基准上,始终优于仅使用 SFT 或仅使用 RL 的方法。由此产生的模型在 3B 和 7B 规模的开源 MLLMs 中均达到了最先进的性能,我们的 7B 模型相对于基础模型显示出显著改进(例如,在 MathVista 上从 66.3\% 提升至 73.4\%,在 We-Math 上从 62.9\% 提升至 70.4\%),而我们的 3B 模型达到了与几个 7B 模型相当的性能。