SFT 或 RL? 训练类似 R1 的推理大型视觉-语言模型的早期研究

发表
guiminghardychenguiminghardychen 提交
作者: guiminghardychenHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

摘要

这项工作重新审视了训练大型视觉-语言模型 (LVLMs) 的主流监督微调 (SFT) 然后强化学习 (RL) 范式,并揭示了一个关键发现:SFT 可能会通过诱导模仿专家模型的“伪推理路径”来显著破坏后续的 RL。虽然这些路径可能类似于 RL 模型的原生推理路径,但它们通常涉及冗长、犹豫、信息量较少的步骤以及不正确的推理。为了系统地研究这种效应,我们引入了 VLAA-Thinking,这是一个新的多模态数据集,旨在支持 LVLMs 中的推理。VLAA-Thinking 通过一个六步流程构建,包括图像描述、推理提炼、答案重写和验证,包含用于 SFT 的高质量、逐步视觉推理轨迹,以及来自同一数据源的更具挑战性的 RL 分裂。使用这个数据集,我们进行了广泛的实验,比较了 SFT、RL 及其组合。结果表明,虽然 SFT 帮助模型学习推理格式,但它通常会将对齐的模型锁定在模仿性的、僵化的推理模式中,从而阻碍进一步的学习。相比之下,我们的 RL 方法建立在群体相对策略优化 (GRPO) 的基础上,并结合了集成了感知和认知信号的新型混合奖励模块,从而培养了更真实、更具适应性的推理行为。值得注意的是,我们的模型 VLAA-Thinker 基于 Qwen2.5VL 3B,在 Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) 上,在 4B 规模的 LVLMs 中取得了第一名的性能,超越了之前的最先进水平 1.8%。我们希望我们的发现能够为开发具有推理能力的 LVLMs 提供有价值的见解,并为该领域的未来研究提供信息。
查看 arXiv 页面查看 PDF

评论

guiminghardychenguiminghardychen
论文作者
论文提交者

本文重新审视了用于训练大型视觉语言模型 (LVLMs) 的主流监督微调 (SFT) 然后强化学习 (RL) 范式,并揭示了一个关键发现:SFT 可能会通过诱导模仿专家模型的“伪推理路径”来显著削弱后续的 RL。虽然这些路径可能类似于 RL 模型的原生推理路径,但它们通常涉及冗长、犹豫、信息量较少的步骤以及不正确的推理。为了系统地研究这种影响,我们推出了 VLAA-Thinking,这是一个新的多模态数据集,旨在支持 LVLMs 中的推理。VLAA-Thinking 通过一个包含图像描述、推理蒸馏、答案重写和验证的六步流程构建,包含用于 SFT 的高质量、逐步视觉推理轨迹,以及来自同一数据源的更具挑战性的 RL 分割。使用该数据集,我们进行了广泛的实验,比较了 SFT、RL 及其组合。结果表明,虽然 SFT 可以帮助模型学习推理格式,但它通常会将对齐的模型锁定在模仿性的、僵化的推理模式中,从而阻碍进一步的学习。相比之下,基于群体相对策略优化 (GRPO) 和一个集成了感知和认知信号的新型混合奖励模块,我们的 RL 方法培养了更真实、更具适应性的推理行为。值得注意的是,我们的模型 VLAA-Thinker,基于 Qwen2.5VL 3B,在 Open LMM 推理排行榜 上,在 4B 规模的 LVLMs 中取得了第一名的成绩,超越了之前的最先进水平 1.8%。我们希望我们的发现能够为开发具有推理能力的大型视觉语言模型提供有价值的见解,并为该领域的未来研究提供参考。