SophiaVL-R1: 通过思考奖励强化MLLMs的推理能力

发表
Kaituo FengKaituo Feng 提交
作者: kxbunnyKaixuan Fan, Kaituo FengKaituo Feng, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue

摘要

最近的研究进展表明,通过基于规则的、带有结果奖励的强化学习 (RL),可以有效激发多模态大语言模型 (MLLMs) 的强大推理能力。然而,这种范式通常缺乏对导致最终结果的思维过程的监督。因此,模型可能学习到次优的推理策略,这会阻碍其泛化能力。鉴于此,我们提出了 SophiaVL-R1,试图在这种范式中为思维过程添加奖励信号。为此,我们首先训练一个思维奖励模型,该模型评估整个思维过程的质量。考虑到由于奖励欺骗,某些样本的思维奖励可能不可靠,我们提出了 Trust-GRPO 方法,该方法在训练期间为思维奖励分配信任度权重。该权重根据导致正确答案和错误答案的响应的思维奖励比较计算得出,有助于减轻潜在不可靠思维奖励的影响。此外,我们设计了一种退火训练策略,随着时间推移逐渐减少思维奖励,使模型在训练后期更多地依赖准确的基于规则的结果奖励。实验表明,SophiaVL-R1 在各种基准(例如 MathVisita、MMMU)上超越了一系列推理 MLLM,展现出强大的推理和泛化能力。值得注意的是,尽管 LLaVA-OneVision-72B 参数量是其 10 倍,我们的 SophiaVL-R1-7B 在大多数基准上的性能甚至优于后者。所有代码、模型和数据集都已公开,网址为 https://github.com/kxfan2002/SophiaVL-R1
查看 arXiv 页面查看 PDF

评论

Kaituo FengKaituo Feng
论文作者
论文提交者

项目页面:https://github.com/kxfan2002/SophiaVL-R1