R1-Reward:通过稳定强化学习训练多模态奖励模型

发表
Yi-Fan ZhangYi-Fan Zhang 提交
作者: Yi-Fan ZhangYi-Fan Zhang, LuXingyuXingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi LiuChangyi Liu, Kaiyu JiangKaiyu Jiang, Kaibing Chen, Kaiyu TangKaiyu Tang, Haojie DingHaojie Ding, chenJiankang Chen, Fan Yang, Zhang Zhang, Gao TingTingting Gao, Liang Wang

摘要

多模态奖励模型 (MRMs) 在增强多模态大型语言模型 (MLLMs) 的性能方面发挥着关键作用。虽然最近的进展主要集中于改进 MRMs 的模型结构和训练数据,但对于长期推理能力在奖励建模中的有效性以及如何在 MRMs 中激活这些能力,探索却很有限。在本文中,我们探索了如何使用强化学习 (RL) 来改进奖励建模。具体来说,我们将奖励建模问题重新公式化为一个基于规则的 RL 任务。然而,我们发现将现有的 RL 算法(如 Reinforce++)直接应用于奖励建模通常会导致训练不稳定甚至崩溃,这是由于这些算法固有的局限性。为了解决这个问题,我们提出了 StableReinforce 算法,该算法改进了现有 RL 方法的训练损失、优势估计策略和奖励设计。这些改进带来了更稳定的训练动态和卓越的性能。为了促进 MRM 训练,我们从不同数据集中收集了 20 万个偏好数据。我们的奖励模型 R1-Reward,使用 StableReinforce 算法在该数据集上进行训练,显著提高了在多模态奖励建模基准上的性能。与之前的 SOTA 模型相比,R1-Reward 在 VL Reward-Bench 上提高了 8.4%,在 Multimodal Reward Bench 上提高了 14.3%。此外,随着推理计算资源的增加,R1-Reward 的性能得到进一步提升,突显了 RL 算法在优化 MRMs 方面的潜力。
查看 arXiv 页面查看 PDF

评论

Yi-Fan ZhangYi-Fan Zhang
论文作者
论文提交者

image.png

image.png