⏶83
统一的多模态思维链奖励模型:通过强化微调实现
发表
由
Yibin Wang 提交
作者:
Yibin Wang, Zhimin Li,
Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

摘要
多模态奖励模型(RMs)的最新进展在提供奖励信号以使视觉模型与人类偏好对齐方面显示出巨大潜力。然而,当前的RMs通常仅限于提供直接响应或进行深度有限的浅层推理过程,这往往导致奖励信号不准确。我们认为,将显式的长链思维(CoT)整合到奖励推理过程中,可以显著增强其可靠性和鲁棒性。此外,我们相信一旦RMs内化了CoT推理,它们的直接响应准确性也可以通过隐式推理能力得到提升。为此,本文提出了UnifiedReward-Think,这是第一个统一的多模态基于CoT的奖励模型,能够为视觉理解和生成奖励任务进行多维度、逐步的长链推理。具体来说,我们采用了一种探索驱动的强化微调方法来激发和奖励模型潜在的复杂推理能力:(1) 我们首先使用少量图像生成偏好数据来提炼GPT-4o的推理过程,然后将其用于模型的冷启动,以学习CoT推理的格式和结构。(2) 随后,通过利用模型的先验知识和泛化能力,我们准备了大规模的统一多模态偏好数据,以激发模型在各种视觉任务中的推理过程。在此阶段,正确的推理输出被保留用于拒绝采样,以精炼模型,(3) 而最终错误的预测样本则用于基于组相对策略优化(GRPO)的强化微调,使模型能够探索不同的推理路径并优化出正确且鲁棒的解决方案。在各种视觉奖励任务上的广泛实验证明了我们模型的优越性。
我们发布了 UnifiedReward-Think——首个统一多模态 CoT 奖励模型,它能够针对视觉理解和生成奖励任务进行多维度、逐步的长链推理。
📌 项目页面:https://codegoat24.github.io/UnifiedReward/think
📄 论文:https://arxiv.org/pdf/2505.03318
💻 GitHub:https://github.com/CodeGoat24/UnifiedReward
🤗 模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
📊 数据集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede