⏶27
GRPO-CARE:多模态推理的一致性感知强化学习
发表
由
Yi Chen 提交
作者: Yi Chen,
Yuying Ge, Rui Wang,
Yixiao Ge,
Junhao Cheng, Ying Shan, Xihui Liu
摘要
近期的一些强化学习方法,例如成果监督式GRPO,已推动大型语言模型(LLM)中的思维链推理,但其在多模态LLM(MLLM)中的应用尚未得到探索。为了解决MLLM后训练方法缺乏严格评估的问题,我们引入了SEED-Bench-R1,这是一个包含复杂真实世界视频的基准,要求平衡的感知和推理能力。它提供了一个大型训练集,并评估了在三个逐步升级的挑战中的泛化能力:同分布、跨环境和跨环境-任务场景。使用SEED-Bench-R1,我们发现标准GRPO虽然提高了答案准确性,但通常会降低推理步骤和答案之间的逻辑连贯性,一致性率仅为57.9%。这源于奖励信号仅关注最终答案,鼓励走捷径,以及严格的KL惩罚限制了探索。为了解决这个问题,我们提出了GRPO-CARE,一个一致性感知强化学习框架,它在没有明确监督的情况下优化了答案正确性和推理连贯性。GRPO-CARE引入了两层奖励机制:(1)用于答案正确性的基础奖励,以及(2)自适应一致性奖励,通过比较模型从推理到答案的可能性(通过一个缓慢演进的参考模型)与同行组进行计算。这种双重机制增强了既正确又逻辑一致的推理路径的奖励。GRPO-CARE用这种自适应奖励替换了KL惩罚,在SEED-Bench-R1上表现优于标准GRPO,在最难的评估级别上实现了6.7%的性能提升,并在一致性方面提升了24.5%。它还显示出强大的可迁移性,提升了模型在各种视频理解基准上的性能。我们的工作贡献了一个系统设计的基准和一个可泛化的后训练框架,推动了更具可解释性和鲁棒性的MLLM的发展。
代码: https://github.com/TencentARC/GRPO-CARE
论文: https://arxiv.org/pdf/2506.16141