⏶16
SPARK: 协同策略与奖励共同进化框架
发表
由
Yuhang Zang 提交

作者: Ziyu Liu,
Yuhang Zang, Shengyuan Ding, Yuhang Cao, Xiaoyi Dong, Haodong Duan, Dahua Lin,
Jiaqi Wang

摘要
AI 生成总结
SPARK 是一个协同策略和奖励共同演进的框架,通过回收 rollout 和正确性数据来训练生成式奖励模型,从而增强 LLMs 和 LVLMs,减少对人类偏好和外部奖励模型的依赖。最近,大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 在预训练后越来越多地使用强化学习 (RL),例如用于客观任务的可验证奖励强化学习 (RLVR) 和用于主观任务的人类反馈强化学习 (RLHF)。然而,RLHF 由于依赖人类偏好,成本高昂且可能存在奖励-策略不匹配的问题,而 RLVR 在每次更新后会丢弃采样轨迹和正确性信号,从而浪费了监督。为了解决这些挑战,我们引入了协同策略和奖励共同进化框架 (SPARK),这是一种高效、在线策略且稳定的方法,它建立在 RLVR 的基础上。SPARK 不丢弃采样轨迹和正确性数据,而是回收这些宝贵的信息,同时将模型本身训练成生成式奖励模型。这种辅助训练使用了一系列目标,例如点奖励分数、成对比较以及基于进一步反思响应的条件评估,以教会模型评估和改进自己的响应。我们的流程消除了对单独的奖励模型和昂贵的人类偏好数据的需求。SPARK 创建了一个正向的共同进化反馈循环:提高奖励的准确性会产生更好的策略梯度,进而产生更高质量的采样轨迹,从而进一步优化奖励模型。我们的统一框架通过自我反思支持测试时扩展,而无需外部奖励模型及其相关成本。我们在多种 LLM 和 LVLM 模型以及多种推理、奖励模型和通用基准测试中证明了 SPARK 取得了显著的性能提升。例如,SPARK-VL-7B 在 7 个推理基准测试上的平均增益为 9.7%,在 2 个奖励基准测试上的增益为 12.1%,在 8 个通用基准测试上的增益为 1.5%,优于基线模型,显示出鲁棒性和广泛的泛化能力。
最近的大语言模型 (LLM) 和大型视觉语言模型 (LVLM) 在预训练后越来越多地使用强化学习 (RL),例如用于客观任务的具有可验证奖励的 RL (RLVR) 和用于主观任务的人类反馈强化学习 (RLHF)。然而,RLHF 由于依赖人类偏好而成本高昂且存在潜在的奖励-策略不匹配问题,而 RLVR 在每次更新后丢弃采样数据和正确性信号,仍然浪费了监督信号。为了解决这些挑战,我们引入了 Synergistic Policy And Reward Co-Evolving Framework (SPARK),一个高效、on-policy 且稳定的方法,建立在 RLVR 的基础上。SPARK 没有丢弃采样数据和正确性数据,而是回收这些宝贵的信息来同时训练模型本身作为一个生成式奖励模型。这种辅助训练使用了一系列目标,如逐点奖励分数、成对比较以及基于进一步反思响应的评估,来教会模型评估和改进自己的响应。我们的过程消除了对单独奖励模型和昂贵的人类偏好数据的需求。SPARK 创建了一个正向的协同演化反馈循环:提高奖励准确性会产生更好的策略梯度,而这反过来又能产生更高质量的采样数据,从而进一步完善奖励模型。我们的统一框架通过自我反思支持测试时扩展,无需外部奖励模型及其相关成本。我们表明,SPARK 在多个 LLM 和 LVLM 模型以及多个推理、奖励模型和通用基准测试上取得了显著的性能提升。例如,SPARK-VL-7B 在 7 个推理基准测试上平均提高了 9.7%,在 2 个奖励基准测试上提高了 12.1%,在 8 个通用基准测试上比基线提高了 1.5%,显示出鲁棒性和广泛的泛化能力。