Skywork-Reward-V2:通过人机协同扩展偏好数据管理

发表
Chris (Yuhao) LiuChris (Yuhao) Liu 提交
作者: Chris (Yuhao) LiuChris Yuhao Liu, Liang ZengLiang Zeng, Ricky ShawYuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

摘要

尽管奖励模型 (RM) 在从人类反馈中进行的强化学习 (RLHF) 中起着至关重要的作用,但当前最先进的开放式 RM 在大多数现有评估基准上的表现都很差,无法捕捉细微和复杂的人类偏好。即使是采用先进训练技术的方案也没有产生有意义的性能改进。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、经过合成标记或缺乏严格的质量控制。为了应对这些挑战,我们提出了一个包含 4000 万个偏好对的大规模偏好数据集,名为 SynPref-40M。为了实现大规模的数据管理,我们设计了一个人机协同的两阶段流水线,该流水线利用了人类注释质量和 AI 可扩展性的互补优势。在此流水线中,人类提供经过验证的注释,而大型语言模型则根据人类指导执行自动管理。在偏好混合训练的基础上,我们推出了 Skywork-Reward-V2,这是一套包含 8 个奖励模型的套件,参数范围从 0.6B 到 8B,在 SynPref-40M 中精心管理了 2600 万个偏好对的子集上进行训练。我们证明了 Skywork-Reward-V2 在广泛的能力范围内具有通用性,包括与人类偏好对齐、客观正确性、安全性、对风格偏见的抵抗力以及 N 个最佳缩放,在七个主要的奖励模型基准上实现了最先进的性能。消融研究证实,我们方法的有效性不仅源于数据规模,还源于高质量的管理。Skywork-Reward-V2 系列代表了开放式奖励模型的重大进展,突出了现有偏好数据集的未开发潜力,并展示了人机管理协同作用如何释放更高的的数据质量。
查看 arXiv 页面查看 PDF

评论

Chris (Yuhao) LiuChris (Yuhao) Liu
论文作者
论文提交者

在性能方面,我们最小的 0.6B 版本 Skywork-Reward-V2-Qwen3-0.6B 几乎与我们之前最佳模型 Skywork-Reward-Gemma-2-27B-v0.2 的平均性能相匹配。

1.7B 版本超越了之前的 70B SOTA。

最大的 8B 版本 Skywork-Reward-V2-Llama-3.1-8B 在所有基准测试中平均表现优于所有现有奖励模型。我们的顶级实验模型 Skywork-Reward-V2-Llama-3.1-8B-40M 在每个基准测试中都优于所有现有奖励模型。这些基准测试包括 RewardBench、RewardBench 2、PPE Preference、PPR Correctness、RMB、RM-Bench 和 JudgeBench。

skywork_reward_v2_perf.png

2025-07-03 at 18.04.09@2x.png

Chris (Yuhao) LiuChris (Yuhao) Liu
论文作者
论文提交者

我们通过两阶段人机协同流程将偏好数据管理扩展到极致,经历了两个主要阶段,并取得了持续改进!

2025-07-03 at 18.06.00@2x.png

2025-07-03 at 18.06.36@2x.png

Chris (Yuhao) LiuChris (Yuhao) Liu
论文作者
论文提交者

尽管奖励模型 (RM) 在从人类反馈中进行强化学习 (RLHF) 中起着至关重要的作用,但当前最先进的开放式 RM 在大多数现有评估基准测试中表现不佳,未能捕捉到细致而复杂的人类偏好的全部范围。即使是采用先进训练技术的方法也没有产生有意义的性能改进。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、经过合成标记或缺乏严格的质量控制。为了应对这些挑战,我们提出了一个大规模的偏好数据集,其中包含 4000 万个偏好对,名为 SynPref-40M。为了实现大规模的数据管理,我们设计了一个人机协同的两阶段流程,该流程利用了人类注释质量和 AI 可扩展性的互补优势。在此流程中,人类提供经过验证的注释,而大型语言模型则根据人类指导执行自动管理。通过对此偏好混合进行训练,我们推出了 Skywork-Reward-V2,一套包含 8 个奖励模型的模型,参数范围从 0.6B 到 8B,这些模型在 SynPref-40M 中精心管理了 2600 万个偏好对的子集上进行了训练。我们证明 Skywork-Reward-V2 在各种能力方面都具有通用性,包括与人类偏好对齐、客观正确性、安全性、对风格偏差的抵抗力以及 Best-of-N 缩放,在七个主要奖励模型基准测试中实现了最先进的性能。消融研究证实,我们方法的有效性不仅源于数据规模,还源于高质量的管理。Skywork-Reward-V2 系列代表了开放奖励模型的重大进展,突出了现有偏好数据集的未开发潜力,并展示了人机协同管理如何解锁显着更高的数据质量。

Wei WuWei Wu

做得好!你们会开源偏好数据集 SynPref-40M 吗?

shengzhi alex lishengzhi alex li

太棒了!如果能发布偏好数据,或者管道代码就更好了。