Skywork-Reward-V2:通过人机协同扩展偏好数据管理
摘要
评论
在性能方面,我们最小的 0.6B 版本 Skywork-Reward-V2-Qwen3-0.6B 几乎与我们之前最佳模型 Skywork-Reward-Gemma-2-27B-v0.2 的平均性能相匹配。
1.7B 版本超越了之前的 70B SOTA。
最大的 8B 版本 Skywork-Reward-V2-Llama-3.1-8B 在所有基准测试中平均表现优于所有现有奖励模型。我们的顶级实验模型 Skywork-Reward-V2-Llama-3.1-8B-40M 在每个基准测试中都优于所有现有奖励模型。这些基准测试包括 RewardBench、RewardBench 2、PPE Preference、PPR Correctness、RMB、RM-Bench 和 JudgeBench。
尽管奖励模型 (RM) 在从人类反馈中进行强化学习 (RLHF) 中起着至关重要的作用,但当前最先进的开放式 RM 在大多数现有评估基准测试中表现不佳,未能捕捉到细致而复杂的人类偏好的全部范围。即使是采用先进训练技术的方法也没有产生有意义的性能改进。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、经过合成标记或缺乏严格的质量控制。为了应对这些挑战,我们提出了一个大规模的偏好数据集,其中包含 4000 万个偏好对,名为 SynPref-40M。为了实现大规模的数据管理,我们设计了一个人机协同的两阶段流程,该流程利用了人类注释质量和 AI 可扩展性的互补优势。在此流程中,人类提供经过验证的注释,而大型语言模型则根据人类指导执行自动管理。通过对此偏好混合进行训练,我们推出了 Skywork-Reward-V2,一套包含 8 个奖励模型的模型,参数范围从 0.6B 到 8B,这些模型在 SynPref-40M 中精心管理了 2600 万个偏好对的子集上进行了训练。我们证明 Skywork-Reward-V2 在各种能力方面都具有通用性,包括与人类偏好对齐、客观正确性、安全性、对风格偏差的抵抗力以及 Best-of-N 缩放,在七个主要奖励模型基准测试中实现了最先进的性能。消融研究证实,我们方法的有效性不仅源于数据规模,还源于高质量的管理。Skywork-Reward-V2 系列代表了开放奖励模型的重大进展,突出了现有偏好数据集的未开发潜力,并展示了人机协同管理如何解锁显着更高的数据质量。
模型集合:https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84!
arXiv: https://arxiv.org/abs/2507.01352
GitHub: https://github.com/SkyworkAI/Skywork-Reward-V2