⏶33
WorldPM:人类偏好建模的规模化
发表
由
Bowen Yu 提交
作者:
Binghai Wang,
Runji Lin,
Keming Lu,
Le Yu,
Zhenru Zhang, Fei Huang,
Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren,
An Yang,
Binyuan Hui,
Dayiheng Liu, Tao Gui, Qi Zhang,
Xuanjing Huang, Yu-Gang Jiang,
Bowen Yu,
Jingren Zhou,
Junyang Lin






摘要
受语言建模中表明测试损失随模型和数据集大小呈幂律缩放的缩放定律启发,我们发现在偏好建模中也存在类似的定律。我们提出世界偏好建模 (World Preference Modeling,$ WorldPM$) 来强调这种缩放潜力,其中世界偏好体现了人类偏好的统一表示。在本文中,我们从涵盖不同用户社区的公共论坛收集偏好数据,并使用 15M 规模的数据对从 1.5B 到 72B 参数的模型进行广泛训练。我们观察到不同评估指标呈现出不同的模式:(1)对抗性指标(识别欺骗性特征的能力)随着训练数据和基础模型大小的增加而持续提高;(2)客观指标(具有明确答案的客观知识)在更大的语言模型中表现出涌现行为,突显了 WorldPM 的可扩展潜力;(3)主观指标(来自有限数量的人类或人工智能的主观偏好)未显示出缩放趋势。进一步的实验验证了 WorldPM 作为偏好微调基础的有效性。通过对包含 20 个子任务的 7 个基准进行评估,我们发现 WorldPM 广泛提高了在不同规模(7K、100K 和 800K 样本)人类偏好数据集上的泛化性能,在许多关键子任务上性能提升超过 5%。将 WorldPM 集成到我们内部的 RLHF 流水线中,我们观察到在内部和公共评估集上都有显著改进,在我们内部评估中取得了 4% 到 8% 的显著提升。
偏好建模中缩放律的发现:论文指出,与语言建模类似,偏好建模也遵循缩放律,即性能随模型大小和数据集大小的幂律函数而提升。
引入 WorldPM 实现统一的偏好表示:作者提出了世界偏好建模(World Preference Modeling, WorldPM),旨在捕获人类偏好的统一表示,强调其在不同任务和数据集上的可扩展性和泛化能力。
全面评估和显著性能提升:论文使用多达 1500 万个偏好数据点和多达 720 亿参数的模型进行了大规模实验,证明 WorldPM 在多个基准测试中显著提升了性能,在许多子任务上实现了超过 5% 的提升,并在内部 RLHF 评估中实现了 4-8% 的改进。