HelpSteer3-Preference:跨不同任务和语言的开放人工标注偏好数据

发表
Zhilin WangZhilin Wang 提交
作者: Zhilin WangZhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev

摘要

偏好数据集对于使用人类反馈强化学习 (RLHF) 训练通用领域的指令遵循语言模型至关重要。每一个后续的数据发布都提高了对未来数据收集的期望,这意味着需要不断提升公开可用的偏好数据的质量和多样性。为了满足这一需求,我们推出了 HelpSteer3-Preference,这是一个采用宽松许可 (CC-BY-4.0)、高质量、人工标注的偏好数据集,包含超过 40,000 个样本。这些样本涵盖了大型语言模型 (LLMs) 的多样化实际应用场景,包括与 STEM、编程和多语言相关的任务。使用 HelpSteer3-Preference,我们训练的奖励模型 (RMs) 在 RM-Bench (82.4%) 和 JudgeBench (73.7%) 上取得了顶级性能。这相比现有 RMs 之前报告的最佳结果有了显著提升 (绝对值约 10%)。我们展示了 HelpSteer3-Preference 也可用于训练生成式 RMs,以及如何利用我们的 RMs 通过 RLHF 使策略模型对齐。数据集 (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
查看 arXiv 页面查看 PDF

评论

Zhilin WangZhilin Wang
论文作者
论文提交者

数据:https://huggingface.co/datasets/nvidia/HelpSteer3#preference