⏶7
先清理,后对齐:用于可靠 LLM 对齐的偏好数据清理基准测试
发表
由
Min-Hsuan Yeh 提交

作者: Min-Hsuan Yeh, Yixuan Li
摘要
AI 生成总结
PrefCleanBench 评估了 13 种用于将大型语言模型与人类偏好对齐的偏好数据清洗方法,提供了一个标准化的协议来评估它们的有效性和通用性。人类反馈在使大型语言模型(LLM)与人类偏好保持一致方面发挥着关键作用。然而,此类反馈通常存在噪声或不一致,这会降低奖励模型的质量并阻碍对齐。尽管已经提出了各种自动数据清理方法来缓解此问题,但对其有效性和通用性的系统性评估仍然缺乏。为了弥合这一差距,我们推出了第一个全面的基准,用于在 LLM 对齐的背景下评估 13 种偏好数据清理方法。PrefCleanBench 提供了一个标准化的协议,用于根据对齐性能和在不同数据集、模型架构和优化算法上的通用性来评估清理策略。通过统一不同的方法并对其进行严格比较,我们揭示了决定对齐任务中数据清理成功率的关键因素。该基准为通过改进数据质量来提高 LLM 对齐的原则性和可重复性方法奠定了基础,突出了数据预处理在负责任的 AI 开发中至关重要但又未被充分探索的作用。我们发布了所有方法的模块化实现,以促进进一步的研究:https://github.com/deeplearning-wisc/PrefCleanBench。
NeurIPS 2025 D&B Track。Github 链接:https://github.com/deeplearning-wisc/PrefCleanBench