SIMPLEMIX:语言模型偏好学习中出奇简单的离策略与在策略数据混合

发表
Tianjian LiTianjian Li 提交
作者: Tianjian LiTianjian Li, Daniel KhashabiDaniel Khashabi

摘要

使语言模型与人类偏好对齐依赖于成对的偏好数据集。一些研究表明,在偏好学习方面,在线(on-policy)数据始终优于离线(off-policy)数据,而另一些研究则表明,在线数据的优势可能取决于具体任务,这突显了系统探索两者相互作用的必要性。 在这项工作中,我们展示了在线数据和离线数据在偏好优化中提供了互补的优势:在线数据对于数学和编程等推理任务特别有效,而离线数据在创意写作和提供个性化推荐等开放式任务上表现更好。受这些发现的启发,我们引入了 SIMPLEMIX,一种通过简单混合这两种数据源来结合在线和离线偏好学习互补优势的方法。我们在不同任务和基准上的实证结果表明,SIMPLEMIX 显著改善了语言模型对齐。具体而言,SIMPLEMIX 在 Alpaca Eval 2.0 上比在线 DPO 和离线 DPO 平均提高了 6.03%。此外,它比之前在结合在线和离线数据方面复杂得多的方法(如 HyPO 和 DPO-Mix-P)平均提高了 3.05%。
查看 arXiv 页面查看 PDF

评论

Tianjian LiTianjian Li
论文作者
论文提交者

使语言模型与人类偏好对齐依赖于成对偏好数据集。尽管一些研究表明在偏好学习中,在策略数据始终优于离策略数据,但其他研究指出,在策略数据的优势可能取决于具体任务,这突显了系统性探索它们之间相互作用的必要性。在这项工作中,我们展示了在策略数据和离策略数据在偏好优化中提供了互补的优势:在策略数据对于数学和编程等推理任务特别有效,而离策略数据在创意写作和个性化推荐等开放性任务上表现更好。受这些发现的启发,我们提出了 SIMPLEMIX,这是一种通过简单混合这两种数据源来结合在策略偏好学习和离策略偏好学习的互补优势的方法。我们在各种不同任务和基准测试上的实验结果表明,SIMPLEMIX 显著提升了语言模型对齐的效果。具体来说,在 Alpaca Eval 2.0 上,SIMPLEMIX 比在策略 DPO 和离策略 DPO 平均提高了 6.03%。此外,它在性能上平均超过了那些在结合在策略和离策略数据方面复杂得多的现有方法,如 HyPO 和 DPO-Mix-P,平均高出 3.05%。