MaPPO:基于先验知识的最大后验概率偏好优化

发表
Eric LanEric Lan 提交
作者: Eric LanGuangchen Lan, Sipeng Zhang, Tianle WangTianle Wang, Yuwei ZhangYuwei Zhang, Daoan Zhang, Xinpeng WeiXinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton

摘要

随着用户视角的大语言模型(LLMs)时代的到来,偏好优化(PO)方法已成为将LLMs与人类偏好对齐并提高性能的核心方法。我们提出了最大后验偏好优化(MaPPO),这是一种从偏好中学习的框架,它将先验奖励知识显式地纳入优化目标中。虽然现有的方法,如直接偏好优化(DPO)及其变体,将偏好学习视为最大似然估计(MLE)问题,但MaPPO通过将先验奖励估计整合到有原则的最大后验(MaP)目标中,扩展了这一范例。这不仅推广了DPO及其变体,而且通过减轻对响应的过度简化的二元分类,增强了对齐效果。更重要的是,MaPPO不引入额外的超参数,并且支持离线和在线环境中的偏好优化。此外,MaPPO可以用作DPO变体的插件,并在DPO变体上实现一致的改进,包括广泛使用的SimPO、IPO和CPO。在三个标准基准(包括MT-Bench、AlpacaEval 2.0和Arena-Hard)上对不同模型尺寸和模型系列的广泛实证评估表明,在不牺牲计算效率的情况下,对齐性能得到了持续改进。
查看 arXiv 页面查看 PDF

评论

Eric LanEric Lan
论文作者
论文提交者

📄 论文:https://arxiv.org/abs/2507.21183