⏶60
多人纳什偏好优化
发表
由
Fang Wu 提交

作者:
Fang Wu, Xu Huang,
Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu,
Peng Xia, Jure Leskovec, Yejin Choi


摘要
AI 生成总结
Multiplayer Nash Preference Optimization (MNPO) 将纳什学习从人类反馈扩展到处理复杂、非传递性的人类偏好,将对齐形式化为一个 N 方博弈。来自人类反馈的强化学习 (RLHF) 已成为使大型语言模型 (LLM) 与人类偏好对齐的标准范式。然而,基于 Bradley-Terry 假设的基于奖励的方法难以捕捉现实世界偏好的非传递性和异质性。为了解决这个问题,最近的研究将对齐重新定义为一场两人纳什博弈,从而产生了来自人类反馈的纳什学习 (NLHF)。尽管这种视角激发了 INPO、ONPO 和 EGPO 等算法,它们具有强大的理论和经验保证,但它们仍然主要局限于两人互动,从而产生了一种单一对手偏差,未能捕捉现实偏好结构的全部复杂性。在这项工作中,我们引入了多人纳什偏好优化 (MNPO),这是一个将 NLHF 推广到多人领域的新框架。它将对齐视为一个 n 人博弈,其中每个策略与一群对手竞争,同时又向参考模型进行正则化。我们的框架在多人环境中建立了明确定义的纳什均衡,并将对偶间隙的概念扩展到量化近似质量。我们证明 MNPO 继承了两人方法的均衡保证,同时实现了更丰富的竞争动态和对不同偏好结构的改进覆盖。通过全面的实证评估,我们证明 MNPO 在指令遵循基准上始终优于现有的 NLHF 基线,在异质注释者条件和混合策略评估场景下实现了卓越的对齐质量。总而言之,这些结果确立了 MNPO 作为一种原则性和可扩展的框架,用于使 LLM 与复杂、非传递性的人类偏好对齐。代码可在 https://github.com/smiles724/MNPO 获取。
🚀 新论文:多人纳什偏好优化(MNPO)
大型语言模型的偏好优化主要局限于两人博弈设置(DPO、IPO、INPO、EGPO…)。但真实的人类反馈是混乱、多样且非传递的——它更像是一个多人博弈。
我们提出了 MNPO,这是第一个将纳什学习从人类反馈推广到多人领域(regime)的框架。
✅ 理论扎实:定义了多人纳什均衡与对偶间隙。
✅ 算法可扩展:将许多现有 PO 方法统一为特例。
✅ 实证强大:MNPO 在 AlpacaEval 2、Arena-Hard 和 MT-Bench 上均优于所有 NLHF 基线——有时甚至在对齐基准上超越了更大的 LLM 和 GPT-5。
论文:https://arxiv.org/abs/2509.23102
代码:https://github.com/smiles724/MNPO