⏶27
用于语言模型对齐的自博弈偏好优化
发表
由
AK 提交
作者: Yue Wu,
Zhiqing Sun,
Huizhuo Yuan,
Kaixuan Ji, Yiming Yang,
Quanquan Gu
摘要
AI 生成总结
一种名为 SPPO 的自玩方法在语言模型对齐方面取得了最先进的性能,通过在零和博弈(constant-sum game)设置中近似纳什均衡策略,在数据有限的情况下优于其他方法。传统的使用参数模型(如 Bradley-Terry 模型)的人类反馈强化学习 (RLHF) 方法在捕捉人类偏好的非传递性和非理性方面存在不足。最近的进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。在本文中,我们提出了一种基于自博弈的语言模型对齐方法,该方法将问题视为旨在识别纳什均衡策略的常和双人博弈。我们的方法称为自博弈偏好优化 (SPPO),通过迭代策略更新来逼近纳什均衡,并享有理论收敛保证。我们的方法可以有效地增加所选响应的对数似然,并减少被拒绝响应的对数似然,这对于对称成对损失(如直接偏好优化 (DPO) 和恒等偏好优化 (IPO))来说是无法轻易实现的。在我们的实验中,仅使用来自 UltraFeedback 数据集的 6 万个提示(没有响应),并且没有任何提示增强,通过利用参数仅为 0.4B 的预训练偏好模型 PairRM,SPPO 可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型,该模型在 AlpacaEval 2.0 上实现了对抗 GPT-4-Turbo 的 28.53% 的最先进长度控制胜率。它还在 MT-Bench 和 Open LLM Leaderboard 上优于(迭代)DPO 和 IPO。值得注意的是,SPPO 的强大性能是在没有来自 GPT-4 或其他更强大的语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。
这与引用的“自博弈微调将弱语言模型转换为强语言模型”相比如何?