用于语言模型对齐的自博弈偏好优化

发表
AKAK 提交
作者: Yue Wu, Zhiqing SunZhiqing Sun, Angela YuanHuizhuo Yuan, Kaixuan JiKaixuan Ji, Yiming Yang, Quanquan GuQuanquan Gu

摘要

AI 生成总结
一种名为 SPPO 的自玩方法在语言模型对齐方面取得了最先进的性能,通过在零和博弈(constant-sum game)设置中近似纳什均衡策略,在数据有限的情况下优于其他方法。
传统的使用参数模型(如 Bradley-Terry 模型)的人类反馈强化学习 (RLHF) 方法在捕捉人类偏好的非传递性和非理性方面存在不足。最近的进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。在本文中,我们提出了一种基于自博弈的语言模型对齐方法,该方法将问题视为旨在识别纳什均衡策略的常和双人博弈。我们的方法称为自博弈偏好优化 (SPPO),通过迭代策略更新来逼近纳什均衡,并享有理论收敛保证。我们的方法可以有效地增加所选响应的对数似然,并减少被拒绝响应的对数似然,这对于对称成对损失(如直接偏好优化 (DPO) 和恒等偏好优化 (IPO))来说是无法轻易实现的。在我们的实验中,仅使用来自 UltraFeedback 数据集的 6 万个提示(没有响应),并且没有任何提示增强,通过利用参数仅为 0.4B 的预训练偏好模型 PairRM,SPPO 可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型,该模型在 AlpacaEval 2.0 上实现了对抗 GPT-4-Turbo 的 28.53% 的最先进长度控制胜率。它还在 MT-Bench 和 Open LLM Leaderboard 上优于(迭代)DPO 和 IPO。值得注意的是,SPPO 的强大性能是在没有来自 GPT-4 或其他更强大的语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。
查看 arXiv 页面查看 PDF

评论

Kalle HilsenbekKalle Hilsenbek

这与引用的“自博弈微调将弱语言模型转换为强语言模型”相比如何?

Quanquan GuQuanquan Gu
论文作者

自博弈微调 (SPIN) 是一种监督微调方法,而自博弈偏好优化 (SPPO) 是一种 RLHF(偏好微调)方法。

Ziming LuoZiming Luo

这篇论文中的代码会像 SPIN 一样发布吗?

Quanquan GuQuanquan Gu
论文作者

是的,我们将发布代码和模型。

TengXiaoTengXiao

嗨,你们什么时候发布代码?

Quanquan GuQuanquan Gu
论文作者

代码已在以下位置发布:https://github.com/uclaml/SPPO