⏶3
差分信息:一个关于偏好优化的信息论视角
发表
由
Yunjae Won 提交
作者:
Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo
摘要
直接偏好优化 (DPO) 已成为一种标准的监督方法,用于将语言模型与人类偏好对齐。尽管 DPO 在实践中取得了成功,但其对数比奖励参数化背后的理论依据仍不完整。在这项工作中,我们通过利用差异信息分布 (DID) 来弥补这一空白:DID 是一种令牌序列上的分布,它捕获了策略更新过程中获得的信息。首先,我们证明,当偏好标签编码了将参考策略转化为目标策略所需的差异信息时,DPO 中的对数比奖励便自然成为通过偏好优化学习目标策略的唯一最优形式。这一结果自然而然地得出了被拒绝响应的最优采样分布的封闭形式表达式。其次,我们发现偏好编码差异信息的条件与关于对数边距有序策略的一个隐性假设紧密相关——这是一种在偏好优化中广泛使用但先前未被认识到的归纳偏置。最后,通过分析 DID 的熵,我们描述了学习低熵差异信息如何增强策略分布,而高熵差异信息则会产生平滑效应,这解释了对数似然位移现象。我们在合成实验中验证了我们的理论发现,并将其扩展到现实世界的指令遵循数据集。我们的结果表明,学习高熵差异信息对于一般的指令遵循至关重要,而学习低熵差异信息则有利于知识密集型问答。总的来说,我们的工作通过差异信息的视角,对 DPO 目标、偏好数据的结构以及由此产生的策略行为提供了一个统一的视角。
简而言之:通过将偏好优化解释为学习微分信息的过程,我们表征了偏好数据的结构,证明了 DPO 对数比奖励的合理性,并解释了训练策略由此产生的行为。