Humanline:在线对齐作为感知损失

发表
Sijia LSijia L 提交
作者: Sijia Liu, Niklas Muennighoff, Kawin Ethayarajh

摘要

AI 生成总结
GRPO 等在线对齐方法优于 DPO 等离线方法,因为它们能更好地逼近人类感知的概率分布,并且将感知偏见引入离线训练可以达到类似的性能。
在线对齐(例如,GRPO)通常比离线对齐(例如,DPO)性能更好——但这是为什么呢?借鉴行为经济学中的前景理论,我们提出了一种以人为中心的解释。我们证明在线策略内采样能更好地逼近人类感知到的模型产出分布,而 PPO/GRPO 式裁剪——最初是为了稳定训练而引入的——恢复了人类感知概率的方式中的感知偏差。从这个意义上说,PPO/GRPO 本身就充当了感知损失。我们的理论进一步表明,在线/离线二分法本身是最大化人类效用的偶然结果,因为我们可以通过选择性地以模仿人类感知的方式训练任何数据来实现相同的效果,而不是将自己限制在在线策略内数据。这样做将使我们能够更快、更便宜、更灵活地进行事后训练,而不会牺牲性能。为此,我们提出了一种设计模式,该模式明确地将概率的感知失真融入到 DPO/KTO/GRPO 等目标中,从而创建它们的“humanline”变体。令人惊讶的是,我们发现这些 humanline 变体,即使使用离线策略外数据进行训练,也能在可验证和不可验证的任务上与它们的在线对应物相媲美。
查看 arXiv 页面查看 PDF

评论

Sijia LSijia L
论文提交者

在线对齐(例如,GRPO)通常比离线对齐(例如,DPO)性能更好——但这是为什么呢?借鉴行为经济学的期望理论,我们提出了一种以人为中心的解释。我们证明在线 on-policy 采样能更好地逼近人类感知到的模型可能产生的分布,而 PPO/GRPO 风格的裁剪——最初只是为了稳定训练——则恢复了人类感知概率的方式。从这个意义上说,PPO/GRPO 本身就是感知损失。我们的理论进一步表明,在线/离线二分法本身与最大化人类效用无关,因为我们可以通过以模拟人类感知的方式选择性地训练任何数据来实现相同效果,而不是限制自己于在线 on-policy 数据。这样做可以使我们以更快、更便宜、更灵活的方式进行后训练,而不会牺牲性能。为此,我们提出了一种模式,将概率的感知失真明确纳入 DPO/KTO/GRPO 等目标中,创建它们的 humanline 变体。令人惊讶的是,我们发现这些 humanline 变体,即使使用离线 off-policy 数据进行训练,也能在可验证和不可验证的任务上达到与其在线对应物相当的性能。