⏶19
学习对齐,对齐以学:自优化对齐的统一方法
发表
由
Haowen Wang 提交
作者:
Haowen Wang, Yun Yue,
Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
摘要
对齐方法论已成为提高语言模型对齐能力的关键途径。虽然SFT(监督微调)通过直接令牌级损失干预加速收敛,但其效率受限于离线策略轨迹。相比之下,RL(强化学习)促进了探索性策略优化,但存在样本效率低和对高质量基础模型依赖性强的问题。为了解决这些双重挑战,我们提出了GRAO(组相对对齐优化),一个统一的框架,通过三项关键创新协同SFT和RL各自的优势:1)多样本生成策略,通过奖励反馈实现比较质量评估;2)新颖的组直接对齐损失公式,利用组内相对优势加权;3)参照感知参数更新,由成对偏好动态引导。我们的理论分析确立了GRAO的收敛保证和相对于传统方法的样本效率优势。在复杂的人类对齐任务上的全面评估表明,GRAO表现优异,相对于SFT、DPO、PPO和GRPO基线分别实现了57.70%、17.65%、7.95%和5.18%的相对改进。这项工作为语言模型中高效能力演进提供了一个理论基础的对齐框架和实证证据。
我们提出了 GRAO(组相对对齐优化),这是一个统一的框架,通过三项关键创新协同 SFT 和 RL 各自的优势:
1) 多样本生成策略,通过奖励反馈实现比较质量评估;
2) 一种新颖的组直接对齐损失公式,利用组内相对优势加权;
3) 由成对偏好动态引导的参考感知参数更新。
通过这种优化目标的改进,我们从理论和实验角度都证明了其收敛的优势和优化的效率,提出了一种模仿-探索-超越的对齐范式。