⏶18
Pre-DPO:通过引导参考模型提高直接偏好优化中的数据利用率
发表
由
Wei Shen 提交
作者: Junshu Pan,
Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
摘要
直接偏好优化 (DPO) 通过直接优化人类偏好而无需显式的奖励模型,简化了用于大型语言模型 (LLMs) 的基于人类反馈的强化学习 (RLHF)。我们发现,在 DPO 训练过程中,参考模型起着数据权重调整器的作用。然而,在 DPO 中将策略模型和参考模型初始化为相同的普遍做法可能导致数据利用效率低下并限制了性能上限。与此同时,简单偏好优化 (SimPO) 中缺乏参考模型降低了训练的鲁棒性,并需要更严格的条件以防止灾难性遗忘。在这项工作中,我们提出了 Pre-DPO,这是一种简单而有效的基于 DPO 的训练范式,它通过利用一个引导性的参考模型来提高偏好优化性能。该参考模型提供了通过训练偏好数据可实现的最佳策略状态的预见,作为一种引导机制,自适应地将更高的权重分配给更适合模型的样本,将更低的权重分配给不太适合的样本。在 AlpacaEval 2.0 和 Arena-Hard v0.1 基准测试上进行的大量实验表明,Pre-DPO 持续改进了 DPO 和 SimPO 的性能,而且不依赖于外部模型或额外数据。
git开源地址:https://github.com/DtYXs/Pre-DPO