⏶29
It Takes Two: 您的 GRPO 实际上是 DPO
发表
由
Yihong Wu 提交
作者: Yihong Wu,
Liheng Ma, Lei Ding, Muzhi Li,
Xinyu Wang, Kejia Chen,
Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
摘要
AI 生成总结
将 Group Relative Policy Optimization 重构为对比学习,揭示了其与 Direct Preference Optimization 的联系,使得最小双回滚 GRPO 能够以更低的计算成本达到与更大群体规模相当的性能。群组相对策略优化 (GRPO) 是一种重要的强化学习算法,用于大型语言模型 (LLM) 的训练后优化。普遍认为 GRPO 需要较大的群组规模以确保稳定的训练,这通过精确的统计估计实现,但会产生巨大的计算开销。在这项工作中,我们通过将 GRPO 重新定义为一种对比学习形式来挑战这一假设,从而揭示了它与直接偏好优化 (DPO) 的基本联系。受 DPO 经验成功启发,我们研究了最小的双轨迹 (2-GRPO) 情况,这是一种先前被认为不可行的配置。我们提供了严格的理论分析来验证 2-GRPO,并实证证明,尽管只使用 1/8 的轨迹且训练时间减少了 70% 以上,但其性能与 16-GRPO 相当。
Group Relative Policy Optimization (GRPO) 是一种用于预训练大型语言模型 (LLM) 的著名强化学习算法。通常认为 GRPO 需要较大的组大小,以确保通过精确的统计估计实现稳定的训练,这会带来巨大的计算开销。在这项工作中,我们通过将 GRPO 重新表述为一种对比学习形式来挑战这一假设,从而揭示了与 Direct Preference Optimization (DPO) 的基本联系。受 DPO 经验成功的启发,我们研究了最少两个 rollouts 的情况 (2-GRPO),这是一个先前被认为不可行的配置。我们提供了严格的理论分析来验证 2-GRPO,并用实验证明,尽管只使用了 1/8 的 rollouts 并将训练时间减少了 70% 以上,但其性能与 16-GRPO 相当。