⏶67
BAPO:通过自适应剪裁的平衡策略优化,稳定 LLM 的离策略强化学习
发表
由
Zhiheng Xi 提交
作者: Zhiheng Xi, Xin Guo, Yang Nan, Enyu Zhou,
Junrui Shen, Wenxiang Chen, Jiaqi Liu, Jixuan Huang, Zhihao Zhang, Honglin Guo, Xun Deng, Zhikai Lei, Miao Zheng, Guoteng Wang, Shuo Zhang, Peng Sun, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
摘要
AI 生成总结
自适应裁剪平衡策略优化(BAPO)通过动态调整裁剪范围来解决离策略强化学习中的挑战,从而提高大型语言模型的样本效率、稳定性和性能。强化学习(RL)最近已成为对齐和强化大型语言模型(LLM)的核心范式。
然而,在离策略设置中应用 RL——即使用来自过去策略的过时数据进行训练——可以提高样本效率,
但仍然具有挑战性:策略熵急剧下降,优化通常变得不稳定甚至可能崩溃。
通过理论和实证分析,我们确定了两个关键见解:(i)
优化中的不平衡,其中负优势样本主导策略梯度,抑制了有用行为并有梯度爆炸的风险;
(ii) 推导出的熵剪裁规则,它揭示了 PPO
类目标中固定的剪裁机制系统地阻止了熵增加的更新,从而以牺牲探索为代价,
将策略推向过度利用。基于这些见解,我们提出了
BAlanced Policy Optimization with Adaptive Clipping (BAPO),
这是一种简单而有效的方法,可以动态调整剪裁边界以自适应地重新平衡正负贡献,
保持熵并稳定 RL 优化。在各种离策略场景——包括样本回放和部分展开——中,
BAPO 实现了快速、稳定和数据高效的训练。在 AIME 2024 和 AIME 2025
基准测试中,我们的 7B BAPO 模型超越了 SkyWork-OR1-7B
等开源同类模型,而我们的 32B BAPO
模型不仅在同等规模模型中取得了最先进的结果,而且超越了领先的专有系统,
如 o3-mini 和 Gemini-2.5-Flash-Thinking。
评论
您好,感谢这篇出色的论文
在论文中,附录里的命题2(等式6)在没有pi项的情况下写出了logit差分,而命题1则包含了它——这与熵机制(https://arxiv.org/pdf/2505.22617)中的推导不同,后者明确出现了pi。这是一种故意的简化(例如,假设自然梯度),还是仅仅是符号上的省略?
BAlanced Policy Optimization with Adaptive Clipping (BAPO) 通过动态调整剪裁界限来解决离策略强化学习中的挑战,以提高大型语言模型的样本效率、稳定性和性能。