具有最优奖励基线的在策略强化学习

发表
Li DongLi Dong 提交
作者: Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei

摘要

强化学习算法对于将大型语言模型与人类偏好对齐以及增强其推理能力至关重要。然而,现有的强化学习算法常常由于宽松的在策略约束导致训练不稳定,以及由于辅助模型导致计算效率低下。在本文中,我们提出了带有最优奖励基线的在策略强化学习(OPO),这是一种旨在解决这些挑战的新颖且简化的强化学习算法。OPO强调精确在策略训练的重要性,这在经验上稳定了训练过程并增强了探索。此外,OPO引入了最优奖励基线,理论上最小化了梯度方差。我们在数学推理基准上评估了OPO。结果表明其卓越的性能和训练稳定性,无需额外的模型或正则项。此外,OPO实现了较低的策略偏移和较高的输出熵,鼓励产生更多样化和更少重复的响应。这些结果将OPO突显为大型语言模型对齐和推理任务中稳定有效强化学习的一个有希望的方向。实现了 https://github.com/microsoft/LMOps/tree/main/opo
查看 arXiv 页面查看 PDF

评论

Li DongLi Dong
论文提交者

强化学习算法是将大型语言模型与人类偏好对齐并增强其推理能力的基础。然而,当前的强化学习算法常常由于宽松的在线策略约束导致训练不稳定,并且由于辅助模型导致计算效率低下。在这项工作中,我们提出了带有最优奖励基线(Optimal reward baseline, OPO)的在线策略强化学习,这是一种新颖且简化的强化学习算法,旨在解决这些挑战。OPO强调精确在线策略训练的重要性,这在经验上稳定了训练过程并增强了探索。此外,OPO引入了最优奖励基线,该基线在理论上最小化了梯度方差。我们在数学推理基准上评估了OPO。结果表明,它无需额外的模型或正则化项即可实现卓越的性能和训练稳定性。此外,OPO实现了较低的策略漂移和较高的输出熵,鼓励生成更多样化且不重复的响应。这些结果突显了OPO在大型语言模型对齐和推理任务中实现稳定有效强化学习的潜力。