Afterburner: 强化学习促进自我改进的代码效率优化

发表
Mingzhe DuMingzhe Du 提交
作者: Mingzhe DuMingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng

摘要

大语言模型 (LLMs) 生成功能正确的解决方案,但在代码效率方面常常不足,这是实际部署中的一个关键瓶颈。在本文中,我们引入了一种新颖的测试时迭代优化框架来解决这一问题,该框架采用闭环系统,LLMs 在其中根据执行沙箱提供的经验性能反馈迭代地改进代码。我们探索了三种训练策略:监督微调 (SFT)、直接偏好优化 (DPO) 和群体相对策略优化~(GRPO)。在我们的 Venus 数据集和 APPS 基准测试上的实验表明,SFT 和 DPO 在效率提升方面迅速达到饱和。相比之下,GRPO 利用带有执行反馈的强化学习 (RL) 持续优化代码性能,显著提升了 pass@1 (从 47% 提升至 62%) 以及在效率上超越人类提交的可能性 (从 31% 提升至 45%)。我们的工作展示了有效的测试时代码效率提升,并关键性地揭示了强化学习在教导 LLMs 真正实现代码效率自我改进方面的强大能力。
查看 arXiv 页面查看 PDF

评论

Mingzhe DuMingzhe Du
论文作者
论文提交者

大语言模型(LLM)能够生成功能正确的解决方案,但在代码效率方面往往不足,这是实际部署中的一个关键瓶颈。在本文中,我们提出了一种新颖的测试时迭代优化框架来解决这个问题,该框架采用一个闭环系统,其中 LLM 基于执行沙箱的实际运行性能反馈迭代地优化代码。我们探索了三种训练策略:有监督微调(SFT)、直接偏好优化(DPO)和分组相对策略优化(GRPO)。在我们的 Venus 数据集和 APPS 基准上的实验表明,SFT 和 DPO 在效率提升上迅速达到饱和。相比之下,GRPO 利用带有执行反馈的强化学习(RL),持续优化代码性能,显著提升了 PASS@1(从 47% 提高到 62%)以及在效率上超越人类提交的概率(从 31% 提高到 45%)。我们的工作展示了有效的测试时代码效率提升,并关键地揭示了强化学习在教会 LLM 真正自我改进代码效率方面的力量。