⏶7

Afterburner: 强化学习促进自我改进的代码效率优化

05月29日发表

05月30日由 Mingzhe Du 提交

作者: Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng

摘要

大语言模型 (LLMs) 生成功能正确的解决方案，但在代码效率方面常常不足，这是实际部署中的一个关键瓶颈。在本文中，我们引入了一种新颖的测试时迭代优化框架来解决这一问题，该框架采用闭环系统，LLMs 在其中根据执行沙箱提供的经验性能反馈迭代地改进代码。我们探索了三种训练策略：监督微调 (SFT)、直接偏好优化 (DPO) 和群体相对策略优化~(GRPO)。在我们的 Venus 数据集和 APPS 基准测试上的实验表明，SFT 和 DPO 在效率提升方面迅速达到饱和。相比之下，GRPO 利用带有执行反馈的强化学习 (RL) 持续优化代码性能，显著提升了 pass@1 (从 47% 提升至 62%) 以及在效率上超越人类提交的可能性 (从 31% 提升至 45%)。我们的工作展示了有效的测试时代码效率提升，并关键性地揭示了强化学习在教导 LLMs 真正实现代码效率自我改进方面的强大能力。

查看 arXiv 页面查看 PDF

Mingzhe Du

论文作者

论文提交者

大语言模型（LLM）能够生成功能正确的解决方案，但在代码效率方面往往不足，这是实际部署中的一个关键瓶颈。在本文中，我们提出了一种新颖的测试时迭代优化框架来解决这个问题，该框架采用一个闭环系统，其中 LLM 基于执行沙箱的实际运行性能反馈迭代地优化代码。我们探索了三种训练策略：有监督微调（SFT）、直接偏好优化（DPO）和分组相对策略优化（GRPO）。在我们的 Venus 数据集和 APPS 基准上的实验表明，SFT 和 DPO 在效率提升上迅速达到饱和。相比之下，GRPO 利用带有执行反馈的强化学习（RL），持续优化代码性能，显著提升了 PASS@1（从 47% 提高到 62%）以及在效率上超越人类提交的概率（从 31% 提高到 45%）。我们的工作展示了有效的测试时代码效率提升，并关键地揭示了强化学习在教会 LLM 真正自我改进代码效率方面的力量。

Afterburner: 强化学习促进自我改进的代码效率优化

摘要

评论