通过强化学习协同演化大语言模型编码器和单元测试器

发表
Ling YangLing Yang 提交
作者: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang

摘要

我们提出了 CURE,一种新颖的强化学习框架,其具有专门的奖励设计,可根据其交互结果共同演化编码和单元测试生成能力,而无需任何真实代码作为监督。这种方法实现了灵活且可扩展的训练,并允许单元测试器直接从编码器的错误中学习。我们推导出的 ReasonFlux-Coder-7B 和 14B 模型在 Qwen2.5-Instruct 模型上进行优化后,代码生成准确性提高了 5.3%,Best-of-N 准确性提高了 9.0%,优于同等规模的 Qwen-Coder、DeepSeek-Coder 和 Seed-Coder。它们自然地扩展到下游任务,例如测试时缩放和智能体编程,相对于基础模型提高了 8.1%。对于长 CoT 模型,我们的 ReasonFlux-Coder-4B 持续优于 Qwen3-4B,同时在单元测试生成中实现了 64.8% 的推理效率。值得注意的是,我们还发现我们的模型可以作为基础模型上强化学习的有效奖励模型。项目地址:https://github.com/Gen-Verse/CURE
查看 arXiv 页面查看 PDF

评论