使用强化学习训练长上下文、多轮软件工程智能体

发表
Simon KarasikSimon Karasik 提交
作者: AlexanderAlexander Golubev, Maria Trofimova, Sergei Polezhaev, IbragimIbragim Badertdinov, Maksim Nekrashevich, AntonAnton Shevtsov, Simon KarasikSimon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

摘要

强化学习(RL)在大型语言模型(LLM)应用上的研究,大多集中于单轮问题,例如数学推理或一次性代码生成。虽然这些问题可以被视为令牌级别的多轮MDP(马尔可夫决策过程),但这种观点对应于多轮交互的一种退化情况,即环境不提供反馈。这与许多现实世界领域形成对比,例如软件工程(SWE),这些领域需要与有状态环境进行丰富的多轮交互,环境会对每个动作做出非平凡的观察响应。 为了弥补这一差距,我们展示了RL在该通用机制中的成功应用。我们使用改进的解耦优势策略优化(DAPO)算法,训练了一个基于Qwen2.5-72B-Instruct的智能体来解决现实世界中的软件工程任务。我们的方法将智能体在SWE-bench Verified基准上的成功率从20%的拒绝微调基线提高到39%,并且不依赖任何教师模型。在SWE-rebench上,我们的智能体在相同脚手架下,与DeepSeek-V3-0324和Qwen3-235B-A22B等领先的开放权重模型表现持平或更优,为基于开放模型构建更强大的自主智能体以解决复杂现实问题提供了可行的途径。
查看 arXiv 页面查看 PDF

评论

Mariia TrofimovaMariia Trofimova

多数针对大型语言模型(LLM)的强化学习(RL)都聚焦于单轮任务,缺乏真实环境反馈——这与软件工程(SWE)等需要多轮交互的现实世界问题截然不同。

我们采用改进的 DAPO 算法,将强化学习应用于这一更具挑战性的场景,并训练了一个 Qwen2.5-72B-Instruct 智能体——无需教师模型,仅通过交互进行训练。

在 SWE-bench Verified 数据集上,我们的智能体将拒识调优基线模型的成功率提高了一倍(20% → 39%)

rl_loop.png

并在 SWE-rebench 数据集上与顶尖开源模型持平或超越

image.png

这表明强化学习可以在有状态的真实世界环境中(超越静态提示和玩具任务)解锁更强大的自主智能体。

Mariia TrofimovaMariia Trofimova
此评论已隐藏。
Simon KarasikSimon Karasik
论文作者
论文提交者

这项工作探索了SWE代理的强化学习,没有任何外部教师模型,纯粹的强化学习——我们在解决率方面实现了两倍的提升。