⏶53

使用强化学习训练长上下文、多轮软件工程智能体

08月05日发表

08月07日由 Simon Karasik 提交

作者: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Ibragim Badertdinov, Maksim Nekrashevich, Anton Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

摘要

强化学习（RL）在大型语言模型（LLM）应用上的研究，大多集中于单轮问题，例如数学推理或一次性代码生成。虽然这些问题可以被视为令牌级别的多轮MDP（马尔可夫决策过程），但这种观点对应于多轮交互的一种退化情况，即环境不提供反馈。这与许多现实世界领域形成对比，例如软件工程（SWE），这些领域需要与有状态环境进行丰富的多轮交互，环境会对每个动作做出非平凡的观察响应。为了弥补这一差距，我们展示了RL在该通用机制中的成功应用。我们使用改进的解耦优势策略优化（DAPO）算法，训练了一个基于Qwen2.5-72B-Instruct的智能体来解决现实世界中的软件工程任务。我们的方法将智能体在SWE-bench Verified基准上的成功率从20%的拒绝微调基线提高到39%，并且不依赖任何教师模型。在SWE-rebench上，我们的智能体在相同脚手架下，与DeepSeek-V3-0324和Qwen3-235B-A22B等领先的开放权重模型表现持平或更优，为基于开放模型构建更强大的自主智能体以解决复杂现实问题提供了可行的途径。

查看 arXiv 页面查看 PDF

Mariia Trofimova

多数针对大型语言模型（LLM）的强化学习（RL）都聚焦于单轮任务，缺乏真实环境反馈——这与软件工程（SWE）等需要多轮交互的现实世界问题截然不同。

我们采用改进的 DAPO 算法，将强化学习应用于这一更具挑战性的场景，并训练了一个 Qwen2.5-72B-Instruct 智能体——无需教师模型，仅通过交互进行训练。

在 SWE-bench Verified 数据集上，我们的智能体将拒识调优基线模型的成功率提高了一倍（20% → 39%）