工具集成强化学习实现仓库深度搜索

发表
Zexiong MaZexiong Ma 提交
作者: Zexiong MaZexiong Ma, Chao PengChao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

摘要

问题定位,即识别为解决软件问题所需修改的代码位置的过程,是软件开发中一项关键而富有挑战性的任务。自然语言问题描述与错误代码之间的语义鸿沟,需要通过代码依赖关系进行复杂的多跳推理。现有的基于大语言模型(LLM)的智能体试图通过集成代码库检索工具来解决此问题。然而,这将问题定位转变为一项我们称之为“代码库深度搜索”(Repo Deep Search)的高要求任务,它需要 LLM 在多步推理和导航过程中有效利用各种代码库检索工具。为应对这一挑战,我们提出了 ToolTrain,这是一个两阶段的工具集成训练框架,它结合了拒绝采样监督微调和工具集成强化学习,以增强 LLM 使用检索工具进行问题定位的能力。实验结果表明,经过 ToolTrain 训练的模型达到了业界顶尖性能,我们的 32B 模型在函数级定位任务上甚至超越了 Claude-3.7。结果还表明,问题定位性能的提升能够转化为更好的端到端问题解决性能。这进一步证明了针对问题定位进行训练是改进自动化软件开发的一条可行且有效的策略。
查看 arXiv 页面查看 PDF

评论

Zexiong MaZexiong Ma
论文作者
论文提交者

代码可在以下位置获取:https://github.com/Mizersy/RepoDeepSearch

Yury PanikovYury Panikov

谢谢,很有意思