⏶33
PIPer:通过在线强化学习实现设备端环境设置
发表
由
Alexander Kovrigin 提交

作者:
Alexander Kovrigin,
Aleksandra Eliseeva,
Konstantin Grotov,
Egor Bogomolov,
Yaroslav Zharov




摘要
AI 生成总结
一个结合了监督微调和带可验证奖励的强化学习的专用模型,在自动化环境设置任务中取得了具有竞争力的性能。环境设置——配置系统以使用特定软件项目工作的过程——在软件工程(SE)中仍然是一个持续的挑战。自动化的环境设置方法可以为开发人员提供完全配置好的环境,用于任意存储库,而无需手动操作,从而提供帮助。这也帮助SE研究人员扩展了基于执行的基准测试。然而,最近的研究表明,即使是目前最先进的大型语言模型(LLM)在自动化这项任务上也只取得有限的成功。为了克服这一限制,我们对一个专门用于环境设置的模型进行了微调。我们结合了用于生成正确Bash脚本的监督微调,以及具有可验证奖励的强化学习(RLVR),使其适应环境设置的任务。在EnvBench-Python上,我们的方法使得Qwen3-8B(一个可以在消费级硬件上运行的模型)的表现与更大的模型——Qwen3-32B和GPT-4o——相当。训练代码和模型检查点可在网上获取:https://github.com/JetBrains-Research/PIPer。

💸 环境设置耗费大量时间和资源。
🤖 现有的 LLM 需要大型模型且运行成本高昂。
🛠️ 我们的方法使用 SFT + RLVR 微调了一个更小的模型 (Qwen3-8B)。
⚡ 以更低的成本实现了与大型模型 (Qwen3-32B, GPT-4o) 相当的性能。