⏶23
Satori-SWE:面向样本高效软件工程的进化式测试时缩放
发表
由
GtZeng 提交
作者: Guangtao Zeng,
Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan

摘要
语言模型(LMs)在标准化编码基准上表现良好,但在解决如SWE-Bench中的GitHub问题等真实世界软件工程任务时却表现不佳,尤其当模型参数少于100B时。尽管小型模型在实践中因其较低的计算成本而更受欢迎,但提高其性能仍然具有挑战性。现有方法主要依赖于使用高质量数据进行有监督微调(SFT),但这在大规模下成本高昂。另一种替代方案是推理时放大(test-time scaling):生成多个输出,使用验证器对其评分,并选择最佳输出。虽然有效,但这种策略通常需要过度采样和昂贵的评分,限制了其实际应用。我们提出了演化推理时放大(EvoScale),一种样本高效的方法,将生成视为一个演化过程。通过选择和变异迭代优化输出,EvoScale将输出分布转移到高得分区域,减少了寻找正确解决方案所需的样本数量。为了减少重复采样和选择带来的开销,我们使用强化学习(RL)训练模型进行自我演化。模型不是在推理时依赖外部验证器,而是学习在迭代过程中自我提升其生成输出的得分。在SWE-Bench-Verified上评估,EvoScale使我们的32B模型Satori-SWE-32B在使用少量样本的情况下,其性能匹配或超越了参数超过100B的模型。代码、数据和模型将完全开源。
我们提出了进化测试时缩放(Evolutionary Test-Time Scaling, EvoScale),这是一种将生成视为进化过程的样本高效方法。