⏶23

Satori-SWE：面向样本高效软件工程的进化式测试时缩放

05月29日发表

05月30日由 GtZeng 提交

作者: Guangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan

摘要

语言模型（LMs）在标准化编码基准上表现良好，但在解决如SWE-Bench中的GitHub问题等真实世界软件工程任务时却表现不佳，尤其当模型参数少于100B时。尽管小型模型在实践中因其较低的计算成本而更受欢迎，但提高其性能仍然具有挑战性。现有方法主要依赖于使用高质量数据进行有监督微调（SFT），但这在大规模下成本高昂。另一种替代方案是推理时放大（test-time scaling）：生成多个输出，使用验证器对其评分，并选择最佳输出。虽然有效，但这种策略通常需要过度采样和昂贵的评分，限制了其实际应用。我们提出了演化推理时放大（EvoScale），一种样本高效的方法，将生成视为一个演化过程。通过选择和变异迭代优化输出，EvoScale将输出分布转移到高得分区域，减少了寻找正确解决方案所需的样本数量。为了减少重复采样和选择带来的开销，我们使用强化学习（RL）训练模型进行自我演化。模型不是在推理时依赖外部验证器，而是学习在迭代过程中自我提升其生成输出的得分。在SWE-Bench-Verified上评估，EvoScale使我们的32B模型Satori-SWE-32B在使用少量样本的情况下，其性能匹配或超越了参数超过100B的模型。代码、数据和模型将完全开源。

查看 arXiv 页面查看 PDF

GtZeng

论文提交者

我们提出了进化测试时缩放（Evolutionary Test-Time Scaling, EvoScale），这是一种将生成视为进化过程的样本高效方法。

Satori-SWE：面向样本高效软件工程的进化式测试时缩放

摘要

评论