通过判别性验证实现预算感知测试时缩放

发表
Kyle MontgomeryKyle Montgomery 提交
作者: Kyle MontgomeryKyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang

摘要

AI 生成总结
一种结合判别式验证和自一致性的混合方法,在大型语言模型的测试时缩放方面优于生成式验证,在固定的计算预算内实现了更高的准确性。
测试时缩放是提升大型语言模型在复杂推理任务上性能的强大策略。虽然最先进的方法通常采用生成式验证器来从候选池中选择最佳解决方案,但这种方法会产生高昂的计算成本,限制了其实用性。在这项工作中,我们将重点转移到一个更注重预算的范式:判别式验证。我们进行了彻底的经验分析,并表明虽然判别式验证器单独使用时可能表现不佳,但将它们与自一致性相结合的混合方法创建了一个强大而高效的测试时缩放机制。值得注意的是,在固定的计算预算下,这种混合方法在 AIME2025 上的准确率比最先进的生成式验证高出 15.3%。我们的研究结果表明,对于实际应用,带有判别式验证器的注重预算的缩放不仅是自一致性的“免费”升级,而且是比昂贵的生成技术更有效、更高效的替代方案。代码可在 https://github.com/wang-research-lab/verification 获取。
查看 arXiv 页面查看 PDF

评论

Kyle MontgomeryKyle Montgomery
论文作者
论文提交者

这项工作研究了区分性验证如何实现高效的测试时缩放。当与自洽性相结合时,它能够带来强大的性能提升,在实际计算预算下通常可以超越生成性验证方法。