对计算高效测试时扩展的最优验证粒度的再思考

发表
Hao Mark ChenHao Mark Chen 提交
作者: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan

摘要

测试时缩放(TTS)已被证明能有效增强大型语言模型(LLMs)的推理能力。验证在 TTS 中起着关键作用,由于验证的质量和计算成本,它同时影响 (1) 推理性能和 (2) 计算效率。在这项工作中,我们挑战了传统的验证范式,并首次系统地研究了验证粒度(即生成过程中验证器被调用的频率)的影响,超越了仅验证最终输出或单个生成步骤。为此,我们引入了可变粒度搜索(VG-Search),这是一种统一算法,通过可调的粒度参数 g 泛化了 Beam Search 和 Best-of-N 采样。VG-Search 在不同计算预算、生成器-验证器配置和任务属性下的大量实验揭示,动态选择 g 可以提高计算效率和缩放行为。基于这些发现,我们提出了自适应 VG-Search 策略,相较于 Beam Search 提高了高达 3.1\% 的准确率,相较于 Best-of-N 提高了 3.6\%,同时将 FLOPs 降低了 52\% 以上。我们将开源代码以支持未来的研究。
查看 arXiv 页面查看 PDF

评论

Hao Mark ChenHao Mark Chen
论文提交者

本文挑战了使用固定且基于启发式的验证粒度的惯例。本文提出了一种自适应的验证粒度,以获得更好的准确性与计算前沿。