First Finish Search:大型语言模型中的高效测试时扩展

发表
Aradhye AgarwalAradhye Agarwal 提交
作者: Aradhye AgarwalAradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

摘要

测试时缩放(TTS),涉及在推理过程中动态分配计算资源,提供了一种改善大型语言模型推理能力的有前景的方法。虽然现有的TTS方法效果良好,但它们通常依赖于长解码路径或需要生成大量样本,从而增加了词元使用量和推理延迟。我们观察到一个令人惊讶的事实:对于推理任务,较短的轨迹比长轨迹更有可能正确。受此启发,我们引入了First Finish Search(FFS),这是一种无需训练的并行解码策略,它启动n个独立的样本,并在其中任何一个完成时立即返回。我们在四种推理模型(DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B和Phi-4-Reasoning-Plus)和四个数据集(AIME24、AIME25-I、AIME25-II和GPQA Diamond)上评估了FFS以及简单解码、束搜索、多数投票和预算强制。使用DeepSeek-R1时,FFS在AIME数据集上取得了82.23%的准确率,比DeepSeek-R1的独立准确率提高了15%,几乎与OpenAI的o4-mini性能相当。我们的理论分析解释了为什么在最短轨迹处停止可能得到正确答案,并确定了早期停止可能不是最优的条件。FFS的优雅和简洁性表明,直接的TTS策略可以表现得非常好,揭示了在推理时采用简单方法的未开发潜力。
查看 arXiv 页面查看 PDF

评论

Aradhye AgarwalAradhye Agarwal
论文作者
论文提交者

📢 新论文预警:First Finish Search – LLMs 中高效的测试时扩展

我们介绍 First Finish Search (FFS),一种简单却出奇有效的测试时解码策略,用于提升大型语言模型 (LLMs) 的推理能力。

FFS 并行启动多个解码路径,并在其中任意一个完成时立即停止,无需集束搜索或重新排序。

🔍 主要洞见:
短的推理路径通常比长的更准确。
FFS 是无需训练的可并行化的,并且大幅减少了延迟和词元使用量
使用 DeepSeek-R1 在 AIME 数据集上达到了 82.23% 的准确率——相比基础模型提升了 15%,可与 o4-mini 等大得多的模型媲美。

📊 我们在 4 个推理模型和 4 个具有挑战性的数据集(AIME24, AIME25-I/II, GPQA-Diamond)上,将 FFS 与集束搜索、多数投票和预算强制方法进行了基准测试。

🧠 我们的理论分析解释了为什么提早停止通常有效,以及何时可能无效。

🔗 阅读论文:https://arxiv.org/abs/2505.18149

👥 作者:Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
📬 欢迎讨论或合作!随时联系或提问。