⏶1

First Finish Search：大型语言模型中的高效测试时扩展

05月23日发表

05月29日由 Aradhye Agarwal 提交

作者: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

摘要

测试时缩放（TTS），涉及在推理过程中动态分配计算资源，提供了一种改善大型语言模型推理能力的有前景的方法。虽然现有的TTS方法效果良好，但它们通常依赖于长解码路径或需要生成大量样本，从而增加了词元使用量和推理延迟。我们观察到一个令人惊讶的事实：对于推理任务，较短的轨迹比长轨迹更有可能正确。受此启发，我们引入了First Finish Search（FFS），这是一种无需训练的并行解码策略，它启动n个独立的样本，并在其中任何一个完成时立即返回。我们在四种推理模型（DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B和Phi-4-Reasoning-Plus）和四个数据集（AIME24、AIME25-I、AIME25-II和GPQA Diamond）上评估了FFS以及简单解码、束搜索、多数投票和预算强制。使用DeepSeek-R1时，FFS在AIME数据集上取得了82.23%的准确率，比DeepSeek-R1的独立准确率提高了15%，几乎与OpenAI的o4-mini性能相当。我们的理论分析解释了为什么在最短轨迹处停止可能得到正确答案，并确定了早期停止可能不是最优的条件。FFS的优雅和简洁性表明，直接的TTS策略可以表现得非常好，揭示了在推理时采用简单方法的未开发潜力。

查看 arXiv 页面查看 PDF

Aradhye Agarwal

论文作者

论文提交者

📢 新论文预警：First Finish Search – LLMs 中高效的测试时扩展

我们介绍 First Finish Search (FFS)，一种简单却出奇有效的测试时解码策略，用于提升大型语言模型 (LLMs) 的推理能力。

FFS 并行启动多个解码路径，并在其中任意一个完成时立即停止，无需集束搜索或重新排序。

🔍 主要洞见：
短的推理路径通常比长的更准确。
FFS 是无需训练的、可并行化的，并且大幅减少了延迟和词元使用量。
使用 DeepSeek-R1 在 AIME 数据集上达到了 82.23% 的准确率——相比基础模型提升了 15%，可与 o4-mini 等大得多的模型媲美。

📊 我们在 4 个推理模型和 4 个具有挑战性的数据集（AIME24, AIME25-I/II, GPQA-Diamond）上，将 FFS 与集束搜索、多数投票和预算强制方法进行了基准测试。

🧠 我们的理论分析解释了为什么提早停止通常有效，以及何时可能无效。

🔗 阅读论文：https://arxiv.org/abs/2505.18149

👥 作者：Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
📬 欢迎讨论或合作！随时联系或提问。

First Finish Search：大型语言模型中的高效测试时扩展

摘要

评论