动力学:重新思考测试时缩放定律

发表
ZMCZMC 提交
作者: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen

摘要

我们从实际效率的角度重新思考了推理时扩展定律,揭示出小型模型的有效性被严重高估。先前基于计算最优性的工作,忽视了推理时策略(例如,N中选优、长思维链CoT)引入的关键内存访问瓶颈。我们对0.6B到32B参数模型的整体分析,揭示了一种新的动力学扩展定律(Kinetics Scaling Law),它通过结合计算和内存访问成本,能更好地指导资源分配。动力学扩展定律表明,当计算资源用于超过某个阈值的模型时,其推理时计算效率要高于用于小型模型。一个关键原因是,在推理时扩展中,注意力机制而非参数数量成为主导成本因素。受此启发,我们提出了一种以稀疏注意力为中心的新型扩展范式,它降低了每个token的成本,并在相同的资源预算内支持更长的生成和更多的并行样本。经验上,我们展示了稀疏注意力模型始终优于其密集对应模型,在AIME问题解决准确性方面,低成本方案中实现了超过60点的提升,高成本方案中实现了超过5点的提升,这包括对最先进的MoE模型的评估。这些结果表明,稀疏注意力对于实现推理时扩展的全部潜力至关重要,因为与训练中参数扩展趋于饱和不同,推理时准确性通过增加生成而持续提高。代码可在 https://github.com/Infini-AI-Lab/Kinetics 获取。
查看 arXiv 页面查看 PDF

评论

ZMCZMC
论文提交者

🥳 很高兴分享我们的新工作——Kinetics:重新思考测试时扩展定律

🤔 如何有效构建一个强大的推理智能体?

现有的计算最优扩展定律表明 64K 思维tokens + 1.7B 模型 > 32B 模型。

但是,这只展现了全貌的一半!

🚨 自注意力中 O(N²) 的 KV 内存访问主导了测试时扩展 (TTS) 的成本。

MoEs 甚至通过减少计算量来加剧内存瓶颈。

我们的新扩展定律 Kinetics 提出——在测试时计算上投入更多之前,应首先投资于模型大小。

这一洞察引出了我们的下一个关键发现

✨ 稀疏注意力 = 可扩展的 TTS

我们的 Kinetics 稀疏扩展定律表明,当资源翻倍时,我们应该优先增加测试时 tokens,而不是注意力密度。

✅ 在相同计算预算下提升 60+ 点

✅ 相同性能下资源使用量降低 10 倍

✅ 在高成本场景中,稀疏注意力变得越来越有价值

💡稀疏性是释放 TTS 全部潜力的关键,因为与预训练不同,预训练的扩展效益呈递减趋势,而 TTS 将持续受益于增加的 token 生成和更优化的推理路径。

Arxiv 链接: https://arxiv.org/abs/2506.05333

网站: https://infini-ai-lab.github.io/Kinetics/

Twitter: https://x.com/InfiniAILab/status/1931053042876768586

papers.png