⏶2
大型语言模型测试时计算扩展的艺术
发表
由
Aradhye Agarwal 提交
作者: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
摘要
AI 生成总结
对大型语言模型测试时扩展策略的系统研究揭示了基于问题难度、模型类型和计算预算的独特性能趋势。测试时缩放 (TTS)——在推理过程中动态分配计算——是改进大型语言模型 (LLM) 推理的一个有前景的方向。然而,目前缺乏对已知 TTS 策略在相同条件下的系统比较,并且模型类型和问题难度对性能的影响仍不清楚。为了解决这些空白,我们进行了第一次大规模的 TTS 研究,使用八个开源 LLM(7B 到 235B 参数)生成了超过三百亿个令牌,跨越四个推理数据集。我们观察到三个一致的趋势:(1) 没有单一的 TTS 策略普遍占主导地位;(2) 推理模型在问题难度和轨迹长度上表现出独特的轨迹质量模式,形成短时域和长时域类别;(3) 对于给定模型类型,最佳 TTS 性能随计算预算单调缩放。基于这些见解,我们提供了一个实用指南,用于选择最佳 TTS 策略,考虑问题难度、模型类型和计算预算,为有效的推理时缩放提供实用指导。



论文链接: https://arxiv.org/pdf/2512.02008
Github 仓库: https://github.com/Aradhye2002/art_of_tts