⏶44
直觉指引:基于增强内在信心的高效测试时扩展
发表
由
Amirhosein Ghasemabadi 提交

作者:
Amirhosein Ghasemabadi,
Keith G. Mills, Baochun Li, Di Niu


摘要
用于增强大型语言模型 (LLM) 推理能力的测试时缩放 (Test-Time Scaling, TTS) 方法通常会产生巨大的计算成本,这主要归因于对外部过程奖励模型 (PRM) 或 Best-of-N (BoN) 等采样方法的广泛依赖。本文介绍了一种高效的自引导 TTS 框架——Guided by Gut (GG),它无需昂贵的外部验证模型即可实现 PRM 级别的性能。我们的方法采用轻量级树搜索,仅由内在的 LLM 信号(token 级别的置信度和步骤新颖性)引导。一项关键创新是通过有针对性的强化学习微调阶段来提高内部置信度估计的可靠性。在具有挑战性的数学推理基准上进行的实证评估表明,GG 使小型模型(例如,1.5B 参数)能够达到或超越显著更大的模型(例如,32B-70B 参数)的准确性,同时将 GPU 内存使用量降低了多达 10 倍。与基于 PRM 的方法相比,GG 在实现相当准确性的同时,推理速度提高了 8 倍,内存使用量降低了 4-5 倍。此外,与 BoN 策略相比,GG 将 KV 缓存内存使用量降低了大约 50%,从而有助于 TTS 技术的更高效和实用部署。

TL;DR: "Guided by Gut (GG)" 是一种高效、无需 PRM 的搜索方法,可将小型 LLM (1.5B) 的性能提升至超越大型模型 (32B–70B)。GG 利用基于 GRPO 的强化学习校准内部置信度,无需昂贵的外部验证器即可实现高效、快速、更好的推理。📄✨