黑暗中探索:基于测试时实例级策略梯度在潜在空间中的推理

发表
Zilong ZhengZilong Zheng 提交
作者: LiHengli Li, Chenxi Li, Tong Wu, zhuXuekai Zhu, Yuxuan WangYuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia JiaZixia Jia, Ying Nian Wu, Zilong ZhengZilong Zheng

摘要

推理能力是人类智能的核心组成部分,在追求通用人工智能 (AGI) 的过程中,它仍然对大型语言模型 (LLMs) 构成了重大挑战。尽管在训练缩放法则下模型性能有所提高,但重大挑战依然存在,特别是在训练算法方面(例如灾难性遗忘)以及新型训练数据的有限性。作为一种替代方案,测试时缩放通过增加测试时的计算量而不是更新参数来提高推理性能。与此范例中先前专注于词元空间的方法不同,我们提出利用潜在空间来实现更有效的推理并更好地遵循测试时缩放法则。我们引入 <i translate="no">LatentSeek</i>,一个新颖的框架,它通过在模型的潜在空间内进行测试时实例级适应 (TTIA) 来增强 LLM 的推理能力。具体来说,<i translate="no">LatentSeek</i> 利用策略梯度,在自生成的奖励信号指导下,迭代更新潜在表示。<i translate="no">LatentSeek</i> 在包括 GSM8K、MATH-500 和 AIME2024 在内的一系列推理基准上进行了评估,跨越多种 LLM 架构。结果表明,<i translate="no">LatentSeek</i> 持续优于强大的基线方法,例如思维链提示和基于微调的方法。此外,我们的分析表明 <i translate="no">LatentSeek</i> 非常高效,对于中等复杂度的问??题通常只需几次迭代即可收敛,同时也能从额外的迭代中受益,从而凸显了潜在空间中测试时缩放的潜力。这些发现将 <i translate="no">LatentSeek</i> 定位为一个轻量级、可扩展且有效的解决方案,用于增强 LLMs 的推理能力。
查看 arXiv 页面查看 PDF

评论

LiLi
论文作者

无需训练,仅需自奖励!最先进的推理性能!

在潜在空间中搜索,同时展示了测试时扩展的潜力。

Zilong ZhengZilong Zheng
论文作者
论文提交者

介绍 LatentSeek,一个新颖的框架,通过模型潜在空间内的测试时实例级适应(TTIA)增强大型语言模型(LLM)的推理能力。

  • 在复杂数学推理上表现优越: LatentSeek 持续超越所有基线方法,在所有模型系列和提示配置上,相对于 CoT 方法平均提高了 4.73% 的得分。

  • 跨骨干模型的泛化能力: LatentSeek 在多个模型系列上均表现出卓越性能。此外,在模型规模方面,我们的方法在不同数据集和提示类型上持续优于所有基线模型。

  • 跨提示的泛化能力: Qwen2.5 系列模型是专门使用 Prompt 1 训练的;然而,我们的方法仍然取得了显著的性能提升。

  • LatentSeek 即使在稀疏奖励指导下也具有巨大潜力: 使用 PSRM 时,LatentSeek 相对于 CoT 方法平均提高了 19.12% 的得分,并且比自奖励版本平均高出 12.57% 的得分。

  • 测试时扩展: 理想的奖励模型呈现持续提升的趋势,并且在所有模型骨干上都优于自奖励方法,这表明无需密集奖励函数也可以实现测试时扩展。