先知后言:LLM表示编码了关于思维链在完成前成功的信息

发表
Anum AfzalAnum Afzal 提交
作者: Anum AfzalAnum Afzal, Florian Matthes, Gal ChechikGal Chechik, Yftah ZiserYftah Ziser

摘要

我们研究零样本链式思维(CoT)过程的成功是否可以在完成之前被预测。我们发现,一个基于大型语言模型(LLM)表示的探测分类器,即使在生成单个 token 之前也能表现良好,这表明关于推理过程的关键信息已经存在于初始步骤的表示中。相比之下,一个强大的基于 BERT 的基线(仅依赖于生成的 tokens)表现更差,这可能是因为它依赖于浅层语言线索而非深层推理动态。令人惊讶的是,使用后续推理步骤并不总是能改善分类。当额外上下文无益时,早期表示与后期表示更相似,这表明 LLM 早期就编码了关键信息。这意味着推理通常可以提前停止而不会造成损失。为了验证这一点,我们进行了提前停止实验,结果表明,截断 CoT 推理仍然比完全不使用 CoT 提高了性能,尽管与完整推理相比仍存在差距。然而,旨在缩短 CoT 链条的监督学习或强化学习等方法可以利用我们分类器的指导来识别何时提前停止是有效的。我们的发现提供了可能支持此类方法的见解,有助于在保持 CoT 益处的同时优化其效率。
查看 arXiv 页面查看 PDF

评论

Anum AfzalAnum Afzal
论文作者
论文提交者

思维链(Chain-of-Thought)功能强大但成本可能高昂。如果有一种方法能在开始之前预测LLM是否能使用CoT解决问题呢?我们发现,一个基于LLM表示的简单探测分类器,可以在任何代币生成之前准确预测零样本CoT推理过程的成功。这表明关于推理结果的关键信息已嵌入在初始步骤中。这意味着什么?当成功可能性不大时,提前停止推理可以带来更高效的CoT策略——在保持性能的同时节约资源。