⏶22
什么是有效的推理?回顾 CoT 的长度、审查和结构
发表
由
Feng 提交
作者:
Yunzhen Feng,
Julia Kempe, Cheng Zhang, Parag Jain,
Anthony Hartshorn
摘要
AI 生成总结
大型推理模型中有效的思维链的特点是失败的步骤更少,结构质量更好,不一定取决于长度或回顾。大型推理模型(LRMs)在长链式思维(CoT)跟踪上花费了大量的测试时间计算,但什么 *构成* 一个有效的 CoT 仍然不清楚。虽然先前的工作报告了通过附加的 *等待* token 来延长 CoT 和增加审查(重新访问早期步骤)可以带来收益,但最近的研究表明,更短的思考可能优于更长的跟踪。因此,我们对十个 LRMs 在数学和科学推理方面进行了系统评估。与“越长越好”的说法相反,我们发现天真的 CoT 延长和增加审查都与较低的准确性相关。
随着 CoT 一步步展开,token 级别的指标可能会混淆冗长与过程质量。我们引入了 CoT 的图视图来提取结构,并确定了一个单一的统计量——*失败步骤分数(FSF)*,即被放弃的分支中的步骤比例——该统计量在跨模型预测正确性方面持续优于长度和审查比。为了探究因果关系,我们设计了两种干预措施。首先,我们在测试时根据每个指标对候选 CoT 进行排名,其中 FSF 带来了最大的 pass@1 收益;其次,我们编辑 CoT 以删除失败的分支,这显著提高了准确性,表明失败的分支会偏向后续推理。总而言之,这些结果将有效的 CoT 表征为那些 *失败较少* 的 CoT,并支持在测试时进行*结构感知*的扩展,而不是不加区分地生成长 CoT。
是什么让 LLM 中的推理链有效?不是长度或自我检查。我们发现了一个简单的图度量,它比其他任何度量都能更好地预测准确性——并用因果关系证明了这一点。