⏶21
断裂思维链推理
发表
由
Yuhui Xu 提交
作者:
Baohao Liao,
Hanze Dong,
Yuhui Xu,
Doyen Sahoo, Christof Monz,
Junnan Li,
Caiming Xiong
摘要
推理时缩放技术通过在推理时利用额外的计算能力,而无需重新训练,显著增强了大型语言模型(LLM)的推理能力。类似地,思维链(CoT)提示及其扩展 Long CoT 通过生成丰富的中间推理轨迹来提高准确性,但这些方法会产生大量的 token 成本,从而阻碍其在延迟敏感场景中的部署。在这项工作中,我们首先展示了截断式 CoT(truncated CoT),即在推理完成前停止并直接生成最终答案的方法,通常能匹配完整 CoT 采样(full CoT sampling)的效果,同时使用的 token 数量显著减少。基于这一发现,我们引入了 Fractured Sampling,这是一种统一的推理时策略,它沿着三个正交维度在完整 CoT 和仅输出解决方案的采样之间进行插值:(1)推理轨迹的数量,(2)每条轨迹的最终解决方案数量,以及(3)推理轨迹被截断的深度。通过在五个不同的推理基准和几种模型规模上进行大量实验,我们证明 Fractured Sampling 始终实现了卓越的准确性-成本权衡,在 Pass@k 与 token 预算方面产生了陡峭的对数线性缩放增益。我们的分析揭示了如何在这些维度上分配计算资源以最大化性能,为更高效和可扩展的 LLM 推理铺平了道路。
我们引入了分层采样(Fractured Sampling),这是一种统一的推理时策略,它沿着三个正交轴在完整的思维链(CoT)和仅解决方案采样之间进行插值:(1) 推理轨迹的数量,(2) 每条轨迹的最终解决方案数量,以及 (3) 推理痕迹被截断的深度。