⏶81
深度思考,自信前行
发表
由
Jiawei Zhao 提交

作者:
Yichao Fu, Xuewei Wang,
Yuandong Tian,
Jiawei Zhao

摘要
大型语言模型(LLMs)通过自一致性与多数投票等测试时扩展方法,在推理任务中展现出巨大潜力。然而,这种方法往往导致准确性收益递减且计算开销高昂。为了应对这些挑战,我们提出了 Deep Think with Confidence (DeepConf),一种简单而强大的方法,可在测试时同时提高推理效率和性能。DeepConf 利用模型内部的置信度信号,动态过滤掉生成过程中或生成后的低质量推理轨迹。它不需要额外的模型训练或超参数调优,并且可以无缝集成到现有的服务框架中。我们在各种推理任务以及最新的开源模型(包括 Qwen 3 和 GPT-OSS 系列)上对 DeepConf 进行了评估。值得注意的是,在 AIME 2025 等挑战性基准上,DeepConf@512 的准确率高达 99.9%,与完全并行思考相比,生成的 token 减少了 84.7%。

深度思考,有信心(DeepConf)是一种并行思考方法,可在测试时提高 LLM 的推理性能和效率。它利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理轨迹。它不需要额外的模型训练或超参数调整,并且可以无缝集成到现有的服务框架中。与标准的思考方法相比,它在 AIME 2025 上达到了高达 99.9% 的准确率,同时减少了高达 84.7% 的生成 token。