深度思考,自信前行

发表
Jiawei ZhaoJiawei Zhao 提交
作者: Yichao FuYichao Fu, Xuewei Wang, Yuandong TianYuandong Tian, Jiawei ZhaoJiawei Zhao

摘要

大型语言模型(LLMs)通过自一致性与多数投票等测试时扩展方法,在推理任务中展现出巨大潜力。然而,这种方法往往导致准确性收益递减且计算开销高昂。为了应对这些挑战,我们提出了 Deep Think with Confidence (DeepConf),一种简单而强大的方法,可在测试时同时提高推理效率和性能。DeepConf 利用模型内部的置信度信号,动态过滤掉生成过程中或生成后的低质量推理轨迹。它不需要额外的模型训练或超参数调优,并且可以无缝集成到现有的服务框架中。我们在各种推理任务以及最新的开源模型(包括 Qwen 3 和 GPT-OSS 系列)上对 DeepConf 进行了评估。值得注意的是,在 AIME 2025 等挑战性基准上,DeepConf@512 的准确率高达 99.9%,与完全并行思考相比,生成的 token 减少了 84.7%。
查看 arXiv 页面查看 PDF
深度思考,自信前行

评论

Jiawei ZhaoJiawei Zhao
论文作者
论文提交者

深度思考,有信心(DeepConf)是一种并行思考方法,可在测试时提高 LLM 的推理性能和效率。它利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理轨迹。它不需要额外的模型训练或超参数调整,并且可以无缝集成到现有的服务框架中。与标准的思考方法相比,它在 AIME 2025 上达到了高达 99.9% 的准确率,同时减少了高达 84.7% 的生成 token。

Chengsong HuangChengsong Huang
此评论已隐藏。