⏶81

深度思考，自信前行

08月21日发表

08月22日由 Jiawei Zhao 提交

作者: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao

摘要

大型语言模型（LLMs）通过自一致性与多数投票等测试时扩展方法，在推理任务中展现出巨大潜力。然而，这种方法往往导致准确性收益递减且计算开销高昂。为了应对这些挑战，我们提出了 Deep Think with Confidence (DeepConf)，一种简单而强大的方法，可在测试时同时提高推理效率和性能。DeepConf 利用模型内部的置信度信号，动态过滤掉生成过程中或生成后的低质量推理轨迹。它不需要额外的模型训练或超参数调优，并且可以无缝集成到现有的服务框架中。我们在各种推理任务以及最新的开源模型（包括 Qwen 3 和 GPT-OSS 系列）上对 DeepConf 进行了评估。值得注意的是，在 AIME 2025 等挑战性基准上，DeepConf@512 的准确率高达 99.9%，与完全并行思考相比，生成的 token 减少了 84.7%。

查看 arXiv 页面查看 PDF

Jiawei Zhao

论文作者

论文提交者

深度思考，有信心（DeepConf）是一种并行思考方法，可在测试时提高 LLM 的推理性能和效率。它利用模型内部的置信度信号，在生成过程中或生成后动态过滤低质量的推理轨迹。它不需要额外的模型训练或超参数调整，并且可以无缝集成到现有的服务框架中。与标准的思考方法相比，它在 AIME 2025 上达到了高达 99.9% 的准确率，同时减少了高达 84.7% 的生成 token。

Jiawei Zhao

论文作者

论文提交者

https://cdn-uploads.huggingface.co/production/uploads/64dd8355573d067c9e858262/-X8jlcLXIxvunDqlGJ7Ya.qt

Chengsong Huang

此评论已隐藏。