不止于最后一个答案:你的推理轨迹揭示的远超你的想象

发表
Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud 提交
作者: Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud, Hani ItaniHani Itani, Bernard GhanemBernard Ghanem

摘要

大型语言模型(LLMs)利用逐步推理来解决复杂问题。标准评估实践通常涉及生成完整的推理链并评估其结论中提出的最终答案的正确性。在本文中,我们通过提出以下两个问题来挑战对最终答案的依赖:最终答案是否可靠地代表了模型的最佳结论?不同的推理路径是否会产生不同的结果?为了回答这些问题,我们分析了中间推理步骤,称之为“子思维”,并基于我们的发现提出了一种方法。我们的方法包括基于语言线索将推理链分割成连续的子思维。我们首先提示模型从每个中间子思维的终点生成续写。我们从源自不同子思维的每个已完成续写中提取一个潜在答案。我们发现,通过选择最频繁的答案(众数)来聚合这些答案,与仅依赖于原始完整推理链得出的答案相比,通常会产生显著更高的准确率。分析源自不同子思维的答案之间的一致性,揭示了与模型的置信度和正确性相关的特征,这表明了识别不可靠答案的潜力。我们在各种LLMs和具有挑战性的数学推理数据集(AIME2024和AIME2025)上的实验显示出持续的准确率提升,增益分别高达13%和10%。实现代码可在以下地址获得:https://github.com/hammoudhasan/SubthoughtReasoner
查看 arXiv 页面查看 PDF
不止于最后一个答案:你的推理轨迹揭示的远超你的想象

评论

Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud
论文作者
论文提交者

大语言模型(LLMs)利用逐步推理来解决复杂问题。标准评估实践涉及生成完整的推理链,并评估在其结论处呈现的最终答案的正确性。在本文中,我们通过提出以下两个问题来挑战对最终答案的依赖:最终答案是否可靠地代表了模型的最佳结论?替代的推理路径能否产生不同的结果?为了回答这些问题,我们分析了中间推理步骤,称为“子思想”,并提出了一种基于我们发现的方法。我们的方法包括根据语言线索将推理链分割成顺序的子思想。我们首先提示模型从每个中间子思想的终点开始生成续写。我们从每个源自不同子思想的已完成续写中提取潜在答案。我们发现,通过选择最频繁的答案(即众数)来汇总这些答案,通常会比仅依赖于源自原始完整推理链的答案带来显著更高的准确率。分析源自不同子思想的答案之间的一致性,揭示了与模型的置信度和正确性相关的特征,表明了识别不可靠答案的潜力。我们在各种LLM和具有挑战性的数学推理数据集(AIME2024和AIME2025)上进行的实验显示出一致的准确率提升,增益分别高达13%和10%。