⏶6
扩展推理可以提升大型语言模型的事实性
发表
由
Mike Zhang 提交

作者:
Mike Zhang,
Johannes Bjerva,
Russa Biswas

摘要
最近关于大型语言模型(LLM)推理能力的研究表明,通过在推理过程中利用冗长的思考过程和额外的计算资源,模型性能在数学推理任务(Muennighoff et al., 2025)中取得了显著提升。然而,尚不确定更长的推理链是否本质上能提高事实准确性,特别是在非数学语境下。在这项工作中,我们深入研究了LLM在复杂开放领域问答(QA)场景中的推理。我们首先从先进的大规模推理模型(QwQ-32B 和 DeepSeek-R1-671B)中提取推理轨迹,然后对基于 Qwen2.5 的各种模型进行微调,模型范围从小型的指令微调变体到大型架构。为了丰富推理轨迹,我们将知识图谱中的事实信息以路径的形式引入到我们的推理轨迹中。我们的实验设置包括四种基线方法和六种不同的指令微调模型,在包含超过 22.6K 个问题的六个数据集基准上进行评估。总计,我们进行了 168 次实验运行,分析了大约 170 万条推理轨迹。我们的发现表明,在单次运行中,较小的推理模型在事实准确性方面比其原始的指令微调对应模型有显著提升。此外,我们的分析表明,增加测试时计算和 token 预算,事实准确性持续提高了 2-8%,进一步证实了测试时扩展对于提升性能,从而提高开放领域 QA 任务推理准确性的有效性。我们发布所有实验制品,供进一步研究使用。
我们发现简单的测试时缩放可以提高 LLMs 的事实准确性。