THOUGHTTERMINATOR: 推理模型中的基准测试、校准和过度思考的抑制

发表
Michael SaxonMichael Saxon 提交
作者: Xiao Pu, Michael SaxonMichael Saxon, Wenyue Hua, William Yang Wang

摘要

推理模型在传统语言模型难以应对的困难任务上展现出强大的能力。然而,许多模型却饱受“过度思考”问题的困扰——即生成大量不必要的token,这些token并不能提高问题求解的准确性。我们引入了问题难度的近似度量方法,并表明问题难度与最佳token消耗之间存在明确关系,同时评估了多种推理模型在有效分配最佳token数量方面的校准程度。我们发现,总的来说,推理模型的校准程度普遍较差,尤其是在简单问题上。为了评估在简单问题上的校准程度,我们引入了DUMB500,这是一个包含极其简单的数学、推理、代码及任务问题的数据集,并联合评估了推理模型在这些简单例子以及来自现有前沿基准测试的相同任务领域中的极其困难的例子上的表现。最后,我们引入了THOUGHTTERMINATOR,这是一种无需训练的黑盒解码技术,它显著提高了推理模型的校准程度。
查看 arXiv 页面查看 PDF

评论

Michael SaxonMichael Saxon
论文作者
论文提交者

通过这种方式,Terminator 是一个任何 RM 都能使用的工具!