⏶11
BARREL:用于事实性和可靠 LRMs 的边界感知推理
发表
由
junxiao yang 提交
作者:
Junxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang,
Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang

摘要
大型推理模型 (LRMs) 最近的进展在数学和逻辑推理方面展示了令人印象深刻的能力。然而,当前的 LRMs 很少承认无知或回答“我不知道”。相反,它们常常在表现出过度自信的同时产生不正确的答案,这引起了对其事实可靠性的担忧。在这项工作中,我们确定了两种以过度思考为特征的病态推理模式,这些模式导致了过度自信和不正确的答案:最后一分钟猜测和二次思考螺旋上升。为了解决这些问题,我们提出了 BARREL——一个促进简洁和边界感知的基于事实推理的新颖框架。我们的实验表明,BARREL 训练将 DeepSeek-R1-Distill-Llama-8B 的可靠性从 39.33% 提高到 61.48%,同时仍然达到与在 R1 生成的推理数据上微调的模型相当的准确率。这些结果表明,我们的初步研究对构建更可靠、更基于事实的 System 2 LRMs 具有启发性。
大型推理模型(LRMs)最近的进展在数学和逻辑推理方面展现出令人印象深刻的能力。然而,当前的 LRMs 很少承认无知或回答“我不知道”。相反,它们经常在表现出过度自信的同时给出错误的答案,这引起了对其事实可靠性的担忧。在这项工作中,我们确定了两种以过度思考为特征的病态推理模式,它们导致了过度自信和错误的答案:最后一刻猜测和二次思考螺旋。为了解决这些问题,我们提出了 BARREL——一个促进简洁且边界感强的事实推理的新框架。我们的实验表明,BARREL 训练将 DeepSeek-R1-Distill-Llama-8B 的可靠性从 39.33% 提高到 61.48%,同时仍能达到与使用 R1 生成的推理数据进行微调的模型相当的准确性。这些结果表明,我们的初步研究对于构建更可靠和事实性的 System 2 LRMs 具有启发意义。