强化微调的幻觉代价

发表
Taiwei ShiTaiwei Shi 提交
作者: Linxin Song, Taiwei ShiTaiwei Shi, Jieyu Zhao

摘要

强化微调 (RFT) 已成为增强大型语言模型 (LLM) 推理能力的标准方法。然而,它对模型可信度的影响尚未得到充分探索。在这项工作中,我们识别并系统地研究了 RFT 的一个关键副作用,我们称之为幻觉税:拒绝行为的退化导致模型自信地为无法回答的问题产生幻觉答案。为了研究这一点,我们引入了 SUM (Synthetic Unanswerable Math),这是一个高质量的无法回答的数学问题数据集,旨在通过从不充分或模糊的信息中推理来探查模型识别无法回答问题的能力。我们的结果表明,标准的 RFT 训练可以将模型拒绝率降低 80% 以上,这显著增加了模型的幻觉倾向。我们进一步证明,在 RFT 期间仅加入 10% 的 SUM 就能显著恢复适当的拒绝行为,同时对可解决任务的准确性影响极小。至关重要的是,这种方法使 LLM 能够在推理时利用计算能力来推理自身的不确定性和知识边界,从而不仅提高了对域外数学问题的泛化能力,还提高了对事实问答任务的泛化能力。
查看 arXiv 页面查看 PDF

评论

Taiwei ShiTaiwei Shi
论文作者
论文提交者

我们发现标准的 RFT 显著增加了大型语言模型(LLMs)的幻觉率。我们称之为 RFT 的幻觉税,并提出了一个简单有效的策略来缓解它。