⏶4
大型语言模型何时承认错误?理解模型信念在撤回中的作用
发表
由
Yuqing Yang 提交
作者:
Yuqing Yang, Robin Jia
摘要
大型语言模型(LLM)在理应知晓的情况下能否承认错误?在这项工作中,我们将承认先前生成答案中错误的这种行为定义为“撤回”(retraction),并旨在理解LLM何时以及为何选择撤回。我们首先构建了针对特定模型的数据集,以评估模型是否会撤回与其自身参数化知识相矛盾的错误答案。虽然LLM能够进行撤回,但它们这样做的情况并不频繁。我们证明了撤回与先前确定的模型内部信念指标密切相关:模型未能撤回它们“相信”是事实正确的错误答案。引导实验进一步表明,内部信念因果地影响模型的撤回。特别是,当模型不相信其答案时,这不仅促使模型尝试验证答案,而且在自我验证过程中改变了注意力行为。最后,我们证明简单的有监督微调可以显著提高撤回性能,通过帮助模型学习更准确的内部信念来实现。代码和数据集可在 https://github.com/ayyyq/llm-retraction 上获取。
代码:https://github.com/ayyyq/llm-retraction