防御性思维链:结构化推理增强大型语言模型抵御参考污染的鲁棒性

发表
Wenxiao WangWenxiao Wang 提交
作者: Wenxiao WangWenxiao Wang, Parsa Hosseini, Soheil Feizi

摘要

思维链提示在促进大型语言模型的推理能力方面取得了巨大成功。在这项工作中,我们探索如何利用这些增强的推理能力来提高大型语言模型在不一定以推理为重点的任务中的鲁棒性。特别是,我们展示了如何使用一种称为“防御性思维链”(chain-of-defensive-thought)的简单方法,使各种大型语言模型在抵抗参考资料损坏方面表现出显著改进的鲁棒性。这种方法仅提供少量包含结构化和防御性推理的示例作为演示。从经验上看,这些改进令人震惊,特别是考虑到该方法的简单性和适用性。例如,在 Natural Questions 任务中,使用标准提示时,当提供的 10 个参考资料中有 1 个被提示注入攻击损坏时,GPT-4o 的准确率从 60% 下降到低至 3%。相比之下,使用防御性思维链提示的 GPT-4o 保持了 50% 的准确率。
查看 arXiv 页面查看 PDF

评论

Wenxiao WangWenxiao Wang
论文作者
论文提交者
🛡️ 利用推理大模型增强可靠性

全球正在大力投资于推理大模型——但🤔 如何才能帮助那些对推理要求不高的任务呢?

一个角度:

可以利用(大模型的)推理能力来增强可靠性

我们对此进行了探索,发现它出乎意料地简单且有效!

🔗 阅读论文


📚 背景

大模型在获取最新或专业知识方面天生存在局限性。

这就是为什么包括OpenAI和Google在内的许多机构都通过外部参考资料(例如,RAG、搜索、深度研究)来增强大模型的能力。

然而,当这些参考资料受到损害时,大模型的性能可能会崩溃——这引发了严重的可靠性担忧:


🧠 引入防御性思维链 (Chain-of-Defensive-Thought)

我们提出了一种简单的、仅需通过提示即可实现的方法,称为防御性思维链 (Chain-of-Defensive-Thought),用以增强大模型对受损外部参考资料的鲁棒性。

  • 无需微调

  • 只需几个带有结构化防御性推理的示例

插图:

illustration_horizontal.png


📈 关键结果

尽管方法很简单,但防御性思维链 (Chain-of-Defensive-Thought) 显著提升了大模型在多种模型上的鲁棒性!

robustness_overall_for_tweet.png


🚀 为什么它很重要
  • 简单: 只需提示,无需更改架构。

  • 有效: 显著提升可靠性。

  • 及时: 非常适合增强基于RAG、搜索增强和检索流水线的系统。

随着推理优化大模型(例如,OpenAI的o系列、DeepSeek R1)的兴起,这可能会开辟令人兴奋的新研究方向。您的看法如何?