对大型推理模型的干扰注入攻击:表征与防御

发表
Weijie XuWeijie Xu 提交
作者: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy

摘要

AI 生成总结
大型推理模型容易受到推理干扰的影响,提示中嵌入的无关任务会降低准确性,而SFT和RL的组合防御可以提高鲁棒性。
大型推理模型(LRMs)的最新进展使其在数学和编码等复杂任务上取得了卓越的性能,通过生成长篇的思维链(CoT)推理过程。在本文中,我们识别并系统地分析了一个关键的漏洞,我们称之为“推理分心”,在这种漏洞下,LRMs会被恶意嵌入在提示中的不相关但复杂的任务所偏离其主要目标。通过对不同模型和基准的全面研究,我们表明即使是最先进的LRMs也极易受到影响,注入的干扰物会将任务准确率降低高达60%。我们进一步揭示,某些对齐技术可能会放大这种弱点,并且模型可能会表现出隐蔽的顺从,在推理过程中遵循隐藏的对抗性指令,同时在最终输出中将其隐藏。为了减轻这些风险,我们提出了一种基于训练的防御方法,该方法结合了监督微调(SFT)和强化学习(RL),并在合成对抗性数据上进行训练,在具有挑战性的分心攻击上提高了50多个点的鲁棒性。我们的发现将推理分心确立为对LRM可靠性的一个独特且紧迫的威胁,并为实现更安全、更值得信赖的推理系统提供了一个实际步骤。
查看 arXiv 页面查看 PDF
对大型推理模型的干扰注入攻击:表征与防御
对大型推理模型的干扰注入攻击:表征与防御

评论

Weijie XuWeijie Xu
论文提交者

LRM 很容易分心。如何避免?