⏶1
深入研究带来更深的伤害
发表
由
Shuo Chen 提交
作者: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
摘要
AI 生成总结
基于LLM的DR代理可以从有害查询中生成详细报告,突显了对齐失败以及对专门安全措施的需求。基于大型语言模型(LLMs)的深度研究(DR)代理可以通过分解任务、检索在线信息和综合详细报告来执行复杂的多步研究。然而,滥用具有如此强大能力的LLMs可能会导致更大的风险。在高风险和知识密集型领域,如生物安全,这尤其令人担忧,因为DR可以生成包含详细的禁忌知识的专业报告。不幸的是,我们在实践中发现了此类风险:仅仅提交一个有害查询,而独立的LLM会直接拒绝,却可以从DR代理那里获得详细且危险的报告。这突显了风险的增加,并强调了进行更深入的安全分析的必要性。然而,为LLMs设计的越狱方法无法充分暴露这些独特的风险,因为它们不针对DR代理的研究能力。为了解决这一差距,我们提出了两种新颖的越狱策略:计划注入(Plan Injection),将恶意子目标注入代理的计划中;意图劫持(Intent Hijack),将有害查询重塑为学术研究问题。我们进行了广泛的实验,涵盖了不同的LLMs和各种安全基准,包括通用和生物安全禁忌提示。这些实验揭示了3个关键发现:(1)LLMs在DR代理中的对齐通常会失败,其中以学术术语呈现的有害提示可以劫持代理意图;(2)多步规划和执行削弱了对齐,暴露了提示级防护措施无法解决的系统漏洞;(3)与独立的LLMs相比,DR代理不仅绕过了拒绝,而且产生了更连贯、更专业、更危险的内容。这些结果表明DR代理存在根本性的不对齐,并呼吁采用针对DR代理的更好的对齐技术。代码和数据集可在https://chenxshuo.github.io/deeper-harm 获得。
基于大型语言模型(LLM)的深度研究(DR)代理可以通过分解任务、检索在线信息和综合详细报告来执行复杂的多步研究。然而,滥用具有如此强大能力的 LLM 可能会导致更大的风险。在高风险和知识密集型领域(如生物安全)尤其令人担忧,因为 DR 可以生成包含详细的禁止知识的专业报告。不幸的是,我们在实践中发现了此类风险:提交一个单独的 LLM 直接拒绝的有害查询,就可以从 DR 代理那里获得详细而危险的报告。这凸显了风险的升高,并强调了进行更深入安全分析的必要性。然而,为 LLM 设计的越狱方法未能暴露此类独特的风险,因为它们并不针对 DR 代理的研究能力。为了弥补这一差距,我们提出了两种新颖的越狱策略:计划注入,将恶意子目标注入代理的计划;意图劫持,将有害查询重新表述为学术研究问题。我们在不同的 LLM 和各种安全基准(包括通用和生物安全禁止提示)上进行了广泛的实验。这些实验揭示了 3 个关键发现:(1)LLM 的对齐在 DR 代理中经常失败,以学术术语表述的有害提示可能会劫持代理意图;(2)多步计划和执行会削弱对齐,暴露出提示级别防护措施无法解决的系统性漏洞;(3)与独立的 LLM 相比,DR 代理不仅绕过了拒绝,还生成了更连贯、更专业、更危险的内容。这些结果表明 DR 代理存在根本性的不一致,并呼吁采用针对 DR 代理的更好对齐技术。