有效红队测试策略遵守型智能体

发表
itay nakashitay nakash 提交
作者: Itay Nakash, George KourGeorge Kour, Koren Lazar, Matan VetzlerMatan Vetzler, Guy Uziel, Ateret Anaby-Tavor

摘要

面向任务的基于LLM的代理越来越多地应用于具有严格政策的领域,例如退款资格或取消规则。挑战在于确保代理始终遵守这些规则和政策,适当地拒绝任何违反政策的请求,同时仍保持有益和自然的交互。这要求开发量身定制的设计和评估方法,以确保代理能够抵御恶意用户行为。我们提出了一种新颖的威胁模型,该模型侧重于旨在利用遵守政策的代理谋取个人利益的对抗性用户。为了解决这个问题,我们提出了CRAFT,一个多代理红队系统,它利用具备政策意识的劝说策略来破坏客户服务场景中遵守政策的代理,其性能优于传统的越狱方法,如DAN提示、情感操纵和强制。在现有tau-bench基准的基础上,我们引入了tau-break,一个旨在严格评估代理对操纵性用户行为的鲁棒性的补充基准。最后,我们评估了几种直接但有效的防御策略。尽管这些措施提供了一些保护,但它们仍显不足,凸显了需要更强有力的、研究驱动的防护措施来保护遵守政策的代理免受对抗性攻击。
查看 arXiv 页面查看 PDF
有效红队测试策略遵守型智能体

评论

itay nakashitay nakash
论文提交者

这项工作表明,遵守策略的代理在面对有针对性、了解策略的对抗性用户时,极易受到攻击。我们使用多智能体红队系统 CRAFT,通过利用代理自身的策略约束,显著优于一般的越狱方法。我们还提出了一种将标准数据集转换为对抗性安全基准的方法,从而实现可扩展、真实的评估。我们的发现表明,简单的防御措施远远不够——强大的保护需要新的、研究驱动的方法。