ASTRA:AI 软件助手的自主时空红队测试

发表
Alex XuAlex Xu 提交
作者: Alex XuXiangzhe Xu, Guangyu Shen, Zian SuZian Su, Siyuan Cheng, Hanxi Guo, Lu YLu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang

摘要

像 GitHub Copilot 这样的 AI 编码助手正在迅速改变软件开发,但其安全性仍深陷不确定之中——尤其是在网络安全等高风险领域。当前的红队工具通常依赖于固定基准或不切实际的提示,从而错过了许多现实世界的漏洞。我们提出了 ASTRA,一个自动化代理系统,旨在系统地发现 AI 驱动的代码生成和安全指导系统中的安全缺陷。ASTRA 分三个阶段工作:(1) 它构建结构化的领域特定知识图,对复杂的软件任务和已知弱点进行建模;(2) 它通过自适应地探测其输入空间(即空间探索)和其推理过程(即时间探索),并在知识图的指导下,对每个目标模型进行在线漏洞探索;(3) 它生成高质量的违规诱导案例以提高模型对齐。与以往的方法不同,ASTRA 专注于实际输入——开发人员可能实际提出的请求——并使用离线抽象引导的领域建模和在线领域知识图适应来揭示边缘案例漏洞。在两个主要评估领域,ASTRA 发现的问题比现有技术多 11-66%,并且生成的测试案例导致 17% 更有效的对齐训练,显示了其在构建更安全的 AI 系统方面的实际价值。
查看 arXiv 页面查看 PDF

评论

Alex XuAlex Xu
论文作者
论文提交者

亚马逊新星 AI 挑战赛冠军 - ASTRA 在亚马逊全球 AI 安全竞赛中取得胜利,作为最佳攻击团队,在实时对抗评估中击败了来自世界各地大学的精英防守团队。

https://purcl.github.io/astra-web/