针对攻击性网络安全智能体的动态风险评估

发表
Boyi WeiBoyi Wei 提交
作者: Boyi WeiBoyi Wei, Benedikt StroeblBenedikt Stroebl, Jiacen XuJiacen Xu, Joie ZhangJoie Zhang, Zhou Li, Peter HendersonPeter Henderson

摘要

基础模型正在日益成为更好的自主程序员,这引发了人们对它们也可能自动化危险的进攻性网络行动的担忧。当前的前沿模型审计会探测此类代理的网络安全风险,但大多数未能考虑到现实世界中对手所拥有的自由度。特别是,在强大的验证者和经济激励下,潜在对手可以通过迭代改进来提升用于进攻性网络安全的代理。我们认为,评估应考虑网络安全背景下的扩展威胁模型,强调在固定计算预算下,对手在有状态和无状态环境中可能拥有的不同自由度。我们展示,即使在相对较小的计算预算下(本研究中使用8 H100 GPU小时),对手也能在InterCode CTF上将代理的网络安全能力相对于基线提高40\%以上——且无需任何外部协助。这些结果强调了有必要以动态方式评估代理的网络安全风险,从而描绘出更具代表性的风险图景。
查看 arXiv 页面查看 PDF

评论

Boyi WeiBoyi Wei
论文作者
论文提交者

基础模型正在日益成为更优秀的自主程序员,这带来了它们也可能自动化危险的攻击性网络行动的可能性。当前前沿模型的审计探讨此类智能体的网络安全风险,但大多数未能考虑到攻击者在现实世界中可利用的自由度。特别是,凭借强大的验证器和经济激励,用于攻击性网络安全的智能体可以通过潜在攻击者进行迭代改进。我们认为,在网络安全背景下,评估应考虑到扩展的威胁模型,强调攻击者在固定的计算预算内,在有状态和无状态环境中可能拥有的不同程度的自由度。我们表明,即使计算预算相对较少(在我们研究中为 8 H100 GPU 小时),攻击者可以在 InterCode CTF 上将智能体的网络安全能力相对于基线提高超过 40%——无需任何外部帮助。这些结果强调了需要以动态方式评估智能体的网络安全风险,描绘出更具代表性的风险图景。