⏶3
训练语言模型代理以通过 CTF-Dojo 查找漏洞
发表
由
Terry Yue Zhuo 提交

作者:
Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

摘要
大型语言模型 (LLM) 在可执行运行时环境中进行训练时,已展现出卓越的能力,特别是通过经过验证的反馈循环,在软件工程任务方面表现出色。然而,可扩展且可泛化的执行基础环境仍然稀少,限制了训练更强大的 ML 代理的进展。我们引入 CTF-Dojo,这是第一个大规模的可执行运行时,专门用于使用可验证反馈训练 LLM,该运行时包含 658 个完全功能的捕获之旗 (CTF) 风格挑战,这些挑战已容器化在 Docker 中并保证了可重现性。为了在没有手动干预的情况下实现快速扩展,我们开发了 CTF-Forge,一个自动化管道,可在几分钟内将公开可用的工件转换为即用型执行环境,从而消除了传统上需要数周专家配置。我们在 CTF-Dojo 的 486 个高质量、执行验证的轨迹上训练了基于 LLM 的代理,在三个竞争性基准(InterCode-CTF、NYU CTF Bench 和 Cybench)上取得了比强大基线高出 11.6% 的绝对增益。我们表现最好的 32B 模型达到了 31.9% 的 Pass@1,创下了新的开源模型性能记录,可与 DeepSeek-V3-0324 和 Gemini-2.5-Flash 等前沿模型相媲美。通过将 CTF 风格的任务作为执行代理学习的基准,CTF-Dojo 表明执行基础训练信号不仅有效,而且是推动高性能 ML 代理发展的关键,而无需依赖昂贵的专有系统。
代码库即将推出!
这是“Cyber-Zero: 在没有运行时的情况下训练网络安全代理”的后续工作:https://arxiv.org/abs/2508.00910