⏶3

训练语言模型代理以通过 CTF-Dojo 查找漏洞

08月25日发表

08月27日由 Terry Yue Zhuo 提交

作者: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

摘要

大型语言模型 (LLM) 在可执行运行时环境中进行训练时，已展现出卓越的能力，特别是通过经过验证的反馈循环，在软件工程任务方面表现出色。然而，可扩展且可泛化的执行基础环境仍然稀少，限制了训练更强大的 ML 代理的进展。我们引入 CTF-Dojo，这是第一个大规模的可执行运行时，专门用于使用可验证反馈训练 LLM，该运行时包含 658 个完全功能的捕获之旗 (CTF) 风格挑战，这些挑战已容器化在 Docker 中并保证了可重现性。为了在没有手动干预的情况下实现快速扩展，我们开发了 CTF-Forge，一个自动化管道，可在几分钟内将公开可用的工件转换为即用型执行环境，从而消除了传统上需要数周专家配置。我们在 CTF-Dojo 的 486 个高质量、执行验证的轨迹上训练了基于 LLM 的代理，在三个竞争性基准（InterCode-CTF、NYU CTF Bench 和 Cybench）上取得了比强大基线高出 11.6% 的绝对增益。我们表现最好的 32B 模型达到了 31.9% 的 Pass@1，创下了新的开源模型性能记录，可与 DeepSeek-V3-0324 和 Gemini-2.5-Flash 等前沿模型相媲美。通过将 CTF 风格的任务作为执行代理学习的基准，CTF-Dojo 表明执行基础训练信号不仅有效，而且是推动高性能 ML 代理发展的关键，而无需依赖昂贵的专有系统。

查看 arXiv 页面查看 PDF

Terry Yue Zhuo

论文作者

论文提交者

代码库即将推出！

这是“Cyber-Zero: 在没有运行时的情况下训练网络安全代理”的后续工作：https://arxiv.org/abs/2508.00910

训练语言模型代理以通过 CTF-Dojo 查找漏洞

摘要

评论