⏶44
GBQA:一个评估大语言模型作为质量保证工程师能力的博弈基准测试
发表
由
Shufan Jiang 提交
作者:
Shufan Jiang, Chios Chen, Zhiyang Chen
摘要
AI 生成总结
大语言模型在复杂运行时环境中的自主 Bug 发现方面表现挣扎,正如一个新的游戏开发基准测试所展示的那样,尽管使用了复杂的多智能体系统和交互式智能体,当前方法的有效性依然有限。自主发现漏洞仍然是现代软件开发中的一个重大挑战。与代码生成相比,动态运行时环境的复杂性使得大语言模型(LLM)发现漏洞的难度大大增加。在本文中,我们以游戏开发为代表性领域,推出了 GBQA(游戏质量保证基准),这是一个包含 30 款游戏和 124 个经人工验证的漏洞(涵盖三个难度级别)的基准,用于评估 LLM 是否能自主检测软件漏洞。该基准使用多智能体系统构建,该系统能以可扩展的方式开发游戏并注入漏洞,并有专家参与以确保正确性。此外,我们提供了一个基线交互智能体,配备多轮 ReAct 循环和记忆机制,使其能够跨不同的 LLM 对游戏环境进行长时程探索以进行漏洞检测。在顶尖 LLM 上的广泛实验表明,自主发现漏洞仍极具挑战性:表现最好的模型 Claude-4.6-Opus 在思考模式下也仅识别出 48.39% 的验证漏洞。我们相信 GBQA 提供了一个充分的试验场和评估标准,其进一步的进展将有助于缩小自主软件工程领域的差距。
被第十四届国际学习表示会议(ICLR 2026)接收为研讨会论文