A.S.E:评估人工智能生成代码安全性的存储库级别基准

发表
wangjunjiewangjunjie 提交
作者: Keke LianKeke Lian, Bin Wang, Lei Zhang, Libo Chen, wangjunjieJunjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng QuanJiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling LiHaoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, dong zhangDong Zhang

摘要

大型语言模型 (LLMs) 在软件工程中的应用日益广泛,这使得对其生成的代码进行严格的安全评估变得至关重要。然而,现有基准测试存在不足,因为它们侧重于孤立的代码片段,采用不稳定的、缺乏可复现性的评估方法,并且未能将输入上下文的质量与输出的安全性联系起来。为了弥补这些不足,我们引入了 A.S.E (AI Code Generation Security Evaluation),这是一个面向仓库级别安全代码生成的基准测试。A.S.E 从具有已记录 CVE 的真实仓库构建任务,保留了完整的仓库上下文,如构建系统和跨文件依赖关系。其可复现的、容器化的评估框架使用专家定义的规则来提供稳定、可审计的安全、构建质量和生成稳定性评估。我们对领先 LLMs 在 A.S.E 上的评估揭示了三个关键发现:(1)Claude-3.7-Sonnet 取得了最佳的总体性能。(2)专有模型和开源模型之间的安全差距很小;Qwen3-235B-A22B-Instruct 获得了最高的安全分数。(3)简洁的“快速思考”解码策略在安全补丁方面始终优于复杂、缓慢思考的推理。
查看 arXiv 页面查看 PDF

评论

wangjunjiewangjunjie
论文作者
论文提交者

🤖 人工智能正在彻底改变我们编写代码的方式,大型语言模型充当不知疲倦的编码伙伴!但伴随这种令人难以置信的速度而来的是一个关键问题:它们生成的代码是否真正安全?🛡️

许多安全基准测试只是触及表面 🧐,在隔离的代码片段中测试代码。这种方法错过了可能潜伏在整个项目复杂交互中的实际漏洞。

🚀 A.S.E.,一个开创性的存储库级别基准测试,正在改变游戏规则!A.S.E. 不仅查看单个文件,还评估整个代码库的安全性,为我们的人工智能模型提供更现实、更具挑战性的测试。

这是朝着建立一个人工智能助手不仅是强大的编码者,而且还是警惕的安全伙伴的未来迈出的巨大一步。是时候推动更安全、更可靠的人工智能生成代码了!

AI安全 🔐 #安全编码 💻 #LLMs 🧠 #代码生成 ⌨️
Taki WUTaki WU

👍