A.S.E:评估人工智能生成代码安全性的存储库级别基准

发表
wangjunjiewangjunjie 提交
作者: Keke LianKeke Lian, Bin Wang, Lei Zhang, Libo Chen, wangjunjieJunjie Wang, Ziming Zhao, Yujiu Yang, Haotong DuanHaotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng QuanJiazheng Quan, Yilu ZhongYilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling LiHaoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, dong zhangDong Zhang

摘要

AI 生成总结
A.S.E 是一个存储库级别的基准,用于评估 AI 生成代码的安全性,突出了安全编码方面的挑战以及 LLM 在实际场景中的局限性。
软件工程中大型语言模型(LLMs)的日益普及,使得对其生成代码进行严格的安全评估变得必要。然而,现有基准往往缺乏与真实世界AI编程场景的相关性,使其不足以评估生产环境中AI生成代码相关的实际安全风险。为解决这一空白,我们引入了A.S.E(AI代码生成安全评估),这是一个仓库级评估基准,旨在密切反映真实世界的AI编程任务,为评估AI生成代码的安全性提供了一个全面可靠的框架。我们对A.S.E上主流LLM的评估揭示了几个关键发现。特别是,当前LLM在安全编码方面仍面临挑战。仓库级场景的复杂性,对通常在代码片段级任务上表现良好的LLM构成了挑战。此外,更大的推理预算并不一定能带来更好的代码生成。这些观察为AI代码生成的现状提供了有价值的见解,有助于开发者为实际任务选择最合适的模型,同时也为改进LLM以在实际应用中生成安全高效的代码奠定了基础。
查看 arXiv 页面查看 PDF

评论

wangjunjiewangjunjie
论文作者
论文提交者

🤖 人工智能正在彻底改变我们编写代码的方式,大型语言模型充当不知疲倦的编码伙伴!但伴随这种令人难以置信的速度而来的是一个关键问题:它们生成的代码是否真正安全?🛡️

许多安全基准测试只是触及表面 🧐,在隔离的代码片段中测试代码。这种方法错过了可能潜伏在整个项目复杂交互中的实际漏洞。

🚀 A.S.E.,一个开创性的存储库级别基准测试,正在改变游戏规则!A.S.E. 不仅查看单个文件,还评估整个代码库的安全性,为我们的人工智能模型提供更现实、更具挑战性的测试。

这是朝着建立一个人工智能助手不仅是强大的编码者,而且还是警惕的安全伙伴的未来迈出的巨大一步。是时候推动更安全、更可靠的人工智能生成代码了!

AI安全 🔐 #安全编码 💻 #LLMs 🧠 #代码生成 ⌨️
Taki WUTaki WU

👍