⏶6
OmniGIRL:用于 GitHub 问题解决的多语言和多模态基准
发表
由
Wei Tao 提交
作者: Lianghong Guo,
Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
摘要
GitHub 问题解决任务旨在自动解决存储库中报告的问题。随着大型语言模型(LLMs)的进步,这项任务获得了越来越多的关注,并且提出了几个基准来评估 LLMs 的问题解决能力。然而,现有的基准存在三个主要限制。首先,当前的基准侧重于单一编程语言,限制了对来自不同语言存储库中的问题的评估。其次,它们通常涵盖狭窄的领域范围,可能无法代表现实世界问题的多样性。第三,现有基准仅依赖于问题描述中的文本信息,忽略了问题中的图像等多模态信息。在本文中,我们提出了 OmniGIRL,一个多语言、多模态、多领域的 GitHub 问题解决基准。OmniGIRL 包含 959 个任务实例,这些实例收集自四种编程语言(即 Python、JavaScript、TypeScript 和 Java)的存储库以及八个不同的领域。我们的评估表明,当前的 LLMs 在 OmniGIRL 上的表现有限。值得注意的是,表现最好的模型 GPT-4o 仅解决了 8.6% 的问题。此外,我们发现当前的 LLMs 在解决需要理解图像的问题时表现困难。最好的表现由 Claude-3.5-Sonnet 获得,它仅解决了包含图像信息的 10.5% 的问题。最后,我们分析了当前 LLMs 在 OmniGIRL 上失败的原因,为未来的改进提供了见解。
🚀 OmniGIRL 开源了!
GitHub Issue 解决的多语言和多模态基准 (已获 ISSTA 25 接受 🎉)
▫️支持 Python/Java/JS/TS
▫️Issue 包括文本/图像/网页
▫️可通过 Docker 复现 🐳
🔜 自动环境构建器即将推出!
GitHub: https://github.com/DeepSoftwareAnalytics/OmniGIRL
Dataset: https://huggingface.co/datasets/Deep-Software-Analytics/OmniGIRL