SWE-SQL: 揭示LLM在实际应用中解决用户SQL问题的途径

发表
Ge QuGe Qu 提交
作者: Jinyang Li, Xiaolong LiXiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, sszShuzheng Si, Nan Huo, Xiaohan XuXiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia WidjajaFlorensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng

摘要

解决复杂的 SQL 问题在实际数据库应用中仍然是一个显著的瓶颈。当前的大型语言模型(LLM)虽然擅长文本到 SQL 的转换,但尚未在更具挑战性的 SQL 问题调试任务上进行严格评估。为了弥补这一空白,我们引入了 BIRD-CRITIC,这是一个新的 SQL 问题调试基准,包含 530 个 PostgreSQL 任务(BIRD-CRITIC-PG)和 570 个多方言任务(BIRD-CRITIC-Multi),这些任务均提炼自真实用户问题,并在新环境中重现以方便严格评估。基准评估强调了这项任务的复杂性,领先的推理模型 O3-Mini 在 BIRD-CRITIC-PG 上仅达到 38.87% 的成功率,在 BIRD-CRITIC-Multi 上达到 33.33%。同时,推进用于数据库任务的开源模型对于赋能本地开发和保护数据隐私至关重要。因此,我们提出了 Six-Gym (Sql-fIX-Gym),这是一个用于提升开源模型 SQL 问题调试能力的训练环境。该环境利用了 SQL-Rewind 策略,通过从已验证的 SQL 语句中逆向工程问题,自动生成可执行的问题-解决方案数据集。然而,流行的基于轨迹的微调方法未能探索到实质性的监督信号。我们进一步提出了 f-Plan Boosting,它从 SQL 解决方案中提取高级调试计划,使教师 LLM 能够为训练生成多 73.7% 的成功轨迹。我们将这些组件整合到一个开源代理 Bird-Fixer 中。基于 Qwen-2.5-Coder-14B,Bird-Fixer 在 BIRD-CRITIC-PG 上实现了 38.11% 的成功率,在 BIRD-CRITIC-Multi 上实现了 29.65%,超越了领先的专有模型,例如 Claude-3.7-Sonnet 和 GPT-4.1,标志着在普及复杂 SQL 调试能力方面迈出了重要一步。排行榜和源代码可在此处获取:https://bird-critic.github.io/
查看 arXiv 页面查看 PDF

评论

Ge QuGe Qu
论文提交者

我们很高兴发布 SWE-SQL(又称 BIRD-CRITIC),这是首个多方言 SQL 诊断基准测试,旨在回答一个关键问题:大型语言模型(LLM)能否有效修复真实世界的数据库应用程序问题?