⏶2
MTSQL-R1:通过代理训练实现长程多轮文本到 SQL
发表
由
taicheng guo 提交
作者:
Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
摘要
AI 生成总结
MTSQL-R1 是一个智能体训练框架,通过将多轮 Text-to-SQL 视为具有迭代的提议-执行-验证-精炼周期的 MDP 来改进多轮 Text-to-SQL,从而增强了连贯性和执行能力。多轮 Text-to-SQL 旨在将用户的对话性话语转化为可执行的 SQL,同时保持对话连贯性和针对目标模式的约束。然而,大多数现有系统仅将此任务视为简单的文本翻译任务,并遵循一种短视范式,每轮生成一个查询而不执行、显式验证和细化,这会导致不可执行或不连贯的输出。我们提出了 MTSQL-R1,一个用于长视野多轮 Text-to-SQL 的代理式训练框架。我们将任务转化为一个马尔可夫决策过程 (MDP),在该过程中,代理与 (i) 数据库进行交互以获取执行反馈,以及 (ii) 持久的对话记忆进行连贯性验证,执行一个迭代的“提出-执行 -> 验证 -> 细化”循环,直到所有检查通过。在 COSQL 和 SPARC 上的实验表明,MTSQL-R1 的性能持续优于强大的基线,突出了环境驱动的验证和记忆引导的细化对于对话语义解析的重要性。完整的配方(包括代码、训练好的模型、日志、推理轨迹等)将在内部审查后发布,以促进社区研究。
GitHub:https://github.com/taichengguo/MTSQL-R1
