以消歧为中心的微调使企业工具调用型LLM更真实且风险更低

发表
Ashutosh HathidaraAshutosh Hathidara 提交
作者: Ashutosh HathidaraAshutosh Hathidara, Julien Yu, Sebastian Schreiber

摘要

大型语言模型(LLM)越来越多地被要求调用企业API,然而当近乎重复的工具争夺相同的用户意图,或者当所需参数未充分指定时,它们通常会出错。我们引入了DiaFORGE(用于自然响应生成与评估的对话框架),这是一个以消歧为中心的三阶段流水线,它(i)合成由角色驱动的多轮对话,其中助手必须区分高度相似的工具;(ii)对参数规模从3B到70B的开源模型进行带有推理轨迹的监督微调;以及(iii)通过动态套件评估实际部署的就绪性,该套件将每个模型重新部署到实时智能体循环中,并报告端到端目标完成情况以及常规静态指标。在我们的动态基准DiaBENCH上,使用DiaFORGE训练的模型在优化提示下,工具调用成功率比GPT-4o提高了27个百分点,比Claude-3.5-Sonnet提高了49个百分点。为了促进进一步研究,我们发布了一个包含5000个生产级企业API规范的开放语料库,并配有经过严格验证的、以消歧为重点的对话,为构建可靠、企业就绪的工具调用智能体提供了实用蓝图。
查看 arXiv 页面查看 PDF

评论

Ashutosh HathidaraAshutosh Hathidara
论文作者
论文提交者

我们很高兴分享我们最近关于企业工具调用LLM的工作,题为“以消歧为中心的微调使企业工具调用LLM更真实、风险更低”。

论文:https://arxiv.org/abs/2507.03336

数据:https://huggingface.co/datasets/sap-ai-research/diaforge-utc-r-0725