⏶15
在复杂的动态环境中,输入重构如何提高工具使用准确性?一项关于τ-bench的研究
发表
由
Amir 提交
作者: Venkatesh Mishra,
Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral
摘要
大型语言模型(LLMs)在推理和规划能力方面的最新进展使其有可能成为能够在动态环境中自主使用工具的代理。然而,在多轮对话环境(如tau-bench)中,这些代理在一致的推理、遵守特定领域策略以及在长时间的工具调用和对话中提取正确信息方面常常遇到困难。为了捕捉和减轻这些失败,我们对对话轨迹中常见的错误进行了全面的手动分析。然后,我们尝试对工具调用代理的输入进行改写,以改进代理的决策。最后,我们提出了输入改写多代理(IRMA)框架,该框架自动改写用户查询,并为工具调用代理补充相关的领域规则和工具建议。结果表明,IRMA在整体pass^5分数上分别比ReAct、Function Calling和Self-Reflection高出16.1%、12.7%和19.1%。这些发现突显了IRMA在动态环境中比其他方法更优越的可靠性和一致性。
大型语言模型(LLMs)在推理和规划能力方面的最新进展,使其有潜力成为能够在动态环境中进行工具使用的自主代理。然而,在像 τ-bench 这样的多轮对话环境中,这些代理在一致性推理、遵守领域特定策略以及在工具调用和对话的长周期内提取正确信息方面常常遇到困难。为了捕捉和减轻这些失败,我们对对话轨迹中常见的错误进行了全面的手动分析。然后,我们尝试通过重新表述输入给工具调用代理来改进代理的决策。最后,我们提出了输入重构多智能体(IRMA)框架,该框架会自动重构增强了相关领域规则和工具建议的用户查询,供工具调用代理参考。结果表明,IRMA 在整体 pass^5 分数上分别比 ReAct、Function Calling 和 Self-Reflection 提高了 16.1%、12.7% 和 19.1%。这些发现凸显了 IRMA 在动态环境中与其他方法相比,在可靠性和一致性方面具有优越性。