CRITICTOOL:评估大型语言模型在工具调用错误场景中的自我批判能力

发表
Zhen FangZhen Fang 提交
作者: Shiting Huang, Zhen FangZhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao

摘要

大语言模型(LLMs)利用外部工具的能力使其能够处理越来越多样化的任务。然而,随着任务变得更复杂和更具长远性,复杂的工具利用过程可能会引发各种意想不到的错误。因此,如何有效处理这些错误,包括识别、诊断和从中恢复,已成为推动工具学习发展的关键研究方向。在这项工作中,我们首先广泛分析了在多个有竞争力的工具评估基准上,函数调用过程中遇到的错误类型。基于此,我们引入了 CRITICTOOL,这是一个专为工具学习设计的全面批判性评估基准。基于一种新颖的数据集构建演化策略,CRITICTOOL 包含了不同复杂度的多样化工具使用错误,这更好地反映了现实世界的场景。我们在 CRITICTOOL 上进行了大量实验,并验证了我们构建的基准策略的泛化性和有效性。我们还深入分析了各种 LLMs 的工具反思能力,为 LLMs 的工具学习领域提供了新的视角。代码可在 https://github.com/Shellorley0513/CriticTool 获取。
查看 arXiv 页面查看 PDF

评论

Zhen FangZhen Fang
论文作者
论文提交者

LLM的工具使用扩展了任务范围,但复杂任务可能导致错误。处理错误识别、诊断和恢复是工具学习的关键。这项工作分析了函数调用错误,提出了CRITICTOOL——一个通过演进构建,包含多样化真实世界工具使用错误的基准测试。实验验证了其有效性,LLM工具反思分析提供了新见解。