剖析工具集成推理:一项实证研究与分析

发表
Junnan LiuJunnan Liu 提交
作者: Yufeng ZhaoYufeng Zhao, Junnan LiuJunnan Liu, Hongwei Liu, dongsheng zhuDongsheng Zhu, Yuan Shen, Songyang ZhangSongyang Zhang, Kai Chen

摘要

大型语言模型 (LLM) 通过思维链 (CoT) 推理等方法在推理任务上取得了显著进展。然而,它们在需要精确计算的任务中往往表现不佳。工具集成推理 (TIR) 通过将外部工具纳入推理过程,已成为一种解决方案。尽管如此,TIR 在提高 LLM 推理能力方面的泛化性仍不清楚。此外,TIR 是否改善了模型的推理行为并帮助模型思考仍有待研究。我们引入 ReasonZoo,这是一个包含九个不同推理类别的综合基准,用于评估 TIR 在各种领域中的有效性。此外,我们提出了两种新颖的指标:性能感知成本 (PAC) 和性能-成本曲线下面积 (AUC-PCC),以评估推理效率。我们的实证评估表明,启用 TIR 的模型在数学和非数学任务上均持续优于未启用 TIR 的模型。此外,TIR 提高了推理效率,PAC 和 AUC-PCC 的提高证明了这一点,这表明减少了过度思考并简化了推理。这些发现强调了 TIR 的领域通用优势及其在复杂推理任务中提升 LLM 能力的潜力。
查看 arXiv 页面查看 PDF

评论

Junnan LiuJunnan Liu
论文作者
论文提交者

技术报告