⏶4
剖析工具集成推理:一项实证研究与分析
发表
由
Junnan Liu 提交

作者:
Yufeng Zhao,
Junnan Liu, Hongwei Liu,
Dongsheng Zhu, Yuan Shen,
Songyang Zhang, Kai Chen


摘要
大型语言模型 (LLM) 通过思维链 (CoT) 推理等方法在推理任务上取得了显著进展。然而,它们在需要精确计算的任务中往往表现不佳。工具集成推理 (TIR) 通过将外部工具纳入推理过程,已成为一种解决方案。尽管如此,TIR 在提高 LLM 推理能力方面的泛化性仍不清楚。此外,TIR 是否改善了模型的推理行为并帮助模型思考仍有待研究。我们引入 ReasonZoo,这是一个包含九个不同推理类别的综合基准,用于评估 TIR 在各种领域中的有效性。此外,我们提出了两种新颖的指标:性能感知成本 (PAC) 和性能-成本曲线下面积 (AUC-PCC),以评估推理效率。我们的实证评估表明,启用 TIR 的模型在数学和非数学任务上均持续优于未启用 TIR 的模型。此外,TIR 提高了推理效率,PAC 和 AUC-PCC 的提高证明了这一点,这表明减少了过度思考并简化了推理。这些发现强调了 TIR 的领域通用优势及其在复杂推理任务中提升 LLM 能力的潜力。
技术报告