理解工具集成推理

发表
Zhongwen XuZhongwen Xu 提交
作者: Heng LinHeng Lin, Zhongwen XuZhongwen Xu

摘要

我们研究工具集成推理(TIR)为何能使大型语言模型(LLMs)更强大。尽管集成Python代码解释器等工具的LLMs展现出巨大的潜力,但一直缺乏一个原则性的理论来解释这种范式为何有效。本研究首次提供了TIR从根本上扩展LLM能力的正式证明。我们证明工具能够严格地扩展模型的经验和可行支持,通过解锁纯文本模型无法实现或过于冗长的问题解决方法,打破了其能力上限。为了在不影响训练稳定性和性能的情况下引导模型行为,我们还引入了优势塑造策略优化(ASPO),这是一种直接修改优势函数来指导策略行为的新型算法。我们在具有挑战性的数学基准上进行了全面的实验,并利用Python解释器作为外部工具。我们的结果表明,在pass@k指标上,TIR模型明显优于其纯文本对应模型。至关重要的是,这种优势不仅限于计算密集型问题,还扩展到那些需要显著抽象洞察力的问题。我们进一步识别了涌现的认知模式,这些模式说明了模型如何学会与工具协同思考。最后,我们报告了通过早期代码调用和ASPO实现的更具交互性的多轮对话,从而改善了工具使用行为。总的来说,我们的工作为TIR的成功提供了第一个原则性的解释,将焦点从工具工作的简单事实转移到它们为何以及如何实现更强大的推理。
查看 arXiv 页面查看 PDF

评论

Zhongwen XuZhongwen Xu
论文作者
论文提交者

大型语言模型(LLM)使用 Python 解释器等工具,可以使其能力大大增强。但 Python 解释器仅仅是经过美化的计算器,还是有更深层次的东西在起作用?虽然许多研究已经证明工具是有效的,但其根本原因和工作原理一直是拼图的缺失部分。我们提供了第一个正式证明,表明工具集成推理(TIR)从根本上扩展了 LLM 的能力,实现了以前不可能的推理路径(支持扩展),并使复杂策略在有限的 token 预算内变得可行(可行支持)。我们在具有挑战性的数学基准测试上的实验证实,TIR 模型解决了一类纯文本模型完全无法解决的问题,即使在需要深度抽象洞察而非仅仅计算的任务上也是如此。为了稳定地指导模型如何使用工具,我们引入了优势塑造策略优化(ASPO),这是一种新颖的算法,它直接修改优势,有效地鼓励所需的工具使用行为,而不会像传统的奖励塑造那样出现训练不稳定和性能下降的问题。