⏶28
用于LLMs的基于强化学习的智能体推理和工具集成
发表
由
Akshay Nambi 提交
作者:
Joykirat Singh,
Raghav Magazine,
Yash Pandya,
Akshay Nambi
摘要
大型语言模型 (LLMs) 在复杂推理任务中取得了显著进展,但它们仍然受到依赖静态内部知识和纯文本推理的根本限制。现实世界的问题解决通常需要动态的、多步骤的推理、自适应的决策以及与外部工具和环境交互的能力。在这项工作中,我们引入了 ARTIST(自增强 Transformer 中的代理式推理和工具集成),这是一个统一框架,将代理式推理、强化学习和工具集成紧密地耦合到 LLMs 中。ARTIST 使模型能够自主决定何时、如何以及调用哪些工具来进行多轮推理,并利用基于结果的 RL 来学习鲁棒的工具使用和环境交互策略,而无需步骤级的监督。在数学推理和多轮函数调用基准上的大量实验表明,ARTIST 持续优于最先进的基线方法,相对于基础模型实现了高达 22% 的绝对提升,并在最具挑战性的任务上取得了显著的进步。详细的研究和度量分析表明,代理式 RL 训练可以带来更深层次的推理、更有效的工具使用和更高质量的解决方案。我们的结果表明,集成工具的代理式 RL 是 LLMs 中鲁棒、可解释和可泛化的问题解决的一个强大的新前沿。
一个将智能体推理、强化学习和LLM工具集成紧密结合的统一框架