Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

发表
KABIKABI 提交
作者: KABIGuanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen

摘要

最近,大型语言模型(LLMs)通过大规模强化学习(RL)展现了卓越的推理能力。然而,如何利用 RL 算法赋能 LLMs 进行有效的多工具协作推理仍是一个开放的挑战。在本文中,我们引入了 Tool-Star,一个基于 RL 的框架,旨在使 LLMs 在逐步推理过程中自主调用多个外部工具。Tool-Star 集成了六种类型的工具,并在数据合成和训练中纳入了系统性设计。为了解决工具使用数据的稀缺性问题,我们提出了一个通用的工具集成推理数据合成流程,该流程结合了工具集成提示和基于提示的采样,以自动且可扩展地生成工具使用轨迹。随后的质量规范化和难度感知分类过程过滤掉低质量样本,并按从易到难的顺序组织数据集。此外,我们提出了一个两阶段训练框架来增强多工具协作推理:(1) 冷启动微调,通过工具调用反馈指导 LLMs 探索推理模式;以及 (2) 具有分层奖励设计的多工具自批评 RL 算法,该算法强化了对奖励的理解并促进了有效的工具协作。在超过 10 个具有挑战性的推理基准上的实验分析凸显了 Tool-Star 的有效性和效率。代码可在 https://github.com/dongguanting/Tool-Star 获取。
查看 arXiv 页面查看 PDF

评论

KABIKABI
论文作者
论文提交者

🔧✨ Tool-star 的所有数据集和模型检查点都已完全开源:

💡 概述

Tool-Star 是一个基于强化学习的框架,旨在赋能大型语言模型(LLMs)在逐步推理过程中自主调用多个外部工具。具体来说,Tool-Star 将六种类型的工具整合到推理过程中(三种用于训练,三种用于推理时优化),并在数据合成和训练算法中纳入了系统性设计。

image.png

📊 整体表现

如下图所示,Tool-Star 在 10 多个具有挑战性的计算推理任务(例如 AIME24 和 MATH500)以及知识密集型推理任务(例如 WebWalker 和 HotpotQA)中展现出强大的整体推理能力,同时确保工具使用的效率和可靠性。

image.png