⏶55

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

05月22日发表

05月23日由 KABI 提交

作者: Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen

摘要

最近，大型语言模型（LLMs）通过大规模强化学习（RL）展现了卓越的推理能力。然而，如何利用 RL 算法赋能 LLMs 进行有效的多工具协作推理仍是一个开放的挑战。在本文中，我们引入了 Tool-Star，一个基于 RL 的框架，旨在使 LLMs 在逐步推理过程中自主调用多个外部工具。Tool-Star 集成了六种类型的工具，并在数据合成和训练中纳入了系统性设计。为了解决工具使用数据的稀缺性问题，我们提出了一个通用的工具集成推理数据合成流程，该流程结合了工具集成提示和基于提示的采样，以自动且可扩展地生成工具使用轨迹。随后的质量规范化和难度感知分类过程过滤掉低质量样本，并按从易到难的顺序组织数据集。此外，我们提出了一个两阶段训练框架来增强多工具协作推理：(1) 冷启动微调，通过工具调用反馈指导 LLMs 探索推理模式；以及 (2) 具有分层奖励设计的多工具自批评 RL 算法，该算法强化了对奖励的理解并促进了有效的工具协作。在超过 10 个具有挑战性的推理基准上的实验分析凸显了 Tool-Star 的有效性和效率。代码可在 https://github.com/dongguanting/Tool-Star 获取。

查看 arXiv 页面查看 PDF

KABI

论文作者

论文提交者

🔧✨ Tool-star 的所有数据集和模型检查点都已完全开源：

Github: https://github.com/dongguanting/Tool-Star
SFT 数据集: https://huggingface.co/datasets/dongguanting/Tool-Star-SFT-54K
RL 数据集: https://github.com/dongguanting/Tool-Star/tree/main/Tool_Star_RL/mix_grpo

💡 概述

Tool-Star 是一个基于强化学习的框架，旨在赋能大型语言模型（LLMs）在逐步推理过程中自主调用多个外部工具。具体来说，Tool-Star 将六种类型的工具整合到推理过程中（三种用于训练，三种用于推理时优化），并在数据合成和训练算法中纳入了系统性设计。

📊 整体表现

如下图所示，Tool-Star 在 10 多个具有挑战性的计算推理任务（例如 AIME24 和 MATH500）以及知识密集型推理任务（例如 WebWalker 和 HotpotQA）中展现出强大的整体推理能力，同时确保工具使用的效率和可靠性。

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

摘要

评论