⏶59

VerlTool：迈向以工具使用为核心的整体代理强化学习

09月01日发表

09月03日由 Dongfu Jiang 提交

作者: Dongfu Jiang, Tom Lu Yi Lu, ZhuofengLi Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

摘要

可验证奖励强化学习（RLVR）在增强大型语言模型（LLM）推理能力方面已取得成功，但仍局限于单轮交互且不集成工具。尽管近期出现了用于多轮工具交互的具身强化学习（ARLT）方法，但现有研究开发了特定任务的代码库，这些代码库存在碎片化、同步执行瓶颈和跨领域扩展性有限等问题。这些效率低下阻碍了更广泛的社区采用和算法创新。我们引入了 VerlTool，一个统一且模块化的框架，通过系统的设计原则解决了这些限制。VerlTool 提出了四项主要贡献：（1）与 VeRL 的上游对齐，确保兼容性和简化的维护；（2）通过标准化的 API 实现统一的工具管理，支持包括代码执行、搜索、SQL 数据库和视觉处理在内的多种模式；（3）通过消除同步瓶颈实现近 2 倍加速的异步回放执行；（4）在 6 个 ARLT 领域进行全面的评估，展示了具有竞争力的性能。我们的框架将 ARLT 正式化为具有多模态观测令牌（文本/图像/视频）的多轮轨迹，超越了单轮 RLVR 范式。我们在数学推理、知识问答、SQL 生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型，取得了与专用系统相当的结果，同时提供了统一的训练基础设施。模块化的插件架构支持快速的工具集成，仅需轻量级的 Python 定义，极大地降低了开发开销，并为工具增强的 RL 研究提供了可扩展的基础。我们的代码已在 https://github.com/TIGER-AI-Lab/verl-tool 开源。

查看 arXiv 页面查看 PDF

Dongfu Jiang

论文作者

论文提交者

VerlTool 是一个高效且统一的Agentic Reinforcement Learning with Tool use (ARLT) 框架。我们的框架将 ARLT 定义为具有多模态观测 token（文本/图像/视频）的多轮轨迹，突破了单轮 RLVR 的范式。

我们在数学推理、知识问答、SQL生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型，取得了与专用系统相当的结果，同时提供了统一的训练基础设施。模块化的插件架构支持快速工具集成，只需轻量级的 Python 定义，显著降低了开发开销，并为工具增强的 RL 研究提供了可扩展的基础。

在此处查看 X 帖子。

Pranav Pawar

关于如何将此框架用于我们的工作，有什么细节吗？

Dongfu Jiang

论文作者

论文提交者

您可以在 GitHub 上查看我们的训练示例，具体请点击此处。

Pranav Pawar

所以，我可以用此框架来总结，通过 RLVR 提升 Qwen/等模型的推理能力，模型可在 https://huggingface.co/VerlTool/models 上找到？

我也将在我的项目中尝试使用其中一个！

VerlTool：迈向以工具使用为核心的整体代理强化学习

摘要

评论