VerlTool:迈向以工具使用为核心的整体代理强化学习

发表
Dongfu JiangDongfu Jiang 提交
作者: Dongfu JiangDongfu Jiang, Tom LuYi Lu, ZhuofengLiZhuofeng Li, Zhiheng Lyu, Ping NiePing Nie, Haozhe WangHaozhe Wang, Alex Su, Hui ChenHui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

摘要

可验证奖励强化学习(RLVR)在增强大型语言模型(LLM)推理能力方面已取得成功,但仍局限于单轮交互且不集成工具。尽管近期出现了用于多轮工具交互的具身强化学习(ARLT)方法,但现有研究开发了特定任务的代码库,这些代码库存在碎片化、同步执行瓶颈和跨领域扩展性有限等问题。这些效率低下阻碍了更广泛的社区采用和算法创新。我们引入了 VerlTool,一个统一且模块化的框架,通过系统的设计原则解决了这些限制。VerlTool 提出了四项主要贡献:(1)与 VeRL 的上游对齐,确保兼容性和简化的维护;(2)通过标准化的 API 实现统一的工具管理,支持包括代码执行、搜索、SQL 数据库和视觉处理在内的多种模式;(3)通过消除同步瓶颈实现近 2 倍加速的异步回放执行;(4)在 6 个 ARLT 领域进行全面的评估,展示了具有竞争力的性能。我们的框架将 ARLT 正式化为具有多模态观测令牌(文本/图像/视频)的多轮轨迹,超越了单轮 RLVR 范式。我们在数学推理、知识问答、SQL 生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型,取得了与专用系统相当的结果,同时提供了统一的训练基础设施。模块化的插件架构支持快速的工具集成,仅需轻量级的 Python 定义,极大地降低了开发开销,并为工具增强的 RL 研究提供了可扩展的基础。我们的代码已在 https://github.com/TIGER-AI-Lab/verl-tool 开源。
查看 arXiv 页面查看 PDF
VerlTool:迈向以工具使用为核心的整体代理强化学习

评论

Dongfu JiangDongfu Jiang
论文作者
论文提交者

VerlTool 是一个高效且统一的Agentic Reinforcement Learning with Tool use (ARLT) 框架。我们的框架将 ARLT 定义为具有多模态观测 token(文本/图像/视频)的多轮轨迹,突破了单轮 RLVR 的范式。

我们在数学推理、知识问答、SQL生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型,取得了与专用系统相当的结果,同时提供了统一的训练基础设施。模块化的插件架构支持快速工具集成,只需轻量级的 Python 定义,显著降低了开发开销,并为工具增强的 RL 研究提供了可扩展的基础。

在此处查看 X 帖子

Pranav PawarPranav Pawar

关于如何将此框架用于我们的工作,有什么细节吗?

Dongfu JiangDongfu Jiang
论文作者
论文提交者

您可以在 GitHub 上查看我们的训练示例,具体请点击此处

Pranav PawarPranav Pawar

所以,我可以用此框架来总结,通过 RLVR 提升 Qwen/等模型的推理能力,模型可在 https://huggingface.co/VerlTool/models 上找到?

我也将在我的项目中尝试使用其中一个!