⏶59
VerlTool:迈向以工具使用为核心的整体代理强化学习
发表
由
Dongfu Jiang 提交

作者:
Dongfu Jiang,
Yi Lu,
Zhuofeng Li, Zhiheng Lyu,
Ping Nie,
Haozhe Wang, Alex Su,
Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen


摘要
可验证奖励强化学习(RLVR)在增强大型语言模型(LLM)推理能力方面已取得成功,但仍局限于单轮交互且不集成工具。尽管近期出现了用于多轮工具交互的具身强化学习(ARLT)方法,但现有研究开发了特定任务的代码库,这些代码库存在碎片化、同步执行瓶颈和跨领域扩展性有限等问题。这些效率低下阻碍了更广泛的社区采用和算法创新。我们引入了 VerlTool,一个统一且模块化的框架,通过系统的设计原则解决了这些限制。VerlTool 提出了四项主要贡献:(1)与 VeRL 的上游对齐,确保兼容性和简化的维护;(2)通过标准化的 API 实现统一的工具管理,支持包括代码执行、搜索、SQL 数据库和视觉处理在内的多种模式;(3)通过消除同步瓶颈实现近 2 倍加速的异步回放执行;(4)在 6 个 ARLT 领域进行全面的评估,展示了具有竞争力的性能。我们的框架将 ARLT 正式化为具有多模态观测令牌(文本/图像/视频)的多轮轨迹,超越了单轮 RLVR 范式。我们在数学推理、知识问答、SQL 生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型,取得了与专用系统相当的结果,同时提供了统一的训练基础设施。模块化的插件架构支持快速的工具集成,仅需轻量级的 Python 定义,极大地降低了开发开销,并为工具增强的 RL 研究提供了可扩展的基础。我们的代码已在 https://github.com/TIGER-AI-Lab/verl-tool 开源。

评论

所以,我可以用此框架来总结,通过 RLVR 提升 Qwen/等模型的推理能力,模型可在 https://huggingface.co/VerlTool/models 上找到?
我也将在我的项目中尝试使用其中一个!
VerlTool 是一个高效且统一的Agentic Reinforcement Learning with Tool use (ARLT) 框架。我们的框架将 ARLT 定义为具有多模态观测 token(文本/图像/视频)的多轮轨迹,突破了单轮 RLVR 的范式。
我们在数学推理、知识问答、SQL生成、视觉推理、网络搜索和软件工程任务上训练和评估了模型,取得了与专用系统相当的结果,同时提供了统一的训练基础设施。模块化的插件架构支持快速工具集成,只需轻量级的 Python 定义,显著降低了开发开销,并为工具增强的 RL 研究提供了可扩展的基础。
在此处查看 X 帖子。