RLinf-VLA:一个统一高效的 VLA+RL 训练框架

发表
Chao YuChao Yu 提交
作者: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao TangWenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang

摘要

AI 生成总结
RLinf-VLA 是一个统一的框架,用于可扩展的视觉-语言-动作模型强化学习训练,与监督微调相比,其性能和泛化能力得到了提升。
近期,视觉和语言基础模型在多模态理解、推理和生成方面取得了显著进展,激发了人们将这些能力扩展到具身环境中的极大兴趣,并催生了视觉-语言-动作(VLA)模型。然而,大多数 VLA 模型仍然通过监督微调(SFT)进行训练,由于误差累积,它们在分布变化下泛化能力较差。强化学习(RL)通过与环境交互直接优化任务性能,提供了一个有前景的替代方案,但现有的尝试仍然分散,缺乏一个统一的平台来对模型架构和算法设计进行公平和系统的比较。为了弥补这一差距,我们提出了 RLinf-VLA,一个用于 VLA 模型可扩展 RL 训练的统一高效框架。该系统采用高度灵活的资源分配设计,解决了 RL+VLA 训练中集成渲染、训练和推理的挑战。特别是,对于 GPU 并行模拟器,RLinf-VLA 实现了一种新颖的混合细粒度流水线分配模式,在训练中实现了 1.61 倍至 1.88 倍的加速。通过统一的接口,RLinf-VLA 无缝支持各种 VLA 架构(例如,OpenVLA、OpenVLA-OFT)、多种 RL 算法(例如,PPO、GRPO)以及各种模拟器(例如,ManiSkill、LIBERO)。在模拟中,一个统一的模型在 130 个 LIBERO 任务上达到了 98.11% 的成功率,在 25 个 ManiSkill 任务上达到了 97.66% 的成功率。除了经验性能,我们的研究还提炼了一系列将 RL 应用于 VLA 训练的最佳实践,并揭示了这一集成中的新兴模式。此外,我们在真实的 Franka 机器人上进行了初步部署,其中经过 RL 训练的策略比经过 SFT 训练的策略表现出更强的泛化能力。我们设想 RLinf-VLA 成为加速和标准化具身智能研究的基础。
查看 arXiv 页面查看 PDF

评论

Chao YuChao Yu
论文提交者

近期,视觉和语言基础模型在多模态理解、推理和生成方面取得了显著进展,激发了人们将这些能力扩展到具身环境的热情,催生了视觉-语言-动作(VLA)模型的涌现。然而,大多数VLA模型仍然采用监督微调(SFT)进行训练,由于误差累积,在分布偏移下泛化能力较弱。强化学习(RL)通过与环境交互直接优化任务性能,提供了一种有前景的替代方案,但现有尝试仍然零散,缺乏一个统一的平台来公平且系统地比较模型架构和算法设计。为了解决这一差距,我们引入了RLinf-VLA,一个用于VLA模型可扩展RL训练的统一高效框架。该系统采用高度灵活的资源分配设计,解决了RL+VLA训练中集成渲染、训练和推理的挑战。特别是,对于GPU并行化模拟器,RLinf-VLA实现了一种新颖的混合细粒度流水线分配模式,实现了1.61倍至1.88倍的训练加速。通过统一的接口,RLinfVLA无缝支持多种VLA架构(例如,OpenVLA、OpenVLAOFT)、多种RL算法(例如,PPO、GRPO)以及各种模拟器(例如,ManiSkill、LIBERO)。在模拟环境中,一个统一的模型在130个LIBERO任务上实现了98.11%的准确率,在25个ManiSkill任务上实现了97.66%的准确率。除了经验性能外,我们的研究还总结了一套将RL应用于VLA训练的最佳实践,并揭示了这种集成中的新兴模式。此外,我们在真实的Franka机器人上进行了初步部署,结果表明RL训练的策略比SFT训练的策略具有更强的泛化能力。我们设想RLinfVLA将成为加速和标准化具身智能研究的基础。
rlinf_vla_overview