⏶76
SimpleVLA-RL: 通过强化学习扩展 VLA 训练
发表
由
Li Haozhan 提交
作者:
Haozhan Li,
Yuxin Zuo, Jiale Yu,
Yuhao Zhang, Zhaohui Yang,
Kaiyan Zhang,
Xuekai Zhu,
Yuchen Zhang, Tianxing Chen, Ganqu Cui,
Dehui Wang, Dingxiang Luo, Yuchen Fan,
Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou,
Ning Ding

摘要
AI 生成总结
SimpleVLA-RL 是一种用于 VLA 模型的强化学习框架,它增强了长程动作规划能力,取得了最先进的性能,并在训练过程中发现了新颖的模式。视觉-语言-动作(VLA)模型最近已成为机器人操作的强大范例。尽管大规模预训练和监督微调(SFT)带来了实质性进展,但这些模型面临两个基本挑战:(i)SFT 扩展所需的、由人类操作的大规模机器人轨迹稀缺且成本高昂,(ii)泛化到涉及分布移位任务的能力有限。大型推理模型(LRM)的最新突破表明,强化学习(RL)可以极大地增强逐步推理能力,这自然会引发一个问题:RL 是否也能类似地提高 VLA 的长程逐步动作规划能力?在这项工作中,我们引入了 SimpleVLA-RL,一个为 VLA 模型量身定制的高效 RL 框架。基于 veRL,我们引入了 VLA 特定的轨迹采样、可扩展的并行化、多环境渲染以及优化的损失计算。当应用于 OpenVLA-OFT 时,SimpleVLA-RL 在 LIBERO 上实现了 SOTA 性能,并且在我们引入的增强探索的策略下,在 RoboTwin 1.0 和 2.0 上甚至优于 pi_0。SimpleVLA-RL 不仅减少了对大规模数据的依赖并实现了鲁棒的泛化,而且在现实世界任务中显著优于 SFT。此外,我们在 RL 训练过程中发现了一种新颖的“pushcut”现象,即策略会发现以前未见的模式,这些模式超出了先前训练过程中的模式。Github:https://github.com/PRIME-RL/SimpleVLA-RL
我们介绍了 SimpleVLA-RL,一个高效的集成训练-推理-渲染 VLA(视觉-语言-动作)强化学习框架。我们在 LIBERO 上实现了 99% 的 SOTA 性能,在 Robotwin 1.0 和 2.0 上取得了 80% 的相对改进,显著超越了 pi0 等先进模型。此外,我们在真实机器人上取得了 120% 的相对改进,性能优于 RDT。此外,VLA RL 缓解了 SFT 的数据稀缺性挑战,并大幅提高了 VLA 模型的可泛化能力。 GitHub:https://github.com/PRIME-RL/SimpleVLA-RL