用于视觉-语言-动作模型的交互式后训练

发表
Shuhan TanShuhan Tan 提交
作者: Shuhan TanShuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl

摘要

我们引入了 RIPT-VLA,这是一种简单且可扩展的基于强化学习的交互式后训练范式,仅使用稀疏的二元成功奖励来微调预训练的视觉-语言-动作(VLA)模型。现有的 VLA 训练流程严重依赖离线专家演示数据和监督模仿,这限制了它们在低数据状态下适应新任务和新环境的能力。RIPT-VLA 通过基于动态 rollout 采样和留一法优势估计的稳定策略优化算法实现交互式后训练来解决这个问题。RIPT-VLA 具有以下特点。首先,它适用于各种 VLA 模型,将轻量级 QueST 模型提升了 21.2%,并将 7B OpenVLA-OFT 模型的成功率提高到前所未有的 97.5%。其次,它在计算和数据方面都很高效:只需一个演示,RIPT-VLA 就能使一个原本不可用的 SFT 模型(成功率 4%)在 15 次迭代内达到 97% 的成功率。此外,我们证明了 RIPT-VLA 学习到的策略可以在不同任务和场景中泛化,并且对初始状态上下文具有鲁棒性。这些结果突出了 RIPT-VLA 作为一种通过最少监督对 VLA 模型进行后训练的实用且有效的范式。
查看 arXiv 页面查看 PDF

评论