VLA-R1:增强视觉-语言-动作模型中的推理能力

发表
Zeyu ZhangZeyu Zhang 提交
作者: Angen Ye, Zeyu ZhangZeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu

摘要

AI 生成总结
VLA-R1 通过 RLVR 和 GRPO 增强 VLA 模型,以改进推理和执行,并利用具有思维链监督的新数据集实现了更好的泛化能力和实际性能。
视觉-语言-动作 (VLA) 模型旨在统一感知、语言理解和动作生成,提供强大的跨任务和跨场景泛化能力,对具身 AI 产生广泛影响。然而,目前的 VLA 模型通常缺乏明确的分步推理,而是发出最终动作,而不考虑可供性约束或几何关系。它们的训练后流程也很少加强推理质量,主要依赖于带有弱奖励设计的监督微调。为了应对这些挑战,我们提出了 VLA-R1,这是一种增强推理的 VLA,它将可验证奖励强化学习 (RLVR) 与组相对策略优化 (GRPO) 相结合,系统地优化推理和执行。具体来说,我们设计了一种基于 RLVR 的训练后策略,并为区域对齐、轨迹一致性和输出格式化提供可验证奖励,从而增强了推理鲁棒性和执行准确性。此外,我们开发了 VLA-CoT-13K,这是一个高质量的数据集,提供明确对齐可供性和轨迹注释的思维链监督。此外,在领域内、领域外、模拟和真实机器人平台上的广泛评估表明,与之前的 VLA 方法相比,VLA-R1 实现了卓越的泛化能力和真实世界性能。我们计划在本次工作发表后发布模型、代码和数据集。代码:https://github.com/GigaAI-research/VLA-R1。网站:https://gigaai-research.github.io/VLA-R1
查看 arXiv 页面查看 PDF

评论

Zeyu ZhangZeyu Zhang
论文作者
论文提交者

视觉-语言-动作 (VLA) 模型旨在统一感知、语言理解和动作生成,提供强大的跨任务和跨场景泛化能力,对具身 AI 产生广泛影响。然而,当前的 VLA 模型通常缺乏显式的逐步推理,而是直接发出最终动作,而不考虑可供性约束或几何关系。它们的训练后流程也极少强化推理质量,主要依赖于带有弱奖励设计的监督微调。为了解决这些挑战,我们提出了 VLA-R1,这是一个增强了推理能力的 VLA 模型,它集成了具有可验证奖励的强化学习 (RLVR) 与组相对策略优化 (GRPO),以系统地优化推理和执行。具体来说,我们设计了一种基于 RLVR 的训练后策略,并使用可验证的奖励来确保区域对齐、轨迹一致性和输出格式,从而增强推理鲁棒性和执行准确性。此外,我们开发了 VLA-CoT-13K,这是一个高质量的数据集,提供与可供性和轨迹标注明确对齐的思维链监督。此外,在同域、异域、模拟和真实机器人平台上的广泛评估表明,与之前的 VLA 方法相比,VLA-R1 实现了卓越的泛化能力和实际性能。我们计划在本文发布后发布模型、代码和数据集。