BagelVLA:通过交错式视觉-语言-动作生成增强长程操控能力

发表
Wei LiWei Li 提交
作者: Yucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen

摘要

AI 生成总结
BagelVLA 是一个统一的视觉-语言-动作模型,通过残差流引导整合了语言规划、视觉预测和动作生成,以改进操作任务。
为具身智能体配备推理任务、预见物理结果并生成精确动作的能力,对于通用操纵至关重要。虽然最近的视觉-语言-动作 (VLA) 模型利用了预训练基座模型,但它们通常孤立地专注于语言规划或视觉预测。这些方法很少同时整合这两种能力来指导动作生成,导致在复杂的长时程操纵任务中表现不佳。为了弥补这一差距,我们提出了 BagelVLA,这是一个在一个统一框架内整合语言规划、视觉预测和动作生成的统一模型。BagelVLA 基于预训练的统一理解与生成模型进行初始化,经训练可将文本推理和视觉预测直接交织在动作执行循环中。为了高效耦合这些模态,我们引入了残差流引导 (RFG),它从当前观测初始化,并利用单步去噪提取预测性视觉特征,以极低的延迟指导动作生成。广泛的实验表明,BagelVLA 在多个模拟和真实基准测试中显著优于现有基准,特别是在需要多阶段推理的任务中。
查看 arXiv 页面查看 PDF

评论

Wei LiWei Li
论文提交者

BagelVLA 是一个统一模型,在单个框架内集成了语言规划、视觉预测和动作生成,用于长程操作任务。


🧠 模型架构

BagelVLA 采用 Mixture-of-Transformers (MoT) 架构,包含三个分别专门用于语言、视觉和动作模态的独立 Transformer。为了应对长程任务和语义泛化,我们将语言调节的动作学习建模为一个长序列交替规划问题。这些模态被组织成一个统一序列,使模型能够根据交替的上下文生成所有三种模态的预测。

针对将视觉生成与控制相结合时的高延迟问题,我们引入了残差流引导(Residual Flow Guidance, RFG)。RFG 不再从头生成未来帧,而是将当前观测作为强大的结构先验,通过单步去噪来预测通往下一个关键帧的残差变化。RFG 提供了一种轻量级的预测性视觉表示,以最小的开销捕获任务相关的动态特性。这大幅降低了前瞻性预测的计算成本,同时保留了其对动作生成的效用。