VLA-JEPA:利用潜在世界模型增强视觉-语言-动作模型

发表
taesiritaesiri 提交
作者: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen

摘要

AI 生成总结
VLA-JEPA 是一种 JEPA 风格的预训练框架,通过在潜空间中使用无泄漏状态预测来改进视觉-语言-动作策略学习,增强了操作任务中的泛化性和鲁棒性。
在互联网规模视频上预训练视觉-语言-动作 (VLA) 策略极具吸引力,但目前的潜动作目标函数经常学错东西:它们仍锚定在像素变化而非动作相关的状态转移上,使其容易受到外观偏见、无用运动和信息泄露的影响。我们引入了 VLA-JEPA,这是一个 JEPA 风格的预训练框架,从设计上避开了这些陷阱。核心思想是无泄露的状态预测:目标编码器从未来帧产生潜表示,而学生路径只看到当前观测——未来信息仅用作监督目标,绝不作为输入。通过在潜空间而非像素空间进行预测,VLA-JEPA 学习到了对相机运动和无关背景变化具有鲁棒性的动力学抽象。这产生了一个简单的两阶段方案——JEPA 预训练后进行动作头微调——无需先前潜动作流水线中复杂的多阶段流程。在 LIBERO、LIBERO-Plus、SimplerEnv 和现实操纵任务上的实验表明,VLA-JEPA 在泛化性和鲁棒性方面均比现有方法有持续提升。
查看 arXiv 页面查看 PDF