DreamVLA:一个融合了全面世界知识的视觉-语言-动作模型

发表
Runpei DongRunpei Dong 提交
作者: ZhangWenyao Zhang, EricLiuHongsi Liu, Zekun QiZekun Qi, Yunnan WangYunnan Wang, XinQiang Yu, Jiazhao ZhangJiazhao Zhang, Runpei DongRunpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin

摘要

视觉-语言-动作 (VLA) 模型在将图像生成与动作预测相结合以提高机器人操作的泛化性和推理能力方面取得了显著进展。然而,现有方法局限于具有挑战性的基于图像的预测,这存在信息冗余,并且缺乏全面且关键的世界知识,包括动态、空间和语义信息。为了解决这些限制,我们提出了 DreamVLA,一种新颖的 VLA 框架,它集成了全面的世界知识预测以实现逆动力学建模,从而为操作任务建立了感知-预测-动作循环。具体而言,DreamVLA 引入了动态区域引导的世界知识预测,并与空间和语义线索相结合,为动作规划提供了紧凑而全面的表示。这种设计与人类在行动前首先形成抽象多模态推理链的方式相符。为了减轻训练过程中动态、空间和语义信息之间的干扰,我们采用了一种块级结构化注意力机制,该机制屏蔽了它们的相互注意力,防止信息泄露并保持每个表示干净和解耦。此外,为了建模未来动作的条件分布,我们采用了一种基于扩散的 Transformer,它将动作表示从共享的潜在特征中解耦。在真实世界和模拟环境中的大量实验表明,DreamVLA 在真实机器人任务上实现了 76.7% 的成功率,并在 CALVIN ABC-D 基准测试中达到了 4.44 的平均长度。
查看 arXiv 页面查看 PDF

评论

Runpei DongRunpei Dong
论文作者
论文提交者

📄 论文: https://arxiv.org/abs/2507.04447

🌐 项目主页: https://zhangwenyao1.github.io/DreamVLA/

💻 代码: https://github.com/Zhangwenyao1/DreamVLA