WorldVLA:迈向自回归动作世界模型

发表
Hangjie YuanHangjie Yuan 提交
作者: Jun CENJun Cen, Chaohui Yu, Hangjie YuanHangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

摘要

我们提出了WorldVLA,一个自回归动作世界模型,它统一了动作和图像的理解与生成。我们的WorldVLA将视觉-语言-动作(VLA)模型和世界模型整合到一个单一框架中。世界模型通过利用动作和图像理解来预测未来图像,旨在学习环境的底层物理以改进动作生成。同时,动作模型根据图像观测生成后续动作,辅助视觉理解,进而帮助世界模型的视觉生成。我们证明WorldVLA优于独立的动作模型和世界模型,突出了世界模型与动作模型之间的相互增强作用。此外,我们发现,当以自回归方式生成动作序列时,动作模型的性能会下降。这种现象可归因于模型对动作预测的泛化能力有限,导致错误从早期动作传播到后续动作。为了解决这个问题,我们提出了一种注意力掩码策略,在生成当前动作时选择性地掩盖先前的动作,这在动作块生成任务中显示出显著的性能改进。
查看 arXiv 页面查看 PDF

评论

Hangjie YuanHangjie Yuan
论文作者
论文提交者

项目主页:https://github.com/alibaba-damo-academy/WorldVLA

YangYang

@librarian-bot

Adina YakefuAdina Yakefu

您好,恭喜发表论文!如果能将检查点链接到论文中就太好了,这里是指南 👇

Screenshot 2025-06-27 at 12.27.51.png