Vid2World: 将视频扩散模型构建为交互式世界模型

发表
knightnemoknightnemo 提交
作者: knightnemoSiqiao Huang, Jialong WuJialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long

摘要

世界模型基于历史观察和行动序列预测状态转移,在提高顺序决策的数据效率方面展现出巨大的潜力。然而,现有的世界模型通常需要大量的领域特定训练,并且仍然产生低保真、粗糙的预测,这限制了它们在复杂环境中的适用性。相比之下,在大规模互联网数据集上训练的视频扩散模型在生成捕捉多样化现实世界动态的高质量视频方面展现出了令人印象深刻的能力。在这项工作中,我们提出了 Vid2World,一种利用和迁移预训练视频扩散模型到交互式世界模型的通用方法。为了弥合差距,Vid2World 通过精心设计其架构和训练目标来实现自回归生成,从而对预训练视频扩散模型进行因果化处理。此外,它引入了一种因果行动引导机制,以增强所得交互式世界模型的行动可控性。在机器人操作和游戏模拟领域的广泛实验表明,我们的方法为将高性能视频扩散模型重新利用到交互式世界模型提供了一种可扩展且有效的方法。
查看 arXiv 页面查看 PDF

评论

knightnemoknightnemo
论文作者
论文提交者

感谢您的提醒!