⏶78

Yume：交互式世界生成模型

07月23日发表

07月24日由 kaipeng 提交

作者: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

摘要

悠梦旨在利用图像、文本或视频创建一个可交互、真实且动态的世界，允许使用外围设备或神经信号进行探索和控制。在本报告中，我们展示了\method的一个预览版本，它能从输入图像创建动态世界，并允许通过键盘操作探索该世界。为了实现这种高保真、交互式的视频世界生成，我们引入了一个精心设计的框架，该框架由四个主要组件组成，包括摄像机运动量化、视频生成架构、高级采样器和模型加速。首先，我们对摄像机运动进行量化，以实现稳定的训练和通过键盘输入进行的用户友好交互。接着，我们引入了带有记忆模块的遮罩视频扩散Transformer~(MVDT)，以自回归方式实现无限视频生成。之后，为了获得更好的视觉质量和更精确的控制，采样器中引入了免训练的抗伪影机制(AAM)和基于随机微分方程的时间旅行采样(TTS-SDE)。此外，我们通过对抗性蒸馏和缓存机制的协同优化来研究模型加速。我们使用高质量的世界探索数据集\sekai来训练\method，它在各种场景和应用中取得了显著成果。所有数据、代码库和模型权重均可在https://github.com/stdstu12/YUME获取。悠梦将每月更新，以实现其最初目标。项目页面：https://stdstu12.github.io/YUME-Project/。

查看 arXiv 页面查看 PDF

kaipeng

论文提交者

项目页面：https://stdstu12.github.io/YUME-Project/

代码：https://github.com/stdstu12/YUME

模型：https://huggingface.co/stdstu123/Yume-I2V-540P

数据：https://github.com/Lixsp11/sekai-codebase

https://cdn-uploads.huggingface.co/production/uploads/65f1713552c38a91e0a445e8/f-z2Xqf7z-PlCWqeeHizM.mp4

陈韡

恭喜，非常出色的工作

Faiz Anwar

人工智能的未来已至

Spergware

终于瞥见了通用世界模型，祝贺！

Midou

Yume：交互式世界生成模型

摘要

评论