⏶78
Yume:交互式世界生成模型
发表
由
kaipeng 提交
作者: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He,
Jiangmiao Pang, Mingmin Chi, Yu Qiao,
Kaipeng Zhang

摘要
悠梦旨在利用图像、文本或视频创建一个可交互、真实且动态的世界,允许使用外围设备或神经信号进行探索和控制。在本报告中,我们展示了\method的一个预览版本,它能从输入图像创建动态世界,并允许通过键盘操作探索该世界。为了实现这种高保真、交互式的视频世界生成,我们引入了一个精心设计的框架,该框架由四个主要组件组成,包括摄像机运动量化、视频生成架构、高级采样器和模型加速。首先,我们对摄像机运动进行量化,以实现稳定的训练和通过键盘输入进行的用户友好交互。接着,我们引入了带有记忆模块的遮罩视频扩散Transformer~(MVDT),以自回归方式实现无限视频生成。之后,为了获得更好的视觉质量和更精确的控制,采样器中引入了免训练的抗伪影机制(AAM)和基于随机微分方程的时间旅行采样(TTS-SDE)。此外,我们通过对抗性蒸馏和缓存机制的协同优化来研究模型加速。我们使用高质量的世界探索数据集\sekai来训练\method,它在各种场景和应用中取得了显著成果。所有数据、代码库和模型权重均可在https://github.com/stdstu12/YUME获取。悠梦将每月更新,以实现其最初目标。项目页面:https://stdstu12.github.io/YUME-Project/。
项目页面:https://stdstu12.github.io/YUME-Project/
代码:https://github.com/stdstu12/YUME
模型:https://huggingface.co/stdstu123/Yume-I2V-540P
数据:https://github.com/Lixsp11/sekai-codebase
https://cdn-uploads.huggingface.co/production/uploads/65f1713552c38a91e0a445e8/f-z2Xqf7z-PlCWqeeHizM.mp4