Lumos-1:从统一模型视角看自回归视频生成

发表
Hangjie YuanHangjie Yuan 提交
作者: Hangjie YuanHangjie Yuan, Weihua Chen, Jun CENJun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang

摘要

自回归大型语言模型(LLM)统一了广泛的语言任务,激发了自回归视频生成的初步尝试。现有的自回归视频生成器要么偏离标准LLM架构,要么依赖庞大的外部文本编码器,要么由于下一token解码而产生过高的延迟。在本文中,我们引入了Lumos-1,一个在最小架构修改下保留LLM架构的自回归视频生成器。为了在LLM中注入时空关联,我们确定了结合3D RoPE的有效性,并诊断了其不平衡的频谱范围。因此,我们提出了MM-RoPE,一种RoPE方案,它在保留原始文本RoPE的同时,为多模态时空数据建模提供了全面的频谱和缩放的3D位置。此外,Lumos-1采用了一种token依赖策略,遵循帧内双向性和帧间时间因果性。基于这种依赖策略,我们识别了由空间信息冗余引起的逐帧损失不平衡问题,并通过提出自回归离散扩散强制(AR-DF)来解决。AR-DF在训练期间引入了时间管掩码,并采用兼容的推理时掩码策略,以避免质量下降。通过使用内存高效的训练技术,我们仅在48个GPU上预训练了Lumos-1,在GenEval上实现了与EMU3相当的性能,在VBench-I2V上实现了与COSMOS-Video2World相当的性能,以及在VBench-T2V上实现了与OpenSoraPlan相当的性能。代码和模型可在https://github.com/alibaba-damo-academy/Lumos获取。
查看 arXiv 页面查看 PDF

评论

Hangjie YuanHangjie Yuan
论文作者
论文提交者

代码和模型:https://github.com/alibaba-damo-academy/Lumos

JoyvkJoyvk

image.webp

根据图像制作视频

Chiu wen chungChiu wen chung

运行中...