⏶27
Lumos-1:从统一模型视角看自回归视频生成
发表
由
Hangjie Yuan 提交
作者:
Hangjie Yuan, Weihua Chen,
Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang

摘要
自回归大型语言模型(LLM)统一了广泛的语言任务,激发了自回归视频生成的初步尝试。现有的自回归视频生成器要么偏离标准LLM架构,要么依赖庞大的外部文本编码器,要么由于下一token解码而产生过高的延迟。在本文中,我们引入了Lumos-1,一个在最小架构修改下保留LLM架构的自回归视频生成器。为了在LLM中注入时空关联,我们确定了结合3D RoPE的有效性,并诊断了其不平衡的频谱范围。因此,我们提出了MM-RoPE,一种RoPE方案,它在保留原始文本RoPE的同时,为多模态时空数据建模提供了全面的频谱和缩放的3D位置。此外,Lumos-1采用了一种token依赖策略,遵循帧内双向性和帧间时间因果性。基于这种依赖策略,我们识别了由空间信息冗余引起的逐帧损失不平衡问题,并通过提出自回归离散扩散强制(AR-DF)来解决。AR-DF在训练期间引入了时间管掩码,并采用兼容的推理时掩码策略,以避免质量下降。通过使用内存高效的训练技术,我们仅在48个GPU上预训练了Lumos-1,在GenEval上实现了与EMU3相当的性能,在VBench-I2V上实现了与COSMOS-Video2World相当的性能,以及在VBench-T2V上实现了与OpenSoraPlan相当的性能。代码和模型可在https://github.com/alibaba-damo-academy/Lumos获取。
代码和模型:https://github.com/alibaba-damo-academy/Lumos