⏶7
文本到视频生成中的免训练引导:通过多模态规划和结构化噪声初始化
发表
由
Jialu Li 提交
作者: Jialu Li, Shoubin Yu, Han Lin,
Jaemin Cho, Jaehong Yoon, Mohit Bansal

摘要
文本到视频 (T2V) 扩散模型的最新进展显着提高了生成视频的视觉质量。然而,即使是最新的 T2V 模型也发现难以准确地遵循文本描述,特别是当提示需要精确控制空间布局或对象轨迹时。最近的一系列研究使用布局引导 T2V 模型,这需要微调或在推理时迭代操作注意力图。这显着增加了内存需求,使得难以采用大型 T2V 模型作为主干。为了解决这个问题,我们推出了 Video-MSG,这是一种用于 T2V 生成的免训练引导方法,它基于多模态规划和结构化噪声初始化。Video-MSG 由三个步骤组成,在前两个步骤中,Video-MSG 创建视频草图,这是最终视频的细粒度时空计划,以草稿视频帧的形式指定背景、前景和对象轨迹。在最后一步中,Video-MSG 通过噪声反演和去噪,使用视频草图引导下游 T2V 扩散模型。值得注意的是,Video-MSG 在推理时不需要微调或使用额外内存的注意力操作,这使得采用大型 T2V 模型更容易。Video-MSG 在流行的 T2V 生成基准测试(T2VCompBench 和 VBench)上展示了其在增强文本对齐方面的有效性,适用于多个 T2V 主干(VideoCrafter2 和 CogVideoX-5B)。我们提供了关于噪声反演率、不同背景生成器、背景对象检测和前景对象分割的全面消融研究。
Project page: https://video-msg.github.io/