⏶5
具有双重并行性的分钟级视频
发表
由
Xingyi Yang 提交

作者: Zeqing Wang, Bowen Zheng,
Xingyi Yang, Yuecong Xu, Xinchao Wang

摘要
基于扩散 Transformer (DiT) 的视频扩散模型能够大规模生成高质量视频,但对于长视频会产生令人望而却步的处理延迟和内存成本。为了解决这个问题,我们提出了一种新颖的分布式推理策略,称为 DualParal。其核心思想是,我们不将整个视频生成在一块 GPU 上,而是在 GPU 之间并行处理时间帧和模型层。然而,这种划分的朴素实现面临一个关键限制:由于扩散模型需要在帧之间同步噪声水平,这种实现导致了原始并行的串行化。我们利用块状去噪方案来解决这个问题。具体来说,我们通过管线处理一系列帧块,噪声水平逐步降低。每个 GPU 处理特定的块和层子集,同时将先前结果传递给下一个 GPU,从而实现异步计算和通信。为了进一步优化性能,我们引入了两项关键增强。首先,在每个 GPU 上实现特征缓存,以存储和重用前一块的特征作为上下文,最大限度地减少 GPU 间的通信和冗余计算。其次,我们采用协调噪声初始化策略,通过在 GPU 之间共享初始噪声模式,无需额外资源成本即可确保全局一致的时间动态。总而言之,这些增强功能使得快速、无伪影且无限长的视频生成成为可能。应用于最新的扩散 Transformer 视频生成器,我们的方法在 8 块 RTX 4090 GPU 上高效生成 1,025 帧视频,延迟降低高达 6.54 倍,内存成本降低高达 1.48 倍。
https://cdn-uploads.huggingface.co/production/uploads/634cfebc350bcee9bed20a4d/FnaK8P8TPrjtfemYXDlws.mp4