DCM: 高效高质量视频生成的双专家一致性模型

发表
ChenyangSiChenyangSi 提交
作者: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu

摘要

扩散模型在视频合成方面取得了显著成果,但需要迭代去噪步骤,导致大量的计算开销。一致性模型在加速扩散模型方面取得了重大进展。然而,将它们直接应用于视频扩散模型通常会导致时间一致性和外观细节的严重退化。在本文中,通过分析一致性模型的训练动态,我们确定了蒸馏过程中一个关键的冲突学习动态:在不同时间步长中,优化梯度和损失贡献存在显著差异。这种差异阻碍了被蒸馏的学生模型达到最佳状态,导致时间一致性受损和外观细节退化。为了解决这个问题,我们提出了一种参数高效的双专家一致性模型(DCM),其中语义专家专注于学习语义布局和运动,而细节专家则专注于精细细节的完善。此外,我们引入时间一致性损失(Temporal Coherence Loss)以提高语义专家的运动一致性,并应用GAN和特征匹配损失(Feature Matching Loss)以增强细节专家的合成质量。我们的方法以显著减少的采样步骤实现了最先进的视觉质量,展示了专家专业化在视频扩散模型蒸馏中的有效性。我们的代码和模型可在https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}获取。
查看 arXiv 页面查看 PDF

评论