QVGen:突破量化视频生成模型的极限

发表
Yushi HuangYushi Huang 提交
作者: Yushi HuangYushi Huang, GongRuihao Gong, Jing Liu, Yifu Ding, 吕呈滔Chengtao Lv, Haotong QinHaotong Qin, Jun Zhang

摘要

视频扩散模型 (DMs) 实现了高质量视频合成。然而,它们巨大的计算和内存需求对实际部署构成了严峻挑战,即使在高端 GPU 上也是如此。量化作为一种常用解决方案,在降低图像 DM 的成本方面取得了显著成功,但将其直接应用于视频 DM 仍无效。在本文中,我们提出了 QVGen,一个新颖的量化感知训练 (QAT) 框架,专为极低比特量化(例如 4 比特或更低)下的高性能和推理高效视频 DM 量身定制。我们首先进行理论分析,证明降低梯度范数对于促进 QAT 收敛至关重要。为此,我们引入了辅助模块 (Phi),以减轻较大的量化误差,从而显著增强收敛性。为了消除 Phi 的推理开销,我们提出了一种秩衰减策略,该策略逐步消除 Phi。具体来说,我们重复使用奇异值分解 (SVD),以及提出的基于秩的正则化 gamma,来识别并衰减低贡献成分。该策略在保持性能的同时,消除了推理开销。在 4 个最先进的视频 DM(参数量从 1.3B 到 14B 不等)上进行的广泛实验表明,QVGen 是第一个在 4 比特设置下达到与全精度相当的质量的方法。此外,它显著优于现有方法。例如,我们的 3 比特 CogVideoX-2B 在 VBench 上的 Dynamic Degree 提高了 +25.28,Scene Consistency 提高了 +8.43。
查看 arXiv 页面查看 PDF

评论

Yushi HuangYushi Huang
论文作者
论文提交者

视频扩散模型(DMs)实现了高质量视频合成。然而,它们巨大的计算和内存需求对实际部署提出了严峻挑战,即使在高端 GPU 上也是如此。作为常用的解决方案,量化在降低图像 DM 成本方面取得了显著成功,但直接应用于视频 DM 仍效果不佳。在本文中,我们提出了 QVGen,一个新颖的量化感知训练(QAT)框架,专为在极低位量化(例如 4 位或更低)条件下的高性能和推理高效视频 DM 定制。我们首先进行理论分析,证明降低梯度范数对于促进 QAT 收敛至关重要。为此,我们引入了辅助模块 (Φ) 以缓解较大的量化误差,显著增强了收敛性。为了消除 Φ 的推理开销,我们提出了一种秩衰减策略,逐步消除 Φ。具体来说,我们重复使用奇异值分解(SVD)以及提出的基于秩的正则化 γ,以识别并衰减贡献较低的组件。该策略在保持性能的同时消除了推理开销。对 4 个最先进(SOTA)视频 DM(参数量从 1.3B 到 14B 不等)进行的广泛实验表明,QVGen 是首个在 4 位设置下达到与全精度相当的质量的方法。此外,它显著优于现有方法。例如,我们的 3 位 CogVideoX-2B 在 VBench 上的 Dynamic Degree 提升了 +25.28,Scene Consistency 提升了 +8.43。