通过动态令牌雕刻实现免训练的高效视频生成

发表
zhang yuechenzhang yuechen 提交
作者: zhang yuechenYuechen Zhang, Jinbo XingJinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia

摘要

尽管视频扩散 Transformer (DiT) 模型具有出色的生成质量,但其庞大的计算需求严重阻碍了其实际部署。这种低效源于两个关键挑战:自注意力机制随 token 长度呈二次方增长的复杂性以及扩散模型的多步特性。为了解决这些限制,我们提出了 Jenga,一种新颖的推理管线,结合了动态注意力裁剪和渐进式分辨率生成。我们的方法利用了两个关键洞察:(1) 早期去噪步骤不需要高分辨率隐变量,以及 (2) 后期步骤不需要密集注意力。Jenga 引入了一种块级注意力机制,利用三维空间填充曲线动态选择相关的 token 交互,同时采用渐进式分辨率策略,在生成过程中逐渐增加隐变量分辨率。实验结果表明,Jenga 在多个最先进的视频扩散模型上实现了显著加速,同时保持可比的生成质量(在 VBench 上实现 8.83 倍加速,性能下降 0.01%)。作为一种即插即用解决方案,Jenga 通过将推理时间从数分钟缩短至数秒,无需重新训练模型即可在现代硬件上实现实用、高质量的视频生成。代码:https://github.com/dvlab-research/Jenga
查看 arXiv 页面查看 PDF

评论

zhang yuechenzhang yuechen
论文作者
论文提交者

Jenga 在单个 GPU 上生成视频的速度可以快 4.68 至 10.35 倍。

希望您喜欢这篇论文~

代码:https://github.com/dvlab-research/Jenga

项目页面:https://julianjuaner.github.io/projects/jenga/

性能

gif