⏶10
PUSA V1.0:通过矢量化时间步长自适应,以500美元训练成本超越Wan-I2V
发表
由
Raphael Liu 提交
作者:
Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
摘要
视频扩散模型的快速发展一直受到时间建模中基本限制的阻碍,特别是传统标量时间步变量强加的帧演化刚性同步。尽管特定任务的适应和自回归模型已试图解决这些挑战,但它们仍受限于计算效率低下、灾难性遗忘或适用性狭窄。在这项工作中,我们提出了Pusa,一个突破性的范式,它利用矢量化时间步适应(VTA)在统一的视频扩散框架内实现细粒度的时间控制。此外,VTA是一种非破坏性适应,这意味着它完全保留了基础模型的能力。通过使用VTA对SOTA Wan2.1-T2V-14B模型进行微调,我们实现了前所未有的效率——在训练成本(500美元对比≥100,000美元)不超过1/200、数据集大小(4K对比≥10M样本)不超过1/2500的情况下,超越了Wan-I2V-14B的性能。Pusa不仅为图像到视频(I2V)生成树立了新标准,取得了87.32%的VBench-I2V总分(Wan-I2V-14B为86.86%),而且还解锁了许多零样本多任务能力,例如起始-结束帧生成和视频扩展——所有这些都无需特定任务训练。同时,Pusa仍能进行文本到视频的生成。机制分析表明,我们的方法在保留基础模型生成先验的同时,巧妙地注入了时间动态,避免了矢量化时间步固有的组合爆炸问题。这项工作为下一代视频合成建立了一个可扩展、高效且多功能的范式,使高保真视频生成普惠于研究和工业界。代码已在 https://github.com/Yaofang-Liu/Pusa-VidGen 开源。
代码:https://github.com/Yaofang-Liu/Pusa-VidGen
项目页面:https://yaofang-liu.github.io/Pusa_Web/
模型:https://huggingface.co/RaphaelLiu/PusaV1
数据集:https://huggingface.co/datasets/RaphaelLiu/PusaV1_training