⏶21
自强制:弥合自回归视频扩散中的训练-测试差距
发表
由
Guande He 提交
作者:
Xun Huang, Zhengqi Li,
Guande He, Mingyuan Zhou, Eli Shechtman
摘要
我们引入了Self Forcing,这是一种用于自回归视频扩散模型的新型训练范式。它解决了长期存在的曝光偏差问题,即模型在推理时必须根据自身不完美的输出生成序列,而它们在训练时是基于真实上下文进行训练的。与以往基于真实上下文帧对未来帧进行去噪的方法不同,Self Forcing通过在训练期间使用键值(KV)缓存执行自回归展开,将每一帧的生成都基于先前自生成的输出。这种策略允许通过视频级别的整体损失进行监督,直接评估整个生成序列的质量,而不是仅仅依赖传统的逐帧目标。为确保训练效率,我们采用了少步扩散模型以及随机梯度截断策略,有效平衡了计算成本和性能。我们进一步引入了一种滚动式KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法在单张GPU上实现了亚秒级延迟的实时流媒体视频生成,同时匹配甚至超越了显著更慢且非因果扩散模型的生成质量。项目网站:http://self-forcing.github.io/
隆重推出 Self-Forcing,这是一种用于训练自回归扩散模型的新范式,可实现高质量、实时视频生成!