⏶11
Stable Video Infinity:带有错误循环的无限长视频生成
发表
由
wuyang li 提交
作者:
Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
摘要
AI 生成总结
Stable Video Infinity 使用基于 Diffusion Transformer 的 Error-Recycling Fine-Tuning 技术,能够生成具有高时间一致性和可控故事情节的无限长度视频。我们提出了一种名为 Stable Video Infinity (SVI) 的方法,该方法能够生成具有高时间一致性、合理的场景过渡和可控的流式故事线的无限长视频。虽然现有的长视频生成方法试图通过手工设计的防漂移技术(例如,修改的噪声调度器、帧锚定)来缓解累积误差,但它们仍仅限于单提示外推,产生具有重复动作的同质化场景。我们发现,根本性挑战不仅在于误差累积,还在于训练假设(看到干净数据)与测试时的自回归现实(以自生成、易出错的输出来进行条件化)之间的关键差异。为了弥合这一假设差距,SVI 采用了错误回收微调(Error-Recycling Fine-Tuning),这是一种新型的高效训练方法,它将 Diffusion Transformer (DiT) 自生成错误回收为监督提示,从而鼓励 DiT 主动识别和纠正自身错误。这通过闭环回收、注入、收集和累积错误来实现,并通过错误注入反馈进行自回归学习。具体来说,我们(i)注入 DiT 历史生成的错误来干预干净的输入,模拟流匹配中的误差累积轨迹;(ii)通过一步双向集成高效地近似预测并计算残差误差;(iii)跨离散时间步长动态地将错误累积到回放内存中,然后对新输入进行重采样。SVI 能够将视频从几秒钟扩展到无限时长,且无需额外的推理成本,同时保持与各种条件(例如,音频、骨骼和文本流)的兼容性。我们在三个基准上对 SVI 进行了评估,包括一致性、创造性和条件性设置,全面验证了其多功能性和最先进的地位。
Stable-Video-Infinity (SVI) 能够生成具有高时间一致性、合理场景过渡和可控流式故事情节的任意长度的视频,适用于任何领域。
论文: https://arxiv.org/abs/2510.09212
项目页面: https://stable-video-infinity.github.io/homepage/
代码: https://github.com/vita-epfl/Stable-Video-Infinity
模型: https://huggingface.co/vita-video-gen/svi-model
数据集: https://huggingface.co/datasets/vita-video-gen/svi-benchmark