⏶35
视频扩散模型的时序上下文微调:实现通用控制
发表
由
Kinam Kim 提交
作者:
Kinam Kim,
Junha Hyung,
Jaegul Choo
摘要
近期文本到视频扩散模型的进展使得高质量视频合成成为可能,但在数据和计算资源有限的情况下,可控生成仍然充满挑战。现有针对条件生成的微调方法通常依赖外部编码器或架构修改,这需要大量数据集,并且通常受限于空间对齐的条件,从而限制了灵活性和可扩展性。在这项工作中,我们引入了时间上下文内微调 (Temporal In-Context Fine-Tuning, TIC-FT),这是一种高效且通用的方法,用于将预训练的视频扩散模型适应各种条件生成任务。我们的核心思想是沿着时间轴连接条件帧和目标帧,并插入噪声水平逐渐增加的中间缓冲帧。这些缓冲帧实现了平滑过渡,使微调过程与预训练模型的时间动态对齐。TIC-FT 无需架构更改,并且仅需 10-30 个训练样本即可实现强大性能。我们使用 CogVideoX-5B 和 Wan-14B 等大规模基础模型,在一系列任务中验证了我们的方法,包括图像到视频和视频到视频生成。大量实验表明,TIC-FT 在条件保真度和视觉质量方面均优于现有基线,同时在训练和推理方面都保持高效。更多结果请访问:https://kinam0252.github.io/TIC-FT/
文本到视频扩散模型的最新进展使得高质量视频合成成为可能,但在有限的数据和计算条件下,可控生成仍然充满挑战,尤其是对于条件生成而言。现有的条件生成微调方法通常依赖外部编码器或架构修改,这需要大量数据集,并且通常仅限于空间对齐的条件,限制了灵活性和可扩展性。在这项工作中,我们引入了时间上下文微调(Temporal In-Context Fine-Tuning, TIC-FT),这是一种高效且通用的方法,用于将预训练的视频扩散模型适应各种条件生成任务。我们的核心思想是将条件帧和目标帧沿时间轴连接,并插入具有逐渐增加噪声水平的中间缓冲帧。这些缓冲帧实现了平滑过渡,使微调过程与预训练模型的时间动态对齐。TIC-FT不需要架构更改,并且只需10-30个训练样本即可实现强大性能。我们通过一系列任务验证了我们的方法,包括图像到视频和视频到视频生成,使用了CogVideoX-5B和Wan-14B等大规模基础模型。大量实验表明,TIC-FT在条件保真度和视觉质量方面均优于现有基线,同时在训练和推理方面均保持高效。更多结果请访问 https://kinam0252.github.io/TIC-FT/