帧引导:视频扩散模型中帧级控制的免训练引导

发表
SangwonSangwon 提交
作者: Sangwon Jang, Taekyung KiTaekyung Ki, Jaehyeong Jo, Jaehong YoonJaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang

摘要

扩散模型的进步显著提升了视频质量,将注意力引向了细粒度可控性。然而,许多现有方法依赖于为特定任务微调大型视频模型,随着模型规模的不断增长,这变得越来越不切实际。在这项工作中,我们提出了“帧引导”(Frame Guidance),一种基于帧级信号(如关键帧、风格参考图像、草图或深度图)的可控视频生成免训练引导方法。为了实现实用的免训练引导,我们提出了一种简单且能显著减少内存占用的潜在处理方法,并应用了一种为全局连贯视频生成设计的新颖潜在优化策略。“帧引导”无需任何训练即可在各种任务中实现有效控制,包括关键帧引导、风格化和循环,并且与任何视频模型兼容。实验结果表明,“帧引导”可以针对各种任务和输入信号生成高质量的可控视频。
查看 arXiv 页面查看 PDF

评论

SangwonSangwon
论文提交者

我们提出了Frame Guidance,这是一个无需训练的框架,它使用帧级信号支持多种控制任务。项目页面:https://frame-guidance-video.github.io/

https://cdn-uploads.huggingface.co/production/uploads/63bbf972d8d676a2299cdb44/mEPylUevxSeEcpy0UZjRN.mp4