⏶9
MAGREF:用于任意参考视频生成的遮罩引导
发表
由
YSH 提交

作者: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang,
Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma

摘要
随着深度生成模型,尤其是基于扩散方法的出现,视频生成取得了显著进展。然而,基于多个参考主体的视频生成在保持多主体一致性和确保高生成质量方面仍然面临显著挑战。在本文中,我们提出了MAGREF,一个用于任意参考视频生成的统一框架,该框架引入了掩码引导,以实现基于多样化参考图像和文本提示的连贯多主体视频合成。具体来说,我们提出了(1)一种区域感知动态掩码机制,使单个模型能够灵活处理各种主体(包括人物、物体和背景)的推断,而无需更改架构,以及(2)一种像素级通道连接机制,该机制在通道维度上操作,以更好地保留外观特征。我们的模型提供了最先进的视频生成质量,从单主体训练泛化到复杂的多主体场景,实现连贯的合成和对个体主体的精确控制,性能超越现有开源和商业基线。为了便于评估,我们还引入了一个全面的多主体视频基准。广泛实验证明了我们方法的有效性,为可扩展、可控、高保真的多主体视频合成铺平了道路。代码和模型可在 https://github.com/MAGREF-Video/MAGREF 找到。
代码:https://github.com/MAGREF-Video/MAGREF 页面:https://magref-video.github.io/magref.github.io/