主体驱动视频生成:解耦身份与运动

发表
Daneul KimDaneul Kim 提交
作者: Daneul KimDaneul Kim, Jingxu Zhang, Wonjoon JinWonjoon Jin, sunghyun choSunghyun Cho, Qi DaiQi Dai, Jaesik Park, Chong LuoChong Luo

摘要

我们提出通过在零样本且无需额外微调的情况下,将主体特定学习与时序动态解耦,来训练一个主体驱动的定制化视频生成模型。传统的免微调视频定制方法通常依赖于大规模标注视频数据集,这计算成本高昂且需要大量标注。与先前方法不同,我们引入直接使用图像定制数据集来训练视频定制模型,将视频定制分解为两个方面:(1) 通过图像定制数据集进行身份注入,以及 (2) 利用少量未标注视频并通过图像到视频的训练方法保持时序建模。此外,在图像到视频微调期间,我们采用随机图像 token 丢弃和随机图像初始化,以减轻复制粘贴问题。为了进一步增强学习,我们在主体特定特征和时序特征的联合优化期间引入随机切换,以减轻灾难性遗忘。我们的方法在零样本设置下实现了强大的主体一致性和可扩展性,优于现有视频定制模型,证明了我们框架的有效性。
查看 arXiv 页面查看 PDF

评论

Daneul KimDaneul Kim
论文作者
论文提交者

我们提出 Subject-to-Video,一个免调优的框架,它仅需单张参考图像,即可生成身份保真、运动流畅的视频——并且训练时无需任何定制视频数据集!

在零样本场景下,它能够解耦身份与运动,并超越了先前的个性化 T2V 模型。

论文:https://arxiv.org/html/2504.17816v1

代码:https://github.com/carpedkm/disentangled-subject-to-vid

项目主页:https://carpedkm.github.io/projects/disentangled_sub/