⏶11
主体驱动视频生成:解耦身份与运动
发表
由
Daneul Kim 提交
作者:
Daneul Kim, Jingxu Zhang,
Wonjoon Jin,
Sunghyun Cho,
Qi Dai, Jaesik Park,
Chong Luo


摘要
我们提出通过在零样本且无需额外微调的情况下,将主体特定学习与时序动态解耦,来训练一个主体驱动的定制化视频生成模型。传统的免微调视频定制方法通常依赖于大规模标注视频数据集,这计算成本高昂且需要大量标注。与先前方法不同,我们引入直接使用图像定制数据集来训练视频定制模型,将视频定制分解为两个方面:(1) 通过图像定制数据集进行身份注入,以及 (2) 利用少量未标注视频并通过图像到视频的训练方法保持时序建模。此外,在图像到视频微调期间,我们采用随机图像 token 丢弃和随机图像初始化,以减轻复制粘贴问题。为了进一步增强学习,我们在主体特定特征和时序特征的联合优化期间引入随机切换,以减轻灾难性遗忘。我们的方法在零样本设置下实现了强大的主体一致性和可扩展性,优于现有视频定制模型,证明了我们框架的有效性。
我们提出 Subject-to-Video,一个免调优的框架,它仅需单张参考图像,即可生成身份保真、运动流畅的视频——并且训练时无需任何定制视频数据集!
在零样本场景下,它能够解耦身份与运动,并超越了先前的个性化 T2V 模型。
论文:https://arxiv.org/html/2504.17816v1
代码:https://github.com/carpedkm/disentangled-subject-to-vid
项目主页:https://carpedkm.github.io/projects/disentangled_sub/