⏶11

主体驱动视频生成：解耦身份与运动

04月23日发表

04月28日由 Daneul Kim 提交

作者: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai Qi Dai, Jaesik Park, Chong Luo

摘要

我们提出通过在零样本且无需额外微调的情况下，将主体特定学习与时序动态解耦，来训练一个主体驱动的定制化视频生成模型。传统的免微调视频定制方法通常依赖于大规模标注视频数据集，这计算成本高昂且需要大量标注。与先前方法不同，我们引入直接使用图像定制数据集来训练视频定制模型，将视频定制分解为两个方面：(1) 通过图像定制数据集进行身份注入，以及 (2) 利用少量未标注视频并通过图像到视频的训练方法保持时序建模。此外，在图像到视频微调期间，我们采用随机图像 token 丢弃和随机图像初始化，以减轻复制粘贴问题。为了进一步增强学习，我们在主体特定特征和时序特征的联合优化期间引入随机切换，以减轻灾难性遗忘。我们的方法在零样本设置下实现了强大的主体一致性和可扩展性，优于现有视频定制模型，证明了我们框架的有效性。

查看 arXiv 页面查看 PDF

Daneul Kim

论文作者

论文提交者

我们提出 Subject-to-Video，一个免调优的框架，它仅需单张参考图像，即可生成身份保真、运动流畅的视频——并且训练时无需任何定制视频数据集！

在零样本场景下，它能够解耦身份与运动，并超越了先前的个性化 T2V 模型。

论文：https://arxiv.org/html/2504.17816v1

代码：https://github.com/carpedkm/disentangled-subject-to-vid

项目主页：https://carpedkm.github.io/projects/disentangled_sub/

主体驱动视频生成：解耦身份与运动

摘要

评论