DreamVVT:通过分阶段扩散Transformer框架掌握野外真实视频虚拟试穿技术

发表
NingNing 提交
作者: Tongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, liangdebuggerChao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong

摘要

视频虚拟试穿(VVT)技术因其在电子商务广告和娱乐方面的广阔应用前景而获得了广泛的学术关注。然而,大多数现有的端到端方法严重依赖稀缺的以服装为中心的数据集,并且未能有效利用高级视觉模型和测试时输入的先验知识,这使得在不受约束的场景中准确保留细粒度服装细节并保持时间一致性变得具有挑战性。为了解决这些挑战,我们提出了 DreamVVT,一个精心设计的两阶段框架,它建立在扩散变换器(DiTs)的基础上,天生能够利用多样化的非配对以人为中心的数据来增强在现实世界场景中的适应性。为了进一步利用预训练模型和测试时输入的先验知识,在第一阶段,我们从输入视频中采样代表性帧,并利用集成了视觉语言模型(VLM)的多帧试穿模型,合成高保真度和语义一致的关键帧试穿图像。这些图像作为后续视频生成的补充外观指导。在第二阶段,从输入内容中提取骨骼图以及细粒度的运动和外观描述,并将这些与关键帧试穿图像一起馈送到通过 LoRA 适配器增强的预训练视频生成模型中。这确保了未见区域的长期时间一致性,并实现了高度可信的动态运动。大量的定量和定性实验表明,DreamVVT 在现实世界场景中保留详细服装内容和时间稳定性方面超越了现有方法。我们的项目页面 https://virtu-lab.github.io/
查看 arXiv 页面查看 PDF

评论

NingNing
论文提交者

我们的项目页面:https://virtu-lab.github.io/