⏶42
Vanast:通过合成三元组监督实现的基于人体图像动画的虚拟试穿
发表
由
Hyunsoo Cha 提交
作者:
Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
摘要
AI 生成总结
Vanast 是一个统一的框架,通过在单一过程中结合基于图像的虚拟试穿和姿态驱动的动画,生成服装转移的人体动画视频,并通过三元组监督和双模块架构解决了身份漂移和服装失真等问题。我们展示了 Vanast,这是一个统一框架,可以直接从单张人物图像、服装图像和姿势引导视频生成服装迁移的人体动画视频。传统的两阶段流水线将基于图像的虚拟试穿和姿势驱动的动画视为独立的过程,这通常会导致身份漂移、服装畸变和前后不一致。我们的模型通过在单一统一步骤中执行整个过程来解决这些问题,从而实现连贯的合成。为了实现这一设定,我们构建了大规模的三元组监督数据。我们的数据生成流水线包括:生成与服装目录图像不同的同身份人体换装图像;捕获完整的上装和下装三元组以克服单件服装姿势视频对的限制;以及组装多样化的野外(in-the-wild)三元组而无需服装目录图像。我们还为视频扩散 Transformer 引入了双模块(Dual Module)架构,以稳定训练、保持预训练的生成质量,并在支持零样本服装插值的同时,提高服装准确性、姿势遵循度和身份保持度。这些贡献共同使 Vanast 能够在各种服装类型中生成高保真、身份一致的动画。
评论
Vanast:通过合成三元组监督实现的服装转移人体动画虚拟试穿
Vanast 是一个用于服装转移人体动画的统一单步框架,取代了传统的先虚拟试穿再生成动画的两阶段流水线。通过构建大规模三元组监督数据,并为视频扩散 Transformer 引入双模块架构,Vanast 在保持身份一致性和服装准确性的同时,支持零样本姿态插值。
核心思想
现有方法将虚拟试穿和人体动画视为独立阶段,导致误差累积和结果不一致。Vanast 将这两项任务统一到视频扩散 Transformer 的单次前向传播中,直接生成目标人物穿着目标服装在目标姿态序列中的动画视频,无需任何中间试穿图像。

方法/路径
该方法依赖两个核心组件。首先,构建了一个大规模合成三元组数据集,每个样本包含参考人物图像、目标服装和目标姿态序列。这为端到端训练提供了密集的监督信号。其次,在视频扩散 Transformer 中集成了双模块架构——一个分支编码身份和外观,另一个分支编码服装细节——使模型能够在输出视频中解耦并忠实地重建两者。


结果
Vanast 在服装转移人体动画基准测试中达到了 SOTA 水平,在服装保真度和动作质量方面均优于两阶段基准模型。统一的设计还实现了训练中未见过的姿态与服装之间的零样本插值。
给定一张人物图像和一件或多件服装图像,我们的方法在以姿势视频为条件下生成虚拟试穿及人物图像动画,同时保持身份一致性。