Voost:一种用于双向虚拟试穿和试脱的统一可扩展扩散变换器

发表
Seungyong LeeSeungyong Lee 提交
作者: Seungyong LeeSeungyong Lee, Jeong-gi KwakJeong-gi Kwak

摘要

虚拟试穿旨在合成一个人穿着目标服装的逼真图像,但准确建模服装与身体的对应关系仍然是一个持续的挑战,尤其是在姿势和外观变化下。在本文中,我们提出了Voost——一个统一且可扩展的框架,它通过单个扩散Transformer共同学习虚拟试穿和试脱。通过共同建模这两个任务,Voost使每个服装-人物对能够监督两个方向,并支持在生成方向和服装类别上的灵活条件,从而在没有特定任务网络、辅助损失或额外标签的情况下增强服装与身体的关系推理。此外,我们引入了两种推理时技术:用于对抗分辨率或掩码变化的注意力温度缩放,以及利用任务之间双向一致性的自校正采样。大量实验表明,Voost在试穿和试脱基准上均取得了最先进的结果,在对齐精度、视觉保真度和泛化能力方面始终优于强劲的基线。
查看 arXiv 页面查看 PDF
Voost:一种用于双向虚拟试穿和试脱的统一可扩展扩散变换器

评论

Seungyong LeeSeungyong Lee
论文作者
论文提交者

通过联合学习这两项任务,我们实现了可扩展的训练,并显著增强了服装与身体的对应关系。与依赖单独网络或额外标签的现有方法不同,Voost 在没有任何特定于任务的架构更改或损失修改的情况下实现了这一点。因此,Voost 在试穿和脱衣基准测试中均取得了最先进的性能——值得注意的是,它还能在具有不同姿势、背景、光照条件和服装类别的野外图像上稳健运行。

Riza VeliogluRiza Velioglu

恭喜 @RyanL22 取得如此出色的成果!

你们还计划发布训练代码吗?

感兴趣的读者,这里有一个关于 VTOFF 的精选作品列表:

https://github.com/rizavelioglu/awesome-virtual-try-off/