逆向虚拟试穿:从着装个体生成多类别产品风格图像

发表
DavideDavide 提交
作者: DavideDavide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe

摘要

虚拟试穿 (VTON) 系统旨在将服装渲染到目标人物图像上,而本文探讨一项新颖的任务,即虚拟脱衣 (VTOFF),它解决的是一个逆问题:从真实的穿衣人物照片中生成标准化的服装产品图像。与 VTON 不同的是,VTON 必须解决多样化的姿势和风格变化问题,VTOFF 则受益于一致且清晰定义的输出格式——通常是服装平铺式的表现形式——使其成为用于数据生成和数据集增强的很有前景的工具。然而,现有的 VTOFF 方法面临两大主要限制:(一) 难以从遮挡和复杂姿势中分离服装特征,经常导致视觉伪影;和 (二) 应用范围仅限于单一类别的服装 (例如,仅限上半身衣物),限制了泛化能力。为了解决这些挑战,我们提出了文本增强型多类别虚拟脱衣 (TEMU-VTOFF),这是一种新颖的架构,采用双 DiT (Diffusion Transformer) 主干网络并带有改进的多模态注意力机制,用于稳健地提取服装特征。我们的架构旨在接收来自多种模态 (例如图像、文本和遮罩) 的服装信息,以便在多类别设置下工作。最后,我们提出了一个额外的对齐模块,以进一步细化生成的视觉细节。在 VITON-HD 和 Dress Code 数据集上的实验表明,TEMU-VTOFF 在 VTOFF 任务上达到了新的最先进水平,显著提高了视觉质量和对目标服装的还原度。
查看 arXiv 页面查看 PDF

评论