⏶16
OmniTry:无需蒙版的万物虚拟试穿
发表
由
Yutong Feng 提交

作者:
Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang

摘要
虚拟试穿 (VTON) 是一项实用且应用广泛的任务,目前大多数现有工作都集中在服装上。本文提出了 OmniTry,一个统一的框架,将 VTON 从服装扩展到任何可穿戴物品,例如珠宝和配饰,并采用无遮罩设置以实现更实际的应用。当扩展到各种类型的对象时,数据整理对于获取成对图像(即对象图像和相应的试穿结果)来说是一个挑战。为了解决这个问题,我们提出了一个两阶段管道:在第一阶段,我们利用大规模未配对图像(即带有任何可穿戴物品的肖像)来训练模型以进行无遮罩定位。具体来说,我们重新利用修复模型,在给定空遮罩的情况下自动在合适的位置绘制对象。在第二阶段,模型通过配对图像进一步微调,以转移对象外观的一致性。我们观察到,即使只有少量配对样本,第一阶段后的模型也能快速收敛。OmniTry 在一个包含 12 种常见可穿戴物品类别的综合基准上进行评估,包括商店内和野外图像。实验结果表明,与现有方法相比,OmniTry 在对象定位和 ID 保留方面表现出更好的性能。OmniTry 的代码、模型权重和评估基准将在 https://omnitry.github.io/ 上公开。


虚拟试穿(VTON)是一项实用且广泛应用的任务,现有的大多数工作都集中在服装上。本文提出了 OmniTry,一个统一的框架,将 VTON 从服装扩展到任何可穿戴物品,例如珠宝和配饰,并且采用无遮罩设置以实现更实际的应用。当扩展到各种类型的物体时,数据整理对于获取配对图像(即物体图像和相应的试穿结果)具有挑战性。为了解决这个问题,我们提出了一个两阶段的管道:在第一阶段,我们利用大规模未配对图像(即带有任何可穿戴物品的肖像)来训练模型进行无遮罩定位。具体来说,我们重新利用修复模型,在给定空遮罩的情况下自动在合适的位置绘制物体。在第二阶段,模型通过配对图像进一步微调,以传递物体外观的一致性。我们观察到,第一阶段后的模型即使只有少量配对样本也能显示出快速收敛。OmniTry 在一个包含 12 种常见可穿戴物品类别的综合基准上进行评估,其中包括店内和野外图像。实验结果表明,与现有方法相比,OmniTry 在物体定位和身份保留方面都显示出更好的性能。OmniTry 的代码、模型权重和评估基准将公开提供,网址为 https://omnitry.github.io/。