⏶2
FastFit:通过可缓存的扩散模型加速多参考虚拟试穿
发表
由
ZhengChong 提交

作者:
Zheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang

摘要
尽管虚拟试穿技术潜力巨大,但现实世界应用仍受到两大挑战的阻碍:现有方法无法支持多参考服装组合(包括服装和配饰),以及由于每个去噪步骤中参考特征的冗余重新计算而导致的效率低下。为了解决这些挑战,我们提出了FastFit,这是一个基于新颖可缓存扩散架构的高速多参考虚拟试穿框架。通过采用半注意力机制,并将传统的timestep embedding替换为参考项的class embedding,我们的模型以可忽略的参数开销,完全将参考特征编码与去噪过程解耦。这使得参考特征只需计算一次,并在所有步骤中无损重用,从而根本上打破了效率瓶颈,实现了与同类方法相比平均3.5倍的加速。此外,为了促进复杂的多参考虚拟试穿研究,我们引入了DressCode-MR,一个大规模新数据集。它包含28,179套高质量的配对图像,涵盖五个关键类别(上衣、下装、连衣裙、鞋子和包),通过专家模型和人工反馈优化管道构建而成。在VITON-HD、DressCode和我们的DressCode-MR数据集上的广泛实验表明,FastFit在关键保真度指标上超越了最先进的方法,同时提供了显著的推理效率优势。
通过一种新颖的可缓存扩散模型,将多参考虚拟试穿速度提高 3.5 倍,同时实现最先进的图像质量。