⏶7
DiffDecompose:通过扩散Transformer实现Alpha合成图像的逐层分解
发表
由
Yiren Song 提交
作者: Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu,
Xiangtai Li,
Yiren Song

摘要
扩散模型最近在对象移除等许多生成任务中取得了巨大成功。然而,现有的图像分解方法由于依赖掩码先验、静态对象假设和缺乏数据集,难以分离半透明或透明层遮挡。在本文中,我们深入研究了一个新颖的任务:Alpha合成图像的逐层分解,旨在在半透明/透明alpha层非线性遮挡的条件下,从单个重叠图像中恢复组成层。为了解决层模糊、泛化和数据稀缺性方面的挑战,我们首先引入了AlphaBlend,这是第一个用于透明和半透明层分解的大规模高质量数据集,支持六个真实世界的子任务(例如,半透明光斑移除、半透明细胞分解、玻璃器皿分解)。在此数据集的基础上,我们提出了DiffDecompose,一个基于扩散变换器(Diffusion Transformer)的框架,它学习在输入图像、语义提示和混合类型条件下,可能的层分解的后验分布。DiffDecompose不是直接回归alpha蒙版,而是执行上下文内分解(In-Context Decomposition),使模型能够在没有逐层监督的情况下预测一个或多个层,并引入层位置编码克隆(Layer Position Encoding Cloning)以保持层间的像素级对应关系。在所提出的AlphaBlend数据集和公共LOGO数据集上的广泛实验验证了DiffDecompose的有效性。代码和数据集将在论文接收后提供。我们的代码将发布在:https://github.com/Wangzt1121/DiffDecompose。
扩散模型最近在各种生成任务(包括物体移除)中取得了令人瞩目的性能。然而,现有的图像分解方法由于依赖掩码先验、静态物体假设以及缺乏合适的数据集,仍然难以分离半透明或透明层遮挡。在这项工作中,我们引入了一项新任务:Alpha合成图像的逐层分解,旨在从受非线性Alpha混合引起的半透明或透明遮挡的单张图像中恢复组成层。为了解决层歧义、泛化和数据稀缺的挑战,我们首先提出了AlphaBlend,这是第一个为透明和半透明层分解设计的大规模、高质量数据集。AlphaBlend 支持六个现实世界子任务,如半透明眩光去除、半透明细胞分解和玻璃器皿分解。基于此数据集,我们提出了DiffDecompose,这是一个基于扩散变换器的框架,它根据输入图像、语义提示和混合类型,对可能的层分解的后验进行建模。DiffDecompose 没有直接回归Alpha蒙版,而是采用上下文分解策略,使模型能够预测一个或多个层,而无需逐层监督。它还引入了层位置编码克隆,以确保层间的像素级对应。在AlphaBlend和公共LOGO数据集上进行的广泛实验证明了DiffDecompose的有效性。代码和数据集将在论文接收后发布。