⏶40
PixelHacker:结构和语义一致性的图像修复
发表
由
Ziyang Xu 提交

作者:
Ziyang Xu,
Kangsheng Duan,
Xiaolei Shen, Zhifeng Ding,
Wenyu Liu, Xiaohu Ruan,
Xiaoxin Chen,
Xinggang Wang

摘要
图像修复是介于图像编辑和图像生成之间的基础研究领域。最近最先进(SOTA)的方法探索了新颖的注意力机制、轻量级架构和上下文感知建模,展示了令人印象深刻的性能。然而,它们通常难以处理复杂的结构(例如,纹理、形状、空间关系)和语义(例如,颜色一致性、对象恢复和逻辑正确性),从而导致伪影和不适当的生成。为了解决这一挑战,我们设计了一种简单而有效的修复范式,称为潜在类别引导,并进一步提出了一种基于扩散的模型,名为 PixelHacker。具体来说,我们首先通过标注前景和背景(潜在分别为 116 和 21 个类别)构建了一个包含 1400 万图像-掩码对的大型数据集。然后,我们通过两个固定大小的嵌入分别编码潜在前景和背景表示,并间歇性地通过线性注意力将这些特征注入到去噪过程中。最后,通过在我们的数据集上进行预训练并在开源基准上进行微调,我们获得了 PixelHacker。大量的实验表明,PixelHacker 在广泛的数据集(Places2、CelebA-HQ 和 FFHQ)上全面超越了 SOTA 方法,并在结构和语义上表现出卓越的一致性。项目页面位于 https://hustvl.github.io/PixelHacker。
评论

论文作者
论文提交者
项目页面: https://hustvl.github.io/PixelHacker
潜在类别引导 (LCG):一种简单而有效的图像修复范式,具有卓越的结构和语义一致性。让我们推进图像修复研究,挑战更复杂的场景!
PixelHacker:基于扩散模型的图像修复模型,使用LCG进行训练,在多个自然场景(Places2)和人脸(CelebA-HQ和FFHQ)基准测试中表现优于SOTA性能!
全面的SOTA性能:
Places2 (自然场景)
CelebA-HQ (人脸场景)
FFHQ (人脸场景)