PixelHacker:结构和语义一致性的图像修复

发表
Ziyang XuZiyang Xu 提交
作者: Ziyang XuZiyang Xu, Anduin DanKangsheng Duan, ShenXiaoleiXiaolei Shen, Zhifeng Ding, LWYWenyu Liu, Xiaohu Ruan, chenxiaoxinXiaoxin Chen, Xinggang WangXinggang Wang

摘要

图像修复是介于图像编辑和图像生成之间的基础研究领域。最近最先进(SOTA)的方法探索了新颖的注意力机制、轻量级架构和上下文感知建模,展示了令人印象深刻的性能。然而,它们通常难以处理复杂的结构(例如,纹理、形状、空间关系)和语义(例如,颜色一致性、对象恢复和逻辑正确性),从而导致伪影和不适当的生成。为了解决这一挑战,我们设计了一种简单而有效的修复范式,称为潜在类别引导,并进一步提出了一种基于扩散的模型,名为 PixelHacker。具体来说,我们首先通过标注前景和背景(潜在分别为 116 和 21 个类别)构建了一个包含 1400 万图像-掩码对的大型数据集。然后,我们通过两个固定大小的嵌入分别编码潜在前景和背景表示,并间歇性地通过线性注意力将这些特征注入到去噪过程中。最后,通过在我们的数据集上进行预训练并在开源基准上进行微调,我们获得了 PixelHacker。大量的实验表明,PixelHacker 在广泛的数据集(Places2、CelebA-HQ 和 FFHQ)上全面超越了 SOTA 方法,并在结构和语义上表现出卓越的一致性。项目页面位于 https://hustvl.github.io/PixelHacker
查看 arXiv 页面查看 PDF

评论

Ziyang XuZiyang Xu
论文作者
论文提交者
🌟亮点
  • 潜在类别引导 (LCG):一种简单而有效的图像修复范式,具有卓越的结构和语义一致性。让我们推进图像修复研究,挑战更复杂的场景!

  • PixelHacker:基于扩散模型的图像修复模型,使用LCG进行训练,在多个自然场景(Places2)和人脸(CelebA-HQ和FFHQ)基准测试中表现优于SOTA性能!

  • 全面的SOTA性能

    • Places2 (自然场景)

      • 在512分辨率下使用1万张测试集图像,掩蔽区域占40-50%进行评估,PixelHacker取得了最佳性能,FID 8.59LPIPS 0.2026
      • 在512分辨率下使用3.65万张验证集图像,设置大和小两种掩模,PixelHacker在 FID (大: 2.05, 小: 0.82)U-IDS (大: 36.07, 小: 42.21) 上取得了最佳性能,在 LPIPS (大: 0.169, 小: 0.088) 上取得了第二好的性能。
      • 在256和512分辨率下使用验证集图像,采用高度随机的掩蔽策略进行评估,PixelHacker在512分辨率下取得了最佳性能,FID 5.75 和 LPIPS 0.305,在256分辨率下取得了第二好的性能,FID 9.25 和 LPIPS 0.367
    • CelebA-HQ (人脸场景)

      • 在512分辨率下进行评估,PixelHacker取得了最佳性能,FID 4.75 和 LPIPS 0.115
    • FFHQ (人脸场景)

      • 在256分辨率下进行评估,PixelHacker取得了最佳性能,FID 6.35 和 LPIPS 0.229
Ziyang XuZiyang Xu
论文作者
论文提交者

Snipaste_2025-05-03_13-11-02.png

Ziyang XuZiyang Xu
论文作者
论文提交者
此评论已隐藏。