⏶40

PixelHacker：结构和语义一致性的图像修复

04月29日发表

05月05日由 Ziyang Xu 提交

作者: Ziyang Xu, Anduin Dan Kangsheng Duan, ShenXiaolei Xiaolei Shen, Zhifeng Ding, LWY Wenyu Liu, Xiaohu Ruan, chenxiaoxin Xiaoxin Chen, Xinggang Wang

摘要

图像修复是介于图像编辑和图像生成之间的基础研究领域。最近最先进（SOTA）的方法探索了新颖的注意力机制、轻量级架构和上下文感知建模，展示了令人印象深刻的性能。然而，它们通常难以处理复杂的结构（例如，纹理、形状、空间关系）和语义（例如，颜色一致性、对象恢复和逻辑正确性），从而导致伪影和不适当的生成。为了解决这一挑战，我们设计了一种简单而有效的修复范式，称为潜在类别引导，并进一步提出了一种基于扩散的模型，名为 PixelHacker。具体来说，我们首先通过标注前景和背景（潜在分别为 116 和 21 个类别）构建了一个包含 1400 万图像-掩码对的大型数据集。然后，我们通过两个固定大小的嵌入分别编码潜在前景和背景表示，并间歇性地通过线性注意力将这些特征注入到去噪过程中。最后，通过在我们的数据集上进行预训练并在开源基准上进行微调，我们获得了 PixelHacker。大量的实验表明，PixelHacker 在广泛的数据集（Places2、CelebA-HQ 和 FFHQ）上全面超越了 SOTA 方法，并在结构和语义上表现出卓越的一致性。项目页面位于 https://hustvl.github.io/PixelHacker。

查看 arXiv 页面查看 PDF

Ziyang Xu

论文作者

论文提交者

🌟亮点

潜在类别引导 (LCG)：一种简单而有效的图像修复范式，具有卓越的结构和语义一致性。让我们推进图像修复研究，挑战更复杂的场景！
PixelHacker：基于扩散模型的图像修复模型，使用LCG进行训练，在多个自然场景（Places2）和人脸（CelebA-HQ和FFHQ）基准测试中表现优于SOTA性能！
全面的SOTA性能：
- Places2 (自然场景)
  - 在512分辨率下使用1万张测试集图像，掩蔽区域占40-50%进行评估，PixelHacker取得了最佳性能，FID 8.59 和 LPIPS 0.2026。
  - 在512分辨率下使用3.65万张验证集图像，设置大和小两种掩模，PixelHacker在 FID (大: 2.05, 小: 0.82) 和 U-IDS (大: 36.07, 小: 42.21) 上取得了最佳性能，在 LPIPS (大: 0.169, 小: 0.088) 上取得了第二好的性能。
  - 在256和512分辨率下使用验证集图像，采用高度随机的掩蔽策略进行评估，PixelHacker在512分辨率下取得了最佳性能，FID 5.75 和 LPIPS 0.305，在256分辨率下取得了第二好的性能，FID 9.25 和 LPIPS 0.367。
- CelebA-HQ (人脸场景)
  - 在512分辨率下进行评估，PixelHacker取得了最佳性能，FID 4.75 和 LPIPS 0.115。
- FFHQ (人脸场景)
  - 在256分辨率下进行评估，PixelHacker取得了最佳性能，FID 6.35 和 LPIPS 0.229。

Ziyang Xu

论文作者

论文提交者

项目页面: https://hustvl.github.io/PixelHacker

Github: https://github.com/hustvl/PixelHacker

论文: https://arxiv.org/abs/2504.20438

Ziyang Xu

论文作者

论文提交者

Ziyang Xu

论文作者

论文提交者

此评论已隐藏。