将生成式去噪与判别性目标对齐,释放扩散模型用于视觉感知

04月15日发表
04月16日由 Ziqi PangZiqi Pang 提交
作者: Ziqi PangZiqi Pang, Xin Xu, Yu-Xiong Wang

摘要

随着图像生成技术的成功,生成扩散模型越来越多地被应用于判别任务,因为像素生成提供了一个统一的感知接口。然而,直接将生成式去噪过程用于判别性目标揭示了之前很少解决的关键差距。生成模型容忍中间采样误差,只要最终分布仍然合理,但判别任务需要始终如一的严格准确性,这在诸如指代表达图像分割等具有挑战性的多模态任务中得到了证明。受到这一差距的启发,我们分析并增强了生成扩散过程与感知任务之间的对齐,重点关注感知质量在去噪过程中如何演变。我们发现:(1)早期的去噪步骤对感知质量的贡献不成比例地大,促使我们提出反映不同时间步贡献的定制学习目标;(2)后期的去噪步骤显示出意想不到的感知退化,突显了对训练-去噪分布偏移的敏感性,这可以通过我们为扩散量身定制的数据增强来解决;以及(3)生成过程独特地实现了交互性,充当可控的用户界面,可以适应多轮交互中的纠正性提示。我们的见解在没有架构更改的情况下显著提高了基于扩散的感知模型的性能,在深度估计、指代表达图像分割和通用感知任务上实现了最先进的性能。代码可在 https://github.com/ziqipang/ADDP 获取。
查看 arXiv 页面查看 PDF

评论

Ziqi PangZiqi Pang
论文作者
论文提交者

随着图像生成的成功,生成扩散模型越来越多地被用于判别任务,因为像素生成提供了统一的感知界面。然而,直接将生成去噪过程重新用于判别目标揭示了以前很少解决的关键差距。生成模型容忍中间采样误差,如果最终分布仍然合理,但判别任务始终需要严格的准确性,这在具有挑战性的多模态任务(如指代图像分割)中得到了证明。受此差距的启发,我们分析并增强了生成扩散过程与感知任务之间的对齐,重点关注去噪过程中感知质量的演变。我们发现:(1)早期的去噪步骤对感知质量的贡献不成比例,促使我们提出反映不同时间步贡献的定制学习目标;(2)后期的去噪步骤显示出意想不到的感知退化,突出了对训练-去噪分布偏移的敏感性,这可以通过我们为扩散量身定制的数据增强来解决;以及(3)生成过程独特地实现了交互性,充当可控的用户界面,可适应多轮交互中的纠正提示。我们的见解显着改进了基于扩散的感知模型,而无需架构更改,在深度估计、指代图像分割和通用感知任务上实现了最先进的性能。