归一化注意力引导:扩散模型的通用负向引导

发表
Chen Dar-YenChen Dar-Yen 提交
作者: Chen Dar-YenDar-Yen Chen, Hmrishav BandyopadhyayHmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song

摘要

负向引导——明确抑制不需要的属性——仍然是扩散模型中的一个基本挑战,尤其是在少步采样机制中。虽然无分类器引导(CFG)在标准设置下效果良好,但由于正负分支之间的预测差异,它在激进的采样步长压缩下会失效。我们提出了归一化注意力引导(NAG),这是一种高效、无需训练的机制,它在注意力空间中应用外推法,结合L1范数归一化和细化。NAG在CFG失效的情况下恢复了有效的负向引导,同时保持了保真度。与现有方法不同,NAG适用于不同的架构(UNet、DiT)、采样机制(少步、多步)和模态(图像、视频),作为一个通用插件,计算开销极小。通过广泛的实验,我们展示了在文本对齐(CLIP Score)、保真度(FID、PFID)和人类感知质量(ImageReward)方面的一致改进。我们的消融研究验证了每个设计组件,而用户研究证实了对NAG引导输出的显著偏好。作为一种无需重新训练的、与模型无关的推理时方法,NAG为所有现代扩散框架提供了轻松的负向引导——伪代码在附录中!
查看 arXiv 页面查看 PDF

评论

Chen Dar-YenChen Dar-Yen
论文作者
论文提交者
此评论已隐藏。
Chen Dar-YenChen Dar-Yen
论文作者
论文提交者

项目页面:https://chendaryen.github.io/NAG.github.io/

Arxiv 论文:https://arxiv.org/abs/2505.21179

在线演示:https://huggingface.co/spaces/ChenDY/NAG_FLUX.1-schnell, https://huggingface.co/spaces/ChenDY/NAG_FLUX.1-dev

TL;DR(太长不看):

  • 我们引入了 NAG,一种通用的、免训练的注意力引导方法,可在扩散模型生态系统中提供稳定、可控的负向引导。

  • 我们在传统 CFG 完全失效的少数步扩散模型中恢复了有效的负向引导,同时在与现有引导方法结合时,增强了多步扩散中的负向控制。

  • 我们验证了 NAG 无需特定领域修改即可泛化到视频扩散,通过有效的负向引导改善了语义对齐和运动特性。