通过注意力头选择实现细粒度扰动引导

发表
Sayak PaulSayak Paul 提交
作者: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon MinJaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim

摘要

扩散模型中近期的引导方法通过扰动模型来构建一个隐式弱模型,并引导生成远离它,从而指导逆向采样。在这些方法中,注意力扰动在分类器无关引导不适用的无条件场景中表现出强大的经验性能。然而,现有的注意力扰动方法缺乏确定扰动应施加在哪里的原则性方法,尤其是在扩散变换器(DiT)架构中,质量相关的计算分布在各个层中。在本文中,我们研究了注意力扰动的粒度,从层级到单个注意力头,并发现特定的头部控制着不同的视觉概念,如结构、风格和纹理质量。基于这一见解,我们提出了"HeadHunter",这是一个系统框架,用于迭代选择与用户中心目标对齐的注意力头部,从而实现对生成质量和视觉属性的细粒度控制。此外,我们引入了 SoftPAG,它将每个选定头部的注意力图线性插值到单位矩阵,提供了一个连续的旋钮来调整扰动强度并抑制伪影。我们的方法不仅缓解了现有层级扰动的过平滑问题,而且通过组合头部选择实现了对特定视觉风格的定向操控。我们在包括 Stable Diffusion 3 和 FLUX.1 在内的现代大型基于 DiT 的文本到图像模型上验证了我们的方法,在整体质量提升和特定风格引导方面均表现出卓越的性能。我们的工作首次对扩散模型中的注意力扰动进行了头部层面的分析,揭示了注意力层内部可解释的专业化,并为有效扰动策略的实际设计提供了可能。
查看 arXiv 页面查看 PDF

评论

Sayak PaulSayak Paul
论文提交者

扩散模型中最近的引导方法通过扰动模型来构建一个隐式弱模型,并引导生成远离该弱模型,从而引导逆向采样。在这些方法中,注意力扰动在无分类器引导不适用的无条件场景中表现出强大的经验性能。然而,现有的注意力扰动方法缺乏确定扰动应用位置的原则性方法,特别是在扩散Transformer (DiT) 架构中,与质量相关的计算分布在各个层中。在本文中,我们研究了注意力扰动的粒度,从层级到单个注意力头,并发现特定的注意力头控制着不同的视觉概念,如结构、风格和纹理质量。基于这一洞察,我们提出了 "HeadHunter",一个系统框架,用于迭代选择与用户目标对齐的注意力头,从而实现对生成质量和视觉属性的细粒度控制。此外,我们引入了 SoftPAG,它将每个选定头的注意力图线性插值到一个单位矩阵,提供一个连续的旋钮来调整扰动强度并抑制伪影。我们的方法不仅缓解了现有层级扰动的过平滑问题,而且通过组合式头部选择实现了对特定视觉风格的精准操作。我们在包括 Stable Diffusion 3 和 FLUX.1 在内的现代大型 DiT-based 文本到图像模型上验证了我们的方法,在通用质量增强和特定风格引导方面都表现出卓越的性能。我们的工作首次对扩散模型中的注意力扰动进行了头部层面的分析,揭示了注意力层内可解释的专业化,并为有效扰动策略的实际设计提供了可能。

AHN DONGHOONAHN DONGHOON

代码即将发布! 👉 https://github.com/cvlab-kaist/HeadHunter

⭐ 为仓库加星以保持更新!