⏶6
扩散模型的 Token 扰动引导
发表
由
Seyedmorteza Sadat 提交

作者:
Javad Rajabi,
Soroush Mehraban,
Seyedmorteza Sadat, Babak Taati


摘要
分类器无关引导 (CFG) 已成为现代扩散模型的关键组件,用于提升生成质量并更好地与输入条件对齐。然而,CFG 需要特定的训练过程,并且仅限于条件生成。为了解决这些局限性,我们提出了 Token 扰动引导 (TPG),这是一种新颖的方法,它直接将扰动矩阵应用于扩散网络中的中间 Token 表示。TPG 采用一种范数保持的洗牌操作,以提供有效且稳定的引导信号,从而在不改变架构的情况下提高生成质量。因此,TPG 是免训练的,并且对输入条件是不可知的,使其易于应用于条件生成和无条件生成。我们进一步分析了 TPG 提供的引导项,并表明与现有免训练引导技术相比,它对采样的影响更接近 CFG。在 SDXL 和 Stable Diffusion 2.1 上的大量实验表明,TPG 在无条件生成方面相对于 SDXL 基线实现了近 2 倍的 FID 改进,同时在提示对齐方面与 CFG 紧密匹配。这些结果表明,TPG 是一种通用的、条件无关的引导方法,可为更广泛的扩散模型带来类似 CFG 的优势。代码可在此处获取:https://github.com/TaatiTeam/Token-Perturbation-Guidance
简而言之:本文提出了Token扰动引导(TPG),一种基于token混洗的简单而有效的方法,用于将无分类器引导的优势扩展到更广泛的场景,包括无条件生成。与现有的基于扰动的引导方法相比,TPG实现了更好的生成质量和提示对齐,使其成为一个简单的即插即用模块,以提高扩散模型的质量。