⏶13
频域引导能够在低CFG尺度下实现高保真采样
发表
由
Seyedmorteza Sadat 提交

作者:
Seyedmorteza Sadat, Tobias Vontobel, Farnood Salehi,
Romann M. Weber

摘要
无分类器引导(Classifier-free guidance, CFG)已成为现代条件扩散模型的重要组成部分。尽管在实践中非常有效,但CFG提升质量、细节和提示对齐的潜在机制尚未完全理解。我们通过分析CFG在频域中的作用,提出了对其的新颖视角,表明低频和高频对生成质量有不同的影响。具体来说,低频引导控制全局结构和条件对齐,而高频引导主要增强视觉保真度。然而,像标准CFG那样对所有频率应用统一的缩放因子会导致在高缩放因子下过度饱和并降低多样性,而在低缩放因子下则会降低视觉质量。基于这些见解,我们提出了频率解耦引导(frequency-decoupled guidance, FDG),这是一种有效的方法,它将CFG分解为低频和高频分量,并对每个分量应用单独的引导强度。FDG在低引导尺度下提高了图像质量,并通过设计避免了高CFG尺度的缺点。通过对多个数据集和模型进行大量实验,我们证明FDG在保持多样性的同时,持续提升了样本保真度,与CFG相比,FID和召回率均有所改善,从而确立了我们的方法作为标准无分类器引导的即插即用替代方案。
概括来说:我们展示了在频域中应用无分类器指导能够显著提高低指导尺度下的质量,同时固有地避免了高指导值相关的缺点。