频域引导能够在低CFG尺度下实现高保真采样

发表
Seyedmorteza SadatSeyedmorteza Sadat 提交
作者: Seyedmorteza SadatSeyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann WeberRomann M. Weber

摘要

无分类器引导(Classifier-free guidance, CFG)已成为现代条件扩散模型的重要组成部分。尽管在实践中非常有效,但CFG提升质量、细节和提示对齐的潜在机制尚未完全理解。我们通过分析CFG在频域中的作用,提出了对其的新颖视角,表明低频和高频对生成质量有不同的影响。具体来说,低频引导控制全局结构和条件对齐,而高频引导主要增强视觉保真度。然而,像标准CFG那样对所有频率应用统一的缩放因子会导致在高缩放因子下过度饱和并降低多样性,而在低缩放因子下则会降低视觉质量。基于这些见解,我们提出了频率解耦引导(frequency-decoupled guidance, FDG),这是一种有效的方法,它将CFG分解为低频和高频分量,并对每个分量应用单独的引导强度。FDG在低引导尺度下提高了图像质量,并通过设计避免了高CFG尺度的缺点。通过对多个数据集和模型进行大量实验,我们证明FDG在保持多样性的同时,持续提升了样本保真度,与CFG相比,FID和召回率均有所改善,从而确立了我们的方法作为标准无分类器引导的即插即用替代方案。
查看 arXiv 页面查看 PDF

评论

Seyedmorteza SadatSeyedmorteza Sadat
论文作者
论文提交者

概括来说:我们展示了在频域中应用无分类器指导能够显著提高低指导尺度下的质量,同时固有地避免了高指导值相关的缺点。

J DJ D

试了一下,这大大提高了我在 v-pred 模型中获得的采样质量,因为我可以使用非常低的低频 CFG 尺度,仍然能获得良好的细节!

总的来说,这是个非常好的主意,我很惊讶直到现在才看到类似的东西。

Seyedmorteza SadatSeyedmorteza Sadat
论文作者
论文提交者

非常感谢您的溢美之词。我们很高兴您喜欢我们的方法。