演化缓存以加速您的即用型扩散模型

发表
Matt GwilliamMatt Gwilliam 提交
作者: Ani AggarwalAnirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam

摘要

基于扩散的图像生成模型在生成高质量合成内容方面表现出色,但存在推理速度慢且计算成本高昂的问题。先前的工作试图通过在扩散 Transformer 中跨推理步骤缓存和重用特征来缓解这一问题。然而,这些方法通常依赖于固定的启发式规则,导致加速有限或在不同架构间的泛化能力差。我们提出了用于加速扩散模型的演化缓存 (ECAD),这是一种遗传算法,它仅使用一小部分校准提示,就能学习高效的、针对每个模型的、形成帕累托前沿的缓存调度。ECAD 不需要修改网络参数或参考图像。它提供了显著的推理加速,实现了对质量-延迟权衡的细粒度控制,并能无缝适应不同的扩散模型。值得注意的是,ECAD 学到的调度能够有效地泛化到校准期间未见过的分辨率和模型变体。我们使用多种指标(FID、CLIP、Image Reward)在不同的基准测试(COCO、MJHQ-30k、PartiPrompts)中评估了 PixArt-alpha、PixArt-Sigma 和 FLUX-1.dev 上的 ECAD,证明了其相对于先前方法的一致改进。在 PixArt-alpha 上,ECAD 找到了一个调度,其 COCO FID 比先前的最先进方法提高了 4.47,同时将推理加速从 2.35 倍提高到 2.58 倍。我们的结果表明 ECAD 是一种可扩展且通用的加速扩散推理的方法。我们的项目网站可在 https://aniaggarwal.github.io/ecad 获取,我们的代码可在 https://github.com/aniaggarwal/ecad 获取。
查看 arXiv 页面查看 PDF

评论

Matt GwilliamMatt Gwilliam
论文提交者
摘要

基于扩散的图像生成模型在生成高质量合成内容方面表现出色,但在推理时速度慢且计算成本高。先前的工作试图通过在扩散 Transformer 模型中跨推理步骤缓存和重用特征来缓解这一问题。然而,这些方法通常依赖僵化的启发式规则,导致加速效果有限或跨架构泛化能力差。

我们提出了一种名为 Evolutionary Caching to Accelerate Diffusion models (ECAD) 的方法,这是一种遗传算法,它仅使用一小组校准提示,学习形成帕累托前沿的、高效的、针对特定模型的缓存调度。ECAD 不需要修改网络参数或参考图像。它提供了显著的推理加速,能够对质量-延迟权衡进行精细控制,并能无缝适应不同的扩散模型。

值得注意的是,ECAD 学习到的调度可以有效地泛化到校准期间未见过的分辨率和模型变体。我们在 PixArt-α、PixArt-Σ 和 FLUX-1.dev 上使用多种指标(FID、CLIP、Image Reward)在各种基准测试(COCO、MJHQ-30k、PartiPrompts)中评估了 ECAD,证明了其相对于先前方法的持续改进。在 PixArt-α 上,ECAD 找到了一种调度,其 COCO FID 性能比先前的最新方法提高了 4.47,同时推理速度从 2.35 倍提升到 2.58 倍。