上采样重要内容:用于加速扩散Transformer的区域自适应潜在采样

发表
Hoigi SeoHoigi Seo 提交
作者: wongiWongi Jeong, Kyungryeol LeeKyungryeol Lee, Hoigi SeoHoigi Seo, Se Young Chun

摘要

扩散Transformer已成为U-net扩散模型的替代品,用于高保真图像和视频生成,并提供卓越的可扩展性。然而,其沉重的计算量仍然是实际部署的主要障碍。现有的加速方法主要利用时间维度,例如在不同扩散时间步长之间重用缓存特征。在此,我们提出了区域自适应潜在上采样(RALU),一个无需训练的框架,沿空间维度加速推理。RALU分三个阶段执行混合分辨率采样:1)低分辨率去噪潜在扩散,以有效捕获全局语义结构;2)在全分辨率下对易产生伪影的特定区域进行区域自适应上采样;3)在全分辨率下进行所有潜在上采样,以进行细节细化。为了稳定跨分辨率转换的生成,我们利用噪声时间步长重调度来调整不同分辨率下的噪声水平。我们的方法显著减少了计算量,同时保持了图像质量,在FLUX上实现了高达7.0倍的加速,在Stable Diffusion 3上实现了3.0倍的加速,且性能下降极小。此外,RALU与现有时间加速(如缓存方法)互补,因此可以无缝集成,进一步减少推理延迟,而不影响生成质量。
查看 arXiv 页面查看 PDF

评论

Hoigi SeoHoigi Seo
论文作者
论文提交者

上采样关键区域:用于加速扩散Transformer的区域自适应潜在采样 🚀

还在为扩散模型中缓慢的高分辨率采样而烦恼吗?这篇新论文提出了一种巧妙的解决方案——RALU(区域自适应潜在上采样),一种在不牺牲质量的情况下加速生成的方法。

🧠 核心思想:

RALU分三个阶段工作,而不是在每个地方都应用昂贵的高分辨率去噪:

1.  对整张图像进行低分辨率去噪以获得全局结构

2.  仅在可能出现伪影的地方进行选择性高分辨率精修

3.  最终进行全局高分辨率处理以完善所有细节

✨ 无需重新训练,即可获得更快的采样速度(在FLUX上最高可达7.0倍)+ 更少的伪影。这就像在告诉你的模型:“专注于重要的部分!”

🎯 重要性:

• 适用于最先进的预训练扩散Transformer(无需微调!)

• 降低计算成本同时保持质量

• 对于实时或资源受限环境中的高分辨率图像生成前景广阔
hanhan

很棒的论文!我想问一下,这篇论文的代码会开源吗?

wongiwongi
论文作者

https://github.com/ignoww/RALU

GitHub 仓库现已上线,代码将很快公开。我们非常感谢您的耐心等待——如果您觉得这个项目很有趣,请随时在 GitHub 上给它一个 ⭐️!

hanhan

> https://github.com/ignoww/RALU

>

> GitHub 仓库现已上线,代码也将很快公开。

> 我们非常感谢您的耐心——如果您觉得这个项目很有趣,请随时在 GitHub 上给它点个 ⭐️!

感谢您的迅速回复和开源代码!我迫不及待地想看看这个仓库,并且会给它点赞。感谢您的工作!

MeiYiMeiYi

这对于像Wan2.1这样的视频模型来说会非常有用。