⏶35
上采样重要内容:用于加速扩散Transformer的区域自适应潜在采样
发表
由
Hoigi Seo 提交
作者:
Wongi Jeong,
Kyungryeol Lee,
Hoigi Seo, Se Young Chun

摘要
扩散Transformer已成为U-net扩散模型的替代品,用于高保真图像和视频生成,并提供卓越的可扩展性。然而,其沉重的计算量仍然是实际部署的主要障碍。现有的加速方法主要利用时间维度,例如在不同扩散时间步长之间重用缓存特征。在此,我们提出了区域自适应潜在上采样(RALU),一个无需训练的框架,沿空间维度加速推理。RALU分三个阶段执行混合分辨率采样:1)低分辨率去噪潜在扩散,以有效捕获全局语义结构;2)在全分辨率下对易产生伪影的特定区域进行区域自适应上采样;3)在全分辨率下进行所有潜在上采样,以进行细节细化。为了稳定跨分辨率转换的生成,我们利用噪声时间步长重调度来调整不同分辨率下的噪声水平。我们的方法显著减少了计算量,同时保持了图像质量,在FLUX上实现了高达7.0倍的加速,在Stable Diffusion 3上实现了3.0倍的加速,且性能下降极小。此外,RALU与现有时间加速(如缓存方法)互补,因此可以无缝集成,进一步减少推理延迟,而不影响生成质量。
评论
论文作者
https://github.com/ignoww/RALU
GitHub 仓库现已上线,代码将很快公开。我们非常感谢您的耐心等待——如果您觉得这个项目很有趣,请随时在 GitHub 上给它一个 ⭐️!
> https://github.com/ignoww/RALU
>
> GitHub 仓库现已上线,代码也将很快公开。
> 我们非常感谢您的耐心——如果您觉得这个项目很有趣,请随时在 GitHub 上给它点个 ⭐️!
感谢您的迅速回复和开源代码!我迫不及待地想看看这个仓库,并且会给它点赞。感谢您的工作!
上采样关键区域:用于加速扩散Transformer的区域自适应潜在采样 🚀
还在为扩散模型中缓慢的高分辨率采样而烦恼吗?这篇新论文提出了一种巧妙的解决方案——RALU(区域自适应潜在上采样),一种在不牺牲质量的情况下加速生成的方法。
🧠 核心思想:
RALU分三个阶段工作,而不是在每个地方都应用昂贵的高分辨率去噪:
✨ 无需重新训练,即可获得更快的采样速度(在FLUX上最高可达7.0倍)+ 更少的伪影。这就像在告诉你的模型:“专注于重要的部分!”
🎯 重要性: