LCM-LoRA:通用Stable-Diffusion加速模块

11月09日发表
04月12日由 AKAK 提交
作者: Simian LuoSimian Luo, Yiqin TanYiqin Tan, Suraj PatilSuraj Patil, Daniel GuDaniel Gu, Patrick von PlatenPatrick von Platen, Apolinário from multimodal AI artApolinário Passos, Longbo Huang, Jian LiJian Li, Hang ZhaoHang Zhao

摘要

潜在一致性模型(LCM)在加速文本到图像生成任务方面取得了令人印象深刻的性能,只需最少的推理步骤即可生成高质量图像。LCM 从预训练的潜在扩散模型(LDM)中提炼而来,仅需约 32 个 A100 GPU 训练小时。本报告进一步扩展了 LCM 在两个方面的潜力:首先,通过将 LoRA 蒸馏应用于 Stable-Diffusion 模型,包括 SD-V1.5、SSD-1B 和 SDXL,我们将 LCM 的范围扩展到更大的模型,内存消耗显著降低,同时实现了卓越的图像生成质量。其次,我们将通过 LCM 蒸馏获得的 LoRA 参数识别为通用的 Stable-Diffusion 加速模块,名为 LCM-LoRA。LCM-LoRA 可以直接插入到各种 Stable-Diffusion 微调模型或 LoRA 中,无需训练,因此代表了适用于各种图像生成任务的通用加速器。与之前的数值 PF-ODE 求解器(如 DDIM、DPM-Solver)相比,LCM-LoRA 可以被视为一种插件式神经 PF-ODE 求解器,具有强大的泛化能力。项目页面:https://github.com/luosiallen/latent-consistency-model

评论

J BluJ Blu

做得好!你是如何保持随机种子的?在 huggingface Space 中,它会保持上次生成的种子,除非你手动更改它。我尝试了 -1,但是不起作用。