TeEFusion:融合文本嵌入以提取无分类器引导

发表
Guo-Hua WangGuo-Hua Wang 提交
作者: Minghao Fu, Guo-Hua WangGuo-Hua Wang, Xiaohao Chen, Qing-Guo ChenQing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

摘要

AI 生成总结
TeEFusion 通过将无分类器指导高效蒸馏到文本嵌入中,改进了文本到图像合成,从而实现了更快的推理速度,同时不牺牲图像质量。
文本到图像合成的最新进展主要得益于复杂的采样策略和无分类器引导(CFG),以确保高质量生成。然而,CFG依赖两次前向传播,特别是当与复杂的采样算法结合时,会导致高得令人望而却步的推理成本。为了解决这个问题,我们引入了TeEFusion(文本嵌入融合),这是一种新颖高效的蒸馏方法,它将引导强度直接整合到文本嵌入中,并蒸馏教师模型的复杂采样策略。通过简单地使用线性操作融合条件和无条件文本嵌入,TeEFusion在不增加额外参数的情况下重建所需的引导,同时使学生模型能够通过教师模型的复杂采样方法学习其生成的输出。在SD3等最先进模型上进行的广泛实验表明,我们的方法允许学生模型以更简单、更高效的采样策略密切模仿教师模型的性能。因此,学生模型的推理速度比教师模型快6倍,同时保持图像质量与通过教师模型的复杂采样方法获得的水平相当。代码已公开在 <a href="https://github.com/AIDC-AI/TeEFusion&quot;&gt;github.com/AIDC-AI/TeEFusion&lt;/a&gt;
查看 arXiv 页面查看 PDF

评论

Guo-Hua WangGuo-Hua Wang
论文作者
论文提交者

GitHub: https://github.com/AIDC-AI/TeEFusion
Model: https://huggingface.co/AIDC-AI/TeEFusion