⏶12
Wuerstchen:高效的文本到图像模型预训练
06月01日发表
04月12日由
AK 提交

作者:
Pablo Pernias,
Dominic Rampas,
Marc Aubreville

摘要
我们介绍了 Wuerstchen,这是一种用于文本到图像合成的新颖技术,它将有竞争力的性能与前所未有的成本效益以及在受限硬件上轻松训练相结合。基于机器学习的最新进展,我们的方法在强大的潜在图像压缩率下利用潜在扩散策略,显著降低了通常与最先进模型相关的计算负担,同时保持甚至提高了生成图像的质量。Wuerstchen 在推理时实现了显着的提速,从而使实时应用更可行。我们方法的一个关键优势在于其适度的训练要求,仅需 9,200 个 GPU 小时,在不影响最终性能的情况下大幅削减了通常的成本。在与最先进技术的比较中,我们发现该方法产生了强大的竞争力。本文为优先考虑性能和计算可访问性的新研究方向打开了大门,从而普及了复杂人工智能技术的使用。通过 Wuerstchen,我们展示了文本到图像合成领域令人信服的进步,为未来研究提供了创新的探索路径。
@dome272 在图 6 中:
您正在显示不同批量大小的推理时间。两个问题:
1.) 您使用了什么硬件(GPU / CPU)?
2.) 这与 SD 相比如何?Wuerstchen 比 SD 快/慢多少?