⏶12

Wuerstchen：高效的文本到图像模型预训练

06月01日发表

04月12日由

AK 提交

作者:

Pablo Pernias,

Dominic Rampas,

Marc Aubreville

摘要

我们介绍了 Wuerstchen，这是一种用于文本到图像合成的新颖技术，它将有竞争力的性能与前所未有的成本效益以及在受限硬件上轻松训练相结合。基于机器学习的最新进展，我们的方法在强大的潜在图像压缩率下利用潜在扩散策略，显著降低了通常与最先进模型相关的计算负担，同时保持甚至提高了生成图像的质量。Wuerstchen 在推理时实现了显着的提速，从而使实时应用更可行。我们方法的一个关键优势在于其适度的训练要求，仅需 9,200 个 GPU 小时，在不影响最终性能的情况下大幅削减了通常的成本。在与最先进技术的比较中，我们发现该方法产生了强大的竞争力。本文为优先考虑性能和计算可访问性的新研究方向打开了大门，从而普及了复杂人工智能技术的使用。通过 Wuerstchen，我们展示了文本到图像合成领域令人信服的进步，为未来研究提供了创新的探索路径。

查看 arXiv 页面查看 PDF

Patrick von Platen

@dome272 在图 6 中：

Screenshot from 2023-06-02 09-50-59.png

您正在显示不同批量大小的推理时间。两个问题：

1.) 您使用了什么硬件（GPU / CPU）？
2.) 这与 SD 相比如何？Wuerstchen 比 SD 快/慢多少？

Patrick von Platen

此外，我们真的需要先验的 60 个采样步骤吗？如果我们能将其降至 20 左右，这个模型就会非常快

Pablo Pernías

论文作者

> 此外，我们真的需要先验的 60 个采样步骤吗？如果我们能将其降至 20 左右，这个模型就会非常快

我们正在进行一些专门针对尝试减少所需采样步骤数量的实验。我们已经大大提高了阶段 B（升采样器）的速度，并且我们正在尝试看看相同的方法是否可以帮助减少阶段 C（text2img 先验）的采样步骤数量 🤞

Dominic Rampas

论文作者

> @dome272 在图 6 中：

> Screenshot from 2023-06-02 09-50-59.png

> 您正在显示不同批量大小的推理时间。两个问题：

> - 1.) 您使用了什么硬件（GPU / CPU）？

> - 2.) 这与 SD 相比如何？Wuerstchen 比 SD 快/慢多少？

嘿 Patrick，

是 A100
速度与 SD 相似，但可能有很多可以优化的，这可以使该模型非常快！

我们正在努力！

Sayak Paul

一种立即实现这一目标的方法可能是使用 torch.compile() 和 token 合并。我知道后者可能会导致视觉质量下降（但较小的 token 比率不会造成太大损害）。

Tolga Cangöz

此评论已隐藏。