aMUSEd:开源MUSE复现

01月03日发表
04月12日由 AKAK 提交
作者: Suraj PatilSuraj Patil, William Berman, Robin Rombach, Patrick von PlatenPatrick von Platen

摘要

我们提出了 aMUSEd,这是一个开源的、轻量级的掩码图像模型(MIM),用于基于 MUSE 的文本到图像生成。aMUSEd 只有 MUSE 参数量的 10%,专注于快速图像生成。我们认为,与潜在扩散(文本到图像生成的主流方法)相比,MIM 仍未得到充分探索。与潜在扩散相比,MIM 需要更少的推理步骤,并且更易于解释。此外,MIM 可以通过单张图像进行微调,以学习额外的风格。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性,并发布可复现的训练代码,来鼓励进一步探索 MIM。我们还发布了两个模型的检查点,它们可以直接生成 256x256 和 512x512 分辨率的图像。

评论

Sayak PaulSayak Paul

模型:https://hf.co/amused

daolaodaolao

一位老人站在一座古老的桥上。他记得年轻时是如何潜水的。他想潜水,但他不敢

Julien BLANCHONJulien BLANCHON
认识 aMUSEd:文本到图像生成领域的轻量级革命

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/QB-hWQo2b8c09RycfJaUo.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 Twitter: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg