IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器

08月13日发表
04月12日由 AKAK 提交
作者: Hu Ye, Jun ZhangJun Zhang, Sibo Liu, Xiao Han, Wei Yang

摘要

近年来,大型文本到图像扩散模型在创建高保真图像方面表现出了强大的生成能力。然而,仅使用文本提示生成所需的图像非常棘手,因为它通常涉及复杂的提示工程。图像提示是文本提示的替代方案,正如俗话所说:“一张图片胜过千言万语”。尽管从预训练模型直接微调的现有方法有效,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控制不兼容。在本文中,我们提出了 IP-Adapter,这是一种有效且轻量级的适配器,用于为预训练的文本到图像扩散模型实现图像提示功能。我们的 IP-Adapter 的关键设计是解耦的交叉注意力机制,它分离了文本特征和图像特征的交叉注意力层。尽管我们的方法很简单,但只有 22M 参数的 IP-Adapter 可以实现与完全微调的图像提示模型相当甚至更好的性能。由于我们冻结了预训练的扩散模型,因此提出的 IP-Adapter 不仅可以推广到从同一基础模型微调的其他自定义模型,还可以推广到使用现有可控工具的可控生成。得益于解耦的交叉注意力策略,图像提示也可以与文本提示很好地协同工作,以实现多模态图像生成。项目页面可在 https://ip-adapter.github.io 获取。

评论

Julien BLANCHONJulien BLANCHON
AI 艺术的革命:IP-Adapter 如何增强文本到图像模型!

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/RwaLziNF_c9nEHJUqEEi3.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 Twitter: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg