DeLeaker:用于缓解文本到图像模型中语义泄漏的动态推理时重加权

发表
Mor VenturaMor Ventura 提交
作者: Mor Ventura, Michael Toker, Or Patashnik, Yonatan Belinkov, Roi Reichart

摘要

AI 生成总结
DeLeaker 通过在扩散过程中动态重新加权注意力图来减轻文本到图像模型中的语义泄漏,在不影响质量的情况下优于现有方法。
文本到图像 (T2I) 模型发展迅速,但它们仍然容易受到语义泄漏的影响,即不同实体之间语义相关特征的意外传输。现有的缓解策略通常是基于优化的或依赖于外部输入的。我们引入了 DeLeaker,这是一种轻量级、无需优化的推理时方法,通过直接干预模型的注意力图来缓解泄漏。在整个扩散过程中,DeLeaker 动态地重新加权注意力图,以抑制过度的跨实体交互,同时增强每个实体的身份。为了支持系统评估,我们引入了 SLIM (Semantic Leakage in IMages),这是第一个专门用于语义泄漏的数据集,包含 1,130 个人工验证的样本,涵盖各种场景,以及一个新颖的自动评估框架。实验表明,DeLeaker 始终优于所有基线,即使在它们提供了外部信息的情况下,也能实现有效的泄漏缓解,而不会损害保真度或质量。这些结果强调了注意力控制的价值,并为更语义精确的 T2I 模型铺平了道路。
查看 arXiv 页面查看 PDF

评论

Mor VenturaMor Ventura
论文提交者

qualitative_examples_arrows-1