D2D:检测器到可微分评判器,用于改善文生图中的计算能力

发表
Nobline YooNobline Yoo 提交
作者: Nobline YooNobline Yoo, Olga Russakovsky, Ye Zhu

摘要

AI 生成总结
一种新颖的框架,Detector-to-Differentiable (D2D),将不可微分的检测模型转换为可微分的 critic,以提高文本到图像扩散模型中的物体计数准确性,同时对图像质量的影响最小。
文本到图像(T2I)扩散模型在语义对齐方面取得了强大的性能,但它们在生成提示中指定的正确数量的对象方面仍然存在困难。现有方法通常将辅助计数网络作为外部批评器来增强数值能力。然而,由于这些批评器必须在生成过程中提供梯度引导,它们被限制为基于回归的模型,这些模型本质上是可微分的,从而排除了具有卓越计数能力的基于检测器的模型,因为它们的通过枚举计数的性质是不可微分的。为了克服这个限制,我们提出了 Detector-to-Differentiable(D2D),一个新颖的框架,它将不可微分的检测模型转换为可微分的批评器,从而利用其卓越的计数能力来指导数值生成。具体来说,我们设计了自定义激活函数,将检测器 logits 转换为软二进制指示符,然后使用这些指示符在推理时使用预训练的 T2I 模型优化噪声先验。我们在 SDXL-Turbo、SD-Turbo 和 Pixart-DMD 上针对四种不同复杂度的基准(低密度、高密度和多对象场景)进行了广泛实验,证明了对象计数准确性的一致和显著改进(例如,在 D2D-Small(一个包含 400 个提示的低密度基准)上提升高达 13.7%),同时总体图像质量和计算开销降到最低。
查看 arXiv 页面查看 PDF

评论

Nobline YooNobline Yoo
论文作者
论文提交者

我们展示了一种将高精度但不可微分的检测器转换为可微分评论器的新方法,以提高文本到图像生成中的数字能力。