⏶22
Mind-the-Glitch:用于检测主体驱动生成中不一致之处的视觉对应
发表
由
Abdelrahman Eldesokey 提交
作者:
Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
摘要
AI 生成总结
一种新颖的方法将扩散模型骨干的视觉和语义特征解耦,以量化和定位主题驱动的图像生成中的视觉不一致性。我们提出了一种新颖的方法,用于从预训练扩散模型的骨干网络中解耦视觉和语义特征,从而能够以类似于成熟的语义对应关系的方式实现视觉对应。虽然扩散模型骨干网络以编码丰富的语义特征而闻名,但它们也必须包含视觉特征来支持其图像合成能力。然而,由于缺乏标注数据集,分离这些视觉特征是具有挑战性的。为了解决这个问题,我们引入了一个自动化流程,该流程根据现有的以主题为驱动的图像生成数据集构建具有标注语义和视觉对应关系的图像对,并设计了一个对比架构来分离这两种特征类型。利用解耦的表示,我们提出了一种新指标——视觉语义匹配(VSM),该指标量化了以主题为驱动的图像生成中的视觉不一致性。实证结果表明,我们的方法在量化视觉不一致性方面优于基于全局特征的指标,如 CLIP、DINO 和视觉-语言模型,同时还能实现不一致区域的空间定位。据我们所知,这是第一种同时支持以主题为驱动的生成中不一致性的量化和定位的方法,为推进这项任务提供了宝贵的工具。项目页面:https://abdo-eldesokey.github.io/mind-the-glitch/
NeurIPS 2025(Spotlight)
项目页面:https://abdo-eldesokey.github.io/mind-the-glitch/