⏶8
MOSAIC:通过对应感知对齐和解纠缠实现多主题个性化生成
发表
由
fu 提交
作者: Dong She,
Siming Fu, Mushui Liu,
Qiaoqiao Jin,
Hualiang Wang, Mu Liu, Jidong Jiang
摘要
多主体个性化生成在合成以多个参考主体为条件的图像时,在维持身份保真度和语义连贯性方面提出了独特的挑战。现有方法由于未能充分模拟不同主体如何在共享的表示空间中进行交互,常常存在身份融合和属性泄露的问题。我们提出了MOSAIC,一个以表示为中心的框架,通过显式的语义对应和正交特征解耦来重新思考多主体生成。我们的关键洞察是,多主体生成需要在表示层面进行精确的语义对齐——确切地知道生成图像中的哪些区域应该关注每个参考体的哪些部分。为了实现这一点,我们引入了SemAlign-MS,这是一个经过细致标注的数据集,提供了多参考主体和目标图像之间以前在该领域不存在的细粒度语义对应关系。在此基础上,我们提出了语义对应注意力损失,以强制执行精确的点对点语义对齐,确保从每个参考体到其指定区域的高一致性。此外,我们开发了多参考解耦损失,将不同主体推入正交注意力子空间,防止特征干扰,同时保留个体身份特征。大量的实验表明,MOSAIC在多个基准测试上取得了最先进的性能。值得注意的是,虽然现有方法通常在超过3个主体后性能会下降,但MOSAIC在4个以上参考主体的情况下仍能保持高保真度,为复杂的多主体合成应用开辟了新的可能性。
评论
论文作者
论文提交者