几何可编辑且外观保持的物体合成

发表
JIANTAO LINJIANTAO LIN 提交
作者: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen

摘要

通用物体合成 (GOC) 旨在将目标物体无缝集成到具有所需几何属性的背景场景中,同时保留其精细的外观细节。最近的方法推导语义嵌入并将其集成到先进的扩散模型中,以实现几何可编辑的生成。然而,这些高度紧凑的嵌入仅编码高层语义线索,不可避免地会丢弃精细的外观细节。我们引入了一种解耦几何可编辑和外观保持扩散 (DGAD) 模型,它首先利用语义嵌入隐式捕获所需的几何变换,然后采用交叉注意力检索机制将精细外观特征与几何编辑后的表示对齐,从而在物体合成中实现精确的几何编辑和忠实的外观保留。具体而言,DGAD 基于 CLIP/DINO 派生和参考网络来提取语义嵌入和外观保持表示,然后以解耦的方式无缝集成到编码和解码流程中。我们首先将语义嵌入集成到预训练的扩散模型中,这些模型表现出强大的空间推理能力,以隐式捕获物体几何形状,从而促进灵活的物体操作并确保有效的可编辑性。然后,我们设计了一个密集交叉注意力机制,利用隐式学习的物体几何形状来检索外观特征并将其与相应区域进行空间对齐,从而确保忠实的外观一致性。在公共基准上的大量实验证明了所提出的 DGAD 框架的有效性。
查看 arXiv 页面查看 PDF

评论

JIANTAO LINJIANTAO LIN
论文提交者

几何可编辑且外观保留的对象合成