RelationAdapter:结合扩散Transformer学习和迁移视觉关系

发表
Yiren SongYiren Song 提交
作者: Yan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

摘要

受大型语言模型(LLMs)的上下文学习机制启发,一种基于视觉提示的可泛化图像编辑新范式正在兴起。现有的单参考方法通常侧重于样式或外观调整,难以处理非刚性变换。为了解决这些局限性,我们提出利用源-目标图像对来提取并将内容感知编辑意图转移到新的查询图像。为此,我们引入了 RelationAdapter,这是一个轻量级模块,使基于扩散 Transformer (DiT) 的模型能够从少量示例中有效捕获和应用视觉变换。我们还引入了 Relation252K,这是一个包含 218 个不同编辑任务的综合数据集,用于评估模型在视觉提示驱动场景中的泛化能力和适应性。在 Relation252K 上的实验表明,RelationAdapter 显著提高了模型理解和转移编辑意图的能力,从而显著提升了生成质量和整体编辑性能。
查看 arXiv 页面查看 PDF

评论

Yiren SongYiren Song
论文提交者

受大型语言模型(LLMs)上下文学习机制的启发,一种新的可泛化视觉提示图像编辑范式正在兴起。现有单参考方法通常侧重于风格或外观调整,难以处理非刚性变换。为了解决这些限制,我们提出利用源-目标图像对来提取和转移内容感知编辑意图到新的查询图像。为此,我们引入了RelationAdapter,这是一个轻量级模块,使基于Diffusion Transformer (DiT) 的模型能够有效地从少量示例中捕获和应用视觉变换。我们还引入了Relation252K,这是一个包含218个多样化编辑任务的综合数据集,用于评估模型在视觉提示驱动场景中的泛化能力和适应性。在Relation252K上的实验表明,RelationAdapter显著提高了模型理解和转移编辑意图的能力,从而在生成质量和整体编辑性能方面取得了显著提升。