通过分层记忆改进图像生成的编辑性

发表
Daneul KimDaneul Kim 提交
作者: Daneul KimDaneul Kim, Jaeah LeeJaeah Lee, Jaesik Park

摘要

大多数现实世界的图像编辑任务需要多次顺序编辑才能达到预期效果。当前的编辑方法主要为单对象修改而设计,在顺序编辑方面存在困难:特别是在维护先前的编辑以及将新对象自然地融入现有内容方面。这些限制显著阻碍了需要修改多个对象同时保留其上下文关系的复杂编辑场景。我们通过两项关键提议解决了这一基本挑战:一是支持粗略的掩码输入,该输入在自然地整合新元素的同时保留现有内容;二是支持跨多次修改的一致编辑。我们的框架通过层级记忆来实现这一点,该记忆存储先前编辑中的潜在表示和提示嵌入。我们提出了背景一致性引导,它利用记忆的潜在变量来保持场景连贯性;以及跨注意力中的多查询解耦,它确保了对现有内容的自然适应。为了评估我们的方法,我们提出了一个新的基准数据集,其中包含语义对齐指标和交互式编辑场景。通过综合实验,我们展示了在迭代图像编辑任务中的卓越性能,只需最少用户努力,仅需要粗略的掩码,即可在多次编辑步骤中保持高质量结果。
查看 arXiv 页面查看 PDF

评论

Daneul KimDaneul Kim
论文作者
论文提交者

项目页面: https://carpedkm.github.io/projects/improving_edit/index.html