超越简单编辑:X-Planner 用于复杂指令驱动的图像编辑

发表
Chun-Hsiao YehChun-Hsiao Yeh 提交
作者: Chun-Hsiao YehChun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh

摘要

最近基于扩散的图像编辑方法在文本引导任务方面取得了显著进展,但通常难以解释复杂、间接的指令。此外,当前模型经常存在身份保留不佳、意外编辑或严重依赖手动遮罩的问题。为了解决这些挑战,我们引入了 X-Planner,一个基于多模态大型语言模型 (MLLM) 的规划系统,它有效地将用户意图与编辑模型的功能联系起来。X-Planner 采用思维链推理来系统地将复杂指令分解为更简单、清晰的子指令。对于每个子指令,X-Planner 自动生成精确的编辑类型和分割遮罩,消除了手动干预,并确保了局部化、身份保留的编辑。此外,我们提出了一种新颖的自动化管道,用于生成大规模数据以训练 X-Planner,该管道在现有基准和我们新引入的复杂编辑基准上均取得了最先进的结果。
查看 arXiv 页面查看 PDF

评论

Chun-Hsiao YehChun-Hsiao Yeh
论文作者
论文提交者

一个多模态大语言模型(MLLM)规划器,用于将复杂的文本引导图像编辑指令分解为带有控制引导的精确子指令,并确保局部化、保持身份的编辑。