上下文编辑:利用大规模扩散Transformer中的上下文生成实现指令式图像编辑

发表
AKAK 提交
作者: Zechuan Zhang, 谢集Ji Xie, Yu Lu, Zongxin Yang, Yi Yang

摘要

基于指令的图像编辑通过自然语言提示实现了鲁棒的图像修改,然而,现有方法面临精度与效率之间的权衡。微调方法需要大量的计算资源和大型数据集,而免训练技术在指令理解和编辑质量方面存在不足。我们通过利用大规模Diffusion Transformer (DiT) 增强的生成能力及其原生的上下文感知能力来解决这一难题。我们的解决方案提出了三项贡献:(1) 一个用于实现零样本指令遵循的情境感知编辑框架,利用情境感知提示,避免结构性更改;(2) 一种LoRA-MoE混合微调策略,增强了灵活性,具有高效适应性和动态专家路由,无需大量重新训练;(3) 一种推理时的早期过滤方法,利用视觉-语言模型 (VLM) 在早期选择更好的初始噪声,从而提高编辑质量。大量评估表明我们的方法具有优越性:与传统基线相比,它超越了现有最先进的方法,同时仅需要0.5%的训练数据和1%的可训练参数。这项工作建立了一个新的范例,实现了高精度而又高效的指令引导编辑。代码和演示可在 https://river-zhang.github.io/ICEdit-gh-pages/ 找到。
查看 arXiv 页面查看 PDF

评论

谢集谢集
论文作者

HuggingFace 演示 在这里!