MonetGPT:解决谜题提升 MLLMs 的图像润饰能力

发表
Niladri Shekhar DuttNiladri Shekhar Dutt 提交
作者: Niladri Shekhar DuttNiladri Shekhar Dutt, Duygu CeylanDuygu Ceylan, Niloy J. Mitra

摘要

照片修饰是原始照片后期处理中的一项重要任务。生成式编辑,通过文本或笔触引导,为用户提供了一种新的易用工具,但它很容易以不可接受且不可预测的方式改变原始物体的特征。相比之下,传统的程序化编辑(照片编辑工具(如 Gimp、Lightroom)普遍支持)虽然保守,但仍受到专业人士的青睐。不幸的是,专业级的照片修饰涉及许多单个的程序化编辑操作,这对于大多数新手来说很难规划。在本文中,我们探讨多模态大型语言模型(MLLM)是否可以被训练来评估原始照片、提出合适的补救措施,并最终利用一组预设的程序化图像操作来实现这些措施。我们证明,通过训练 MLLM 解决专门设计的视觉谜题,可以首先让它们了解底层的图像处理操作。随后,这种具备操作意识的 MLLM 既可以规划也可以提出编辑序列。为了促进训练,给定一组专家编辑的照片,我们通过程序化地修改专家编辑,并基于视觉调整对预训练的 LLM 进行引导,以合成用于微调的推理过程。所提出的照片修饰操作在设计上用户易于理解,能保留物体细节和分辨率,并且可以选择性地覆盖。我们在各种测试示例上评估了我们的方法,并在可解释性和特征保留方面,展示了相对于现有生成式及其他程序化替代方法的优势。代码、数据、模型和补充结果可以在我们的项目网站 https://monetgpt.github.io 上找到。
查看 arXiv 页面查看 PDF

评论

Niladri Shekhar DuttNiladri Shekhar Dutt
论文作者
论文提交者

项目网站:https://monetgpt.github.io/