⏶61

JarvisArt：通过智能照片修图代理释放人类艺术创造力

06月21日发表

06月25日由 Yunlong Lin 提交

作者: Yunlong Lin, Zixu Lin, linkunjie Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

摘要

照片修饰已成为当代视觉叙事不可或缺的一部分，它使用户能够捕捉美学并表达创意。虽然Adobe Lightroom等专业工具提供强大的功能，但它们需要大量的专业知识和手动操作。相比之下，现有的基于AI的解决方案提供自动化，但往往受限于可调节性低和泛化性差，无法满足多样化和个性化的编辑需求。为了弥补这一差距，我们引入了JarvisArt，一个由多模态大型语言模型（MLLM）驱动的智能代理，它理解用户意图，模仿专业艺术家的推理过程，并智能协调Lightroom中200多种修饰工具。JarvisArt经历了两个阶段的训练过程：初始的思维链监督微调以建立基本的推理和工具使用技能，随后是用于修饰的群体相对策略优化（GRPO-R），以进一步增强其决策和工具熟练度。我们还提出了代理到Lightroom协议（Agent-to-Lightroom Protocol），以促进与Lightroom的无缝集成。为了评估性能，我们开发了MMArt-Bench，一个从真实用户编辑中构建的新型基准。JarvisArt展示了用户友好的交互、卓越的泛化能力以及对全局和局部调整的精细控制，为智能照片修饰开辟了新途径。值得注意的是，它在MMArt-Bench上，内容保真度的平均像素级指标方面优于GPT-4o 60%，同时保持了相当的指令遵循能力。项目主页：https://jarvisart.vercel.app/。

查看 arXiv 页面查看 PDF