JarvisArt:通过智能照片修图代理释放人类艺术创造力

发表
Yunlong LinYunlong Lin 提交
作者: Yunlong LinYunlong Lin, Zixu Lin, linkunjieKunjie Lin, Jinbin Bai, Panwang PanPanwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

摘要

照片修饰已成为当代视觉叙事不可或缺的一部分,它使用户能够捕捉美学并表达创意。虽然Adobe Lightroom等专业工具提供强大的功能,但它们需要大量的专业知识和手动操作。相比之下,现有的基于AI的解决方案提供自动化,但往往受限于可调节性低和泛化性差,无法满足多样化和个性化的编辑需求。为了弥补这一差距,我们引入了JarvisArt,一个由多模态大型语言模型(MLLM)驱动的智能代理,它理解用户意图,模仿专业艺术家的推理过程,并智能协调Lightroom中200多种修饰工具。JarvisArt经历了两个阶段的训练过程:初始的思维链监督微调以建立基本的推理和工具使用技能,随后是用于修饰的群体相对策略优化(GRPO-R),以进一步增强其决策和工具熟练度。我们还提出了代理到Lightroom协议(Agent-to-Lightroom Protocol),以促进与Lightroom的无缝集成。为了评估性能,我们开发了MMArt-Bench,一个从真实用户编辑中构建的新型基准。JarvisArt展示了用户友好的交互、卓越的泛化能力以及对全局和局部调整的精细控制,为智能照片修饰开辟了新途径。值得注意的是,它在MMArt-Bench上,内容保真度的平均像素级指标方面优于GPT-4o 60%,同时保持了相当的指令遵循能力。项目主页:https://jarvisart.vercel.app/
查看 arXiv 页面查看 PDF
JarvisArt:通过智能照片修图代理释放人类艺术创造力

评论

Yunlong LinYunlong Lin
论文作者
论文提交者

封面.png

Yunlong LinYunlong Lin
论文作者
论文提交者

封面2.png

封面3.png

封面4.png