⏶61
JarvisArt:通过智能照片修图代理释放人类艺术创造力
发表
由
Yunlong Lin 提交

作者:
Yunlong Lin, Zixu Lin,
Kunjie Lin, Jinbin Bai,
Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan



摘要
照片修饰已成为当代视觉叙事不可或缺的一部分,它使用户能够捕捉美学并表达创意。虽然Adobe Lightroom等专业工具提供强大的功能,但它们需要大量的专业知识和手动操作。相比之下,现有的基于AI的解决方案提供自动化,但往往受限于可调节性低和泛化性差,无法满足多样化和个性化的编辑需求。为了弥补这一差距,我们引入了JarvisArt,一个由多模态大型语言模型(MLLM)驱动的智能代理,它理解用户意图,模仿专业艺术家的推理过程,并智能协调Lightroom中200多种修饰工具。JarvisArt经历了两个阶段的训练过程:初始的思维链监督微调以建立基本的推理和工具使用技能,随后是用于修饰的群体相对策略优化(GRPO-R),以进一步增强其决策和工具熟练度。我们还提出了代理到Lightroom协议(Agent-to-Lightroom Protocol),以促进与Lightroom的无缝集成。为了评估性能,我们开发了MMArt-Bench,一个从真实用户编辑中构建的新型基准。JarvisArt展示了用户友好的交互、卓越的泛化能力以及对全局和局部调整的精细控制,为智能照片修饰开辟了新途径。值得注意的是,它在MMArt-Bench上,内容保真度的平均像素级指标方面优于GPT-4o 60%,同时保持了相当的指令遵循能力。项目主页:https://jarvisart.vercel.app/。

评论

论文作者
论文提交者