⏶23
理解生成式AI在日常图像编辑任务中的能力
发表
由
Franck Dernoncourt 提交
作者:
Mohammad Reza Taesiri,
Brandon Collins,
Logan Bolton,
Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen


摘要
生成式 AI (GenAI) 在自动化日常图像编辑任务方面具有巨大潜力,特别是在 2025 年 3 月 25 日 GPT-4o 最新发布之后。然而,人们最常希望编辑哪些主体?他们希望执行哪类编辑操作(例如,移除或风格化主体)?人们更喜欢结果可预测的精确编辑,还是高度创意的编辑?通过理解真实世界请求的特点以及自由职业照片编辑“高手”进行的相应编辑,我们能否从中吸取教训来改进基于 AI 的编辑器,并确定当前哪些类型的请求可以由 AI 编辑器成功处理?在本文中,我们提出一项独特的研究来解决这些问题,通过分析过去 12 年(2013-2025 年)Reddit 社区上的 8.3 万份请求,该社区收集了 30.5 万份 PSR-wizard 编辑。根据人工评分,大约只有 33% 的请求可以由最佳 AI 编辑器完成(包括 GPT-4o、Gemini-2.0-Flash、SeedEdit)。有趣的是,AI 编辑器在需要精确编辑的低创意请求上表现较差,比在更开放的任务上表现差。它们常常难以保留人物和动物的身份,并经常进行非请求的润饰。另一方面,VLM 判别器(例如 o1)的表现与人类判别器不同,可能更偏好 AI 编辑而不是人工编辑。代码和定性示例可在:https://psrdataset.github.io 获取。
评论
论文作者
论文提交者
此评论已隐藏。