⏶23

理解生成式AI在日常图像编辑任务中的能力

05月22日发表

05月23日由 Franck Dernoncourt 提交

作者: Mohammad Reza Taesiri, Franck Dernoncourt Brandon Collins, Logan Bolton, Viet Lai Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen

摘要

生成式 AI (GenAI) 在自动化日常图像编辑任务方面具有巨大潜力，特别是在 2025 年 3 月 25 日 GPT-4o 最新发布之后。然而，人们最常希望编辑哪些主体？他们希望执行哪类编辑操作（例如，移除或风格化主体）？人们更喜欢结果可预测的精确编辑，还是高度创意的编辑？通过理解真实世界请求的特点以及自由职业照片编辑“高手”进行的相应编辑，我们能否从中吸取教训来改进基于 AI 的编辑器，并确定当前哪些类型的请求可以由 AI 编辑器成功处理？在本文中，我们提出一项独特的研究来解决这些问题，通过分析过去 12 年（2013-2025 年）Reddit 社区上的 8.3 万份请求，该社区收集了 30.5 万份 PSR-wizard 编辑。根据人工评分，大约只有 33% 的请求可以由最佳 AI 编辑器完成（包括 GPT-4o、Gemini-2.0-Flash、SeedEdit）。有趣的是，AI 编辑器在需要精确编辑的低创意请求上表现较差，比在更开放的任务上表现差。它们常常难以保留人物和动物的身份，并经常进行非请求的润饰。另一方面，VLM 判别器（例如 o1）的表现与人类判别器不同，可能更偏好 AI 编辑而不是人工编辑。代码和定性示例可在：https://psrdataset.github.io 获取。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

此评论已隐藏。