⏶27
Agent Banana:利用智能体思维与工具调用实现高保真图像编辑
发表
由
Zhengzhong Tu 提交
作者: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu,
Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu,
Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
摘要
AI 生成总结
Agent Banana 通过一个具有上下文折叠和图像层分解的分层框架,解决了基于指令的图像编辑难题,实现了超高分辨率下的高保真、多轮编辑。我们研究了专业工作流下的基于指令的图像编辑,并识别出三个持续存在的挑战:(i) 编辑器经常过度编辑,修改了超出用户意图的内容;(ii) 现有模型主要是单轮的,而多轮编辑可能会改变物体的忠实度;(iii) 约 1K 分辨率的评估与经常处理超高清图像(如 4K)的真实工作流不匹配。我们提出了 Agent Banana,这是一个分层智能体规划器-执行器框架,用于高保真、物体感知、审慎的编辑。Agent Banana 引入了两个关键机制:(1) 上下文折叠 (Context Folding),将长交互历史压缩为结构化记忆,以实现稳定的长时程控制;(2) 图像图层分解 (Image Layer Decomposition),执行局部图层化编辑,以保留非目标区域,同时支持原生分辨率输出。为了支持严格评估,我们构建了 HDD-Bench,这是一个高清对话式基准测试,具有可验证的分步目标和原生 4K 图像(1180 万像素),用于诊断长时程失败。在 HDD-Bench 上,Agent Banana 实现了最佳的多轮一致性和背景忠实度(例如 IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12),同时在指令遵循方面保持竞争力,且在标准单轮编辑基准上表现强劲。我们希望这项工作能推动可靠、专业级的智能体图像编辑及其在真实工作流中的集成。
Agent Banana:具有智能体思维和工具化的高保真图像编辑