⏶15
Pico-Banana-400K:一个用于文本引导图像编辑的大规模数据集
发表
由
taesiri 提交
作者: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
摘要
AI 生成总结
Pico-Banana-400K 是一个大规模、高质量的指令式图像编辑数据集,包含多样化的编辑对、多轮编辑、偏好子集以及长短指令对,支持全面的研究和基准测试。多模态模型的最新进展展示了卓越的文本引导图像编辑能力,
GPT-4o 和 Nano-Banana 等系统树立了新的基准。
然而,由于缺乏从真实图像构建的大规模、高质量和开放获取的数据集,
研究界的进展仍然受到限制。我们引入了 Pico-Banana-400K,
一个用于基于指令的图像编辑的综合性 40 万图像数据集。
我们的数据集是利用 Nano-Banana 从 OpenImages 集合中的真实照片生成多样化编辑对而构建的。
Pico-Banana-400K 与以前的合成数据集的区别在于我们对质量和多样性的系统化方法。
我们采用细粒度的图像编辑分类法,通过基于 MLLM 的质量评分和精心策划,
确保全面覆盖编辑类型,同时保持精确的内容保留和指令忠实性。
除了单轮编辑,Pico-Banana-400K 还支持对复杂编辑场景的研究。
该数据集包含三个专门的子集:(1) 一个 7.2 万示例的多轮集合,
用于研究连续修改中的序列编辑、推理和规划;(2) 一个 5.6 万示例的偏好子集,
用于对齐研究和奖励模型训练;(3) 配对的长短编辑指令,用于开发指令重写和摘要能力。
通过提供这种大规模、高质量和任务丰富的资源,
Pico-Banana-400K 为训练和基准测试下一代文本引导图像编辑模型奠定了坚实的基础。
多模态模型在文本引导图像编辑方面取得了显著进展,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,研究界在缺乏从真实图像构建的大规模、高质量、开放可访问数据集的情况下,其进展仍然受限。我们引入了 Pico-Banana-400K,这是一个包含 40 万张图像的综合数据集,用于基于指令的图像编辑。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成多样化的编辑对来构建的。Pico-Banana-400K 与以前的合成数据集的区别在于我们对质量和多样性的系统方法。我们采用细粒度的图像编辑分类法,通过基于 MLLM 的质量评分和精心策划,确保编辑类型的全面覆盖,同时保持精确的内容保留和指令忠实度。除了单轮编辑,Pico-Banana-400K 还支持对复杂编辑场景的研究。该数据集包括三个专门的子集:(1) 一个 7.2 万例的多轮集合,用于研究连续修改中的顺序编辑、推理和规划;(2) 一个 5.6 万例的偏好子集,用于对齐研究和奖励模型训练;以及 (3) 配对的长短编辑指令,用于开发指令重写和摘要能力。通过提供这一大规模、高质量、任务丰富的资源,Pico-Banana-400K 为训练和基准测试下一代文本引导图像编辑模型奠定了坚实的基础。