⏶36
无需人工:自主高质量图像编辑三元组挖掘
发表
由
Irina Tolstykh 提交

作者:
Maksim Kuprashevich,
Grigorii Alekseenko,
Irina Tolstykh,
Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan,
Aleksandr Gordeev



摘要
生成式建模的最新进展使得图像编辑助手能够无需额外用户输入即可遵循自然语言指令。它们的监督训练需要数百万个三元组:原始图像、指令和编辑后的图像。然而,挖掘像素级精确的例子是困难的。每次编辑都必须只影响提示指定的区域,保持风格一致性,尊重物理合理性,并保留视觉吸引力。缺乏鲁棒的自动化编辑质量度量标准阻碍了大规模的可靠自动化。我们提出了一种自动化、模块化的管道,可以在不同领域、分辨率、指令复杂度和风格下挖掘高保真三元组。我们的系统基于公共生成模型构建,无需人工干预即可运行,它使用任务调优的Gemini验证器直接对指令遵循度和美观性进行评分,从而无需任何分割或接地模型。反演和组合式自举将挖掘出的集合扩大了大约2.2倍,从而实现了大规模高保真训练数据。通过自动化最重复的标注步骤,该方法实现了无需人工标注努力的全新规模训练。为了使这一资源密集型领域的研究大众化,我们发布了NHR-Edit:一个包含35.8万个高质量三元组的开放数据集。在最大的跨数据集评估中,它超越了所有公共替代方案。我们还发布了Bagel-NHR-Edit,一个开源的微调Bagel模型,它在我们的实验中实现了最先进的指标。
项目页面:https://riko0.github.io/No-Humans-Required/