⏶20
MultiRef: 基于多视觉参考的可控图像生成
发表
由
Chen Dongping 提交

作者: Ruoxi Chen, Dongping Chen, Siyuan Wu,
Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna

摘要
视觉设计师很自然地从多种视觉参考中汲取灵感,将不同的元素和美学原则结合起来创作艺术品。然而,当前的图像生成框架主要依赖于单一来源的输入——无论是文本提示还是单个参考图像。在本文中,我们专注于使用多个视觉参考进行可控图像生成的任务。我们引入了 MultiRef-bench,这是一个严格的评估框架,包含 990 个合成样本和 1,000 个真实世界样本,这些样本需要整合来自多个参考图像的视觉内容。合成样本是通过我们的数据引擎 RefBlend 合成生成的,包含 10 种参考类型和 33 种参考组合。在 RefBlend 的基础上,我们进一步构建了一个包含 3.8 万张高质量图像的 MultiRef 数据集,以促进进一步的研究。我们对三个交错式图像-文本模型(即 OmniGen、ACE 和 Show-o)以及六个代理框架(例如 ChatDiT 和 LLM + SD)进行的实验表明,即使是最先进的系统在多参考条件化方面也存在困难,最好的模型 OmniGen 在合成样本中平均仅达到 66.6% 的准确率,在真实世界案例中平均仅达到 79.0% 的准确率,远低于理想答案。这些发现为开发更灵活、更像人类的创意工具提供了宝贵的方向,这些工具可以有效地整合多个视觉灵感来源。数据集可公开获取,网址为:https://multiref.github.io/。
🚀 新预印本:MultiRef 实现了使用多个视觉参考进行可控图像生成!🎨✨
告别单参考限制的时代——现在您可以融合和控制多个视觉输入,实现精确的图像合成🔥
已收录至 ACM MM 2025!
数据集:https://huggingface.co/datasets/ONE-Lab/MultiRef-dataset
基准:https://huggingface.co/datasets/ONE-Lab/MultiRef-benchmark
项目主页:https://multiref.github.io/