⏶36
MV-RAG:检索增强多视图扩散
发表
由
Yosef Dayani 提交
作者:
Yosef Dayani,
Omer Benishu,
Sagie Benaim
摘要
利用预训练的二维扩散先验,文本到三维生成方法取得了显著进展,能够生成高质量、三维一致的输出。然而,它们往往难以生成域外(OOD)或罕见概念,导致结果不一致或不准确。为此,我们提出了MV-RAG,这是一个新颖的文本到三维管道。它首先从大规模的野生二维数据库中检索相关的二维图像,然后将多视图扩散模型条件化于这些图像,以合成一致且准确的多视图输出。通过一种新颖的混合策略训练这样一个检索条件化模型,该策略结合了结构化多视图数据和多样化的二维图像集合。这包括使用增强的条件视图对多视图数据进行训练,以模拟视图特定的重建检索方差,同时使用一组检索到的真实世界二维图像进行训练,并采用一种独特的保留视图预测目标:模型从其他视图预测保留的视图,以从二维数据中推断三维一致性。为了促进严格的域外评估,我们引入了一个包含挑战性域外提示的新数据集。与最先进的文本到三维、图像到三维和个性化基线相比的实验表明,我们的方法显著提高了域外/罕见概念的三维一致性、照片真实感和文本遵循度,同时在标准基准上保持了竞争力。
MV-RAG 通过解决域外生成(例如,“博洛尼亚狗”)和训练后引入的新概念(例如,“Labubu 玩偶”)等挑战,扩展了 RAG 的优势。
MV-RAG 通过将预训练的多视图模型的内部知识与从大型图像数据库检索到的外部视觉线索相结合,推进了多视图生成。在推理时,检索到的 2D 图像通过图像编码器和学习到的重采样器编码成 token。在多视图扩散模型中,3D 自注意力层强制生成视图之间的一致性。然后,每个交叉注意力层在两个并行分支中运行:一个分支以文本 token 为条件,另一个分支以检索到的图像 token 为条件。它们的输出使用由 Prior-Guided Attention 模块预测的融合系数进行融合。