面向高质量3D生成的协同多模态编码

发表
Ziang CaoZiang Cao 提交
作者: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

摘要

3D内容天然地包含多模态特征,并且可以被投影到不同的模态(例如,RGB图像、RGBD和点云)。每种模态在3D资产建模中都表现出独特的优势:RGB图像包含生动的3D纹理,而点云定义了精细的3D几何形状。然而,大多数现有的3D原生生成架构要么主要在单模态范式内运行——从而忽略了多模态数据的互补优势——要么将自己限制在3D结构内,从而限制了可用训练数据集的范围。为了整体利用多模态进行3D建模,我们提出了TriMM,这是第一个从基本多模态(例如,RGB、RGBD和点云)中学习的、前馈的3D原生生成模型。具体来说,1)TriMM首先引入协同多模态编码,它整合了特定模态的特征,同时保留了它们独特的表征强度。2)此外,引入了辅助的2D和3D监督来提高多模态编码的鲁棒性和性能。3)基于嵌入的多模态代码,TriMM采用三平面隐式扩散模型生成高质量的3D资产,增强了纹理和几何细节。在多个知名数据集上的广泛实验表明,TriMM通过有效地利用多模态,实现了与在大型数据集上训练的模型相媲美的性能,尽管它只使用了少量训练数据。此外,我们对最新的RGB-D数据集进行了额外实验,验证了将其他多模态数据集纳入3D生成的可能性。
查看 arXiv 页面查看 PDF

评论

Ziang CaoZiang Cao
论文提交者

3D 内容固有地具有多模态特征,并且可以在不同模态之间表示(例如,RGB 图像、RGBD 和点云)。每种模态都为 3D 资产建模提供了独特的优势:RGB 图像捕捉生动的纹理,而点云提供细致的几何结构。在本文中,我们提出了 TriMM,一个前馈的 3D 原生生成模型,探索利用多模态进行 3D 建模的潜力。