⏶12
CAST:从单张 RGB 图像重建组件对齐的 3D 场景
发表
由
AK 提交

作者: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
摘要
从单张RGB图像中恢复高质量的3D场景是计算机图形学中的一个挑战性任务。当前方法常常受限于领域特异性限制或生成低质量对象。为了解决这些问题,我们提出了CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image),一种新颖的3D场景重建与恢复方法。CAST首先从输入图像中提取对象级的2D分割和相对深度信息,然后使用基于GPT的模型分析对象间的空间关系。这使得能够理解场景中对象如何相互关联,确保更连贯的重建。接着,CAST采用遮挡感知的大规模3D生成模型来独立生成每个对象的完整几何形状,使用MAE和点云条件化来减轻遮挡和部分对象信息的影响,确保与源图像的几何形状和纹理准确对齐。为了将每个对象与场景对齐,对齐生成模型计算必要的变换,使得生成的网格能够被准确放置并集成到场景的点云中。最后,CAST包含一个物理感知校正步骤,利用细粒度的关系图生成一个约束图。该图指导对象姿态的优化,确保物理一致性和空间连贯性。通过利用符号距离场(SDF),该模型有效解决了遮挡、对象穿透和漂浮对象等问题,确保生成的场景准确反映真实世界的物理交互。CAST可应用于机器人技术,实现高效的现实到模拟工作流程,并为机器人系统提供逼真、可扩展的模拟环境。
项目页面:https://sites.google.com/view/cast4