⏶21
AerialMegaDepth:学习空中-地面重建和视图合成
发表
由
Khiem Vuong 提交

作者:
Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani

摘要
我们探索了从地面和空中混合视角捕获的图像的几何重建任务。当前最先进的基于学习的方法无法处理空中-地面图像对之间极端的视点变化。我们的假设是,缺乏高质量、共同配准的空中-地面数据集用于训练是导致此失败的关键原因。这种数据难以精确组装,因为它难以可扩展地重建。为了克服这一挑战,我们提出了一个可扩展的框架,将来自 3D 城市范围网格(例如,Google Earth)的伪合成渲染与真实的、地面众包图像(例如,MegaDepth)相结合。伪合成数据模拟了广泛的空中视角,而真实的众包图像有助于提高地面图像的视觉保真度,因为基于网格的渲染缺乏足够的细节,从而有效地弥合了真实图像和伪合成渲染之间的领域差距。使用这种混合数据集,我们微调了几种最先进的算法,并在真实世界的零样本空中-地面任务上取得了显著的改进。例如,我们观察到基线 DUSt3R 在相机旋转误差 5 度以内定位的空中-地面对少于 5%,而使用我们的数据进行微调后,准确率提高到接近 56%,解决了处理大视点变化的主要失败点。除了相机估计和场景重建之外,我们的数据集还提高了下游任务的性能,例如在具有挑战性的空中-地面场景中的新视角合成,证明了我们的方法在实际应用中的实用价值。


AerialMegaDepth:学习空中-地面重建和视图合成
Khiem Vuong、Anurag Ghosh、Deva Ramanan、Srinivasa Narasimhan、Shubham Tulsiani*
CVPR 2025
TL;DR:一个可扩展的数据生成框架,将网格渲染与真实图像相结合,实现跨极端视点变化(例如,空中-地面)的鲁棒 3D 重建。
https://cdn-uploads.huggingface.co/production/uploads/631bfb21f6bc4be4a6592afc/2w4VC-Ln447-4VQGQMN3p.mp4
一个巧妙的应用:使用航拍视图作为“地图”/全局上下文将非重叠地面图像合并到共享的 3D 场景中
https://cdn-uploads.huggingface.co/production/uploads/631bfb21f6bc4be4a6592afc/lvM8EZcqExz7TqDk16Iyc.qt
查看 Twitter (X) 帖子:
https://x.com/kvuongdev/status/1913290597718462607