⏶61
Depth Anything:释放大规模无标签数据的力量
01月19日发表
04月12日由
AK 提交

作者:
Lihe Yang,
Bingyi Kang,
Zilong Huang,
Xiaogang Xu, Jiashi Feng, Hengshuang Zhao


摘要
这项工作提出了 Depth Anything,一种用于鲁棒单目深度估计的高度实用解决方案。在不追求新颖技术模块的情况下,我们的目标是构建一个简单而强大的基础模型,以处理任何情况下的任何图像。为此,我们通过设计一个数据引擎来收集和自动注释大规模未标记数据(约 6200 万)来扩大数据集规模,这显着扩大了数据覆盖范围,从而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据规模扩大变得有前景。首先,通过利用数据增强工具创建更具挑战性的优化目标。它迫使模型积极寻求额外的视觉知识并获得鲁棒的表示。其次,开发了一种辅助监督,以强制模型从预训练编码器继承丰富的语义先验。我们广泛评估了其零样本能力,包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力。此外,通过使用来自 NYUv2 和 KITTI 的度量深度信息对其进行微调,设置了新的 SOTA。我们更好的深度模型还带来了更好的深度条件 ControlNet。我们的模型在 https://github.com/LiheYoung/Depth-Anything 上发布。
https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/mKoczu-S6ranZty_meJ8K.mp4
👉 订阅: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix