⏶18
从理想到现实:用于现实世界场景的统一且数据高效的密集预测
发表
由
ChengyouJia 提交
作者: Changliang Xia,
Chengyou Jia, Zhuohang Dang, Minnan Luo
摘要
稠密预测任务在计算机视觉中占有重要地位,旨在为输入图像学习像素级的标注标签。尽管该领域取得了进展,但现有方法主要关注理想化条件,对真实世界场景的泛化能力有限,并面临真实世界数据稀缺的挑战。为了系统地研究这个问题,我们首先介绍了 DenseWorld,这是一个基准,涵盖了与紧迫的真实世界应用相对应的 25 个稠密预测任务,并提供了跨任务的统一评估。然后,我们提出了 DenseDiT,它最大限度地利用生成模型的视觉先验,通过统一的策略执行各种真实世界稠密预测任务。DenseDiT 结合了参数重用机制和两个轻量级分支,这些分支自适应地整合多尺度上下文,仅增加不到 0.1% 的额外参数。在 DenseWorld 上的评估揭示了现有通用和专用基线模型的显著性能下降,凸显了它们有限的真实世界泛化能力。相比之下,DenseDiT 使用不到基线模型 0.01% 的训练数据就取得了卓越的结果,强调了其在真实世界部署中的实用价值。我们的数据、检查点和代码可在 https://xcltql666.github.io/DenseDiTProj 获取。
我们提出了 DenseDiT,它最大化地利用生成模型的视觉先验,通过统一策略执行多样化的真实世界密集预测任务。DenseDiT 结合了参数复用机制和两个轻量级分支,这些分支自适应地整合多尺度上下文,且额外参数不到0.1%。在 DenseWorld 上的评估显示,现有通用和专用基线的性能显著下降,凸显了它们在真实世界中泛化能力的局限性。