⏶62
从编辑器到密集几何估计器
发表
由
xiaochonglinghu 提交
作者:
JiYuan Wang,
Chunyu Lin, Lei Sun,
Rongying Liu, Lang Nie,
Mingxing Li,
Kang Liao, Xiangxiang Chu, Yao Zhao


摘要
利用预训练的文本到图像(T2I)生成模型中的视觉先验知识,在密集预测任务中已取得成功。然而,密集预测本质上是一个图像到图像的任务,这意味着图像编辑模型可能比T2I生成模型更适合作为微调的基础。
基于此,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。我们的研究结果表明,编辑模型具有固有的结构先验,这使得它们能够通过“精炼”其内在特征来更稳定地收敛,并最终实现比生成模型更高的性能。
基于这些发现,我们提出了FE2E,一个框架,它开创性地采用了一种基于Diffusion Transformer(DiT)架构的先进编辑模型,用于密集几何预测。具体来说,为了使编辑器适应这项确定性任务,我们将编辑器的原始流匹配损失重新设计为“一致速度”训练目标。我们使用对数量化来解决编辑器原生BFloat16格式与我们任务的高精度需求之间的精度冲突。
此外,我们利用DiT的全局注意力,在一个前向传播中以零成本联合估计深度和法线,从而使其监督信号能够相互增强。
在不扩大训练数据规模的情况下,FE2E在零样本单目深度和法线估计方面,在多个数据集上取得了令人印象深刻的性能提升。值得注意的是,它在ETH3D数据集上实现了超过35%的性能提升,并且优于在100倍数据上训练的DepthAnything系列。项目页面可以通过https://amap-ml.github.io/FE2E/{here}访问。
一个聪明的想法。
https://amap-ml.github.io/FE2E/