从编辑器到密集几何估计器

发表
xiaochonglinghuxiaochonglinghu 提交
作者: JiYuan WangJiYuan Wang, Chris LinChunyu Lin, Lei Sun, Rongying LiuRongying Liu, Lang Nie, Mingxing LiMingxing Li, Kang LiaoKang Liao, Xiangxiang Chu, Yao Zhao

摘要

AI 生成总结
FE2E是一个使用Diffusion Transformer进行密集几何预测的框架,在零样本单目深度和法线估计方面优于生成模型,并具有更高的性能和效率。
利用预训练的文本到图像(T2I)生成模型中的视觉先验知识,在密集预测任务中已取得成功。然而,密集预测本质上是一个图像到图像的任务,这意味着图像编辑模型可能比T2I生成模型更适合作为微调的基础。 基于此,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。我们的研究结果表明,编辑模型具有固有的结构先验,这使得它们能够通过“精炼”其内在特征来更稳定地收敛,并最终实现比生成模型更高的性能。 基于这些发现,我们提出了FE2E,一个框架,它开创性地采用了一种基于Diffusion Transformer(DiT)架构的先进编辑模型,用于密集几何预测。具体来说,为了使编辑器适应这项确定性任务,我们将编辑器的原始流匹配损失重新设计为“一致速度”训练目标。我们使用对数量化来解决编辑器原生BFloat16格式与我们任务的高精度需求之间的精度冲突。 此外,我们利用DiT的全局注意力,在一个前向传播中以零成本联合估计深度和法线,从而使其监督信号能够相互增强。 在不扩大训练数据规模的情况下,FE2E在零样本单目深度和法线估计方面,在多个数据集上取得了令人印象深刻的性能提升。值得注意的是,它在ETH3D数据集上实现了超过35%的性能提升,并且优于在100倍数据上训练的DepthAnything系列。项目页面可以通过https://amap-ml.github.io/FE2E/{here}访问。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

一个聪明的想法。
https://amap-ml.github.io/FE2E/

AlphaScaliAlphaScali
此评论已隐藏。
AlphaScaliAlphaScali
此评论已隐藏。
alexanderwangalexanderwang

它们似乎不是一回事......
我都读了,这项工作从一开始就使用了DiT-editing模型,而且它们试图解决的技术问题完全不同。
你不能说“风格相同”,因为最终的任务是一样的😂