⏶24
Marigold:基于扩散模型的图像生成器在图像分析中的经济高效改造
发表
由
Anton Obukhov 提交

作者:
Bingxin Ke, Kevin Qu,
Tianfu Wang,
Nando Metzger, Shengyu Huang,
Bo Li,
Anton Obukhov,
Konrad Schindler

摘要
过去十年中,深度学习在计算机视觉领域的成功依赖于大型标注数据集和强大的预训练模型。在数据稀缺的环境下,这些预训练模型的质量对于有效的迁移学习至关重要。图像分类和自监督学习传统上是预训练 CNN 和基于 Transformer 架构的主要方法。最近,文本到图像生成模型,尤其是那些在潜在空间中使用去噪扩散的模型,催生了一类新的基础模型,这些模型在海量、带标题的图像数据集上训练。这些模型生成逼真、包含未见内容的图像的能力表明它们对视觉世界有着深刻的理解。在这项工作中,我们提出了 Marigold,这是一系列条件生成模型和一种微调协议,用于从像 Stable Diffusion 这样的预训练潜在扩散模型中提取知识,并将其应用于密集图像分析任务,包括单目深度估计、表面法线预测和内部分解。Marigold 对预训练的潜在扩散模型的架构仅需进行少量修改,使用小型合成数据集在单块 GPU 上训练几天即可完成,并展示了最先进的零样本泛化能力。项目页面:https://marigoldcomputervision.github.io
项目主页:https://marigoldcomputervision.github.io