gen2seg: 生成模型实现可泛化实例分割

发表
Om KhangaonkarOm Khangaonkar 提交
作者: Om KhangaonkarOm Khangaonkar, Hamed Pirsiavash

摘要

通过预训练从扰动的输入合成连贯的图像,生成模型自然学会理解物体边界和场景构成。我们如何将这些生成表示重新用于通用感知组织呢?我们微调了 Stable Diffusion 和 MAE(编码器+解码器),使用我们的实例着色损失在仅限于一小部分物体类型(室内陈设和汽车)上进行类别无关的实例分割。令人惊讶的是,我们的模型展现出强大的零样本泛化能力,能够准确分割在微调(以及许多情况下,MAE 的 ImageNet-1K 预训练中)未曾见过的类型和风格的物体。在对未见过的物体类型和风格进行评估时,我们性能最好的模型接近强监督的 SAM,并且在分割精细结构和模糊边界时表现胜过它。相比之下,现有的可提示分割架构或判别式预训练模型则无法泛化。这表明,生成模型学习到了一种内在的分组机制,即使没有互联网规模的预训练,也能跨类别和领域迁移。代码、预训练模型和演示已在我们的网站上提供。
查看 arXiv 页面查看 PDF

评论

Om KhangaonkarOm Khangaonkar
论文作者
论文提交者

我们首次展示,生成模型(例如:Stable Diffusion, MAE)可以轻松地调整用于物体分割。我们在有限的物体类别集合(室内陈设和汽车)上对模型进行了微调,然而 这两种模型都能对未见过的物体类别和风格进行零样本泛化(例如:X射线图像、艺术作品中的动物等)。有趣的是,对于MAE来说,这也超出了预训练数据的分布。这表明生成模型已经学会了一种固有的感知分组机制。我们希望我们的发现能够激发更多关于生成预训练所学到的表示以及如何将其用于感知任务的研究。

请参阅我们的网站查看高分辨率的定性比较。

网站:https://reachomk.github.io/gen2seg/