DIP:视觉表示的无监督密集上下文后训练

发表
Spyros GidarisSpyros Gidaris 提交
作者: Sophia Sirko-GalouchenkoSophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome

摘要

我们引入了DIP,这是一种新颖的无监督后训练方法,旨在增强大规模预训练视觉编码器中的密集图像表示,以实现上下文场景理解。与依赖复杂自蒸馏架构的先前方法不同,我们的方法受元学习原理启发,使用明确模拟下游上下文场景的伪任务来训练视觉编码器。为了实现对未标记数据的后训练,我们提出了一种自动机制来生成上下文任务,该机制结合了预训练的扩散模型和视觉编码器本身。DIP简单、无监督且计算高效,在单个A100 GPU上所需时间不到9小时。通过伪上下文任务学习密集表示,它在各种下游真实世界上下文场景理解任务中都取得了强大的性能。它优于初始视觉编码器和先前的方法,为改进密集表示提供了一个实用且有效的解决方案。代码可在以下地址获取:https://github.com/sirkosophia/DIP
查看 arXiv 页面查看 PDF

评论

Spyros GidarisSpyros Gidaris
论文提交者

代码:https://github.com/sirkosophia/DIP