⏶32
感知编码器:最佳的视觉嵌入并非位于网络的输出
发表
由
Niels Rogge 提交

作者: Daniel Bolya, Po-Yao Huang,
Peize Sun,
Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma,
Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer

摘要
我们介绍了感知编码器 (PE),这是一种最先进的图像和视频理解编码器,通过简单的视觉语言学习进行训练。传统上,视觉编码器依赖于各种预训练目标,每个目标都针对特定的下游任务量身定制,例如分类、字幕或定位。令人惊讶的是,在扩展我们精心调整的图像预训练方案并使用我们强大的视频数据引擎进行改进后,我们发现仅对比视觉语言训练就可以为所有这些下游任务生成强大的通用嵌入。只有一个注意事项:这些嵌入隐藏在网络的中间层中。为了提取它们,我们引入了两种对齐方法,用于多模态语言建模的语言对齐和用于密集预测的空间对齐。结合核心对比检查点,我们的 PE 模型系列在各种任务中实现了最先进的性能,包括零样本图像和视频分类和检索;文档、图像和视频问答;以及空间任务,如检测、深度估计和跟踪。为了促进进一步的研究,我们正在发布我们的模型、代码以及合成和人工注释视频的新数据集。
代码:https://github.com/facebookresearch/perception_models