PerceptionLM:用于详细视觉理解的开放访问数据和模型

发表
Jang Hyun (Vincent) ChoJang Hyun (Vincent) Cho 提交
作者: Jang Hyun (Vincent) ChoJang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad MaazMuhammad Maaz, Yale Song, Tengyu Ma, Shuming HuShuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, peizesunPeize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

摘要

视觉-语言模型是计算机视觉研究不可或缺的一部分,但许多高性能模型仍然是闭源的,掩盖了它们的数据、设计和训练方法。研究界已经通过使用来自黑盒模型的蒸馏来标记训练数据做出回应,取得了强大的基准测试结果,但代价是可衡量的科学进步。然而,在不了解教师模型的细节及其数据来源的情况下,科学进步仍然难以衡量。在本文中,我们研究在完全开放和可重复的框架中构建感知语言模型(PLM),以进行透明的图像和视频理解研究。我们分析了不使用专有模型蒸馏的标准训练流程,并探索了大规模合成数据,以识别关键的数据差距,尤其是在详细的视频理解方面。为了弥合这些差距,我们发布了 280 万个人工标记的细粒度视频问答对和时空对齐的视频字幕实例。此外,我们还推出了 PLM-VideoBench,这是一套用于评估具有挑战性的视频理解任务的套件,重点关注对视频的“什么”、“哪里”、“何时”和“如何”进行推理的能力。我们通过提供数据、训练方法、代码和模型,使我们的工作完全可重现。
查看 arXiv 页面查看 PDF

评论