先学习看,再去看:揭示语言预训练的LLM视觉先验

发表
Junlin HanJunlin Han 提交
作者: Junlin Han, Shengbang Tong, David Fan, Yufan Ren, Koustuv SinhaKoustuv Sinha, Philip Torr, Filippos Kokkinos

摘要

AI 生成总结
LLM 在语言预训练过程中会发展出视觉先验,这些先验可以利用于视觉任务,只需少量额外数据,并且这些先验由可分离的感知和推理组件组成。
尽管大型语言模型(LLM)仅通过文本进行训练,但它们却出人意料地发展出了丰富的视觉先验。这些先验使得潜在的视觉能力可以通过相对少量的多模态数据为视觉任务解锁,在某些情况下,甚至可以在从未见过图像的情况下执行视觉任务。通过系统分析,我们揭示了视觉先验——即在语言预训练期间获得的关于视觉世界的隐含、涌现的知识——由具有独特缩放趋势和来源的可分离感知和推理先验组成。我们表明,LLM 的潜在视觉推理能力主要通过在以推理为中心的数据(例如代码、数学、学术)上进行预训练而开发,并且会逐步扩展。这种从语言预训练中获得的推理先验是可迁移的,并且普遍适用于视觉推理。相比之下,感知先验则从广泛的语料库中更分散地涌现,感知能力对视觉编码器和视觉指令调整数据更为敏感。同时,描述视觉世界的文本被证明是至关重要的,尽管其性能影响迅速饱和。利用这些见解,我们提出了一种预训练视觉感知 LLM 的数据中心化方法,并在 1T 标记的预训练规模上进行了验证。我们的研究结果基于超过 100 个受控实验,消耗了 500,000 个 GPU 小时,涵盖了从 LLM 预训练到视觉对齐和监督多模态微调的整个 MLLM 构建流程——跨越五个模型规模、广泛的数据类别和混合,以及多种适应设置。除了我们的主要发现,我们还提出了并研究了几种假设,并引入了多级存在基准(MLE-Bench)。总之,这项工作提供了一种从语言预训练中精心培养视觉先验的新方法,为下一代多模态 LLM 铺平了道路。
查看 arXiv 页面查看 PDF

评论

Junlin HanJunlin Han
论文提交者

项目主页:https://junlinhan.github.io/projects/lsbs/