从像素到文字——迈向大规模原生视觉-语言原语

发表
Haiwen DiaoHaiwen Diao 提交
作者: Haiwen DiaoHaiwen Diao, li mingxuanMingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

摘要

AI 生成总结
NEO 是一系列新颖的原生视觉语言模型,解决了根本性限制,并在统一框架内集成了视觉和语言,在有限的数据下实现了具有竞争力的性能。
原生视觉语言模型(VLM)的体系结构已成为典型的模块化 VLM 的有力竞争者,其发展受到模型架构和训练范式不断演进的影响。然而,两个挥之不去的阴影笼罩着其广泛的探索和推广:(-) 原生 VLM 与模块化 VLM 的根本约束是什么,以及这些障碍在多大程度上可以克服?(-) 如何使原生 VLM 的研究更加可及和民主化,从而加速该领域的进展。在本文中,我们阐明了这些挑战并为构建原生 VLM 提供了指导原则。具体来说,一个原生 VLM 基础应该:(i)在共享语义空间内有效对齐像素和单词表示;(ii)无缝整合先前分离的视觉和语言模块的优势;(iii)本质上包含支持统一视觉-语言编码、对齐和推理的各种跨模态属性。因此,我们推出了 NEO,一个源自第一原理的新型原生 VLM 系列,它能够在各种现实场景中与顶级模块化 VLM 相媲美。仅使用 3.9 亿张图像-文本示例,NEO 就能从头开始有效地开发视觉感知,同时在一个精心设计的基元构建的密集且整体的模型中缓解视觉-语言冲突。我们将 NEO 定位为可扩展且强大的原生 VLM 的基石,并配备一套丰富的可重用组件,以促进成本效益高且可扩展的生态系统。我们的代码和模型可在以下网址公开获取:https://github.com/EvolvingLMMs-Lab/NEO
查看 arXiv 页面查看 PDF

评论

Haiwen DiaoHaiwen Diao
论文作者
论文提交者

🌟NEO:原生视觉-语言基元🌟 从第一性原理构建原生 VLM,展示了一种替代的多模态途径:端到端训练、统一的原生基元以及内在的多模态设计。

🔥 统一的原生架构🔥:创新了原生 VLM 基元,可在不同尺度下在单个密集模型中执行像素-词语编码、对齐和推理。
🔥 极端的训练效率🔥:仅用 3.9 亿个图像-文本示例,NEO 就从零开始建立了强大的视觉感知能力,在多个基准测试中取得了与 Qwen2.5-VL 等顶级模块化 VLM 相当的性能。
🔥 构建原生生态系统🔥:提供了一套丰富的可重用组件,降低了开发成本,促进了高性能原生大模型的研究,加速了原生 VLM 生态系统的发展。

🔗 论文链接:https://arxiv.org/abs/2510.14979
🔗 代码链接:https://github.com/EvolvingLMMs-Lab/NEO
🔗 模型链接:https://huggingface.co/collections/Paranioar/neo1-0-68f0db9cbac952be3eca7089