OmniVinci:增强用于全模态理解大语言模型的架构和数据

发表
taesiritaesiri 提交
作者: Hanrong Ye, Huck YangChao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, GhoshSreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov

摘要

AI 生成总结
OmniVinci,一个开源的全模态大语言模型,通过创新的架构和高效的数据策展,增强了跨模态理解能力,并提升了音频、视觉和机器人应用领域的性能。
推进机器智能需要发展跨多种模态感知世界的能力,正如人类感知世界一样。我们推出了 OmniVinci,一个旨在构建强大、开源、全模态大型语言模型的计划。我们仔细研究了模型架构和数据策展中的设计选择。在模型架构方面,我们提出了三项关键创新:(i) OmniAlignNet,用于增强共享全模态潜在空间中视觉和音频嵌入之间的对齐;(ii) Temporal Embedding Grouping,用于捕获视觉和音频信号之间的相对时间对齐;以及 (iii) Constrained Rotary Time Embedding,用于在全模态嵌入中编码绝对时间信息。我们引入了一个策展和合成流程,生成了 2400 万个单模态和全模态对话。我们发现,模态在感知和推理方面相互加强。我们的模型 OmniVinci 在 DailyOmni(跨模态理解)上以 +19.05 的优势,在 MMAR(音频)上以 +1.7 的优势,在 Video-MME(视觉)上以 +3.9 的优势,超越了 Qwen2.5-Omni,而仅使用了 0.2T 的训练 token,与 Qwen2.5-Omni 的 1.2T 相比减少了 6 倍。最后,我们展示了全模态在机器人、医疗 AI 和智能工厂等下游应用中的优势。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

推进机器智能需要发展跨模态感知能力,就像人类感知世界一样。我们引入了 OmniVinci,一个旨在构建强大、开源的跨模态大语言模型(LLM)的项目。我们仔细研究了模型架构和数据策展方面的设计选择。在模型架构方面,我们提出了三项关键创新:(i)OmniAlignNet,用于加强视觉和音频嵌入在共享的跨模态潜在空间中的对齐;(ii)Temporal Embedding Grouping,用于捕获视觉和音频信号之间的相对时间对齐;以及(iii)Constrained Rotary Time Embedding,用于在跨模态嵌入中编码绝对时间信息。我们引入了一个策展和合成管道,生成了 2400 万个单模态和跨模态对话。我们发现,模态在感知和推理方面可以相互增强。我们的模型 OmniVinci 在 DailyOmni(跨模态理解)上比 Qwen2.5-Omni 高出 19.05 分,在 MMAR(音频)上高出 1.7 分,在 Video-MME(视觉)上高出 3.9 分,而仅使用了 0.2T 的训练 token——比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。我们最后在机器人、医疗 AI 和智能工厂的下游应用中展示了跨模态的优势。

Nickolay V. ShmyrevNickolay V. Shmyrev

Qwen3-Omni呢?结果只有2.5。