FUSION:视觉-语言表示的完全集成,用于深度跨模态理解

04月14日发表
04月15日由 Zheng LiuZheng Liu 提交
作者: Zheng LiuZheng Liu, Mengjie LiuMengjie Liu, Jingzhou Chen, Jingwei XuJingwei Xu, Bin Cui, Conghui HeConghui He, Wentao Zhang

摘要

我们介绍了 FUSION,一个具有完全视觉-语言对齐和集成范式的多模态大型语言模型 (MLLM) 系列。与主要依赖于 LLM 解码期间的后期模态交互的现有方法不同,我们的方法在整个处理流程中实现了深度、动态的集成。为此,我们提出了文本引导的统一视觉编码,在视觉编码中融入文本信息以实现像素级集成。我们进一步设计了上下文感知的递归对齐解码,在解码期间递归地聚合以文本上下文为条件的视觉特征,从而实现细粒度的、问题级的语义集成。为了指导特征映射并减轻模态差异,我们开发了双重监督语义映射损失。此外,我们通过一种新的数据合成方法构建了一个合成的语言驱动的问答 (QA) 数据集,优先考虑高质量的 QA 对,以优化文本引导的特征集成。基于这些基础,我们训练了两种规模的 FUSION 模型——3B 和 8B,并证明我们的全模态集成方法仅使用 630 个视觉令牌就显著优于现有方法。值得注意的是,FUSION 3B 在大多数基准测试中都超过了 Cambrian-1 8B 和 Florence-VL 8B。即使限制为 300 个视觉令牌,FUSION 3B 仍然优于 Cambrian-1 8B。我们的消融研究表明,在相同的配置下,FUSION 在超过一半的基准测试中优于 LLaVA-NeXT,且无需动态分辨率,突出了我们方法的有效性。我们发布了我们的代码、模型权重和数据集。https://github.com/starriver030515/FUSION
查看 arXiv 页面查看 PDF

评论

Zheng LiuZheng Liu
论文作者
论文提交者

Github 代码: https://github.com/starriver030515/FUSION

模型: starriver030515/FUSION-Model

数据集: starriver030515/FUSION-Data

Zheng LiuZheng Liu
论文作者
论文提交者
模型 # 视觉 Tokens MMB_EN MMB_CN VizWiz POPE MM-Vet MME_P MME_C Seed-Image HallB LLaVA_W MMStar MME-RW RWQA CV-Bench MMVP AI2D MathVista MMMU SQA TextVQA OCRBench ChartQA DocVQA
<=4B 模型对比
Qwen2.5VL 3B - 79.1 78.1 - 85.9 61.4 1592.4 607.5 74.0 46.6 - 56.3 53.1 65.4 - - 81.4 61.2 51.2 79.3 - 82.8 84.0 93.93
InternVL2 4B - 78.5 73.9 - 84.6 50.5 1532.8 531.8 73.2 42.4 - 53.9 52.1 60.5 - - 79.0 58.5 48.3 96.0 74.7 78.4 81.5 89.2
DeepSeek-VL2-Tiny - 74.6 72.1 - - 52.5 1548.3 357.1 72.3 39.6 - 45.9 - 64.2 - - 71.6 53.6 40.7 - 80.7 80.5 81.0 86.9
MM1.5 3B - - - - 88.1 41.0 1478.4 319.6 72.4 - 73.0 - - 56.9 - - 65.7 44.4 37.1 85.8 76.5 65.7 74.2 87.5
Phi 3.5-Vision - 75.5 64.2 58.2 82.2 46.5 1473.4 412.1 69.9 53.3 68.8 49.0 - 53.5 69.3 67.7 77.4 - 43.3 89.0 61.1 59.8 72.0 75.9
Florence-VL 3B 576 71.6 60.8 59.1 88.3 51.0 1498.7 403.9 70.6 58.1 71.1 44.9 - 60.4 70.2 64.7 73.8 52.2 41.8 84.6 69.1 63.0 70.7 -
FUSION 3B (ours) 780 79.5 71.7 64.6 88.9 57.2 1595.9 416.5 74.6 51.4 84.7 52.4 41.5 65.1 76.4 76.0 78.9 54.3 44.7 87.1 71.8 60.0 75.7 70.9
FUSION-X 3B (ours) 620 80.3 74.8 66.1 88.7 60.3 1582.1 440.0 75.3 51.9 85.2 50.9 41.7 63.7 78.3 78.1 79.2 54.9 44.2 87.3 73.9 63.7 75.8 71.1
FUSION-L 3B (ours) 308 77.6 70.8 65.3 88.3 56.7 1573.7 406.8 74.1 48.7 77.6 44.7 39.5 61.8 76.2 77.0 77.3 48.6 43.4 85.6 71.4 56.9 67.7 63.5
>=7B 模型对比
Qwen2VL 7B - 83.0 80.5 - 88.4 62.0 1639.2 637.1 76.0 50.6 - 60.7 57.4 70.1 - - 83.0 58.2 54.1 85.5 84.3 86.6 83.0 94.5
InternVL2 8B - 81.7 81.2 - 86.9 54.2 1639.7 575.3 75.4 45.2 - 61.5 53.5 64.4 - - 83.6 58.3 52.6 96.3 77.4 79.4 83.3 91.6
LLaVA-OneVision 8B - 81.7 78.0 - 87.2 58.8 1626.0 483.0 74.8 47.5 86.9 60.9 57.5 65.5 - - 81.6 56.1 47.7 96.6 78.5 69.7 78.8 87.5
MM1.5 7B - - - - 88.6 42.2 1514.9 346.4 73.4 - 74.2 - - 62.5 - - 72.2 47.6 41.8 89.6 76.5 63.5 88.1 78.2
Cambrian 8B 576 75.9 67.9 - 87.4 48.0 1547.1 - 74.7 48.7 71.0 50.0 - 64.2 72.2 51.3 73.0 49.0 42.7 80.4 71.7 62.4 73.3 77.8
Florence-VL 8B 576 76.2 69.5 59.1 89.9 56.3 1560.0 381.1 74.9 57.3 74.2 50.0 - 64.2 73.4 73.3 74.2 55.5 43.7 85.9 74.2 63.4 74.7 -
Eagle 8B 1024 75.9 - - - - 1559.0 - 76.3 - - - - 66.5 - 71.6 76.1 52.7 43.8 84.3 77.1 62.6 80.1 86.6
FUSION 8B (ours) 780 80.5 74.9 59.5 89.3 60.0 1592.3 396.1 77.2 52.6 86.9 52.4 46.0 65.2 78.7 78.7 80.4 56.6 43.1 89.2 77.3 63.8 80.3 78.6
FUSION-X 8B (ours) 620 82.0 76.2 62.9 88.8 60.0 1607.5 337.2 78.2 51.4 88.0 52.7 44.7 66.1 79.2 79.9 81.4 59.4 42.2 90.3 74.7 66.6 79.8 77.8
FUSION-L 8B (ours) 308 80.0 73.6 59.9 88.5 57.3 1601.7 338.9 75.9 46.7 82.1 49.3 42.3 65.1 78.2 76.7 79.2 55.2 41.8 88.3 72.8 59.5 73.0 66.0

仅使用 630 个视觉 tokens,FUSION-X 就优于 Cambrian-1 和 Florence-VL,与 LLaVA-OneVision 相匹配,并且几乎达到了 InternVL2 和 Qwen2VL 等顶级模型的性能。即使只有 300 个视觉 tokens,FUSION-L 也保留了其原始性能的 95%,与 Florence-VL 保持在同一水平。

值得注意的是,FUSION-X 3B 在 MMBench 上取得了 4B 以下模型中的最高分,甚至超过了 Qwen2.5VL 3B!