⏶38
FUSION:视觉-语言表示的完全集成,用于深度跨模态理解
04月14日发表
04月15日由
Zheng Liu 提交
作者:
Zheng Liu,
Mengjie Liu, Jingzhou Chen,
Jingwei Xu, Bin Cui,
Conghui He, Wentao Zhang

摘要
我们介绍了 FUSION,一个具有完全视觉-语言对齐和集成范式的多模态大型语言模型 (MLLM) 系列。与主要依赖于 LLM 解码期间的后期模态交互的现有方法不同,我们的方法在整个处理流程中实现了深度、动态的集成。为此,我们提出了文本引导的统一视觉编码,在视觉编码中融入文本信息以实现像素级集成。我们进一步设计了上下文感知的递归对齐解码,在解码期间递归地聚合以文本上下文为条件的视觉特征,从而实现细粒度的、问题级的语义集成。为了指导特征映射并减轻模态差异,我们开发了双重监督语义映射损失。此外,我们通过一种新的数据合成方法构建了一个合成的语言驱动的问答 (QA) 数据集,优先考虑高质量的 QA 对,以优化文本引导的特征集成。基于这些基础,我们训练了两种规模的 FUSION 模型——3B 和 8B,并证明我们的全模态集成方法仅使用 630 个视觉令牌就显著优于现有方法。值得注意的是,FUSION 3B 在大多数基准测试中都超过了 Cambrian-1 8B 和 Florence-VL 8B。即使限制为 300 个视觉令牌,FUSION 3B 仍然优于 Cambrian-1 8B。我们的消融研究表明,在相同的配置下,FUSION 在超过一半的基准测试中优于 LLaVA-NeXT,且无需动态分辨率,突出了我们方法的有效性。我们发布了我们的代码、模型权重和数据集。https://github.com/starriver030515/FUSION
评论
论文作者
论文提交者
模型 | # 视觉 Tokens | MMB_EN | MMB_CN | VizWiz | POPE | MM-Vet | MME_P | MME_C | Seed-Image | HallB | LLaVA_W | MMStar | MME-RW | RWQA | CV-Bench | MMVP | AI2D | MathVista | MMMU | SQA | TextVQA | OCRBench | ChartQA | DocVQA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
<=4B 模型对比 | ||||||||||||||||||||||||
Qwen2.5VL 3B | - | 79.1 | 78.1 | - | 85.9 | 61.4 | 1592.4 | 607.5 | 74.0 | 46.6 | - | 56.3 | 53.1 | 65.4 | - | - | 81.4 | 61.2 | 51.2 | 79.3 | - | 82.8 | 84.0 | 93.93 |
InternVL2 4B | - | 78.5 | 73.9 | - | 84.6 | 50.5 | 1532.8 | 531.8 | 73.2 | 42.4 | - | 53.9 | 52.1 | 60.5 | - | - | 79.0 | 58.5 | 48.3 | 96.0 | 74.7 | 78.4 | 81.5 | 89.2 |
DeepSeek-VL2-Tiny | - | 74.6 | 72.1 | - | - | 52.5 | 1548.3 | 357.1 | 72.3 | 39.6 | - | 45.9 | - | 64.2 | - | - | 71.6 | 53.6 | 40.7 | - | 80.7 | 80.5 | 81.0 | 86.9 |
MM1.5 3B | - | - | - | - | 88.1 | 41.0 | 1478.4 | 319.6 | 72.4 | - | 73.0 | - | - | 56.9 | - | - | 65.7 | 44.4 | 37.1 | 85.8 | 76.5 | 65.7 | 74.2 | 87.5 |
Phi 3.5-Vision | - | 75.5 | 64.2 | 58.2 | 82.2 | 46.5 | 1473.4 | 412.1 | 69.9 | 53.3 | 68.8 | 49.0 | - | 53.5 | 69.3 | 67.7 | 77.4 | - | 43.3 | 89.0 | 61.1 | 59.8 | 72.0 | 75.9 |
Florence-VL 3B | 576 | 71.6 | 60.8 | 59.1 | 88.3 | 51.0 | 1498.7 | 403.9 | 70.6 | 58.1 | 71.1 | 44.9 | - | 60.4 | 70.2 | 64.7 | 73.8 | 52.2 | 41.8 | 84.6 | 69.1 | 63.0 | 70.7 | - |
FUSION 3B (ours) | 780 | 79.5 | 71.7 | 64.6 | 88.9 | 57.2 | 1595.9 | 416.5 | 74.6 | 51.4 | 84.7 | 52.4 | 41.5 | 65.1 | 76.4 | 76.0 | 78.9 | 54.3 | 44.7 | 87.1 | 71.8 | 60.0 | 75.7 | 70.9 |
FUSION-X 3B (ours) | 620 | 80.3 | 74.8 | 66.1 | 88.7 | 60.3 | 1582.1 | 440.0 | 75.3 | 51.9 | 85.2 | 50.9 | 41.7 | 63.7 | 78.3 | 78.1 | 79.2 | 54.9 | 44.2 | 87.3 | 73.9 | 63.7 | 75.8 | 71.1 |
FUSION-L 3B (ours) | 308 | 77.6 | 70.8 | 65.3 | 88.3 | 56.7 | 1573.7 | 406.8 | 74.1 | 48.7 | 77.6 | 44.7 | 39.5 | 61.8 | 76.2 | 77.0 | 77.3 | 48.6 | 43.4 | 85.6 | 71.4 | 56.9 | 67.7 | 63.5 |
>=7B 模型对比 | ||||||||||||||||||||||||
Qwen2VL 7B | - | 83.0 | 80.5 | - | 88.4 | 62.0 | 1639.2 | 637.1 | 76.0 | 50.6 | - | 60.7 | 57.4 | 70.1 | - | - | 83.0 | 58.2 | 54.1 | 85.5 | 84.3 | 86.6 | 83.0 | 94.5 |
InternVL2 8B | - | 81.7 | 81.2 | - | 86.9 | 54.2 | 1639.7 | 575.3 | 75.4 | 45.2 | - | 61.5 | 53.5 | 64.4 | - | - | 83.6 | 58.3 | 52.6 | 96.3 | 77.4 | 79.4 | 83.3 | 91.6 |
LLaVA-OneVision 8B | - | 81.7 | 78.0 | - | 87.2 | 58.8 | 1626.0 | 483.0 | 74.8 | 47.5 | 86.9 | 60.9 | 57.5 | 65.5 | - | - | 81.6 | 56.1 | 47.7 | 96.6 | 78.5 | 69.7 | 78.8 | 87.5 |
MM1.5 7B | - | - | - | - | 88.6 | 42.2 | 1514.9 | 346.4 | 73.4 | - | 74.2 | - | - | 62.5 | - | - | 72.2 | 47.6 | 41.8 | 89.6 | 76.5 | 63.5 | 88.1 | 78.2 |
Cambrian 8B | 576 | 75.9 | 67.9 | - | 87.4 | 48.0 | 1547.1 | - | 74.7 | 48.7 | 71.0 | 50.0 | - | 64.2 | 72.2 | 51.3 | 73.0 | 49.0 | 42.7 | 80.4 | 71.7 | 62.4 | 73.3 | 77.8 |
Florence-VL 8B | 576 | 76.2 | 69.5 | 59.1 | 89.9 | 56.3 | 1560.0 | 381.1 | 74.9 | 57.3 | 74.2 | 50.0 | - | 64.2 | 73.4 | 73.3 | 74.2 | 55.5 | 43.7 | 85.9 | 74.2 | 63.4 | 74.7 | - |
Eagle 8B | 1024 | 75.9 | - | - | - | - | 1559.0 | - | 76.3 | - | - | - | - | 66.5 | - | 71.6 | 76.1 | 52.7 | 43.8 | 84.3 | 77.1 | 62.6 | 80.1 | 86.6 |
FUSION 8B (ours) | 780 | 80.5 | 74.9 | 59.5 | 89.3 | 60.0 | 1592.3 | 396.1 | 77.2 | 52.6 | 86.9 | 52.4 | 46.0 | 65.2 | 78.7 | 78.7 | 80.4 | 56.6 | 43.1 | 89.2 | 77.3 | 63.8 | 80.3 | 78.6 |
FUSION-X 8B (ours) | 620 | 82.0 | 76.2 | 62.9 | 88.8 | 60.0 | 1607.5 | 337.2 | 78.2 | 51.4 | 88.0 | 52.7 | 44.7 | 66.1 | 79.2 | 79.9 | 81.4 | 59.4 | 42.2 | 90.3 | 74.7 | 66.6 | 79.8 | 77.8 |
FUSION-L 8B (ours) | 308 | 80.0 | 73.6 | 59.9 | 88.5 | 57.3 | 1601.7 | 338.9 | 75.9 | 46.7 | 82.1 | 49.3 | 42.3 | 65.1 | 78.2 | 76.7 | 79.2 | 55.2 | 41.8 | 88.3 | 72.8 | 59.5 | 73.0 | 66.0 |
仅使用 630 个视觉 tokens,FUSION-X 就优于 Cambrian-1 和 Florence-VL,与 LLaVA-OneVision 相匹配,并且几乎达到了 InternVL2 和 Qwen2VL 等顶级模型的性能。即使只有 300 个视觉 tokens,FUSION-L 也保留了其原始性能的 95%,与 Florence-VL 保持在同一水平。
值得注意的是,FUSION-X 3B 在 MMBench 上取得了 4B 以下模型中的最高分,甚至超过了 Qwen2.5VL 3B!
Github 代码: https://github.com/starriver030515/FUSION
模型: starriver030515/FUSION-Model
数据集: starriver030515/FUSION-Data