⏶38
FUSION:视觉-语言表示的完全集成,用于深度跨模态理解
发表
由
Zheng Liu 提交
作者:
Zheng Liu,
Mengjie Liu, Jingzhou Chen,
Jingwei Xu, Bin Cui,
Conghui He, Wentao Zhang
摘要
AI 生成总结
FUSION 是一种多模态大型语言模型,通过深度、像素级和问题级集成来整合视觉和语言,与现有方法相比取得了卓越的性能。我们介绍了 FUSION,一个具有完全视觉-语言对齐和集成范式的多模态大型语言模型 (MLLM) 系列。与主要依赖于 LLM 解码期间的后期模态交互的现有方法不同,我们的方法在整个处理流程中实现了深度、动态的集成。为此,我们提出了文本引导的统一视觉编码,在视觉编码中融入文本信息以实现像素级集成。我们进一步设计了上下文感知的递归对齐解码,在解码期间递归地聚合以文本上下文为条件的视觉特征,从而实现细粒度的、问题级的语义集成。为了指导特征映射并减轻模态差异,我们开发了双重监督语义映射损失。此外,我们通过一种新的数据合成方法构建了一个合成的语言驱动的问答 (QA) 数据集,优先考虑高质量的 QA 对,以优化文本引导的特征集成。基于这些基础,我们训练了两种规模的 FUSION 模型——3B 和 8B,并证明我们的全模态集成方法仅使用 630 个视觉令牌就显著优于现有方法。值得注意的是,FUSION 3B 在大多数基准测试中都超过了 Cambrian-1 8B 和 Florence-VL 8B。即使限制为 300 个视觉令牌,FUSION 3B 仍然优于 Cambrian-1 8B。我们的消融研究表明,在相同的配置下,FUSION 在超过一半的基准测试中优于 LLaVA-NeXT,且无需动态分辨率,突出了我们方法的有效性。我们发布了我们的代码、模型权重和数据集。https://github.com/starriver030515/FUSION
评论
论文作者
论文提交者
仅使用 630 个视觉 tokens,FUSION-X 就优于 Cambrian-1 和 Florence-VL,与 LLaVA-OneVision 相匹配,并且几乎达到了 InternVL2 和 Qwen2VL 等顶级模型的性能。即使只有 300 个视觉 tokens,FUSION-L 也保留了其原始性能的 95%,与 Florence-VL 保持在同一水平。
值得注意的是,FUSION-X 3B 在 MMBench 上取得了 4B 以下模型中的最高分,甚至超过了 Qwen2.5VL 3B!
Github 代码: https://github.com/starriver030515/FUSION
模型: starriver030515/FUSION-Model
数据集: starriver030515/FUSION-Data