⏶12
MARVIS: 模态自适应可视化推理
发表
由
Benjamin Feuer 提交

作者:
Benjamin Feuer,
Lennart Purucker, Oussama Elachqar, Chinmay Hegde


摘要
机器学习的科学应用通常依赖于针对特定领域进行优化的小型专业模型。这类模型通常能实现卓越的性能,但缺乏灵活性。基础模型提供了多功能性,但通常不如专业方法,尤其是在非传统模态和长尾领域。我们提出了 MARVIS (Modality Adaptive Reasoning over VISualizations),这是一种无需训练的方法,即使小型视觉语言模型也能高精度预测任何数据模态。MARVIS 将潜在嵌入空间转换为视觉表示,然后利用视觉语言模型的空间和细粒度推理能力来成功解释和利用它们。MARVIS 使用一个仅有 30 亿参数的模型,在视觉、音频、生物和表格领域取得了具有竞争力的性能,平均比 Gemini 高出 16%,并且接近专业方法的表现,同时不暴露个人身份信息 (P.I.I.) 也不需要任何领域特定的训练。我们在 https://github.com/penfever/marvis 开源了我们的代码和数据集。

你知道你的VLM有一个秘密身份吗?🕵️
尽管功能强大,SOTA VLM在解释表格数据等复杂模态时仍然力不从心;对于基因组数据等其他关键模态,则根本不支持。在这项工作中,我们将一个小型VLM转变为一个超级“万能分类器”:能够处理长尾视觉数据、科学图像、表格分类和回归,甚至音频!
我们是如何做到的?我们的关键洞察:视觉是万能钥匙!🗝️ 我们不是将非视觉数据强行转换为文本,而是将任何数据转换为VLM能够自然理解和推理的可视化形式。我们称之为MARVIS:基于可视化的模态自适应推理(Modality Adaptive Reasoning over VISualizations)。其工作原理如下:
将数据输入到专门的嵌入模型中(例如图像的DINOv2或表格的TabPFNv2)🔄
使用一种或多种标准方法(如KNN、T-SNE等)将嵌入空间可视化 📊
提示VLM根据提供的上下文进行预测 🤖
通过这种简单的方法,我们的MARVIS-3B模型:
在数百个视觉和表格任务上,平均性能比Gemini高出16% 🏆
在4种模态上,与最佳专用模型的性能差距在2.5%以内 ... 🎯
仅使用一个3B模型 ... 💪
... 且不向VLM暴露任何个人身份信息(P.I.I.)... 🔐
而且无需任何模型训练!⚡
MARVIS可与您喜爱的VLM开箱即用,包括像GPT4V这样具备推理能力的API模型;欢迎在我们的GitHub上尝试。🚀
我们的GitHub:https://github.com/penfever/marvis 💻
我们的论文:https://arxiv.org/abs/2507.01544 📄
研究支持:https://oumi.ai