⏶4
MEXA:迈向通用多模态推理,基于动态多专家聚合
发表
由
Yu 提交
作者: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
摘要
结合预训练专家模型为可扩展的多模态推理提供了巨大潜力,但由于输入模态多样性和任务复杂性的不断增加,构建统一框架仍具挑战。例如,医疗诊断需要对结构化临床表格进行精确推理,而金融预测则依赖于解释基于图表的数据以做出明智的预测。为应对这一挑战,我们引入了 MEXA,这是一个免训练框架,它执行多专家模型的模态感知和任务感知聚合,从而在多样且不同的领域实现有效多模态推理。MEXA 根据输入模态和任务特定的推理需求(即技能)动态选择专家模型。每个专家模型都专注于一个模态-任务对,并生成可解释的文本推理输出。MEXA 随后使用大型推理模型(LRM)对这些输出进行聚合和推理,以生成最终答案。这种模块化设计使得跨不同领域的多模态推理更加灵活透明,且无需额外的训练开销。我们广泛评估了我们的方法在各种多模态基准上的表现,包括视频推理、音频推理、3D 理解和医疗问答。MEXA 在强大的多模态基线上持续实现性能提升,突显了我们的专家驱动选择和聚合在多样多模态推理任务中的有效性和广泛适用性。
https://github.com/Yui010206/MEXA