⏶21
EarthMind:面向多粒度与多传感器地球观测,结合大型多模态模型
发表
由
Yan Shu 提交
作者:
Yan Shu, Bin Ren, Zhitong Xiong, Danda Pani Paudel, Luc Van Gool, Begum Demir, Nicu Sebe,
Paolo Rota
摘要
大型多模态模型 (LMMs) 在各种视觉-语言任务中表现出强大性能。然而,它们通常难以全面理解地球观测 (EO) 数据,而这些数据对于监测环境以及人类活动对其的影响至关重要。在这项工作中,我们提出了 EarthMind,一个用于多粒度、多传感器 EO 数据理解的新颖视觉-语言框架。EarthMind 包含两个核心组件:(1) 空间注意力提示 (SAP),它在 LLM 内部重新分配注意力以增强像素级理解;(2) 跨模态融合,它将异构模态对齐到共享空间,并根据信息密度自适应地重新加权 token 以实现有效融合。为促进多传感器融合评估,我们提出了 EarthMind-Bench,一个包含 2,000 多个由人工标注的多传感器图像-问题对的全面基准,涵盖了广泛的感知和推理任务。大量实验证明了 EarthMind 的有效性。它在 EarthMind-Bench 上取得了最先进的性能,尽管规模仅为 4B,但超越了 GPT-4o。此外,EarthMind 在多个公共 EO 基准上优于现有方法,展示了其在统一框架中处理多粒度和多传感器挑战的潜力。
第一个用于地球观测的多粒度多传感器LMM。