⏶7
UrbanLLaVA:用于城市智能的多模态大型语言模型,具有空间推理和理解能力
发表
由
Jie Feng 提交
作者:
Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li
摘要
城市研究涉及广泛的场景和任务,需要理解多模态数据。当前的方法通常侧重于特定数据类型,并且缺乏在城市领域中全面处理它们的统一框架。最近多模态大型语言模型(MLLM)的成功,为克服这一限制提供了有希望的机会。在本文中,我们介绍了 UrbanLLaVA,一个多模态大型语言模型,旨在同时处理这四种类型的数据,并且与通用 MLLM 相比,在各种城市任务中实现强大的性能。在 UrbanLLaVA 中,我们首先策划了一个多样化的城市指令数据集,涵盖了单模态和跨模态的城市数据,范围从位置视图到城市环境的全局视图。此外,我们提出了一个多阶段训练框架,将空间推理增强与领域知识学习分离,从而提高 UrbanLLaVA 在各种城市任务中的兼容性和下游性能。最后,我们还扩展了现有的城市研究基准,以评估 MLLM 在各种城市任务中的表现。来自三个城市的实验结果表明,UrbanLLaVA 在单模态任务和复杂的跨模态任务中均优于开源和专有 MLLM,并显示出强大的跨城市泛化能力。源代码和数据可通过 https://github.com/tsinghua-fib-lab/UrbanLLaVA 向研究社区公开访问。

一个统一的多模态大型语言模型,用于城市智能,擅长空间推理、跨模态理解以及在不同城市之间的泛化。