⏶2
CityLens:用于城市社会经济感知的大型语言-视觉模型基准测试
发表
由
Jie Feng 提交
作者: Tianhui Liu,
Jie Feng, Hetian Pang, Xin Zhang,
Tianjian Ouyang, Zhiyuan Zhang, Yong Li
摘要
通过视觉数据理解城市社会经济状况是可持续城市发展和政策规划中一项具有挑战性但至关重要的任务。在这项工作中,我们引入了CityLens,这是一个综合基准,旨在评估大语言-视觉模型(LLVMs)从卫星和街景图像中预测社会经济指标的能力。我们构建了一个多模态数据集,涵盖全球分布的17个城市,跨越经济、教育、犯罪、交通、健康和环境六个关键领域,反映了城市生活的多元性。基于此数据集,我们定义了11个预测任务,并采用了三种评估范式:直接指标预测、归一化指标估计和基于特征的回归。我们对17个最先进的LLVMs在这些任务上进行了基准测试。我们的结果显示,尽管LLVMs展现出有前景的感知和推理能力,但在预测城市社会经济指标方面仍存在局限性。CityLens提供了一个统一的框架,用于诊断这些局限性,并指导未来利用LLVMs理解和预测城市社会经济模式的工作。我们的代码和数据集已通过https://github.com/tsinghua-fib-lab/CityLens开源。
一个综合性基准,旨在评估大型语言-视觉模型(LLVMs)根据卫星和街景图像预测社会经济指标的能力。