基于视觉语言推理的城市社会语义分割

发表
xiaochonglinghuxiaochonglinghu 提交
作者: Wang YuYu Wang, CokeWangYi Wang, Rui DaiRui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, shengliYansheng Li

摘要

AI 生成总结
城市社会语义分割是通过一种视觉语言模型框架实现的,该框架结合了跨模态识别、多阶段推理以及强化学习优化。
作为人类活动的枢纽,城市地表包含丰富的语义实体。从卫星图像中分割这些各种实体对于一系列下游应用至关重要。目前的先进分割模型可以可靠地分割由物理属性定义的实体(如建筑物、水体),但在处理由社会属性定义的类别(如学校、公园)时仍显吃力。在这项工作中,我们通过视觉语言模型(VLM)推理实现了社会语义分割。为了促进这一研究,我们推出了名为 SocioSeg 的城市社会语义分割数据集,这是一个包含卫星图像、数字地图以及按层级结构组织的社会语义实体像素级标签的新资源。此外,我们提出了一种名为 SocioReasoner 的新型视觉语言推理框架,该框架通过跨模态识别和多阶段推理来模拟人类识别和标注社会语义实体的过程。我们采用强化学习来优化这一不可导过程,并激发视觉语言模型的推理能力。实验证明,我们的方法优于现有最先进模型,并具有强大的零样本泛化能力。我们的数据集和代码可在 https://github.com/AMAP-ML/SocioReasoner 获取。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

这是一个非常有意思且具有实用价值的想法。将 VLM + RL 应用于(现实世界的)社会语义分割(Socio-Semantic Segmentation)任务!