“咖啡馆入口看起来方便进出吗?门在哪里?”——面向视觉查询的地理空间人工智能代理

发表
taesiritaesiri 提交
作者: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun KaneShaun Kane

摘要

交互式数字地图彻底改变了人们的旅行方式和对世界的了解;然而,它们依赖于 GIS 数据库中预先存在的结构化数据(例如,道路网络、POI 索引),这限制了它们处理有关世界外观的地理视觉问题的能力。我们提出了 Geo-Visual Agents 的愿景——多模态人工智能代理,它们能够通过分析大型地理空间图像库(包括街景(例如,Google Street View)、基于地点的照片(例如,TripAdvisor、Yelp)以及航空影像(例如,卫星照片)与传统 GIS 数据源相结合)来理解并响应有关世界的细微视觉空间查询。我们定义了我们的愿景,描述了感知和交互方法,提供了三个示例,并列举了未来工作面临的关键挑战和机遇。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 交互式数字地图彻底改变了人们的出行方式和对世界的了解;然而,它们依赖于 GIS 数据库中的预先存在的结构化数据(例如,道路网络、POI 索引),这限制了它们解决与世界外观相关的地理视觉问题的能力。我们介绍了我们对地理视觉智能体的愿景——多模态人工智能智能体,它们通过分析大规模的地理空间图像库(包括街景(例如,谷歌街景)、基于地点的照片(例如,TripAdvisor、Yelp)和航空影像(例如,卫星照片)以及传统 GIS 数据源)来理解和响应有关世界的细微的视觉空间查询。我们定义了我们的愿景,描述了感知和交互方法,提供了三个示例,并列举了未来工作的主要挑战和机遇。