视觉编年史:使用多模态LLM分析大规模图像集合

发表
AKAK 提交
作者: Boyang DengBoyang Deng, Songyou PengSongyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

摘要

我们提出了一个使用多模态 LLM (MLLM) 的系统,用于分析包含数千万张在不同时间捕获的图像的大型数据库,旨在发现时间变化中的模式。具体来说,我们的目标是捕捉城市在一定时期内频繁共同发生的改变(“趋势”)。与之前的视觉分析不同,我们的分析回答开放式查询(例如,“城市中频繁发生的改变类型有哪些?”),而没有任何预定的目标对象或训练标签。这些特性使得先前的基于学习或无监督的视觉分析工具不适用。我们将 MLLM 识别为一种新颖的工具,因为它们具有开放式的语义理解能力。然而,我们的数据集比 MLLM 作为上下文摄取的数据集大四个数量级。因此,我们引入了一种自下而上的程序,将大规模视觉分析问题分解为更易于处理的子问题。我们仔细设计了基于 MLLM 的解决方案来解决每个子问题。在我们系统的实验和消融研究中,我们发现它显着优于基线,并且能够从大型城市中捕获的图像中发现有趣的趋势(例如,“增加了户外餐饮”,“立交桥被漆成蓝色”等)。更多结果和交互式演示请访问 https://boyangdeng.com/visual-chronicles
查看 arXiv 页面查看 PDF

评论