⏶8
多模态指代分割:综述
发表
由
Henghui Ding 提交

作者: Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang
摘要
多模态指代分割旨在根据文本或音频格式的指代性表述,在图像、视频和3D场景等视觉场景中分割出目标物体。这项任务在需要根据用户指令进行精确物体感知的实际应用中扮演着至关重要的角色。在过去十年中,得益于卷积神经网络、变换器(Transformers)和大型语言模型的进步,该任务在多模态社区获得了极大关注,这些技术都极大地提升了多模态感知能力。本文对多模态指代分割进行了全面的综述。我们首先介绍了该领域的背景,包括问题定义和常用数据集。接着,我们总结了一个统一的指代分割元架构,并回顾了在图像、视频和3D场景这三种主要视觉场景中的代表性方法。我们进一步讨论了广义指代性表述(GREx)方法,以应对现实世界的复杂性挑战,同时还探讨了相关任务和实际应用。文中也提供了在标准基准上进行的广泛性能比较。我们会持续在 https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation 跟踪相关工作。
多模态指代分割综述,包括图像、视频、听觉视频和3D场景中的指代分割。