用于多任务视觉定位的渐进式语言引导视觉学习

发表
Jingchao WangJingchao Wang 提交
作者: Jingchao WangJingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng

摘要

多任务视觉定位 (MTVG) 包括两个子任务,即指称表达理解 (REC) 和指称表达分割 (RES)。现有代表性方法通常遵循的研究流程主要包含三个核心步骤:视觉和语言模态的独立特征提取、跨模态交互模块,以及针对不同子任务的独立预测头。尽管取得了显著性能,这种研究路线存在两个局限性:1)语言内容未能充分注入到整个视觉主干网络中以提升更有效的视觉特征提取,并且需要额外的跨模态交互模块;2)REC 和 RES 任务之间的关系未能有效利用来帮助实现更准确输出的协同预测。为了解决这些问题,在本文中,我们提出了一种名为 PLVL 的渐进式语言引导视觉学习框架,该框架不仅精细挖掘视觉模态自身的内在特征表达,还渐进注入语言信息,以帮助学习语言相关的视觉特征。通过这种方式,我们的 PLVL 不需要额外的跨模态融合模块,同时充分引入了语言指导。此外,我们分析认为 REC 的定位中心可以在一定程度上帮助识别 RES 的待分割目标区域。受此研究启发,我们设计了一个多任务头来完成这两个子任务的协同预测。在多个基准数据集上进行的广泛实验全面证实,我们的 PLVL 在 REC 和 RES 任务中均明显优于代表性方法。https://github.com/jcwang0602/PLVL
查看 arXiv 页面查看 PDF

评论

Jingchao WangJingchao Wang
论文作者
论文提交者

没有