轻量级掩码解码:释放多模态大语言模型在指代表达式分割中的潜力

发表
Niels RoggeNiels Rogge 提交
作者: Jingchao WangJingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, HongWangHong Wang

摘要

引用表达分割(Reference Expression Segmentation,RES)旨在分割由引用表达指定的图像区域,并随着多模态大模型(Multimodal Large Models,MLLMs)的兴起而变得流行。尽管MLLMs在语义理解方面表现出色,但其令牌生成范式在像素级密集预测方面存在困难。现有的RES方法要么将MLLMs与参数繁重的Segment Anything Model(SAM)耦合,后者拥有6.32亿网络参数,要么采用牺牲准确性的无SAM轻量级管道。为了解决性能和成本之间的权衡问题,我们专门提出了MLLMSeg,这是一个新颖的框架,它充分利用了MLLM视觉编码器中编码的固有视觉细节特征,而无需引入额外的视觉编码器。此外,我们提出了一种细节增强和语义一致的特征融合模块(DSFF),该模块充分整合了与细节相关的视觉特征与MLLM的大语言模型(LLM)输出的与语义相关的特征。最后,我们建立了一个轻量级掩码解码器,其网络参数仅为3400万,它最佳地利用了来自视觉编码器的详细空间特征和来自LLM的语义特征,以实现精确的掩码预测。大量的实验表明,我们的方法通常超越了基于SAM和无SAM的竞争对手,在性能和成本之间取得了更好的平衡。代码可在https://github.com/jcwang0602/MLLMSeg上获取。
查看 arXiv 页面查看 PDF

评论

Niels RoggeNiels Rogge
论文提交者

代码:https://github.com/jcwang0602/MLLMSeg