将显微学中的分割一切与多模态大语言模型相统一

发表
James BurgessJames Burgess 提交
作者: Manyu LiManyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan

摘要

生物医学图像中感兴趣区域的精准分割在图像分析中具有重要价值。尽管一些用于生物医学分割的基础模型当前已在某些数据集上取得了优异的性能,但它们通常在未见过的领域数据上表现欠佳。我们认为这种不足源于在分割之前缺乏视觉-语言知识 (VLK)。多模态大型语言模型 (MLLMs) 为多模态任务带来了出色的理解和推理能力,这启发我们利用 MLLMs 注入视觉-语言知识 (VLK),从而使视觉模型能够在跨领域数据集上展现出更强的泛化能力。在本文中,我们提出利用 MLLMs 指导 SAM 学习显微镜跨领域数据,统一显微镜领域的 Segment Anything (SAM),并命名为 uLLSAM。具体而言,我们提出了视觉-语言语义对齐 (VLSA) 模块,该模块将 VLK 注入到 Segment Anything 模型 (SAM) 中。我们发现 SAM 在接收到全局 VLK 提示后,其性能显著提升,但在边界轮廓感知方面存在不足。因此,我们进一步提出了语义边界正则化 (SBR),用于提示 SAM。我们的方法在 9 个同领域显微镜数据集上,Dice 指标提升了 7.71%,SA 指标提升了 12.10%,取得了当前最优的性能。我们的方法在 10 个域外数据集上,Dice 指标提升 6.79%,SA 指标提升 10.08%,显示出强大的泛化能力。代码链接:https://github.com/ieellee/uLLSAM
查看 arXiv 页面查看 PDF

评论

James BurgessJames Burgess
论文提交者

https://github.com/ieellee/uLLSAM