CRISP-SAM2:结合跨模态交互和语义提示的SAM2,用于多器官分割

发表
neil yuneil yu 提交
作者: neil yuXinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge

摘要

多器官医学分割是医学图像处理的关键组成部分,对于医生做出准确诊断和制定有效治疗方案至关重要。尽管该领域取得了显著进展,但目前的多器官分割模型通常存在细节不准确、依赖几何提示以及空间信息丢失等问题。为了应对这些挑战,我们推出了一种名为CRISP-SAM2的新型模型,它基于SAM2,并结合了跨模态交互和语义提示。该模型代表了一种有前景的多器官医学分割方法,它以器官的文本描述为指导。我们的方法首先使用渐进式交叉注意力交互机制,将视觉和文本输入转换为跨模态的上下文语义。然后,将这些语义注入到图像编码器中,以增强对视觉信息的详细理解。为了消除对几何提示的依赖,我们使用语义提示策略,替换原始提示编码器,以锐化对具有挑战性目标的感知。此外,还应用了用于记忆的相似性排序自更新策略和掩码细化过程,以进一步适应医学成像并增强局部细节。在七个公共数据集上进行的对比实验表明,CRISP-SAM2优于现有模型。广泛的分析也证明了我们方法的有效性,从而证实了其卓越的性能,尤其是在解决前面提到的局限性方面。我们的代码可在以下位置找到:https://github.com/YU-deep/CRISP\_SAM2.git。
查看 arXiv 页面查看 PDF

评论

neil yuneil yu
论文作者
论文提交者

ACM MM 25 已接受