ReSurgSAM2:通过可信的长期跟踪在手术视频中进行指代任意分割

发表
Haofeng LiuHaofeng Liu 提交
作者: Haofeng LiuHaofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde WuJunde Wu, Yueming Jin

摘要

手术场景分割在计算机辅助手术中至关重要,对于提高手术质量和患者预后至关重要。近期,考虑到能够为外科医生提供交互式体验以分割目标对象的优势,参照式手术分割正在兴起。然而,现有方法受到效率低下和短期跟踪的限制,阻碍了它们在复杂真实世界手术场景中的应用。在本文中,我们介绍了 ReSurgSAM2,这是一种两阶段手术参照分割框架,它利用 Segment Anything Model 2 执行文本参照的目标检测,然后通过可靠的初始帧识别和多样性驱动的长期记忆进行跟踪。在检测阶段,我们提出了一种跨模态时空 Mamba 来生成精确的检测和分割结果。基于这些结果,我们可信的初始帧选择策略识别出后续跟踪的可靠帧。在选择初始帧后,我们的方法进入跟踪阶段,其中包含一个多样性驱动的记忆机制,该机制维护一个可信且多样化的记忆库,确保一致的长期跟踪。大量实验表明,与现有方法相比,ReSurgSAM2 在准确性和效率方面取得了显著改进,以 61.2 FPS 的速度实时运行。我们的代码和数据集将在 https://github.com/jinlab-imvr/ReSurgSAM2 公开。
查看 arXiv 页面查看 PDF

评论

Haofeng LiuHaofeng Liu
论文作者
论文提交者

手术场景分割在计算机辅助手术中至关重要,对提高手术质量和患者预后至关重要。我们引入了 ReSurgSAM2,一个两阶段的手术参考分割框架,它:

  • 利用 SAM2 和我们的跨模态时空 Mamba (CSTMamba) 进行文本参考的目标检测,实现精确检测和分割

  • 采用可信初始帧选择 (CIFS) 策略实现可靠的跟踪初始化

  • 整合了多样性驱动的长期记忆 (DLM),维护一个可信且多样化的记忆库,以实现稳定一致的长期跟踪

  • 以 61.2 FPS 的速度实时运行,使其适用于临床应用

  • 与现有方法相比,在准确性和效率方面取得了显著改进