MedDINOv3:如何为医学图像分割自适应视觉基础模型?

发表
taesiritaesiri 提交
作者: Yuheng LiYuheng Li, Yizhou WuYizhou Wu, Yuxiang LaiYuxiang Lai, Mingzhe HuMingzhe Hu, Xiaofeng Yang

摘要

CT和MRI扫描中器官和肿瘤的准确分割对于诊断、治疗规划和疾病监测至关重要。虽然深度学习在自动化分割方面取得了进展,但大多数模型仍然是任务特定的,在跨模态和跨机构的泛化能力方面有所欠缺。在十亿级别自然图像上预训练的视觉基础模型(FMs)提供了强大且可迁移的表示。然而,将其适应于医学成像面临两个关键挑战:(1)大多数基础模型的ViT骨干在医学图像分割方面仍逊于专门的CNN;(2)自然图像和医学图像之间的大领域差距限制了可迁移性。我们引入了MedDINOv3,一个简单有效的框架,用于将DINOv3适应于医学分割。我们首先回顾了纯ViT,并设计了一个简单有效的多尺度token聚合架构。然后,我们使用多阶段DINOv3方案在CT-3M(一个精心策划的387万轴向CT切片集合)上进行领域自适应预训练,以学习鲁棒的密集特征。MedDINOv3在四个分割基准上实现了与最先进水平相当或超越的性能,证明了视觉基础模型作为医学图像分割统一骨干的潜力。代码可在https://github.com/ricklisz/MedDINOv3获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

CT 和 MRI 扫描中器官和肿瘤的准确分割对于诊断、治疗规划和疾病监测至关重要。虽然深度学习已经推动了自动分割的发展,但大多数模型仍然是特定于任务的,在跨模态和跨机构的泛化性方面存在不足。在数十亿级自然图像上预训练的视觉基础模型(FMs)提供了强大且可迁移的表示。然而,将其应用于医学影像面临两个主要挑战:(1) 大多数基础模型的 ViT 主干在医学图像分割方面仍不如专门的 CNN;(2) 自然图像和医学图像之间的大领域差距限制了迁移性。我们引入了 MedDINOv3,这是一个简单有效的框架,用于将 DINOv3 适应于医学分割。我们首先回顾了纯粹的 ViT,并设计了一个简单有效的多尺度 token 聚合架构。然后,我们在 CT-3M 上进行领域自适应预训练,这是一个包含 3.87M 个轴向 CT 切片的精选集合,使用多阶段 DINOv3 配方来学习鲁棒的密集特征。MedDINOv3 在四个分割基准测试中的表现与最先进的水平相当或更高,证明了视觉基础模型作为医学图像分割统一主干的潜力。