⏶11
M3Ret:通过自监督释放零样本多模态医学图像检索能力
发表
由
liu 提交
作者: Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu
摘要
医学图像检索对于临床决策和转化研究至关重要,它依赖于判别性的视觉表示。然而,当前的方法仍然是碎片化的,依赖于2D、3D和基于视频的医学数据的独立架构和训练策略。这种特定模态的设计阻碍了可扩展性,并抑制了统一表示的发展。为了实现统一学习,我们整理了一个大规模的混合模态数据集,包含867,653个医学成像样本,包括2D X射线和超声波、RGB内窥镜视频和3D CT扫描。利用这个数据集,我们训练了M3Ret,一个没有任何特定模态定制的统一视觉编码器。它使用生成式(MAE)和对比式(SimDINO)自监督学习(SSL)范式成功地学习了可迁移的表示。我们的方法在所有单个模态的零样本图像到图像检索方面设定了新的最先进水平,超越了DINOv3和文本监督的BMC-CLIP等强大基线。更值得注意的是,尽管没有配对数据,但强大的跨模态对齐出现了,并且模型能够泛化到未见的MRI任务,尽管在预训练期间从未观察到MRI,这表明纯视觉自监督学习对未见模态的泛化能力。全面的分析进一步验证了我们的框架在模型和数据规模上的可扩展性。这些发现为医学影像界带来了积极的信号,将M3Ret定位为迈向多模态医学图像理解中视觉SSL基础模型的一步。
医学影像检索对于临床决策和转化研究至关重要,它依赖于具有辨别力的视觉表示。然而,当前的方法仍然零散,依赖于 2D、3D 和基于视频的医学数据的独立架构和训练策略。这种特定于模态的设计阻碍了可扩展性,并抑制了统一表示的发展。为了实现统一学习,我们构建了一个大型混合模态数据集,包含 867,653 个医学影像样本,包括 2D X 射线和超声波、RGB 内窥镜视频和 3D CT 扫描。利用此数据集,我们训练了 M3Ret,一个无需任何特定模态定制的统一视觉编码器。它使用生成式(MAE)和对比式(SimDINO)自监督学习(SSL)范式成功地学习了可迁移的表示。我们的方法在所有个体模态的零样本图像到图像检索方面设定了新的最先进水平,超越了 DINOv3 和文本监督的 BMC-CLIP 等强大基线。更值得注意的是,强大的跨模态对齐在没有配对数据的情况下出现,并且模型能够泛化到未见的 MRI 任务,尽管在预训练期间从未见过 MRI,这证明了纯粹视觉自监督学习到未见模态的泛化能力。全面的分析进一步验证了我们的框架在模型和数据规模上的可扩展性。这些发现为医学影像界传递了一个有希望的信号,将 M3Ret 定位为迈向多模态医学影像理解中视觉自监督基础模型的关键一步。