面向3D医学影像的可扩展语言-图像预训练

发表
Chenhui ZhaoChenhui Zhao 提交
作者: Chenhui ZhaoChenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon

摘要

语言-图像预训练在 2D 医学影像中表现出色,但由于体积数据对计算要求高,对大规模、未整理的临床研究训练构成了重大障碍,其在 CT 和 MRI 等 3D 模态中的成功仍然有限。在本研究中,我们引入了用于语言-图像预训练的层次注意力机制(Hierarchical attention for Language-Image Pre-training, HLIP),这是一种可扩展的 3D 医学影像预训练框架。HLIP 采用了一种轻量级的层次注意力机制,其灵感来源于放射学数据的自然层级:切片(slice)、扫描(scan)和研究(study)。这种机制表现出强大的泛化能力,例如,在 CT-RATE 上预训练后,在 Rad-ChestCT 基准测试上宏观 AUC 提高了 +4.3\%。此外,HLIP 的计算效率使得能够直接在未整理的数据集上进行训练。在对 22 万患者的 313 万次脑部 MRI 扫描和 24 万患者的 144 万次头部 CT 扫描进行训练后,HLIP 取得了最先进的性能,例如,在提出的公开可用的脑部 MRI 基准测试 Pub-Brain-5 上,平衡 ACC 提高了 +32.4\%;在头部 CT 基准测试 RSNA 和 CQ500 上,宏观 AUC 分别提高了 +1.4\% 和 +6.9\%。这些结果表明,通过 HLIP,直接在未整理的临床数据集上进行预训练是 3D 医学影像中语言-图像预训练的可扩展且有效的方向。代码可在 https://github.com/Zch0414/hlip 获取。
查看 arXiv 页面查看 PDF

评论

Chenhui ZhaoChenhui Zhao
论文作者
论文提交者

胸部 CT 和脑部 MRI 模型已在 https://github.com/Zch0414/hlip 发布;欢迎尝试我们的演示。