⏶3
RetFiner:一种用于视网膜基础模型的视觉-语言精炼方案
发表
由
José Morano 提交
作者: Ronald Fecso,
José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
摘要
光学相干断层扫描(OCT)等成像技术的兴起以及深度学习(DL)的进步,使临床医生和研究人员能够简化视网膜疾病的分期。一种流行的深度学习方法是自监督学习(SSL),其中模型从大量未标记数据中学习,从而避免了昂贵的标注。SSL促进了基础模型(FM)的发展,这些大型模型可用于各种下游任务。然而,现有的用于OCT的基础模型仅通过图像数据进行训练,缺乏对图像全面而鲁棒的语义理解,这体现在它们的下游性能(特别是复杂任务)上,因此需要监督微调(这可能不可行)才能更好地适应特定应用和人群。为了解决这个问题,我们提出了RetFiner,一种SSL视觉-语言精炼方案,它能改进现有基础模型的表示,并使其能够高效、直接地适应特定人群,从而提高下游性能。我们的方法利用了文本数据中丰富的监督信号,采用了一系列多样化的训练目标。我们在视网膜基础模型RETFound、UrFound和VisionFM上测试了RetFiner,结果显示在七个高度多样化的OCT分类任务上,线性探测性能显著提升,分别比其基线平均增加了5.8、3.9和2.1个百分点。我们的代码和模型权重已在https://github.com/ronnief1/RetFiner 公开可用。
RetFiner 是一种新颖的视觉-语言微调方案,通过利用文本数据增强 OCT 基础模型的表示能力,显著提高了其在视网膜疾病分类任务中的下游性能。该论文已被 MICCAI 2025 接受发表。