⏶17
NOVA: 用于脑部MRI异常定位和临床推理的基准
发表
由
liu 提交
作者:
Cosmin I. Bercea,
Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler
摘要
在许多实际应用中,部署的模型会遇到与训练期间所见数据不同的输入。分布外检测用于识别输入是否来自一个未曾见过的分布,而开放世界识别则标记此类输入,以确保系统在不断出现、先前未知的类别必须在不重新训练的情况下得到处理时仍保持鲁棒性。基础模型和视觉-语言模型在大型和多样化的数据集上进行预训练,期望在包括医学影像在内的多个领域实现广泛泛化。然而,在只有少数常见异常类型组成的测试集上对这些模型进行基准测试,会悄然将评估退化为封闭集问题,掩盖了在临床使用中遇到的罕见或真正新颖情况下的失败。因此,我们提出了 NOVA,这是一个具有挑战性的真实世界评估专用基准,包含约 900 例脑部 MRI 扫描,涵盖 281 种罕见病理和异质采集方案。每个病例都包含丰富的临床叙事和双盲专家标注的边界框。这些结合起来,可以对异常定位、视觉描述和诊断推理进行联合评估。由于 NOVA 绝不用于训练,它成为了分布外泛化的极端压力测试:模型必须弥合样本外观和语义空间上的分布差距。使用领先的视觉-语言模型(GPT-4o、Gemini 2.0 Flash 和 Qwen2.5-VL-72B)进行的基线测试结果显示,在所有任务上都出现了显著的性能下降,这确立了 NOVA 作为推进能够检测、定位和推理真正未知异常的模型的一个严格测试平台。
我们提出了 NOVA,这是一个具有挑战性的、真实的、仅用于评估的基准测试,包含约 900 例脑部 MRI 扫描,涵盖 281 种罕见病理和异质性采集协议。每个病例都包含丰富的临床叙述和双盲专家标注的边界框。这些共同使得对异常定位、视觉描述和诊断推理进行联合评估成为可能。由于 NOVA 从未用于训练,它充当了分布外泛化的极限压力测试:模型必须弥合样本外观和语义空间中的分布差距。使用领先的视觉-语言模型(GPT-4o、Gemini 2.0 Flash 和 Qwen2.5-VL-72B)进行的基线测试结果显示,所有任务的性能均大幅下降,这使得 NOVA 成为了一个严谨的测试平台,用于推动能够检测、定位和推理真正未知异常的模型。