⏶0
MedBLINK:探究多模态医学语言模型中的基本感知
发表
由
Mahtab Bigverdi 提交
作者:
Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna
摘要
多模态语言模型(MLMs)在临床决策支持和诊断推理方面展现出广阔前景,为实现端到端自动化医学图像解读带来了希望。然而,临床医生在采纳人工智能工具时非常挑剔;一个在确定图像方向或识别CT扫描是否增强等看似简单的感知任务上出错的模型,不太可能被用于临床任务。我们引入了Medblink,这是一个旨在探测这些模型感知能力的基准。Medblink涵盖了八个具有临床意义的任务,涉及多种成像模态和解剖区域,总共有1,605张图像上的1,429个多项选择题。我们评估了19个最先进的MLM,包括通用模型(GPT4o,Claude 3.5 Sonnet)和特定领域模型(Med Flamingo,LLaVA Med,RadFM)。虽然人类标注者达到了96.4%的准确率,但表现最好的模型仅达到65%。这些结果表明,当前的MLM在常规感知检查中经常失败,这表明需要加强它们的视觉基础以支持临床应用。数据可在我们的项目页面上获取。
如果ChatGPT连图像是否倒置都分辨不出来,你还会信任它分析你的X光片吗?
我们推出了MedBLINK,这是一个评估MLM在基本感知任务上的基准,这些任务对临床医生来说微不足道,但AI却常常失败。