MedBLINK:探究多模态医学语言模型中的基本感知

发表
Mahtab BigverdiMahtab Bigverdi 提交
作者: Mahtab BigverdiMahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna

摘要

多模态语言模型(MLMs)在临床决策支持和诊断推理方面展现出广阔前景,为实现端到端自动化医学图像解读带来了希望。然而,临床医生在采纳人工智能工具时非常挑剔;一个在确定图像方向或识别CT扫描是否增强等看似简单的感知任务上出错的模型,不太可能被用于临床任务。我们引入了Medblink,这是一个旨在探测这些模型感知能力的基准。Medblink涵盖了八个具有临床意义的任务,涉及多种成像模态和解剖区域,总共有1,605张图像上的1,429个多项选择题。我们评估了19个最先进的MLM,包括通用模型(GPT4o,Claude 3.5 Sonnet)和特定领域模型(Med Flamingo,LLaVA Med,RadFM)。虽然人类标注者达到了96.4%的准确率,但表现最好的模型仅达到65%。这些结果表明,当前的MLM在常规感知检查中经常失败,这表明需要加强它们的视觉基础以支持临床应用。数据可在我们的项目页面上获取。
查看 arXiv 页面查看 PDF

评论

Mahtab BigverdiMahtab Bigverdi
论文作者
论文提交者

如果ChatGPT连图像是否倒置都分辨不出来,你还会信任它分析你的X光片吗?

我们推出了MedBLINK,这是一个评估MLM在基本感知任务上的基准,这些任务对临床医生来说微不足道,但AI却常常失败。