⏶0

MedBLINK：探究多模态医学语言模型中的基本感知

08月04日发表

08月07日由 Mahtab Bigverdi 提交

作者: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna

摘要

多模态语言模型（MLMs）在临床决策支持和诊断推理方面展现出广阔前景，为实现端到端自动化医学图像解读带来了希望。然而，临床医生在采纳人工智能工具时非常挑剔；一个在确定图像方向或识别CT扫描是否增强等看似简单的感知任务上出错的模型，不太可能被用于临床任务。我们引入了Medblink，这是一个旨在探测这些模型感知能力的基准。Medblink涵盖了八个具有临床意义的任务，涉及多种成像模态和解剖区域，总共有1,605张图像上的1,429个多项选择题。我们评估了19个最先进的MLM，包括通用模型（GPT4o，Claude 3.5 Sonnet）和特定领域模型（Med Flamingo，LLaVA Med，RadFM）。虽然人类标注者达到了96.4%的准确率，但表现最好的模型仅达到65%。这些结果表明，当前的MLM在常规感知检查中经常失败，这表明需要加强它们的视觉基础以支持临床应用。数据可在我们的项目页面上获取。

查看 arXiv 页面查看 PDF

Mahtab Bigverdi

论文作者

论文提交者

如果ChatGPT连图像是否倒置都分辨不出来，你还会信任它分析你的X光片吗？

我们推出了MedBLINK，这是一个评估MLM在基本感知任务上的基准，这些任务对临床医生来说微不足道，但AI却常常失败。

MedBLINK：探究多模态医学语言模型中的基本感知

摘要

评论