SMMILE:一个专家驱动的多模态医学上下文学习基准

发表
Michael MoorMichael Moor 提交
作者: Melanie Rieff, Maya Varma, Ossian Rabow, Subathra Adithan, Julie Kim, Ken Chang, Hannah Lee, Nidhi Rohatgi, Christian Bluethgen, Mohamed S. Muneer, JB D.Jean-Benoit Delbrouck, Michael MoorMichael Moor

摘要

尽管多模态情境学习(ICL)在医学等领域具有巨大潜力,但其探索仍不足。临床医生日常会遇到需要从有限示例中进行适应的各种专业任务,例如从少量相关既往病例中汲取见解或考虑一组有限的鉴别诊断。尽管多模态大型语言模型(MLLMs)在医学视觉问答(VQA)方面取得了进展,但它们从情境中学习多模态任务的能力在很大程度上仍是未知的。我们引入了SMMILE,这是首个由专家驱动的医学任务多模态ICL基准。十一位医学专家策划了问题,每个问题都包含一个多模态查询和作为任务演示的多模态情境示例。SMMILE包含111个问题(517个问答图像三元组),涵盖6个医学专科和13种成像模式。我们进一步引入了SMMILE++,这是一个包含1038个排列问题的增强变体。对15个MLLM进行的综合评估表明,大多数模型在医学任务中表现出中等到差的多模态ICL能力。在开放式评估中,ICL在SMMILE上仅比零样本平均提升8%,在SMMILE++上提升9.4%。我们观察到对不相关情境示例的敏感性:即使是单个嘈杂或不相关的示例,也能使性能降低高达9.5%。此外,示例排序表现出近因偏见,即把最相关的示例放在最后可以带来高达71%的显著性能提升。我们的发现强调了当前MLLM在从情境中学习多模态医学任务时的关键局限性和偏见。
查看 arXiv 页面查看 PDF

评论

Michael MoorMichael Moor
论文作者
论文提交者

医疗领域多模态ICL的挑战性基准。