⏶6
CXReasonBench:一个用于评估胸部X光片中结构化诊断推理的基准
发表
由
Hyungyung Lee 提交
作者:
Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi
摘要
大型视觉-语言模型(LVLMs)的近期进展促成了在医疗任务中的有前景的应用,例如报告生成和视觉问答。然而,现有基准主要关注最终诊断结果,对模型是否进行了临床上有意义的推理提供的洞察有限。为了解决这个问题,我们提出了CheXStruct和CXReasonBench,这是一个基于公开可用MIMIC-CXR-JPG数据集构建的结构化流程和基准。CheXStruct直接从胸部X光片自动推导出一系列中间推理步骤,例如,分割解剖区域、推导解剖标志和诊断测量、计算诊断指标以及应用临床阈值。CXReasonBench利用这一流程评估模型是否能执行临床上有效的推理步骤,以及它们在多大程度上可以从结构化指导中学习,从而实现对诊断推理的细粒度透明评估。该基准包含18,988个问答对,涵盖12个诊断任务和1,200个病例,每个病例配有多达4个视觉输入,并支持多路径、多阶段评估,包括通过选择解剖区域和诊断测量进行的视觉定位。即使评估的10个LVLMs中最强的模型在结构化推理和泛化方面也表现不佳,通常无法将抽象知识与基于解剖学的视觉解释联系起来。代码可在 https://github.com/ttumyche/CXReasonBench 获取。
评论
论文作者
论文提交者