⏶6
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
发表
由
Min Woo Sun 提交

作者: Kevin Wu,
Eric Wu, Rahul Thapa, Kevin Wei, Angela Zhang, Arvind Suresh, Jacqueline J. Tao,
Min Woo Sun, Alejandro Lozano, James Zou


摘要
医生和患者都越来越多地使用大语言模型(LLMs)来诊断临床病例。然而,与数学或编程等领域不同,在这些领域,正确性可以通过最终答案客观界定,医学诊断则要求结果和推理过程都准确。当前,广泛使用的医学基准测试(如 MedQA 和 MMLU)仅评估最终答案的准确性,而忽视了临床推理过程的质量和忠实性。为了解决这一局限性,我们推出了 MedCaseReasoning,这是第一个开放获取数据集,用于评估 LLM 与临床医生编写的诊断推理保持一致的能力。该数据集包含 14,489 个诊断问答病例,每个病例都配有源自开放获取医学病例报告的详细推理陈述。我们在 MedCaseReasoning 数据集上评估了最先进的推理 LLM,并发现它们在诊断和推理方面存在显著不足:例如,表现最好的开源模型 DeepSeek-R1 在 10-shot 诊断准确率上仅达到 48%,对临床医生推理陈述的提及率(召回率)仅为 64%。然而,我们证明了使用源自 MedCaseReasoning 的推理过程对 LLM 进行微调,能够显著提高诊断准确率和临床推理召回率,平均相对增益分别为 29% 和 41%。该开放获取数据集、代码和模型已发布在 https://github.com/kevinwu23/Stanford-MedCaseReasoning。
评论

论文作者
论文提交者