SilVar-Med:用于医学影像中可解释异常检测的语音驱动视觉语言模型

发表
Chris NgoChris Ngo 提交
作者: Tan-Hanh PhamTan-Hanh Pham, Chris NgoChris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy

摘要

医疗视觉语言模型在各种医疗保健应用中显示出巨大的潜力,包括医学图像描述和诊断辅助。然而,大多数现有模型依赖于基于文本的指令,限制了它们在真实临床环境中的可用性,尤其是在手术等场景中,基于文本的交互对于医生来说通常是不切实际的。此外,当前的医学图像分析模型通常缺乏对其预测背后的全面推理,这降低了它们在临床决策中的可靠性。鉴于医疗诊断错误可能会带来改变人生的后果,因此迫切需要可解释和合理的医疗辅助。为了应对这些挑战,我们引入了一个端到端语音驱动的医疗 VLM,SilVar-Med,这是一个多模态医学图像助手,它将语音交互与 VLM 集成,开创了基于语音的医学图像分析通信任务。此外,我们专注于解释医学异常的每次预测背后的推理,并提出了一个推理数据集。通过广泛的实验,我们展示了一个概念验证研究,用于通过端到端语音交互进行推理驱动的医学图像解释。我们相信这项工作将通过促进更透明、互动和临床上可行的诊断支持系统来推进医学 AI 领域。我们的代码和数据集在 SiVar-Med 上公开可用。
查看 arXiv 页面查看 PDF

评论

Chris NgoChris Ngo
论文作者
论文提交者

医学视觉语言模型在各种医疗保健应用中显示出巨大的潜力,包括医学图像描述和诊断辅助。然而,大多数现有模型依赖于基于文本的指令,这限制了它们在真实临床环境中的可用性,尤其是在手术等场景中,基于文本的交互对于医生来说通常是不切实际的。此外,当前的医学图像分析模型通常缺乏对其预测背后综合推理的解释,这降低了它们在临床决策中的可靠性。鉴于医学诊断错误可能造成改变人生的后果,因此迫切需要可解释和合理的医疗辅助。为了应对这些挑战,我们推出了一种端到端语音驱动的医学 VLM,SilVar-Med,这是一种多模态医学图像助手,它将语音交互与 VLM 集成,开创了基于语音的医学图像分析通信任务。此外,我们专注于解释医学异常的每个预测背后的推理,并提出了一个推理数据集。通过大量的实验,我们展示了一个概念验证研究,用于通过端到端语音交互进行推理驱动的医学图像解释。我们相信这项工作将通过促进更透明、交互式和临床上可行的诊断支持系统来推进医学人工智能领域。我们的代码和数据集在 SiVar-Med 上公开提供。