⏶1
Kvasir-VQA-x1: 一个用于胃肠道内窥镜医学推理和鲁棒医学视觉问答的多模态数据集
发表
由
Sushant Gautam 提交

作者: Sushant Gautam, Michael A. Riegler, Pål Halvorsen
摘要
医疗视觉问答(MedVQA)是一个在开发临床决策支持系统方面前景广阔的领域,但其进展往往受限于现有数据集,这些数据集可能缺乏临床复杂性和视觉多样性。为了弥补这些不足,我们引入了Kvasir-VQA-x1,这是一个针对胃肠道(GI)内窥镜检查的新的大规模数据集。我们的工作在原始Kvasir-VQA的基础上进行了显著扩展,新增了159,549个问答对,旨在测试更深层次的临床推理能力。我们开发了一种利用大型语言模型生成这些问题的系统方法,并根据复杂性对问题进行了分层,以更好地评估模型的推理能力。为了确保我们的数据集能让模型为真实的临床场景做好准备,我们还引入了多种视觉增强,以模拟常见的成像伪影。该数据集的结构支持两个主要的评估途径:一个用于标准VQA性能评估,另一个用于测试模型对这些视觉扰动的鲁棒性。通过提供一个更具挑战性和临床相关性的基准,Kvasir-VQA-x1旨在加速开发更可靠、更有效的多模态AI系统,以用于临床环境。该数据集完全可访问并遵循FAIR数据原则,使其成为更广泛研究社区的宝贵资源。代码和数据:https://github.com/Simula/Kvasir-VQA-x1 和 https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
Kvasir-VQA-x1