⏶3
HISTAI:一个用于计算病理学的开源、大规模全玻片图像数据集
发表
由
Dmitry Nechaev 提交

作者:
Dmitry Nechaev,
Alexey Pchelnikov, Ekaterina Ivanova

摘要
数字病理 (DP) 领域的近期进展,特别是通过人工智能和基础模型的发展,凸显了大规模、多样化且标注丰富的数据集的重要性。尽管它们至关重要,但公开可用的全玻片图像 (WSI) 数据集通常缺乏足够的规模、组织多样性和全面的临床元数据,这限制了人工智能模型的鲁棒性和泛化能力。为此,我们推出了 HISTAI 数据集,这是一个大规模、多模态、开放获取的 WSI 集合,包含来自各种组织类型的 60,000 多张玻片。HISTAI 数据集中的每个病例都附带丰富的临床元数据,包括诊断、人口统计信息、详细的病理学标注和标准化诊断编码。该数据集旨在填补现有资源中存在的空白,促进创新、可复现性以及临床相关计算病理学解决方案的发展。该数据集可在 https://github.com/HistAI/HISTAI 访问。
新的 WSI 数据集