⏶2
CheXGenBench:一个衡量合成胸片逼真度、隐私性和实用性的统一基准
发表
由
Raman Dutt 提交
作者:
Raman Dutt,
Pedro Sanchez, Yongchen Yao,
Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales

摘要
我们引入 CheXGenBench,这是一个严格且多方面的评估框架,用于合成胸部 X 光片生成。它同时评估了最先进的文本到图像生成模型的保真度、隐私风险和临床效用。尽管生成式人工智能在真实世界图像方面取得了快速进展,但医学领域的评估一直受到方法不一致、架构比较过时以及评估标准脱节的阻碍,这些标准很少涉及合成样本的实际临床价值。CheXGenBench 通过标准化的数据划分和包含 20 多种定量指标的统一评估协议克服了这些限制,这些指标系统地分析了 11 种领先文本到图像架构的生成质量、潜在隐私漏洞和下游临床适用性。我们的结果揭示了现有评估协议中的关键低效问题,尤其是在评估生成保真度方面,这导致了不一致且信息不足的比较。我们的框架为医学人工智能社区建立了一个标准化基准,实现了客观且可复现的比较,同时促进了现有和未来生成模型的无缝集成。此外,我们还发布了一个高质量的合成数据集 SynthCheX-75K,其中包含我们基准测试中性能最佳模型 (Sana 0.6B) 生成的 7.5 万张 X 光片,以支持该关键领域的进一步研究。通过 CheXGenBench,我们建立了一个新的最先进水平,并在 https://raman1121.github.io/CheXGenBench/ 发布了我们的框架、模型和 SynthCheX-75K 数据集。

我们推出 CheXGenBench,这是一个新的基准测试,用于评估领先的文本到图像 (T2I) 模型在合成胸部 X 光片生成方面的性能。该基准测试使用 20 多种指标,涵盖图像保真度、隐私和患者再识别风险以及下游效用。我们还发布了用于合成放射影像生成的新的最先进模型 (SoTA)。此外,利用我们的基准测试领先模型,我们发布了一个高质量的合成 X 光片数据集。
项目页面 - https://raman1121.github.io/CheXGenBench/
SynthCheX-75K 数据集 - https://huggingface.co/datasets/raman07/SynthCheX-75K-v2
SoTA 模型 - https://huggingface.co/raman07/CheXGenBench-Models-Sana-e20
Github - https://github.com/Raman1121/CheXGenBench