MedGemma 技术报告

发表
Niels RoggeNiels Rogge 提交
作者: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang

摘要

人工智能(AI)在医疗保健应用中具有巨大的潜力,但其训练和部署面临挑战,原因在于医疗保健数据多样、任务复杂以及需要保护隐私。在医疗任务上表现出色且所需任务特定微调数据较少的基础模型,对于加速医疗保健AI应用的发展至关重要。我们推出了 MedGemma,这是一系列基于 Gemma 3 4B 和 27B 的医疗视觉语言基础模型。MedGemma 在图像和文本上展示了先进的医学理解和推理能力,显著超越了同等规模的生成模型的性能,并接近了任务特定模型的性能,同时保持了 Gemma 3 基础模型的通用能力。对于分布外任务,与基础模型相比,MedGemma 在医疗多模态问答方面实现了 2.6-10% 的改进,在胸部X光片发现分类方面实现了 15.5-18.1% 的改进,在代理评估方面实现了 10.8% 的改进。进一步微调 MedGemma 可以进一步提高子领域的性能,将电子健康记录信息检索中的错误减少 50%,并在气胸分类和组织病理学切片分类方面达到与现有专业最先进方法相当的性能。我们还额外推出了 MedSigLIP,这是一种源自 SigLIP 并经过医学调整的视觉编码器。MedSigLIP 为 MedGemma 的视觉理解能力提供支持,作为编码器,其性能与专业医疗图像编码器相当或更优。综上所述,MedGemma 系列为医疗图像和文本能力提供了坚实的基础,有潜力显著加速医学研究和下游应用的开发。MedGemma 系列,包括教程和模型权重,可在 https://goo.gle/medgemma 找到。
查看 arXiv 页面查看 PDF

评论