UniBiomed: 用于接地生物医学图像解释的通用基础模型

发表
Linshan WuLinshan Wu 提交
作者: Linshan WuLinshan Wu, NIE YuxiangYuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen

摘要

生物医学图像的多模态解读为生物医学图像分析开辟了新的机遇。传统的AI方法通常依赖于割裂的训练,即使用大型语言模型(LLMs)进行临床文本生成,使用分割模型进行目标提取,这导致实际部署不灵活,并且未能利用全面的生物医学信息。为此,我们引入了UniBiomed,这是首个用于可信生物医学图像解读的通用基础模型。UniBiomed基于多模态大型语言模型(MLLM)和Segment Anything模型(SAM)的新颖集成,它有效地统一了临床文本生成和相应生物医学对象分割,以实现可信解读。通过这种方式,UniBiomed能够应对跨越十种不同生物医学成像模态的广泛生物医学任务。为了开发UniBiomed,我们构建了一个大规模数据集,包含跨越十种成像模态的超过2700万对图像、标注和文本描述三元组。在84个内部和外部数据集上的广泛验证表明,UniBiomed在分割、疾病识别、区域感知诊断、视觉问答和报告生成方面达到了最先进的性能。此外,与依赖临床专家预先诊断图像并手动制作精确文本或视觉提示的先前模型不同,UniBiomed可以为生物医学图像分析提供自动化和端到端的可信解读。这代表了临床工作流程中的一个新范式转变,将显著提高诊断效率。总之,UniBiomed代表了生物医学AI的一个新突破,为更准确、更高效的生物医学图像分析释放了强大的可信解读能力。
查看 arXiv 页面查看 PDF

评论

Linshan WuLinshan Wu
论文作者
论文提交者

生物医学图像的多模态解读在生物医学图像分析领域开辟了新的机遇。传统的AI方法通常依赖于独立训练,即大语言模型(LLMs)用于临床文本生成,而分割模型用于目标提取,这导致实际部署不灵活,并且未能充分利用整体的生物医学信息。为此,我们引入了UniBiomed,这是第一个用于生物医学图像接地解读的通用基础模型。UniBiomed基于多模态大语言模型(MLLM)和Segment Anything Model(SAM)的新颖集成,有效地统一了临床文本生成和相应生物医学对象的分割,以实现接地解读。通过这种方式,UniBiomed能够处理跨越十种不同生物医学成像模态的广泛生物医学任务。为了开发UniBiomed,我们构建了一个大规模数据集,包含跨越十种成像模态的超过2700万个图像、标注和文本描述三元组。在84个内部和外部数据集上进行的广泛验证表明,UniBiomed在分割、疾病识别、区域感知诊断、视觉问答和报告生成方面取得了最先进的性能。此外,与依赖临床专家预先诊断图像并手动制作精确文本或视觉提示的先前模型不同,UniBiomed能够为生物医学图像分析提供自动化、端到端的接地解读。这代表着临床工作流程的一种新的范式转变,将显著提高诊断效率。总之,UniBiomed代表着生物医学AI领域的一项新突破,释放了强大的接地解读能力,以实现更准确、更高效的生物医学图像分析。

Tom WinterbottomTom Winterbottom

感谢这篇论文。我喜欢这项工作。

关于改进图 B(第 4 页),一个我已经非常喜欢且认为不错的图,有一些小想法:

  • 请考虑增大条形图上的字体

  • 我承认不确定最好的解决方案是什么,但有些条形图的比例不同(例如,皮肤数据是 10^1 -> 10^4,而 MRI 数据是 10^4 -> 10^7)。也许有什么方法可以更均匀地比较它们?

Linshan WuLinshan Wu
论文作者
论文提交者

非常感谢您对我们工作的关注以及感谢您的宝贵建议!我们会检查这部分。