⏶9
OpenMed NER:适用于12个公共数据集的开源、领域自适应的生物医学NER最先进Transformer模型
发表
由
Maziyar Panahi 提交

作者:
Maziyar Panahi

摘要
命名实体识别(NER)是解析非结构化临床笔记和生物医学文献(占医疗保健数据 80% 以上)中结构化信息的基础。尽管大型语言模型最近取得了进展,但在保持计算效率的同时,实现跨不同实体类型的最先进性能仍然是一个重大挑战。我们引入了 OpenMed NER,这是一套开源、领域适应的 Transformer 模型,它们将轻量级领域适应预训练(DAPT)与参数高效的低秩适应(LoRA)相结合。我们的方法在由符合道德规范的公共研究存储库和去识别化的临床笔记(PubMed、arXiv 和 MIMIC-III)编译而成的 35 万段语料库上,使用 DeBERTa-v3、PubMedBERT 和 BioELECTRA 主干进行成本效益高的 DAPT。随后是带有 LoRA 的任务特定微调,该微调更新不到 1.5% 的模型参数。我们在涵盖化学品、疾病、基因和物种的 12 个已建立的生物医学 NER 基准上评估了我们的模型。OpenMed NER 在这 12 个数据集中的 10 个上取得了新的最先进的微观 F1 分数,在不同实体类型上取得了显著的提升。我们的模型在基础疾病和化学基准(例如,BC5CDR-Disease,+2.70 pp)上推动了最先进技术的发展,同时在更专业的基因和临床细胞系语料库上取得了超过 5.3 和 9.7 个百分点的更大改进。这项工作表明,战略性调整的开源模型可以超越闭源解决方案。这种性能是在极高的效率下实现的:训练在单个 GPU 上不到 12 小时即可完成,碳足迹低(< 1.2 kg CO2e),生成了宽松许可的开源检查点,旨在帮助从业者遵守新兴的数据保护和 AI 法规,例如欧盟 AI 法案。
OpenMed发布博文:https://huggingface.co/blog/MaziyarPanahi/open-health-ai