生物医学富集:一个由大语言模型(LLMs)增强的生物医学数据集,用于预训练和提取稀有和隐藏内容

发表
Rian TouchentRian Touchent 提交
作者: Rian TouchentRian Touchent, Nathan Godey, Eric de la Clergerie

摘要

我们引入Biomed-Enriched,这是一个通过两阶段标注过程从PubMed构建的生物医学文本数据集。在第一阶段,一个大型语言模型标注了来自PubMed科学文章的40万个段落,为其类型(综述、研究、临床病例、其他)、领域(临床、生物医学、其他)和教育质量分配分数。教育质量分数(1到5分)评估一个段落对于大学水平学习的有用程度。这些标注随后用于微调一个小型语言模型,该模型将标签传播到整个PMC-OA语料库。由此产生的元数据使我们能够提取精炼的子集,包括200万个临床病例段落,其中超过45万个高质量段落来自具有商业用途许可的文章,并通过质量过滤和领域上采样构建了几个变体。由于隐私限制,临床文本通常难以获取,因为医院记录无法公开共享。因此,我们的数据集提供了一个替代性的大规模、公开可用的PubMed临床病例集合,使其成为生物医学和临床自然语言处理的宝贵资源。使用OLMo2进行的初步持续预训练实验表明,这些精选子集能够实现有针对性的改进,其中临床上采样在MMLU ProfMed上将性能提高了约5%,教育质量过滤将MedQA和MedMCQA提高了约1%。这些技术的组合导致了更快的收敛,用三分之一的训练token达到了相同的性能,这表明了更高效和有效的生物医学预训练策略的潜力。
查看 arXiv 页面查看 PDF

评论

Rian TouchentRian Touchent
论文作者
论文提交者

Artboard 9-4.png

combined_educational_scores_1-1.png