⏶32
Baichuan-M2:使用大型验证器系统扩展医疗能力
发表
由
FanYang 提交
作者: Baichuan-M2 Team, Chengfeng Dou, Chong Liu,
Fan Yang, Fei Li, Jiyuan Jia,
Mingyang Chen,
Qiang Ju, Shuai Wang, Shunya Dang,
Tianpeng Li, Xiangrong Zeng,
Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun,
Peidong Guo, Qian Ma,
Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang
摘要
随着大型语言模型(LLM)在对话和推理能力方面的进步,其在医疗保健领域的实际应用已成为一个关键的研究焦点。然而,医疗 LLM 在 USMLE 等静态基准测试上的表现与它们在现实临床决策中的效用之间存在显著差距。这种差异的出现是因为传统考试未能捕捉到医疗咨询的动态、交互式特性。为了应对这一挑战,我们引入了一种新颖的动态验证框架,该框架超越了静态答案验证器,建立了一个大规模、高保真的交互式强化学习系统。我们的框架包含两个关键组件:一个利用去标识化医疗记录创建逼真临床环境的患者模拟器(Patient Simulator),以及一个动态生成多维度评估指标的临床评分生成器(Clinical Rubrics Generator)。在此基础上,我们开发了 Baichuan-M2,一个拥有 320 亿参数的医学增强推理模型,通过多阶段强化学习策略和改进的组相对策略优化(GRPO)算法进行训练。在 HealthBench 上进行评估,Baichuan-M2 的表现优于所有其他开源模型和大多数先进的闭源模型,在极具挑战性的 HealthBench Hard 基准测试上取得了超过 32 分的成绩,此前仅有 GPT-5 能够超越此分数。我们的工作表明,强大的动态验证系统对于使 LLM 能力与实际临床应用保持一致至关重要,为医疗 AI 部署的性能-参数权衡确立了新的帕累托前沿。

随着大型语言模型(LLM)在对话和推理能力方面的进步,它们在医疗保健领域的实际应用已成为一个重要的研究焦点。然而,医疗 LLM 在 USMLE 等静态基准测试上的表现与其在真实临床决策中的效用之间存在显著的差距。造成这种差异的原因是,传统考试未能捕捉到医疗咨询的动态、交互式本质。为了应对这一挑战,我们引入了一个新颖的动态验证框架,该框架超越了静态答案验证器,建立了一个大规模、高保真的交互式强化学习系统。我们的框架包含两个关键组件:一个患者模拟器,它使用去标识化的医疗记录创建真实的临床环境;以及一个临床评分生成器,它动态生成多维度评估指标。在此基础上,我们开发了 Baichuan-M2,一个拥有 320 亿参数的医疗增强推理模型,通过多阶段强化学习策略和改进的群体相对策略优化(GRPO)算法进行训练。在 HealthBench 上进行评估,Baichuan-M2 的表现优于所有其他开源模型以及大多数先进的闭源模型,在具有挑战性的 HealthBench Hard 基准测试上得分超过 32 分,而此前仅有 GPT-5 超过此分数。我们的工作表明,强大的动态验证器系统对于使 LLM 能力与实际临床应用保持一致至关重要,它在医疗 AI 部署的性能-参数权衡方面建立了一个新的帕累托前沿。