⏶19
超越蒸馏:借助极简规则强化学习推动医学大模型推理的极限
发表
由
liu 提交
作者:
Che Liu, Haozhe Wang,
Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin,
Wenjia Bai, Daniel Rueckert, Rossella Arcucci
摘要
提升大型语言模型(LLMs)在复杂任务上的表现并实现可解释的决策制定,尤其是在临床应用中,需要有效的推理能力。然而,如果不对昂贵的、从闭源模型(例如 GPT-4o)蒸馏获得的思维链(CoT)数据进行有监督微调(SFT),这仍然具有挑战性。在这项工作中,我们提出了 AlphaMed,这是第一个医学大语言模型,它表明推理能力可以完全通过强化学习(RL)涌现出来,只需在公开的多项选择题问答数据集上使用最简规则奖励,而无需依赖 SFT 或蒸馏的 CoT 数据。AlphaMed 在六个医学问答基准上取得了最先进的结果,超越了使用传统 SFT+RL 流水线训练的模型。在具有挑战性的基准(例如 MedXpert)上,AlphaMed 甚至超越了更大的模型或闭源模型,如 DeepSeek-V3-671B 和 Claude-3.5-Sonnet。为了理解这一成功背后的因素,我们进行了全面的以数据为中心的分析,并以此为指导提出了三个问题:(i)最简规则的 RL 是否能在没有蒸馏 CoT 监督的情况下激励推理?(ii) 数据集的数量和多样性如何影响推理?(iii) 问题难度如何塑造推理能力的涌现和泛化?我们的发现表明,数据集的信息量是推理性能的关键驱动因素,并且在信息丰富的多项选择题问答数据上进行最简 RL 可以有效地诱导推理,而无需 CoT 监督。我们还观察到不同基准之间的差异趋势,这突显了当前评估方法的局限性,以及需要更多具有挑战性的、以推理为导向的医学问答基准。
我们提出了 AlphaMed,这是第一个展示推理能力可以纯粹通过强化学习 (RL) 产生的医学大型语言模型,它使用公共多项选择问答数据集上的极简主义基于规则的奖励,而不依赖于 SFT 或蒸馏的思维链 (CoT) 数据。AlphaMed 在六个医学问答基准测试上取得了最先进的结果,优于使用传统 SFT+RL 管线训练的模型。在具有挑战性的基准测试(例如 MedXpert)上,AlphaMed 甚至超越了更大的或闭源模型,如 DeepSeek-V3-671B 和 Claude-3.5-Sonnet。为了理解这一成功背后的因素,我们围绕三个问题进行了全面的以数据为中心的分析:(i) 极简主义的基于规则的 RL 是否可以在没有蒸馏 CoT 监督的情况下激励推理?(ii) 数据集的数量和多样性如何影响推理?(iii) 问题难度如何塑造推理的产生和泛化?我们的发现表明,数据集的信息量是推理性能的关键驱动因素,并且在信息丰富的多项选择问答数据上进行极简主义 RL 可以有效地在没有 CoT 监督的情况下诱导推理。我们还在不同基准测试中观察到不同的趋势,这突显了当前评估的局限性,并强调了需要更具挑战性、面向推理的医学问答基准测试。