⏶10
InfiMed-ORBIT:通过基于评分标准的增量训练,在开放式复杂任务上对齐大型语言模型
发表
由
Pengxiang Li 提交

作者: Pengkai Wang, Qi Zuo, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang
摘要
AI 生成总结
ORBIT,一个基于评分标准的增量训练框架,通过在强化学习中使用动态评分标准,提升了大型语言模型在医学对话中的性能,并在HealthBench-Hard数据集上取得了最先进的成果。大型语言模型(LLM)通过强化学习(RL)取得了显著进展,尤其是在奖励可以进行程序化验证的领域,例如数学和代码。在这些领域,模型受益于由明确的基于规则的目标指导的定义良好的操作基础。然而,这种进展揭示了一个显著的局限性:在奖励模糊、主观或依赖于上下文的开放式领域,例如创意写作、科学推理,以及尤其是在医疗咨询中,缺乏稳健的奖励函数,这使得当前 RL 策略在这些领域面临挑战。为了弥合这一差距,我们推出了 ORBIT,这是一个开放式、基于评分标准的增量训练框架,专为高风险医疗对话而设计。ORBIT 集成了合成对话生成与评分标准的动态创建,并利用这些评分标准来指导增量 RL 过程。特别是,这种方法不依赖于外部医学知识或手动规则,而是利用评分标准指导的反馈来塑造学习。当在 Qwen3-4B-Instruct 模型上实现时,我们的方法可以使用仅 2k 个样本,将 HealthBench-Hard 基准测试的性能从 7.0 大幅提升到 27.2,从而在本规模的模型上取得了最先进的结果。我们的分析证实,评分标准驱动的 RL 在各种咨询场景中促进了持续的性能提升,超越了简单的数值改进。这些发现强调了基于评分标准的反馈作为在复杂、开放式任务中推进 LLM 的可扩展策略。
大型语言模型 (LLM) 在强化学习 (RL) 方面取得了实质性进展,特别是在奖励可以被程序化验证的领域,例如数学和代码。在这些领域,模型受益于一个明确的、由显式基于规则的目标指导的操作基础。然而,这一进展也揭示了一个重大局限性:在奖励模糊、主观或与上下文相关的开放式领域,如创意写作、科学推理,尤其是医疗咨询,缺乏可靠的奖励函数,使得这些领域对当前的 RL 策略来说极具挑战性。为了弥合这一差距,我们提出了 ORBIT,一个开放式的、基于评分标准的增量训练框架,专门用于高风险的医疗对话。ORBIT 将合成对话生成与评分标准的动态创建相结合,并利用这些评分标准来指导增量 RL 过程。具体来说,这种方法不依赖于外部医学知识或手动规则,而是利用基于评分标准的反馈来塑造学习。当应用于 Qwen3-4B-Instruct 模型时,我们的方法仅使用 2k 个样本就能将该模型在 HealthBench-Hard 基准上的性能从 7.0 大幅提升到 27.2,从而实现了同等规模模型的最新性能。我们的分析证实,基于评分标准的 RL 在各种咨询场景中都能促进一致的性能提升,超越了简单的数值改进。这些发现强调了基于评分标准的反馈是推动 LLM 在复杂、开放式任务中取得进步的可扩展策略。