⏶11
基于评分锚点的强化学习
发表
由
Guoshan Lu 提交
作者:
Zenan Huang,
Yihong Zhuang,
Guoshan Lu, Zeyu Qin, Haokai Xu,
Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao



摘要
“可验证奖励强化学习”(RLVR)已成为增强大型语言模型(LLM)的强大范式,OpenAI 的 o 系列模型的成功便是例证。在 RLVR 中,奖励来源于可验证的信号,例如代码生成中通过单元测试,或数学推理中匹配正确答案。尽管有效,但这一要求在很大程度上将 RLVR 限制在结果可自动检查的领域。为了克服这一点,我们通过整合基于评分标准的奖励,将 RLVR 范式扩展到开放式任务,其中精心设计的评分标准作为结构化、模型可解释的准则,用于主观输出的自动评分。据我们所知,我们构建了迄今为止最大的评分奖励系统,包含来自人类、LLM 或人机协作混合的 10,000 多个评分标准。实施基于评分标准的 RL 具有挑战性;我们通过清晰的框架解决这些问题,并推出开源的 Qwen-30B-A3B 模型,取得了显著的成果:1)仅用 5K+ 样本,我们的系统在开放式基准(尤其是人文学科)上提升了 +5.2%,超越了 671B 的 DeepSeek-V3 模型 +2.4%,同时保留了通用和推理能力。2)我们的方法提供了细粒度的风格控制,使用评分标准作为锚点,以减轻“AI 风格”的语气,产生更像人类、更具表现力的回应。我们分享了评分标准构建、数据选择和训练方面的关键经验,并讨论了局限性和未来的发布计划。
开放式任务上最先进的 RL 训练模型