重新思考用于LLM推理的强化学习中的采样标准:一个能力-难度对齐视角

发表
DeyangKongDeyangKong 提交
作者: DeyangKongDeyang Kong, GuoQiQi Guo, XiangyuXiangyu Xi, Wei Wang, Jingang WangJingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye

摘要

强化学习在增强大型语言模型的推理能力方面展现出潜力,但由于在展开(rollout)阶段样本效率低,难以扩展。现有方法尝试通过基于问题难度来调度问题以提高效率。然而,这些方法存在问题难度估计不稳定和有偏差的问题,并且未能捕捉RL训练中模型能力与问题难度之间的对齐关系,导致次优结果。为了解决这些限制,本文引入了能力-难度对齐采样(Competence-Difficulty Alignment Sampling, CDAS),该方法通过聚合问题的历史性能差异来实现对问题难度的准确和稳定估计。然后量化模型能力,使用固定点系统自适应地选择难度与模型当前能力对齐的问题。在一系列具有挑战性的数学基准上的实验结果表明,CDAS在准确性和效率方面都取得了巨大改进。与基线相比,CDAS取得了最高的平均准确率,并且与DAPO中的一种有竞争力的策略动态采样(Dynamic Sampling)相比,CDAS具有显著的速度优势,后者比CDAS慢2.33倍。
查看 arXiv 页面查看 PDF

评论

DeyangKongDeyangKong
论文作者
论文提交者

强化学习在增强大型语言模型(LLMs)的推理能力方面展现出潜力,但在 rollout 阶段的低样本效率使其难以扩展。现有方法试图通过基于问题难度来调度问题来提高效率。然而,这些方法存在问题难度估计不稳定和有偏差的问题,并且未能捕捉到在强化学习训练中模型能力与问题难度之间的对齐关系,导致结果并非最优。为了解决这些局限性,本文引入了Competence-Difficulty Alignment Sampling (CDAS),它通过聚合问题历史表现差异,能够对问题难度进行准确稳定的估计。然后,对模型能力进行量化,使用定点系统自适应地选择难度与模型当前能力对齐的问题。在一系列具有挑战性的数学基准测试上的实验结果表明,CDAS 在准确性和效率方面都取得了显著改进。CDAS 在基线上获得了最高的平均准确率,并且与 Dynamic Sampling(DAPO 中一种有竞争力的策略)相比,表现出显著的速度优势,Dynamic Sampling 比 CDAS 慢 2.33 倍