⏶19
DUMP:基于RL的LLM后训练的自动化分布级别课程学习
04月13日发表
04月15日由
Zhenting Wang 提交
作者:
Zhenting Wang,
Guofeng Cui,
Kun Wan,
Wentian Zhao
摘要
最近,基于强化学习 (RL) 的后训练的进步显著提高了大型语言模型 (LLM) 的性能,尤其是在增强其推理能力以处理复杂任务方面。然而,大多数现有方法将训练数据视为一个统一的整体,忽略了现代 LLM 训练通常涉及来自不同分布(来源和难度均不同)的数据混合的事实。这种异质性引入了一个关键挑战:如何在分布之间自适应地安排训练,以优化学习效率。在本文中,我们提出了一个基于分布级可学习性概念的原则性课程学习框架。我们的核心见解是,策略优势的大小反映了一个模型在给定分布上进一步训练可以获得的收益。基于此,我们为基于 RL 的 LLM 后训练提出了一个分布级课程学习框架,该框架利用上限置信度 (UCB) 原则来动态调整不同分布的采样概率。这种方法优先考虑具有高平均优势(探索)或低样本计数(探索)的分布,从而产生自适应且理论上合理的训练计划。我们使用 GRPO 作为底层 RL 算法实例化了我们的课程学习框架,并证明了其在具有多种难度和来源的逻辑推理数据集上的有效性。我们的实验表明,我们的框架显著提高了收敛速度和最终性能,突出了分布感知课程策略在 LLM 后训练中的价值。代码:https://github.com/ZhentingWang/DUMP。
最近,基于强化学习 (RL) 的后训练的进步显着提高了大型语言模型 (LLM) 的性能,尤其是在增强其推理能力以处理复杂任务方面。然而,大多数现有方法将训练数据视为一个统一的整体,忽略了现代 LLM 训练通常涉及来自不同分布的数据混合——在来源和难度上都不同。这种异质性引入了一个关键挑战:如何在不同分布之间自适应地安排训练,以优化学习效率。在本文中,我们提出了一个原则性的课程学习框架,该框架基于分布级别可学习性的概念。我们的核心见解是,策略优势的大小反映了模型仍然可以从给定分布的进一步训练中获益多少。基于此,我们为基于 RL 的 LLM 后训练提出了一个分布级别的课程学习框架,该框架利用上限置信度 (UCB) 原则来动态调整不同分布的采样概率。这种方法优先考虑具有高平均优势(利用)或低样本计数(探索)的分布,从而产生自适应且理论上合理的训练计划。我们使用 GRPO 作为底层 RL 算法来实例化我们的课程学习框架,并证明了其在具有多种难度和来源的逻辑推理数据集上的有效性。我们的实验表明,我们的框架显着提高了收敛速度和最终性能,突出了分布感知课程策略在 LLM 后训练中的价值。代码:https://github.com/ZhentingWang/DUMP。