⏶8
模型-任务对齐驱动不同的强化学习结果
发表
由
Cheng Wang 提交
作者:
Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He

摘要
将强化学习(RL)应用于大型语言模型(LLMs)的最新进展取得了重大进展。特别是,在 LLMs 中报告了一系列显著但往往违反直觉的现象,这些现象表现出的模式在传统的 RL 环境中并不常见。例如,值得注意的主张包括,单个训练样本可以媲美整个数据集所达到的性能,奖励信号不需要非常准确,以及仅使用负样本进行训练就可以媲美甚至超越复杂的基于奖励的方法。然而,这些观察结果成立的精确条件——以及关键的、何时会失效——仍然不清楚。在这项工作中,我们确定了一个区分 RL 观察结果的关键因素:预训练模型是否已经表现出强大的模型-任务对齐(Model-Task Alignment),这通过在评估任务上的 pass@k 准确率来衡量。通过对一系列违反直觉的主张进行系统而全面的检查,并辅以跨不同模型架构和任务域的严格实验验证,我们的研究结果表明,虽然标准的 RL 训练在各种设置下始终保持稳健,但许多这些违反直觉的结果仅在模型和任务已经表现出强大的模型-任务对齐时才出现。相比之下,在更具挑战性的环境中,标准 RL 方法仍然有效,而这些技术未能驱动实质性的学习。
将强化学习(RL)应用于大型语言模型(LLMs)的最新进展取得了实质性进展。特别是,在LLMs中出现了一系列显著但往往违反直觉的现象,表现出在传统RL设置中通常不观察到的模式。例如,值得注意的主张包括,单个训练示例可以匹配整个数据集所取得的性能,奖励信号不必非常准确,以及仅使用负样本进行训练可以匹配甚至超越复杂的基于奖励的方法。然而,这些观察结果成立的确切条件——以及至关重要的是,何时它们会失败——仍然不清楚。在这项工作中,我们确定了一个区分RL观察结果的关键因素:预训练模型是否已经表现出强大的模型-任务对齐,这是通过在评估任务上的pass@k准确率来衡量的。通过对一系列违反直觉的声明进行系统和全面的检查,并得到跨不同模型架构和任务领域的严格实验验证的支持,我们的研究结果表明,虽然标准的RL训练在各种设置下始终保持稳健,但许多这些违反直觉的结果仅在模型和任务已经表现出强大的模型-任务对齐时才会出现。相比之下,在更具挑战性的环境中,这些技术未能推动实质性的学习,而标准的RL方法在这些环境中仍然有效。