⏶7

On-Policy RL 遇上 Off-Policy 专家：通过动态加权协调监督微调和强化学习

08月15日发表

08月21日由 garyzhang 提交

作者: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

摘要

监督微调（SFT）和强化学习（RL）是用于优化大型语言模型（LLM）的能力和对其行为进行对齐的两种主要的训练后范式。现有的结合 SFT 和 RL 的方法经常面临破坏已建立的模型模式和诱导专家数据过拟合的风险。为了解决这个问题，我们通过离策略与在策略的视角，对 SFT 和 RL 的统一视图进行了新颖的研究。我们提出了 CHORD，一个用于动态加权的可控性协调在策略与离策略强化学习的框架，它将 SFT 重新定义为在策略 RL 过程中的一个动态加权辅助目标，而不是一个独立的阶段。基于对离策略专家数据在整体和细粒度层面影响的分析，我们在 CHORD 中引入了一个双重控制机制。具体来说，该框架首先使用一个全局系数来整体引导从离策略模仿到在策略探索的过渡，然后应用一个 token 级别的加权函数，该函数能够从专家 token 中进行细粒度学习，从而保留在策略探索并减轻离策略数据的干扰。我们在广泛使用的基准测试中进行了广泛的实验，提供了实证证据表明 CHORD 实现了稳定高效的学习过程。通过有效地协调离策略专家数据与在策略探索，CHORD 相比于基线模型取得了显著的改进。我们将在以下网址发布实现：https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord，以激发进一步的研究。

查看 arXiv 页面查看 PDF

garyzhang

论文作者

论文提交者

GitHub：https://github.com/modelscope/Trinity-RFT

欢迎尝试我们的Trinity-RFT框架！此处提出的CHORD框架从离策略（off-policy）与同策略（on-policy）的角度对结合SFT/RL的挑战进行了分析。我们希望这项工作能成为进一步讨论的催化剂，并激发社区内更多的探索！

Michael Barry

Qwen 2.5 原始博客给出的 7b instruct MMLU Pro 分数为 56.3

在本论文中，您将 Qwen 2.5 7b instruct MMLU Pro 的原始分数列为 24.7，然后表示使用 Chord 将其提高到 56.2

我很困惑。

garyzhang

论文作者

论文提交者

抓得好！这个差异归结于评估提示。

Qwen 博客的 56.3 分是通过 5-shot CoT 提示实现的。对于我们的研究，我们特意使用了带有标签的零样本提示模板（附录中展示），而不是特定于基准的少样本提示。

由于 MMLU-Pro 包含各种任务（数学、物理等），我们希望观察通过 SFT 和 RL 进行推理所带来的改进。在此设置下，从 24.7 提高到 56.2 证明了我们方法的有效性。

Michael Barry

谢谢您的澄清。这确实令人印象深刻。

On-Policy RL 遇上 Off-Policy 专家：通过动态加权协调监督微调和强化学习

摘要

评论