⏶7
On-Policy RL 遇上 Off-Policy 专家:通过动态加权协调监督微调和强化学习
发表
由
garyzhang 提交

作者:
Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

摘要
监督微调(SFT)和强化学习(RL)是用于优化大型语言模型(LLM)的能力和对其行为进行对齐的两种主要的训练后范式。现有的结合 SFT 和 RL 的方法经常面临破坏已建立的模型模式和诱导专家数据过拟合的风险。为了解决这个问题,我们通过离策略与在策略的视角,对 SFT 和 RL 的统一视图进行了新颖的研究。我们提出了 CHORD,一个用于动态加权的可控性协调在策略与离策略强化学习的框架,它将 SFT 重新定义为在策略 RL 过程中的一个动态加权辅助目标,而不是一个独立的阶段。基于对离策略专家数据在整体和细粒度层面影响的分析,我们在 CHORD 中引入了一个双重控制机制。具体来说,该框架首先使用一个全局系数来整体引导从离策略模仿到在策略探索的过渡,然后应用一个 token 级别的加权函数,该函数能够从专家 token 中进行细粒度学习,从而保留在策略探索并减轻离策略数据的干扰。我们在广泛使用的基准测试中进行了广泛的实验,提供了实证证据表明 CHORD 实现了稳定高效的学习过程。通过有效地协调离策略专家数据与在策略探索,CHORD 相比于基线模型取得了显著的改进。我们将在以下网址发布实现:https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord,以激发进一步的研究。
GitHub:https://github.com/modelscope/Trinity-RFT
欢迎尝试我们的Trinity-RFT框架!此处提出的CHORD框架从离策略(off-policy)与同策略(on-policy)的角度对结合SFT/RL的挑战进行了分析。我们希望这项工作能成为进一步讨论的催化剂,并激发社区内更多的探索!