⏶4

一次性部署：用策略梯度指导 LLM 的监督微调

09月30日发表

10月03日由 Rui 提交

作者: Rui Ming, Haoyuan Wu, Shoubo Hu, Zhuolun He, Bei Yu

摘要

AI 生成总结

单标记推出（OTR）通过结合策略梯度方法来改进大型语言模型的监督微调，以利用在线策略数据提高泛化能力。

监督微调（SFT）是适应大型语言模型（LLMs）的主流方法，但与强化学习（RL）相比，它在泛化能力方面常常存在不足。在这项工作中，我们提出这种性能差异不仅仅源于损失函数，而是源于一个更根本的区别：SFT从固定、预先收集的数据集中学习，而RL则利用从当前策略中采样的on-policy数据。基于这一假设，我们引入了单token回放（OTR），这是一种新颖的微调算法，通过策略梯度方法指导SFT。OTR通过将每个token的生成视为一个单步强化学习轨迹，重塑了自回归学习过程。在每一步，它通过从当前策略的分布中采样多个候选token来执行蒙特卡洛“回放”。然后，将监督数据中的真实token用于为这些样本提供奖励信号。在策略梯度的指导下，我们的算法将静态的、off-policy的监督数据重新用于token级别的动态的、on-policy信号，从而捕捉到on-policy学习的泛化优势，同时绕过了完整句子生成的昂贵开销。通过在跨越数学推理、代码生成和通用领域推理的各种具有挑战性的基准测试中进行广泛的实验，我们证明OTR始终优于标准的SFT。我们的发现确立了OTR作为一种强大实用的LLMs微调替代方案，并提供了有力的证据表明，数据的on-policy性质是泛化的关键驱动因素，为LLMs的微调提供了一个有前途的新方向。

查看 arXiv 页面查看 PDF

Rui

论文作者

论文提交者

otr_00

Lutalica

OTR 似乎与 SFT/DFT 产生共鸣，因为它们都计算 LLM 输出的下一个 token logit 上的损失。 SFT 的交叉熵损失最大化了真实 token 的相对概率（这将抑制其他 token），而 OTR 只计算在采样 token 上的策略梯度损失，其优化方向与 SFT 相同。换句话说，如果 OTR 对每个 token 位置进行足够多的采样，那么它可以被视为 SFT 的加权版本（例如 DFT）。我认为它不是一个在线策略 RL 方法，尽管它提供了很好的解释。

Rui

论文作者

论文提交者

感谢您提出的精彩问题！我们同意 SFT/DFT 存在有趣的联系，但有两个关键的区别定义了 OTR 的在线策略性质和性能提升。

首先，OTR 明确地惩罚了负采样 token。虽然 SFT 隐式地抑制了非 GT token，但 OTR 对模型实际生成的特定合理但错误的 token 应用了基于策略梯度引导的原则性损失。这提供了更直接、更细致的优化信号。这不可避免地导致与 SFT 不同的最终优化路径。

其次，对于低概率 GT token 来说，差异最为关键。加权 SFT（如 DFT）仍会强制进行不稳定的更新，以达到那个难以获得的 token。相比之下，如果 OTR 未对 GT token 进行采样，它就不会对其进行更新，只会抑制它实际采样的错误 token。这确保了稳定的、真正的在线策略更新，因为它只在模型已能达到的区域进行调整。

因此，虽然 OTR 在简单情况下可能类似于加权 SFT，但它对这两种情况的独特处理方式从根本上是不同的。我们相信这是其泛化能力提升的关键，通过将静态数据真正转化为动态的在线信号。

再次感谢精彩的讨论！

一次性部署：用策略梯度指导 LLM 的监督微调

摘要

评论