⏶41

迈向大型语言模型训练后统一视角

09月04日发表

09月05日由 Xingtai Lv 提交

作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

摘要

现代语言模型后训练存在两种主要训练数据来源：在线（模型生成的回放）数据和离线（人类或其他模型的演示）数据。这两种数据通常分别用于强化学习（RL）和监督微调（SFT）等方法。在本文中，我们表明这些方法并非相互矛盾，而是单一优化过程的实例。我们推导出一个统一策略梯度估计器，并展示了各种后训练方法的计算，作为不同数据分布假设和各种偏差-方差权衡下共同目标的梯度。梯度估计器由四个可互换的部分构成：稳定掩码、参考策略分母、优势估计和似然梯度。受我们理论发现的启发，我们提出了混合后训练（HPT），一种动态选择不同训练信号的算法。HPT旨在有效利用演示数据并实现稳定探索，而不会牺牲学到的推理模式。我们提供了广泛的实验和消融研究，以验证我们统一理论框架和HPT的有效性。在六个数学推理基准和两个分布外套件上，HPT在不同规模和系列的模型中始终超越了强大的基线。

查看 arXiv 页面查看 PDF

Xingtai Lv

论文作者

论文提交者

Github: https://github.com/TsinghuaC3I/Unify-Post-Training

Kalle Hilsenbek

在基准测试结果中，SFT 和 HPT 是否使用了相同的计算量和数据量？或者您的发现是，由于这是同一个优化过程，因此不应该有显著差异？

Xingtai Lv

论文作者

论文提交者

感谢您的提问以及您对我们工作的关注。HPT 集成了 SFT 和 RL，并且我们证明了 SFT 和 RL 的目标可以在单个损失函数中联合优化。

正如第 3.3 节中所讨论的，虽然所有算法都共享相同的通用目标，但在不同组件的统一梯度估计器当前实例之间仍然存在偏差-方差权衡。因此，我们并不声称在相同的计算和数据条件下，不同算法之间不会存在显著差异，并且肯定会出现有意义的差异。

我们遵循了我们主要基线 LUFFY (arXiv:2504.14945) 的设置：对于 SFT，我们在约 46k 个示例上训练 3 个 epoch（≈138k 个示例传递）。对于 HPT，我们以 128 的批次大小运行 500 个优化步，总计约 64k 个示例。因为 HPT 会动态地在 SFT 和 RL 之间切换，所以其训练预算不会超过 RL 配置（也使用 500 步）的训练预算。与 SFT 设置相比的明显差距，本质上是 RL 与 SFT 固有的计算差异；考虑到它们不同的学习动态，通常不会直接比较它们的计算预算。

Xingtai Lv

论文作者

论文提交者

此评论已隐藏。

John

解读：https://mp.weixin.qq.com/s/auZh3xlQzgg5QAmtFtKWkQ

Adina Yakefu

好论文！@XingtaiHF 请在论文页面点击您的名字，用您的HF账户认领。