⏶41
迈向大型语言模型训练后统一视角
发表
由
Xingtai Lv 提交
作者:
Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu,
Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
摘要
现代语言模型后训练存在两种主要训练数据来源:在线(模型生成的回放)数据和离线(人类或其他模型的演示)数据。这两种数据通常分别用于强化学习(RL)和监督微调(SFT)等方法。在本文中,我们表明这些方法并非相互矛盾,而是单一优化过程的实例。我们推导出一个统一策略梯度估计器,并展示了各种后训练方法的计算,作为不同数据分布假设和各种偏差-方差权衡下共同目标的梯度。梯度估计器由四个可互换的部分构成:稳定掩码、参考策略分母、优势估计和似然梯度。受我们理论发现的启发,我们提出了混合后训练(HPT),一种动态选择不同训练信号的算法。HPT旨在有效利用演示数据并实现稳定探索,而不会牺牲学到的推理模式。我们提供了广泛的实验和消融研究,以验证我们统一理论框架和HPT的有效性。在六个数学推理基准和两个分布外套件上,HPT在不同规模和系列的模型中始终超越了强大的基线。
评论
论文作者
论文提交者
感谢您的提问以及您对我们工作的关注。HPT 集成了 SFT 和 RL,并且我们证明了 SFT 和 RL 的目标可以在单个损失函数中联合优化。
正如第 3.3 节中所讨论的,虽然所有算法都共享相同的通用目标,但在不同组件的统一梯度估计器当前实例之间仍然存在偏差-方差权衡。因此,我们并不声称在相同的计算和数据条件下,不同算法之间不会存在显著差异,并且肯定会出现有意义的差异。
我们遵循了我们主要基线 LUFFY (arXiv:2504.14945) 的设置:对于 SFT,我们在约 46k 个示例上训练 3 个 epoch(≈138k 个示例传递)。对于 HPT,我们以 128 的批次大小运行 500 个优化步,总计约 64k 个示例。因为 HPT 会动态地在 SFT 和 RL 之间切换,所以其训练预算不会超过 RL 配置(也使用 500 步)的训练预算。与 SFT 设置相比的明显差距,本质上是 RL 与 SFT 固有的计算差异;考虑到它们不同的学习动态,通常不会直接比较它们的计算预算。
Github: https://github.com/TsinghuaC3I/Unify-Post-Training