强化学习微调大语言模型中的小子网络

发表
sagnik mukherjeesagnik mukherjee 提交
作者: sagnik mukherjeeSagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng

摘要

强化学习 (RL) 在大型语言模型 (LLM) 的下游任务性能和与人类价值观的对齐方面带来了显著的提升。令人惊讶的是,如此巨大的提升仅通过更新一个由参数的 5% 到 30% 组成的小型子网络即可实现,其余参数基本保持不变。我们将这种现象称为由 RL 引发的参数更新稀疏性。在我们的实验中,所有 7 种广泛使用的 RL 算法(例如 PPO、GRPO、DPO)以及来自不同系列的全部 10 个 LLM 中都观察到了这种现象。这种稀疏性是内在的,并且在没有任何明确促进稀疏性的正则化或架构约束的情况下发生。仅微调该子网络即可恢复测试准确率,并且值得注意的是,它产生的模型与通过完全微调获得的模型几乎相同。来自不同随机种子、训练数据甚至 RL 算法的子网络显示出比偶然预期更大的重叠度。我们的分析表明,这种稀疏性并非由于仅更新了部分层,而是几乎所有参数矩阵都接收到类似的稀疏更新。此外,几乎所有参数矩阵的更新都接近满秩,这表明 RL 更新的是一小部分参数,但这些参数仍然跨越了参数矩阵几乎可以表示的全部子空间。我们推测,这种更新稀疏性主要归因于在接近策略分布的数据上进行训练;鼓励策略保持接近预训练模型的技巧,例如 KL 正则化和梯度裁剪,影响有限。
查看 arXiv 页面查看 PDF

评论

sagnik mukherjeesagnik mukherjee
论文作者
论文提交者

强化学习(RL)显著提升了大语言模型(LLMs)的下游任务性能和与人类价值观的对齐。令人惊讶的是,如此大的提升仅通过更新一个占总参数5%-30%的小子网络即可实现,其余参数几乎保持不变。我们将这种现象称为由RL诱导的参数更新稀疏性。在我们的实验中,所有7种广泛使用的RL算法(例如PPO、GRPO、DPO)和来自不同系列的10种LLMs都观察到了这种现象。这种稀疏性是内在的,并且在没有任何显式的稀疏性促进正则化或架构约束的情况下发生。仅对该子网络进行微调即可恢复测试准确性,而且,令人瞩目的是,生成了一个与通过完全微调获得的模型几乎相同的模型。来自不同随机种子、训练数据甚至不同RL算法的子网络显示出比偶然预期高得多的重叠。我们的分析表明,这种稀疏性并非仅因更新了部分层;相反,几乎所有参数矩阵都接收到类似的稀疏更新。此外,几乎所有参数矩阵的更新都接近满秩,这表明RL更新了一小部分参数,尽管如此,这些参数几乎跨越了参数矩阵可以表示的全部子空间。我们推测,这种更新稀疏性主要归因于在接近策略分布的数据上进行训练;鼓励策略保持接近预训练模型的技术,例如KL正则化和梯度裁剪,影响有限。