⏶10

强化学习微调大语言模型中的小子网络

05月16日发表

05月23日由 sagnik mukherjee 提交

作者: Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng

摘要

强化学习 (RL) 在大型语言模型 (LLM) 的下游任务性能和与人类价值观的对齐方面带来了显著的提升。令人惊讶的是，如此巨大的提升仅通过更新一个由参数的 5% 到 30% 组成的小型子网络即可实现，其余参数基本保持不变。我们将这种现象称为由 RL 引发的参数更新稀疏性。在我们的实验中，所有 7 种广泛使用的 RL 算法（例如 PPO、GRPO、DPO）以及来自不同系列的全部 10 个 LLM 中都观察到了这种现象。这种稀疏性是内在的，并且在没有任何明确促进稀疏性的正则化或架构约束的情况下发生。仅微调该子网络即可恢复测试准确率，并且值得注意的是，它产生的模型与通过完全微调获得的模型几乎相同。来自不同随机种子、训练数据甚至 RL 算法的子网络显示出比偶然预期更大的重叠度。我们的分析表明，这种稀疏性并非由于仅更新了部分层，而是几乎所有参数矩阵都接收到类似的稀疏更新。此外，几乎所有参数矩阵的更新都接近满秩，这表明 RL 更新的是一小部分参数，但这些参数仍然跨越了参数矩阵几乎可以表示的全部子空间。我们推测，这种更新稀疏性主要归因于在接近策略分布的数据上进行训练；鼓励策略保持接近预训练模型的技巧，例如 KL 正则化和梯度裁剪，影响有限。

查看 arXiv 页面查看 PDF

sagnik mukherjee

论文作者

论文提交者

强化学习（RL）显著提升了大语言模型（LLMs）的下游任务性能和与人类价值观的对齐。令人惊讶的是，如此大的提升仅通过更新一个占总参数5%-30%的小子网络即可实现，其余参数几乎保持不变。我们将这种现象称为由RL诱导的参数更新稀疏性。在我们的实验中，所有7种广泛使用的RL算法（例如PPO、GRPO、DPO）和来自不同系列的10种LLMs都观察到了这种现象。这种稀疏性是内在的，并且在没有任何显式的稀疏性促进正则化或架构约束的情况下发生。仅对该子网络进行微调即可恢复测试准确性，而且，令人瞩目的是，生成了一个与通过完全微调获得的模型几乎相同的模型。来自不同随机种子、训练数据甚至不同RL算法的子网络显示出比偶然预期高得多的重叠。我们的分析表明，这种稀疏性并非仅因更新了部分层；相反，几乎所有参数矩阵都接收到类似的稀疏更新。此外，几乎所有参数矩阵的更新都接近满秩，这表明RL更新了一小部分参数，尽管如此，这些参数几乎跨越了参数矩阵可以表示的全部子空间。我们推测，这种更新稀疏性主要归因于在接近策略分布的数据上进行训练；鼓励策略保持接近预训练模型的技术，例如KL正则化和梯度裁剪，影响有限。

强化学习微调大语言模型中的小子网络

摘要

评论