⏶11
重新思考大型语言模型蒸馏:一种受约束的马尔可夫决策过程视角
发表
由
Matthieu Zimmer 提交
作者:
Matthieu Zimmer, Xiaotong Ji,
Tu Nguyen, Haitham Bou Ammar
摘要
AI 生成总结
一种新颖的约束强化学习框架用于 LLM 蒸馏,可在不进行状态增强或双拉格朗日方法的情况下,最大化特定任务奖励同时保持约束满足。我们提出了一种新颖的大型语言模型(LLM)蒸馏方法,将其表述为约束强化学习问题。虽然最近的工作已经开始探索将特定任务奖励融入蒸馏过程,但现有方法通常依赖于临时的奖励加权。我们提出了一种原则性的优化框架,该框架旨在最大化特定任务奖励,同时将与教师模型的发散度约束在指定阈值以下。我们的方法将约束状态增强强化学习应用于蒸馏设置,引入了一个修改后的奖励函数,该函数在部署期间无需状态增强或教师模型访问,并且没有双重拉格朗日方法的计算开销,即可保持约束满足的理论保证。通过在数学推理任务上的广泛实验,我们证明了我们的方法与软拉格朗日松弛基线相比,具有更好的约束满足率和更优的推理能力,同时保持了具有竞争力的任务性能。我们的框架为资源受限环境下的奖励感知蒸馏提供了一个理论上合理且实践上高效的解决方案。
代码和数据集位于 https://github.com/stanford-oval/inconsistency-detection