背包强化学习:通过优化预算分配实现大型语言模型探索的解锁

发表
Ziniu LiZiniu Li 提交
作者: Ziniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo

摘要

AI 生成总结
一种用于大型语言模型强化学习的自适应探索预算分配方法,提高了数学推理基准测试的训练效率和性能。
大型语言模型(LLM)可以通过强化学习进行自我改进, 它们在此过程中会生成轨迹以进行探索和发现更好的解决方案。 然而,这种探索过程在计算上非常昂贵, 通常迫使现有方法为每项任务分配有限的探索预算。 这种统一分配会产生有问题 的极端情况: 简单任务持续成功,而困难任务持续失败, 这两种情况在广泛使用的群组相对策略优化(GRPO)的训练更新期间都会产生零梯度。 我们从探索预算分配的角度解决了这个问题。 将每项任务的探索视为一个具有不同“价值”和“成本”的“物品”, 我们将其与经典的背包问题联系起来。 这种表述允许我们推导出一种最优分配规则, 该规则根据模型当前的学习状态自适应地分配资源。 当应用于 GRPO 时,我们的方法在训练期间将非零策略梯度的有效比例提高了 20-40%。 作为一种计算上的“免费午餐”, 我们的方法可以将探索预算从学习已饱和的任务重新分配到最能发挥影响的任务。 这使得特别具有挑战性的问题可以获得更大的预算(例如,93 次滚动), 而这在统一分配下是计算上无法承受的。 这些改进转化为数学推理基准上的有意义的提升, 平均提高 2-4 分,在特定任务上达到 9 分的峰值提升。 值得注意的是,使用传统的同质分配来实现可比的性能大约需要 2 倍的计算资源。
查看 arXiv 页面查看 PDF

评论

Ziniu LiZiniu Li
论文提交者

背包强化学习:通过预算分配解锁LLM的探索 🎒

LLM训练中的探索很重要但成本高昂。探索不足会限制模型的性能上限。

当前的均匀探索既无效又低效:

  • 简单任务 → 总是解决 → 0梯度
  • 困难任务 → 总是失败 → 0梯度

我们的想法:将探索视为一个背包问题。
👉 将试错分配到最重要的地方

结果:

  • 非零梯度+20–40%
  • 困难任务最多可进行93次试错(无需额外计算)
  • 数学基准测试平均+2–4分,峰值+9分
  • 比均匀分配便宜约2倍

论文:https://www.arxiv.org/abs/2509.25849