⏶12
基于边界的策略优化,用于扩散大型语言模型的高效强化学习
发表
由
Jiajie Zhang 提交
作者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li
摘要
AI 生成总结
边界引导策略优化(BGPO)通过高效地近似似然性的内存高效下界来改进扩散大语言模型的强化学习,从而提高了在数学问题解决、代码生成和规划等任务中的性能。将强化学习(RL)应用于扩散大型语言模型(dLLM)的一个关键挑战在于其似然函数的可处理性,而似然函数对于 RL 目标至关重要,因此需要在每个训练步骤中进行相应的近似。虽然现有方法通过自定义蒙特卡洛(MC)采样将对数似然近似为其证据下界(ELBO),但为了计算 RL 目标中非线性项的梯度,需要保留所有 MC 样本的前向计算图,这会导致显著的内存开销。这一限制限制了可行的样本数量,导致似然近似不精确,并最终扭曲了 RL 目标。为了克服这一限制,我们提出了边界引导策略优化(BGPO),一种内存高效的 RL 算法,它最大化 ELBO 导向目标的专门构建的下界。这个下界经过精心设计,满足两个关键属性:(1)线性:它被构造为线性求和,其中每个项仅依赖于单个 MC 样本,从而实现了跨样本的梯度累积并确保了恒定的内存使用;(2)等价性:在策略内训练中,该下界的价值和梯度都等于 ELBO 导向目标,使其也成为原始 RL 目标的有效近似。这些属性允许 BGPO 采用较大的 MC 样本数量,从而获得更准确的似然近似和改进的 RL 目标估计,进而提升性能。实验表明,BGPO 在数学问题解决、代码生成和规划任务方面显著优于 dLLM 的先前 RL 算法。
论文:https://arxiv.org/pdf/2510.11683
代码:https://github.com/THU-KEG/BGPO