⏶5
从数据到奖励:最大似然估计的双层优化视角
发表
由
Abdelhakim Benechehab 提交

作者:
Abdelhakim Benechehab, Gabriel Singer,
Corentin Léger,
Youssef Attia El Hili,
Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl


摘要
AI 生成总结
在没有明确奖励信号的情况下,使用双层优化框架将生成模型与高质量数据集对齐,并应用于分类和基于模型的强化学习。生成模型构成了现代机器学习的支柱,支撑着文本、视觉和多模态应用中的最先进系统。虽然最大似然估计传统上是主要的训练范式,但近期的工作突显了它的局限性,特别是与强化学习技术(如策略梯度方法)相比,在泛化能力和易受灾难性遗忘方面。然而,这些方法依赖于明确的奖励信号,而这些信号在实践中通常是不可用的,这就留下了一个基本问题:如何在只能访问高质量数据集的情况下对生成模型进行对齐。在这项工作中,我们通过一个双层优化框架来解决这个挑战,其中奖励函数被视为外层问题的优化变量,而策略梯度目标定义了内层。然后,我们在一个可处理的设置中对这个优化问题进行了理论分析,并提取出洞见,我们已经证明这些洞见可以推广到诸如表格分类和基于模型的强化学习等应用。我们将代码发布在 https://github.com/abenechehab/nll_to_po 。






📢📢 最新预印本和代码发布!!
如何在无法获得明确奖励信号的情况下利用策略梯度方法(例如 REINFORCE、GRPO)?
💡 在我们的新工作中,“从数据到奖励:最大似然估计的双层优化视角”中,我们通过弥合最大似然估计和策略梯度方法之间的差距来解决这个问题。
📜预印本: https://arxiv.org/abs/2510.07624
🖥️ 代码: https://github.com/abenechehab/nll_to_po