LLaDA 1.5: 大型语言扩散模型的方差降低偏好优化

发表
Adina YakefuAdina Yakefu 提交
作者: Fengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu  ZhangXiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei ChenJianfei Chen, Yankai LinYankai Lin, Ji-Rong WenJi-Rong Wen, chongxuan liChongxuan Li

摘要

尽管掩码扩散模型(MDMs),如 LLaDA,为语言建模提供了一个有前途的范式,但通过强化学习将这些模型与人类偏好对齐的努力相对较少。这一挑战主要源于偏好优化所需的基于证据下界(ELBO)的似然估计的高方差。为了解决这个问题,我们提出了方差降低偏好优化(Variance-Reduced Preference Optimization, VRPO),这是一个正式分析 ELBO 估计器方差并推导偏好优化梯度偏差和方差界限的框架。在此理论基础上,我们引入了无偏方差降低策略,包括最优蒙特卡洛预算分配和对偶抽样,这些策略显著提高了 MDM 对齐的性能。我们通过将 VRPO 应用于 LLaDA 证明了其有效性,由此产生的模型 LLaDA 1.5 在数学(GSM8K +4.7)、代码(HumanEval +3.0, MBPP +1.8)和对齐基准(IFEval +4.0, Arena-Hard +4.3)上持续且显著优于其仅 SFT 的前身。此外,与强大的语言 MDM 和 ARM 相比,LLaDA 1.5 展现了极具竞争力的数学性能。项目主页:https://ml-gsai.github.io/LLaDA-1.5-Demo/
查看 arXiv 页面查看 PDF
LLaDA 1.5: 大型语言扩散模型的方差降低偏好优化

评论

Adina YakefuAdina Yakefu
论文提交者

通过引入一种新颖的方差减少技术,LLaDA 1.5 增强了扩散语言模型对齐的稳定性,从而实现了更鲁棒和高效的训练。

https://ml-gsai.github.io/LLaDA-1.5-Demo/