⏶10
通过直接分组偏好优化强化扩散模型
发表
由
Yihong Luo 提交
作者:
Yihong Luo, Tianyang Hu, Jing Tang
摘要
AI 生成总结
DGPO 是一种新的在线 RL 算法,通过学习群体级偏好来增强扩散模型,能够使用高效的确定性 ODE 采样器,实现更快的训练和卓越的性能。尽管**群体相对偏好优化 (GRPO)** 等强化学习方法显著增强了大型语言模型,但将其**适应于扩散模型**仍然具有挑战性。特别是,GRPO 需要**随机策略**,而最具成本效益的扩散采样器基于**确定性 ODE**。最近的工作通过使用**效率低下的 SDE-based 采样器**来诱导随机性来解决这个问题,但这种对模型无关的高斯噪声的依赖导致**收敛缓慢**。为了解决这一冲突,我们提出了 **Direct Group Preference Optimization (DGPO)**,一种新的**在线 RL 算法**,它完全**摒弃了策略梯度框架**。DGPO 直接从**群体级偏好**中学习,利用组内样本的相对信息。这种设计**消除了对效率低下的随机策略的需求**,从而能够使用高效的确定性 ODE 采样器和更快的训练。广泛的结果表明,DGPO 的训练速度**比现有的最先进方法快约 20 倍**,并在**域内和域外奖励指标**上都取得了卓越的性能。代码可在 https://github.com/Luo-Yihong/DGPO 获取。
DGPO 是一种新的在线 RL 算法,它直接从群体偏好中学习,而不是采用策略梯度框架。大量结果表明,DGPO 的训练速度比现有最先进的方法快约 20 倍,并在域内和域外奖励指标上均取得了优越的性能。