⏶5
VARD:利用基于价值的强化学习对扩散模型进行高效且密集微调
发表
由
Siteng Huang 提交

作者: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan
摘要
扩散模型已成为跨各种领域的强大生成工具,然而,如何调整预训练模型以展现特定的期望属性仍然具有挑战性。虽然强化学习 (RL) 提供了一种有前景的解决方案,但现有方法难以同时实现稳定、高效的微调并支持不可微分的奖励。此外,它们对稀疏奖励的依赖在中间步骤中提供的监督不足,常常导致生成质量次优。为了解决这些限制,需要在整个扩散过程中提供密集且可微分的信号。因此,我们提出了基于价值的强化扩散 (VARD):一种新颖的方法,它首先学习一个价值函数,该函数预测来自中间状态的预期奖励,然后利用该价值函数结合 KL 正则化在整个生成过程中提供密集监督。我们的方法在实现通过反向传播进行有效且稳定训练的同时,保持与预训练模型的接近性。实验结果表明,我们的方法有助于更好的轨迹引导,提高了训练效率,并将 RL 的适用范围扩展到针对复杂的、不可微分的奖励函数优化的扩散模型。
基于价值的强化扩散(VARD):一种新颖的方法,首先学习一个价值函数,该函数预测中间状态的预期奖励,然后将此价值函数与 KL 正则化结合使用,以在整个生成过程中提供密集监督。