RewardDance:视觉生成中的奖励缩放

发表
taesiritaesiri 提交
作者: wujie10558@gmail.comJie Wu, Yu Gao, Zilyu Ye, Ming LiMing Li, Liang Li, Hanzhong Guo, Jie LiuJie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang

摘要

AI 生成总结
RewardDance 是一种可扩展的奖励建模框架,它与视觉-语言模型(VLM)架构对齐,实现了奖励模型的有效扩展,并解决了生成模型中的奖励欺骗问题。
奖励模型(RM)对于通过强化学习(RL)改进生成模型至关重要,但视觉生成领域的 RM 扩展范式在很大程度上仍未得到探索。这主要是由于现有方法存在根本性限制:基于 CLIP 的 RM 受制于架构和输入模态的约束,而普遍的 Bradley-Terry 损失与视觉语言模型(VLM)的下一个词预测机制在根本上不一致,阻碍了有效的扩展。更重要的是,RLHF 优化过程饱受奖励欺骗问题的困扰,即模型利用奖励信号中的缺陷而未能提高实际质量。为了解决这些挑战,我们提出了 RewardDance,一个可扩展的奖励建模框架,该框架通过新颖的生成奖励范式克服了这些障碍。通过将奖励分数重新定义为模型预测“是”这个词的概率,表明生成的图像在特定标准下优于参考图像,RewardDance 从根本上使奖励目标与 VLM 架构保持一致。这种一致性在两个维度上实现了扩展:(1)模型扩展:RM 系统地扩展到 260 亿参数;(2)上下文扩展:整合特定任务指令、参考示例和思维链(CoT)推理。大量实验表明,RewardDance 在文本到图像、文本到视频和图像到视频生成方面显著优于最先进的方法。至关重要的是,我们解决了“奖励欺骗”这一长期存在的挑战:我们的大规模 RM 在 RL 微调过程中表现出并保持高奖励方差,证明了它们抵抗欺骗的能力以及生成多样化、高质量输出的能力。它极大地缓解了困扰小型模型的模式崩溃问题。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

奖励模型 (RM) 对于通过强化学习 (RL) 改进生成模型至关重要,但视觉生成中的 RM 扩展范式仍未得到充分探索。这主要是由于现有方法的根本限制:基于 CLIP 的 RM 受限于架构和输入模态,而普遍的 Bradley-Terry 损失与视觉语言模型 (VLM) 的下一个 token 预测机制在根本上不一致,阻碍了有效的扩展。更重要的是,RLHF 优化过程饱受奖励劫持问题的困扰,即模型利用奖励信号中的缺陷而没有提高真正的质量。为了应对这些挑战,我们推出了 RewardDance,一个可扩展的奖励建模框架,通过一种新颖的生成奖励范式克服了这些障碍。通过将奖励分数重新定义为模型预测“是” token 的概率,表示生成的图像根据特定标准优于参考图像,RewardDance 将奖励目标与 VLM 架构内在对齐。这种对齐解锁了两个维度的扩展:(1) 模型扩展:RM 系统性地扩展到 260 亿参数;(2) 上下文扩展:集成特定任务的指令、参考示例和思维链 (CoT) 推理。大量的实验表明,RewardDance 在文本到图像、文本到视频和图像到视频生成方面显著优于最先进的方法。至关重要的是,我们解决了“奖励劫持”这一长期存在的挑战:我们的大规模 RM 在 RL 微调期间表现出并保持高奖励方差,证明了它们对劫持的抵抗力以及产生多样化、高质量输出的能力。这极大地缓解了困扰较小模型的模式崩溃问题。