⏶70
RewardDance:视觉生成中的奖励缩放
发表
由
taesiri 提交

作者:
Jie Wu, Yu Gao, Zilyu Ye,
Ming Li, Liang Li, Hanzhong Guo,
Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, Weilin Huang


摘要
AI 生成总结
RewardDance 是一种可扩展的奖励建模框架,它与视觉-语言模型(VLM)架构对齐,实现了奖励模型的有效扩展,并解决了生成模型中的奖励欺骗问题。奖励模型(RM)对于通过强化学习(RL)改进生成模型至关重要,但视觉生成领域的 RM 扩展范式在很大程度上仍未得到探索。这主要是由于现有方法存在根本性限制:基于 CLIP 的 RM 受制于架构和输入模态的约束,而普遍的 Bradley-Terry 损失与视觉语言模型(VLM)的下一个词预测机制在根本上不一致,阻碍了有效的扩展。更重要的是,RLHF 优化过程饱受奖励欺骗问题的困扰,即模型利用奖励信号中的缺陷而未能提高实际质量。为了解决这些挑战,我们提出了 RewardDance,一个可扩展的奖励建模框架,该框架通过新颖的生成奖励范式克服了这些障碍。通过将奖励分数重新定义为模型预测“是”这个词的概率,表明生成的图像在特定标准下优于参考图像,RewardDance 从根本上使奖励目标与 VLM 架构保持一致。这种一致性在两个维度上实现了扩展:(1)模型扩展:RM 系统地扩展到 260 亿参数;(2)上下文扩展:整合特定任务指令、参考示例和思维链(CoT)推理。大量实验表明,RewardDance 在文本到图像、文本到视频和图像到视频生成方面显著优于最先进的方法。至关重要的是,我们解决了“奖励欺骗”这一长期存在的挑战:我们的大规模 RM 在 RL 微调过程中表现出并保持高奖励方差,证明了它们抵抗欺骗的能力以及生成多样化、高质量输出的能力。它极大地缓解了困扰小型模型的模式崩溃问题。
奖励模型 (RM) 对于通过强化学习 (RL) 改进生成模型至关重要,但视觉生成中的 RM 扩展范式仍未得到充分探索。这主要是由于现有方法的根本限制:基于 CLIP 的 RM 受限于架构和输入模态,而普遍的 Bradley-Terry 损失与视觉语言模型 (VLM) 的下一个 token 预测机制在根本上不一致,阻碍了有效的扩展。更重要的是,RLHF 优化过程饱受奖励劫持问题的困扰,即模型利用奖励信号中的缺陷而没有提高真正的质量。为了应对这些挑战,我们推出了 RewardDance,一个可扩展的奖励建模框架,通过一种新颖的生成奖励范式克服了这些障碍。通过将奖励分数重新定义为模型预测“是” token 的概率,表示生成的图像根据特定标准优于参考图像,RewardDance 将奖励目标与 VLM 架构内在对齐。这种对齐解锁了两个维度的扩展:(1) 模型扩展:RM 系统性地扩展到 260 亿参数;(2) 上下文扩展:集成特定任务的指令、参考示例和思维链 (CoT) 推理。大量的实验表明,RewardDance 在文本到图像、文本到视频和图像到视频生成方面显著优于最先进的方法。至关重要的是,我们解决了“奖励劫持”这一长期存在的挑战:我们的大规模 RM 在 RL 微调期间表现出并保持高奖励方差,证明了它们对劫持的抵抗力以及产生多样化、高质量输出的能力。这极大地缓解了困扰较小模型的模式崩溃问题。