VLM中针对图像偏好的听众奖励式思维

发表
Alexander GambashidzeAlexander Gambashidze 提交
作者: Alexander GambashidzeAlexander Gambashidze, Li Pengyi, Matvey SkripkinMatvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin SobolevKonstantin Sobolev, Andrey KuznetsovAndrey Kuznetsov, Ivan Oseledets

摘要

训练强大且泛化能力强的奖励模型以适应人类视觉偏好,对于使文本到图像和文本到视频生成模型与人类意图对齐至关关重要。然而,当前的奖励模型往往无法泛化,并且监督微调会导致记忆化,需要复杂的标注流程。尽管强化学习(RL),特别是群组相对策略优化(GRPO),可以改善泛化能力,但我们发现了一个关键的失败模式:当模型的推理轨迹与一个独立的、冻结的视觉-语言模型(“监听器”)评估同一输出的推理轨迹相矛盾时,推理准确性会显著下降。为了解决这个问题,我们引入了一个监听器增强的GRPO框架。在这个框架中,监听器重新评估推理器的思维链,以提供密集、校准的置信度分数,从而塑造RL奖励信号。这不仅鼓励推理器给出正确答案,还鼓励它生成对独立模型具有说服力的解释。我们基于监听器塑造的奖励方案在ImageReward基准测试中达到了最佳准确率(67.4%),在大型人类偏好数据集(1.2M投票)上显著改善了分布外(OOD)性能(比朴素推理器高出高达+6%),并与强大的GRPO和SFT基线相比减少了推理矛盾。这些结果表明,基于监听器的奖励提供了一种可扩展、数据高效的方法,用于将视觉-语言模型与细微的人类偏好对齐。我们将在https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner 发布我们的推理模型。
查看 arXiv 页面查看 PDF
VLM中针对图像偏好的听众奖励式思维

评论

Alexander GambashidzeAlexander Gambashidze
论文作者
论文提交者

训练鲁棒且泛化能力强的人类视觉偏好奖励模型对于使文本到图像和文本到视频生成模型与人类意图对齐至关重要。然而,当前的奖励模型往往泛化能力不足,而监督微调会导致记忆化,需要复杂的标注流程。尽管强化学习 (RL),特别是群组相对策略优化 (GRPO),提高了泛化能力,但我们发现了一个关键的失效模式:当模型的推理轨迹与一个评估相同输出的独立的、冻结的视觉语言模型(“监听器”)的推理轨迹相矛盾时,推理准确性会显著下降。为了解决这个问题,我们引入了一个监听器增强的 GRPO 框架。在此框架中,监听器重新评估推理器的思维链,以提供密集的、校准的置信度分数,从而塑造 RL 奖励信号。这鼓励推理器不仅能正确回答,而且能产生对独立模型具有说服力的解释。我们监听器塑造的奖励方案在 ImageReward 基准测试上取得了最佳准确率(67.4%),在一个大型人类偏好数据集(120万投票,比朴素推理器高出高达 6%)上显著提高了分布外 (OOD) 性能,并且与强大的 GRPO 和 SFT 基线相比,减少了推理矛盾。这些结果表明,基于监听器的奖励为使视觉语言模型与细致入微的人类偏好对齐提供了一条可扩展、数据高效的路径。