LLaVA-Critic-R1:你的批评模型秘密是一个强大的策略模型

发表
taesiritaesiri 提交
作者: Xiyao WangXiyao Wang, Chunyuan Li, Jianwei Yang, Kai ZhangKai Zhang, Bo LiuBo Liu, Tianyi Xiong, Furong Huang

摘要

在视觉语言建模中,评判模型通常被训练来评估输出——分配标量分数或成对偏好——而不是生成响应。这种与生成响应的策略模型的分离根深蒂固,以至于评判模型很少被考虑用于直接策略使用。在这项工作中,我们挑战了这一传统。我们提出将偏好标记的评判数据集重组为可验证的训练信号,并直接在基础生成模型上执行强化学习,从而生成LLaVA-Critic-R1,这是一个多模态评判模型,在保留完全生成能力的同时,被训练来优化偏好判断。令人惊讶的是,LLaVA-Critic-R1不仅成为表现最佳的评判模型,而且还成为具有竞争力的策略模型——在26个视觉推理和理解基准上,其表现与使用领域内数据训练的专业推理VLMs相当或超越,平均比其基础模型(Qwen-2.5-VL-7B)提高了+5.7%。将此方法扩展到现有的强大推理VLMs可以产生LLaVA-Critic-R1+,该模型在不牺牲评判质量的情况下进一步提升了策略性能,在7B规模上实现了71.9的MMMU SOTA性能。最后,我们表明增强的评判能力有益于推理:在测试时应用自我评判,在五个代表性推理任务上平均提高了+13.8%,而无需额外训练。我们的结果表明,在评判数据上进行RL训练可以产生一个在评估和生成方面都表现出色的统一模型,为可扩展、自优化的多模态系统提供了一条简单途径。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 在视觉-语言建模中,批评模型通常被训练来评估输出——分配标量分数或成对偏好——而不是生成响应。这种与产生响应的策略模型分离的做法根深蒂固,以至于批评模型很少被考虑用于直接策略使用。在这项工作中,我们挑战了这一约定。我们提出将偏好标记的批评数据集重组为可验证的训练信号,并直接在基础生成模型上进行强化学习,从而产生 LLaVA-Critic-R1,这是一个多模态批评模型,旨在优化偏好判断,同时保留完整的生成能力。令人惊讶的是,LLaVA-Critic-R1 不仅成为表现最佳的批评模型,而且也成为具有竞争力的策略模型——在 26 个视觉推理和理解基准测试中,其表现与专门针对领域内数据训练的推理视觉语言模型相当或超越,相对于其基础模型(Qwen-2.5-VL-7B)平均提高了 +5.7%。将此方法扩展到现有的强大推理视觉语言模型,我们得到了 LLaVA-Critic-R1+,该模型在不牺牲批评质量的情况下进一步提升了策略性能,在 7B 参数规模下,MMMU 的 SOTA 性能达到了 71.9%。最后,我们展示了增强的批评能力有利于推理:在测试时应用自我批评,在五个代表性推理任务上平均提高了 +13.8%,而无需额外训练。我们的结果表明,在批评数据上进行强化学习训练可以产生一个在评估和生成方面都表现出色的统一模型,为可扩展、自我改进的多模态系统提供了一条简单的路径。