⏶29
Skywork-VL 奖励模型:一种用于多模态理解和推理的有效奖励模型
发表
由
wangxiaokun 提交
作者:
Xiaokun Wang,
Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

摘要
我们提出了 Skywork-VL Reward,这是一个多模态奖励模型,为多模态理解和推理任务提供奖励信号。我们的技术方法包含两个关键组成部分:首先,我们构建了一个大规模多模态偏好数据集,涵盖广泛的任务和场景,响应收集自标准视觉-语言模型 (VLM) 和高级 VLM 推理器。其次,我们设计了一个基于 Qwen2.5-VL-7B-Instruct 的奖励模型架构,集成了奖励头,并使用成对排序损失对成对偏好数据进行多阶段微调。实验评估表明,Skywork-VL Reward 在多模态 VL-RewardBench 上取得了最先进的结果,并在纯文本 RewardBench 基准测试上表现出竞争力。此外,基于我们的 Skywork-VL Reward 构建的偏好数据被证明对于训练混合偏好优化 (MPO) 非常有效,显著提高了多模态推理能力。我们的结果强调,Skywork-VL Reward 是朝着构建通用、可靠的多模态对齐奖励模型迈出的重要一步。我们的模型已公开发布,以促进透明度和可复现性。
我们发布了一个多模态奖励模型,在 VL-Reward-Bench(https://huggingface.co/spaces/MMInstruction/VL-RewardBench) 上实现了最先进 (SOTA) 的性能。