GuardReasoner-VL:通过强化推理保障VLM安全

发表
yueliu1999yueliu1999 提交
作者: yueliu1999Yue Liu, Shengfang ZhaiShengfang Zhai, Mingzhe DuMingzhe Du, Yulin ChenYulin Chen, Tri Cao, Hongcheng GaoHongcheng Gao, Cheng WangCheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng ZhangJiaheng Zhang, Bryan HooiBryan Hooi

摘要

为了增强 VLMs 的安全性,本文介绍了一种新颖的基于推理的 VLM 守护模型,称为 GuardReasoner-VL。核心思想是通过在线强化学习 (RL) 激励守护模型在做出审核决定之前进行深思熟虑的推理。首先,我们构建了 GuardReasoner-VLTrain,这是一个包含 123K 样本和 631K 推理步骤的推理语料库,涵盖文本、图像和文本-图像输入。然后,基于此,我们通过 SFT 冷启动提升了我们模型的推理能力。此外,我们通过在线强化学习 (RL) 进一步增强了关于审核的推理能力。具体而言,为了增强样本的多样性和难度,我们进行了拒绝采样,接着通过提出的安全感知数据串联进行数据增强。此外,我们使用了动态裁剪参数,以鼓励早期阶段的探索和后期阶段的利用。为了平衡性能和 token 效率,我们设计了一种长度感知的安全奖励,该奖励整合了准确性、格式和 token 成本。大量实验证明了我们模型的优越性。值得注意的是,它超越了亚军模型,平均 F1 分数高出 19.27%。我们在 https://github.com/yueliu1999/GuardReasoner-VL/ 发布了 GuardReasoner-VL 的数据、代码和模型 (3B/7B)。
查看 arXiv 页面查看 PDF

评论

yueliu1999yueliu1999
论文作者
论文提交者

GuardReasoner-VL:通过强化推理保护VLM

Hongcheng GaoHongcheng Gao
论文作者

优秀的工作

yueliu1999yueliu1999
论文作者
论文提交者

?

6