VOGUE:利用视觉不确定性指导探索以提升多模态推理能力

发表
Rui LiuRui Liu 提交
作者: Rui LiuRui Liu, Dian Yu, TongZhengTong Zheng, Runpeng DaiRunpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu

摘要

AI 生成总结
VOGUE 通过量化策略对视觉扰动的敏感性,将探索转移到视觉输入空间,从而增强了大型语言模型中的多模态推理。
具有可验证奖励的强化学习(RLVR)提高了大型语言模型(LLM)的推理能力,但却在探索方面存在困难,这一问题在多模态 LLM(MLLM)中仍然存在。当前的方法将视觉输入视为固定、确定性的条件,忽略了关键的歧义来源,并且难以构建对合理视觉变化的稳健策略。我们提出了 VOGUE(基于视觉不确定性的探索),这是一种新颖的方法,将探索从输出(文本)空间转移到输入(视觉)空间。通过将图像视为随机上下文,VOGUE 使用“原始”和“噪声”分支之间的对称 KL 散度量化策略对视觉扰动的敏感性,从而产生一个直接的不确定性感知探索信号。该信号通过与不确定性成比例的奖励来塑造学习目标,结合令牌熵奖励和退火采样计划,有效地平衡了探索和利用。在两个模型规模(Qwen2.5-VL-3B/7B)上使用 GRPO 实现,VOGUE 在三个视觉数学基准上将 pass@1 准确率平均提高了 2.6%,在三个通用推理基准上提高了 3.7%,同时增加了 pass@4 性能并缓解了 RL 微调中常见的探索衰减。我们的工作表明,将探索基础建立在视觉输入的固有不确定性上是提高多模态推理的有效策略。
查看 arXiv 页面查看 PDF

评论

Rui LiuRui Liu
论文作者
论文提交者

具有可验证奖励的强化学习 (RLVR) 改进了大型语言模型 (LLM) 的推理能力,但在探索方面存在困难,而这个问题仍然存在于多模态 LLM (MLLM) 中。当前的方法将视觉输入视为固定的、确定的条件,忽略了歧义的关键来源,并且难以构建能够抵御合理视觉变化的鲁棒策略。我们提出了 VOGUE(Visual Uncertainty Guided Exploration,视觉不确定性引导探索),一种创新的方法,将探索从输出(文本)空间转移到输入(视觉)空间。通过将图像视为随机上下文,VOGUE 使用“原始”分支和“噪声”分支之间的对称 KL 散度来量化策略对视觉扰动的敏感性,从而产生一个直接的不确定性感知探索信号。该信号通过与不确定性成比例的奖励来塑造学习目标,该奖励与 token 熵奖励和退火采样计划相结合,有效地平衡了探索和利用。VOGUE 在两个模型规模(Qwen2.5-VL-3B/7B)上通过 GRPO 实现,在三个视觉数学基准上将 pass@1 准确率平均提高了 2.6%,在三个通用推理基准上提高了 3.7%,同时提高了 pass@4 性能并减轻了 RL 微调中常见的探索衰减。我们的工作表明,将探索根植于视觉输入的固有不确定性是提高多模态推理的有效策略。