更多思考,更少准确性?论视觉语言模型中推理的双重性质

发表
Xinyu TianXinyu Tian 提交
作者: Xinyu TianXinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang

摘要

AI 生成总结
VAPO-Thinker-7B 通过将过程锚定在视觉信息上来增强多模态推理,提高了视觉任务的性能,同时保持了逻辑推理能力。
推理已成为大型语言模型 (LLM) 的关键能力。通过强化学习 (RL),通常是组相对策略优化 (GRPO),这些模型能够解决复杂的任务,如数学和代码生成。在这些进步的基础上,最近的研究试图将推理扩展到视觉语言模型 (VLM),在各种视觉任务中取得了令人鼓舞的结果。尽管取得了这些进展,我们的研究揭示了多模态推理的双重性:虽然它大大增强了逻辑推理并促进了在具有挑战性问题上的性能,但它可能会逐渐损害感知基础,导致对基本视觉问题的识别失败。通过进一步分析,我们将这种现象归因于视觉遗忘,即长时间的推理会导致模型越来越多地忽略视觉输入。为了解决这个问题,我们提出了 Vision-Anchored Policy Optimization (VAPO),一种简单而有效的方法,它明确地将推理过程引导到视觉基础的轨迹。我们的结果模型 VAPO-Thinker-7B,显著增强了模型对视觉信息的依赖,并在广泛的既定基准上取得了新的最先进成果。项目页面:https://xytian1008.github.io/VAPO/
查看 arXiv 页面查看 PDF

评论

Xinyu TianXinyu Tian
论文作者
论文提交者

对多模态推理的利弊进行一次严谨的审视,得出全面的发现,并提出一种新的 RL 方法作为 GRPO 的多模态替代品,取得了新的最先进成果。 项目主页👉:https://xytian1008.github.io/VAPO/ GitHub 仓库👉:https://github.com/xytian1008/VAPO