⏶24
借助工具强化视觉感知
发表
由
Chen Dongping 提交

作者: Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna
摘要
视觉推理是人类智能的基石,它涵盖了解决各种视觉问题所必需的复杂感知和逻辑过程。尽管计算机视觉的进步已经产生了强大的模型来执行各种感知任务,但将其应用于通用视觉推理仍然具有挑战性。先前的工作表明,通过监督微调来增强配备视觉模型的LLM可以提高性能,但面临着数据生成成本高昂、依赖仔细的数据过滤以及泛化能力差等关键限制。为了解决这些问题,我们提出了ReVPT,通过强化学习来增强多模态LLM推理和使用视觉工具的能力。我们引入了一种基于GRPO的新型RL算法,旨在训练模型使用一套四种视觉工具进行推理。通过广泛的实验,我们表明我们的方法在SAT、CV-Bench、BLINK和MMStar等多个感知密集型基准测试中取得了最先进的性能,显著优于监督和基于文本的RL微调基线。值得注意的是,我们的ReVPT-3B和ReVPT-7B在CV-Bench上的表现比指令模型分别高出9.03%和9.44%。最后,我们通过广泛的消融研究,为社区带来了关于基于RL的视觉工具使用的新见解。我们的代码可在 https://github.com/ls-kelvin/REVPT 获取。
关于训练用于增强视觉感知的工具使用代理的技术报告。代码和数据集完全开源,网址为:https://github.com/ls-kelvin/REVPT。