VisionThink:通过强化学习实现的智能高效视觉语言模型

发表
Senqiao YangSenqiao Yang 提交
作者: Senqiao YangSenqiao Yang, JunyiLiJunyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, JiaJiaya Jia

摘要

视觉-语言模型(VLM)的最新进展通过增加视觉tokens的数量来提高性能,而视觉tokens通常比文本tokens长得多。然而,我们观察到大多数真实世界场景并不需要如此大量的视觉tokens。尽管在少部分OCR相关任务中性能会显著下降,但在大多数其他通用VQA任务中,模型即使在仅1/4分辨率下仍能准确运行。因此,我们提出动态处理不同分辨率的样本,并提出一种新的视觉token压缩范式,即VisionThink。它从一个下采样图像开始,智能地判断其是否足以解决问题。否则,模型可以输出一个特殊token来请求更高分辨率的图像。与现有使用固定剪枝比率或阈值来压缩tokens的高效VLM方法相比,VisionThink能根据具体情况自主决定是否压缩tokens。因此,它在OCR相关任务上展示了强大的细粒度视觉理解能力,同时在较简单的任务上节省了大量的视觉tokens。我们采用强化学习并提出了“LLM-as-Judge”策略,成功将强化学习应用于通用VQA任务。此外,我们精心设计了奖励函数和惩罚机制,以实现稳定且合理的图像大小调整调用比例。大量的实验证明了我们方法的优越性、效率和有效性。我们的代码可在https://github.com/dvlab-research/VisionThink获取。
查看 arXiv 页面查看 PDF

评论