VisionThink:通过强化学习实现的智能高效视觉语言模型

发表
Senqiao YangSenqiao Yang 提交
作者: Senqiao YangSenqiao Yang, Junyi LiJunyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, JiaJiaya Jia

摘要

AI 生成总结
VisionThink 动态调整图像分辨率和视觉 token 处理,以实现高效且有效的视觉语言任务,提高性能并降低计算成本。
视觉-语言模型(VLM)的最新进展通过增加视觉tokens的数量来提高性能,而视觉tokens通常比文本tokens长得多。然而,我们观察到大多数真实世界场景并不需要如此大量的视觉tokens。尽管在少部分OCR相关任务中性能会显著下降,但在大多数其他通用VQA任务中,模型即使在仅1/4分辨率下仍能准确运行。因此,我们提出动态处理不同分辨率的样本,并提出一种新的视觉token压缩范式,即VisionThink。它从一个下采样图像开始,智能地判断其是否足以解决问题。否则,模型可以输出一个特殊token来请求更高分辨率的图像。与现有使用固定剪枝比率或阈值来压缩tokens的高效VLM方法相比,VisionThink能根据具体情况自主决定是否压缩tokens。因此,它在OCR相关任务上展示了强大的细粒度视觉理解能力,同时在较简单的任务上节省了大量的视觉tokens。我们采用强化学习并提出了“LLM-as-Judge”策略,成功将强化学习应用于通用VQA任务。此外,我们精心设计了奖励函数和惩罚机制,以实现稳定且合理的图像大小调整调用比例。大量的实验证明了我们方法的优越性、效率和有效性。我们的代码可在https://github.com/dvlab-research/VisionThink获取。
查看 arXiv 页面查看 PDF

评论

Mustafa Tahir KANATMustafa Tahir KANAT

按照这个逻辑,难道不能在视频中实现吗?从H.264编码的视频中提取I帧(也称为关键帧),然后根据需要提取其他帧?

Senqiao YangSenqiao Yang
论文作者
论文提交者

您好 @Rodeszones ,感谢您对 VisionThink 的关注!

是的,我同意——这个想法可以自然地扩展到视频领域。正如您所建议的,我们可以先只将 I 帧(关键帧)输入到 VLM 中。如果模型判断需要更多上下文,它可以请求额外的帧。甚至可以使用强化学习来识别哪些片段信息量最大,并有选择地以更高的时间分辨率(即更高的 FPS)处理这些片段。

这是个激动人心的探索方向!